MSRA-万字综述 直击多模态文档理解

MSRA-万字综述 直击多模态文档理解 15

知行编程网 人工智能前沿 11个月前 (02-23) 14 0

随着最近几年多模态大火的,越来越多的任务都被推陈出新为多模态版本。譬如,传统对话任务,推出了考虑视觉信息的多模态数据集;事件抽取,也推出视频形式的多模态版本;就连 grammar induction(语法归纳),也有了多模态版的(详见 NAACL'2021 best paper)。 然而,多模态大火虽是最近的事情,但它并不是近两年才有的什么新技术。如果是想要对这一领域有比较深的研究,甚至想要做出工...

史上最大多模态图文数据集发布!

史上最大多模态图文数据集发布! 18

知行编程网 人工智能前沿 11个月前 (02-20) 233 0

最近多模态研究圈中出现了一个扬言 “史上最大规模”的多模态图文数据集:LAION-400。该数据集在今年8月完全公开,共计公开了 4亿图文对,可以依据不同的用途提供不同大小版本的子数据集。据小编调查,在 LAION-400 出现前,多模态图像文本对的最大的开放数据集是 DALE 数据集,该数据集的规模在 10M 左右,大概是 LAION-400 的 1/40,其在图文对检索等任务中已显示数据集不够...

用多模态信息做 prompt,解锁 GPT 新玩法

用多模态信息做 prompt,解锁 GPT 新玩法 12

知行编程网 人工智能前沿 11个月前 (02-19) 40 0

自多模态大火以来,井喷式地出现了许多工作,通过改造预训练语言模型,用图像信息来增强语义信息,但主要集中在几个 NLU 任务上,在 NLG 上的研究比较少。 今天要介绍的这篇 paper Multimodal Conditionality for Natural Language Generation 研究的任务场景则是以多模态信息作为条件做 conditional 的 NLG任务。这种任务设置有许...

ACL’21 | 对话系统也要进军多模态了!

ACL’21 | 对话系统也要进军多模态了! 19

知行编程网 人工智能前沿 11个月前 (02-16) 103 0

对于一个对话Bot来讲,拥有对视觉信息的感知和联想能力是非常重要的。比如,我们人类在对话中谈到大海的时候,就会自然地联想到蓝天、白云和飞翔的海鸟。然而,当前的对话模型,如 Meena、BlenderBot、DialoGPT 等,都是在纯文本语料上进行训练得到的,在学习过程中,缺乏对视觉信息的感知和理解。因此,基于图像的对话任务(Image-Grounded Conversation)被提出来关注这...

多模态为什么比单模态好?第一份严谨证明来了!

多模态为什么比单模态好?第一份严谨证明来了! 15

知行编程网 人工智能前沿 11个月前 (02-14) 57 0

面试官: 听说你对多模态感兴趣,请问为什么多模态学习要比单模态学习效果好? 候选人: 直观地,多模态学习可以聚合多源数据的信息,使得模型学习到的表示更加完备。以视频分类为例,同时使用字幕标题等文本信息、音频信息和视觉信息的多模态模型要显著好于只使用任意一种信息的单模态模型,这已经被多篇文章实验验证过。 面试官: 直觉+实验是老生常谈了,我听过很多次了,有没有更严谨一些的证明? (候选人内心语:面试...

没有什么多模态任务是一层Transformer解决不了的!

没有什么多模态任务是一层Transformer解决不了的! 5

知行编程网 人工智能前沿 12个月前 (02-05) 144 0

曾几何时,多模态预训练已经不是一个新的话题,各大顶会诸多论文仿佛搭上Visual和BERT,就能成功paper+=1,VisualBERT、ViLBERT层出不穷,傻傻分不清楚......这些年NLPer在跨界上忙活的不亦乐乎,提取视觉特征后和文本词向量一同输入到万能的Transformer中,加大力度预训练,总有意想不到的SOTA。 如何在多模态的语境中更细致准确地利用Transformer强大...

扫一扫二维码分享