刷新SOTA!Salesforce提出跨模态对比学习新方法,仅需4M图像数据!

刷新SOTA!Salesforce提出跨模态对比学习新方法,仅需4M图像数据! 10

知行编程网 人工智能前沿 2年前 (2022-02-14) 42 0

多模态已经不是一个新鲜的话题,如何在一个模型中融合CV和NLP的信息同时吸引了两个领域的目光(CV、NLP的会都能投),但是很容易就能想到,来自图片的视觉特征和来自语料的文本特征来自不同的模型,所隐含的信息很难放到同一个隐状态空间中,于是特征融合Fuse成为众多模型所关注的重点。与此同时,多模态的初衷是通过描述相似对象的语料和图片互相促进,进而提升效果,那么怎么才能获得“描述相似对象”的标注呢?这...

BERT跨模态之后:占领了视觉常识推理任务榜单TOP 2!

BERT跨模态之后:占领了视觉常识推理任务榜单TOP 2! 4

知行编程网 人工智能前沿 2年前 (2022-01-23) 117 0

前言 由于 BERT-like 模型在 NLP 领域上的成功,研究者们开始尝试将其应用到更为复杂的 多模态 任务上。要求模型除文本数据以外,还要接收其他模态的数据(比如图像、声音等),在理解和关联多模态数据的基础上,完成更加复杂也更贴近实际的跨模态任务。 而 视觉常识推理 (Visual Commonsense Reasoning,VCR)[1]就是一个非常具有挑战性的多模态任务,需要在理解文本的...

扫一扫二维码分享