BERT跨模态之后:占领了视觉常识推理任务榜单TOP 2!

BERT跨模态之后:占领了视觉常识推理任务榜单TOP 2! 4

知行编程网 人工智能前沿 2年前 (2022-01-23) 117 0

前言 由于 BERT-like 模型在 NLP 领域上的成功,研究者们开始尝试将其应用到更为复杂的 多模态 任务上。要求模型除文本数据以外,还要接收其他模态的数据(比如图像、声音等),在理解和关联多模态数据的基础上,完成更加复杂也更贴近实际的跨模态任务。 而 视觉常识推理 (Visual Commonsense Reasoning,VCR)[1]就是一个非常具有挑战性的多模态任务,需要在理解文本的...

扫一扫二维码分享