用多模态信息做 prompt,解锁 GPT 新玩法

用多模态信息做 prompt,解锁 GPT 新玩法 12

知行编程网 人工智能前沿 2年前 (2022-02-19) 77 0

自多模态大火以来,井喷式地出现了许多工作,通过改造预训练语言模型,用图像信息来增强语义信息,但主要集中在几个 NLU 任务上,在 NLG 上的研究比较少。 今天要介绍的这篇 paper Multimodal Conditionality for Natural Language Generation 研究的任务场景则是以多模态信息作为条件做 conditional 的 NLG任务。这种任务设置有许...

吊打BERT、GPT、DALL·E,跨模态榜单新霸主诞生!

吊打BERT、GPT、DALL·E,跨模态榜单新霸主诞生! 8

知行编程网 人工智能前沿 2年前 (2022-02-09) 213 0

最近,三个重量级榜单,视觉推理VCR、文本推理ANLI、视觉问答VQA同时被统一模态模型UNIMO霸榜。一个模型统一了视觉和文本两大主阵地,重塑了小编的认知和期望。如此全能,堪称是AI领域的外(一)星(拳)选(超)手(人)!带着兴奋与好奇,我们来解读一下这篇ACL佳作! 论文题目: UNIMO: Towards Unified-Modal Understanding and Generation ...

扫一扫二维码分享