我删掉了Transformer中的这几层…性能反而变好了?

我删掉了Transformer中的这几层…性能反而变好了? 13

知行编程网 人工智能前沿 2年前 (2022-02-03) 14 0

基于Transformer结构的各类语言模型(Bert基于其encoder,Gpt-2基于其decoder)早已经在各类NLP任务上大放异彩,面对让人眼花缭乱的transformer堆叠方式,你是否也会感到迷茫?没关系,现在让我们回到最初,再次看看transformer 本来的模样——Rethinking the Value of Transformer Components。该文收录已于COLI...

没有什么多模态任务是一层Transformer解决不了的!

没有什么多模态任务是一层Transformer解决不了的! 5

知行编程网 人工智能前沿 2年前 (2022-02-05) 306 0

曾几何时,多模态预训练已经不是一个新的话题,各大顶会诸多论文仿佛搭上Visual和BERT,就能成功paper+=1,VisualBERT、ViLBERT层出不穷,傻傻分不清楚......这些年NLPer在跨界上忙活的不亦乐乎,提取视觉特征后和文本词向量一同输入到万能的Transformer中,加大力度预训练,总有意想不到的SOTA。 如何在多模态的语境中更细致准确地利用Transformer强大...

谁才是Transformer家族中的最强王者?谷歌告诉你答案

谁才是Transformer家族中的最强王者?谷歌告诉你答案 14

知行编程网 人工智能前沿 2年前 (2022-02-05) 126 0

自从17年Attention is all you need发出,继而18年BERT刷新各大榜单,大型预训练Transformer似乎已经成为自然语言处理的标准基准模型,甚至进一步渗透到图像领域。各路大神基于Transformer提出了海量改进方法。这些改变是否对大多数任务有效?谷歌的研究人员对大量的设定在统一的代码库和硬件环境下进行了实验比较。出乎意料的是,大多数“高大上”的改进都不能拓展到所有...

扫一扫二维码分享