Transformer变体为何无法应用于多种任务？谷歌：这些架构更改不能有效迁移

知行编程网 2022-08-07 18:00 知行编程网 | 隐藏边栏 | 抢沙发 | 7 0

文章评分 0 次，平均分 0.0 ：

来自 Google Research 的研究人员探索了多个 transformer 变体，发现它们无法在多个实现和应用中实现很好地迁移，大多数架构更改无法有效提升性能。

Transformer 诞生短短三年，已然风头正劲，不仅成为自然语言处理领域的主流预训练模型，还越来越多地应用于计算机视觉等领域。Transformer 架构变体层出不穷，但并未有研究证明它们能够在不同实现及应用中实现轻松迁移，而这也限制了其被更广泛地使用。

为了理解为什么最广泛的 transformer 应用不采纳这些架构更改，一支来自 Google Research 的团队在相同的实验环境下对它们进行了综合评估。研究者惊讶地发现，大部分 transformer 架构更改无法有效提升在下游 NLP 任务上的性能。

论文链接：https://arxiv.org/pdf/2102.11972.pdf

研究者首先在最常应用 transformer 的任务上重新实现和评估多种 transformer 变体，并使用以下两种 transformer 模型作为基线：在自注意力和前馈模块前使用层归一化；使用具备共享偏见的相对注意力，而不是正弦位置嵌入。该研究调查的 transformer 架构更改包括：

研究者在两个实验设置下进行性能评估，分别是基于 T5 的迁移学习，和在 WMT’14 英德翻译任务上的监督式机器翻译。实验结果参见下图：

所有 transformer 变体的结果。基线模型是具备相对注意力的原版 Transformer。SGLUE 表示 SuperGLUE；WebQ 表示 WebQuestions 数据集。

如上结果表明，带来显著性能改进的架构更改往往具备以下特征之一：更改相对较小、依靠增加参数量或者模型速度较慢、基于 Mesh TensorFlow 代码库创建。很少有架构更改会带来性能提升，这一发现与提出这些变体的研究论文中的实验结果相悖。

谷歌研究者进一步研究了对此的合理解释，得出结论：这些模型变体无法在不同实现和应用中实现高效迁移。

最后，该团队对未来如何提升架构更改的鲁棒性提供了一些建议：在多个完全不同的代码库中对提出的架构更改进行测试；将架构更改应用到多个下游任务中；在评估性能时尽可能保持超参数不变；确保报告最佳实践的结果，包括多次试验的均值与标准差。

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写