Transformer

告别自注意力，谷歌为Transformer打造新内核Synthesizer 7

知行编程网人工智能前沿 2年前 (2022-01-18) 62 0

一只小狐狸带你解锁炼丹术&NLP 秘籍今天给大家介绍一篇来自Google的最新论文《SYNTHESIZER: Rethinking Self-Attention in Transformer Models》[4]，该论文重新探索了Transformer中注意力机制的必要性，并引入了新的attention计算方法Synthesizer。实验显示，即使不进行token之间的attentio...

LayerNorm是Transformer的最优解吗？ 10

知行编程网人工智能前沿 2年前 (2022-01-16) 109 0

一只小狐狸带你解锁炼丹术&NLP 秘籍前言众所周知，无论在CV还是NLP中，深度模型都离不开归一化技术（Normalization）。在CV中，深度网络中一般会嵌入批归一化（BatchNorm，BN）单元，比如ResNet；而NLP中，则往往向深度网络中插入层归一化（LayerNorm，LN）单元，比如Transformer。为什么在归一化问题上会有分歧呢？一个最直接的理由就是，B...

Google | 突破瓶颈，打造更强大的Transformer 4

知行编程网人工智能前沿 2年前 (2022-01-16) 18 0

一只小狐狸带你解锁炼丹术&NLP秘籍前言《Attention is All You Need》一文发布后，基于Multi-Head Attention的Transformer模型开始流行起来，而去年发布的BERT模型更是将Transformer模型的热度推上了又一个高峰。当然，技术的探索是无止境的，改进的工作也相继涌现：有改进预训练任务的，比如XLNET的PLM、ALBERT的SOP等...

告别自注意力，谷歌为Transformer打造新内核Synthesizer 7

LayerNorm是Transformer的最优解吗？ 10

Google | 突破瓶颈，打造更强大的Transformer 4

联系我们

标签云

推广返利