LayerNorm

LayerNorm是Transformer的最优解吗？ 10

知行编程网人工智能前沿 2年前 (2022-01-16) 109 0

一只小狐狸带你解锁炼丹术&NLP 秘籍前言众所周知，无论在CV还是NLP中，深度模型都离不开归一化技术（Normalization）。在CV中，深度网络中一般会嵌入批归一化（BatchNorm，BN）单元，比如ResNet；而NLP中，则往往向深度网络中插入层归一化（LayerNorm，LN）单元，比如Transformer。为什么在归一化问题上会有分歧呢？一个最直接的理由就是，B...

LayerNorm是Transformer的最优解吗？ 10

联系我们

标签云

推广返利