LayerNorm是Transformer的最优解吗?

LayerNorm是Transformer的最优解吗? 10

知行编程网 人工智能前沿 2年前 (2022-01-16) 109 0

一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 众所周知,无论在CV还是NLP中,深度模型都离不开归一化技术(Normalization)。在CV中,深度网络中一般会嵌入批归一化(BatchNorm,BN)单元,比如ResNet;而NLP中,则往往向深度网络中插入层归一化(LayerNorm,LN)单元,比如Transformer。 为什么在归一化问题上会有分歧呢?一个最直接的理由就是,B...

扫一扫二维码分享