Transformer

LayerNorm是Transformer的最优解吗？ 10

知行编程网人工智能前沿 2年前 (2022-01-16) 109 0

一只小狐狸带你解锁炼丹术&NLP 秘籍前言众所周知，无论在CV还是NLP中，深度模型都离不开归一化技术（Normalization）。在CV中，深度网络中一般会嵌入批归一化（BatchNorm，BN）单元，比如ResNet；而NLP中，则往往向深度网络中插入层归一化（LayerNorm，LN）单元，比如Transformer。为什么在归一化问题上会有分歧呢？一个最直接的理由就是，B...

我删掉了Transformer中的这几层…性能反而变好了？ 13

知行编程网人工智能前沿 2年前 (2022-02-03) 14 0

基于Transformer结构的各类语言模型（Bert基于其encoder,Gpt-2基于其decoder）早已经在各类NLP任务上大放异彩，面对让人眼花缭乱的transformer堆叠方式，你是否也会感到迷茫？没关系，现在让我们回到最初，再次看看transformer 本来的模样——Rethinking the Value of Transformer Components。该文收录已于COLI...

可交互的 Attention 可视化工具！我的Transformer可解释性有救了？ 9

知行编程网人工智能前沿 2年前 (2022-02-08) 937 0

视觉是人和动物最重要的感觉，至少有80%以上的外界信息是经过视觉获得的。我们看论文的时候，通过图表来确定文章的大致内容往往也是一个更高效的说到深度神经网络的可视化，最经典的莫过于的CNN密恐图了：这种可视化方法可以让我们清晰的知道每一层的每一个Cell关注何种信息，模型最后是如何逐层迭代处理得到最后的判断。但是对NLP而言，文字并不容易转换成这样直观的视觉表示。对Transformer而言，理...

LayerNorm是Transformer的最优解吗？ 10

我删掉了Transformer中的这几层…性能反而变好了？ 13

可交互的 Attention 可视化工具！我的Transformer可解释性有救了？ 9

联系我们

标签云

推广返利