Transformer

凭“难听”上热搜的 idol 们，不如考虑下让 Transformer 帮您作曲？ 2

知行编程网人工智能前沿 2年前 (2022-02-23) 8 0

视频制作 | 白鹡鸰编 | 小轶考虑到 “AI 音乐”这一主题的特殊性，唯有多媒体的视频形式才能更好地给大家带来视听上的多重感受。于是，小屋的白鸟鸟同学在科研间隙连续肝了好几个晚上，才得以完成这次视频。然而在上周的推送中，不知道微信出了什么 bug，最最精华的视频部分居然消失了！所以今天又特意为这期视频单独发了一篇推送。还请各位移步下方小程序链接观看视频~ 在这短短 10 分钟的视频中，白鸟鸟...

如何提升大规模Transformer的训练效果？Primer给出答案 5

知行编程网人工智能前沿 2年前 (2022-02-20) 88 0

如何进一步提升大规模Transformer的训练效果？Primer给出了答案，一起来看看吧！ Transformer是深度学习界的明星模型。由于其具有高度的并行性，十分容易在并行计算系统中扩展至超大规模。自然语言处理任务一路见证了Transformer模型规模的爆炸式增长。微软和Nvidia不久前联合发布的"Megatron-Turning"更是创造了最新记录：其参数数目已经达到了恐怖的5300...

可交互的 Attention 可视化工具！我的Transformer可解释性有救了？ 9

知行编程网人工智能前沿 2年前 (2022-02-08) 940 0

视觉是人和动物最重要的感觉，至少有80%以上的外界信息是经过视觉获得的。我们看论文的时候，通过图表来确定文章的大致内容往往也是一个更高效的说到深度神经网络的可视化，最经典的莫过于的CNN密恐图了：这种可视化方法可以让我们清晰的知道每一层的每一个Cell关注何种信息，模型最后是如何逐层迭代处理得到最后的判断。但是对NLP而言，文字并不容易转换成这样直观的视觉表示。对Transformer而言，理...

谷歌：CNN击败Transformer，有望成为预训练界新霸主！LeCun却沉默了... 15

知行编程网人工智能前沿 2年前 (2022-02-08) 221 0

这几年，大家都说深度学习进入了预训练时代。作为一个入行不久的小白，我一直以为各类基于 Transformers 结构的预训练模型是 NLP 的巨大里程碑，CNN、RNN 老矣，只配作为手下败将。大家的文章似乎也是这样：把 BERT 作为 encoder 的归为一组来对比性能，把 CNN、RNN encoder 归为另一组，且总是要比基于 BERT 的差一些。但是，我们有没有想过一个问题？当今所有...

Transformer太大了，我要把它微调成RNN 18

知行编程网人工智能前沿 2年前 (2022-02-06) 205 0

从前车马很慢，显卡跑的也慢，一生只够爱一个RNN。后来时代进步了，数据量和计算力阔绰了，堆叠起来的Transformer能够在更深更宽的模型结构里吃下去更多的数据。从19年的预训练浪潮开始，暴力美学兴起，更深的Transformer更久的预训练更大的模型参数量，暴力出奇迹一个个NLP榜单被刷新，但谁又记得起来当初Transformer论文里“解决RNN无法并行化训练问题”的追求效率的motivat...

没有什么多模态任务是一层Transformer解决不了的！ 5

知行编程网人工智能前沿 2年前 (2022-02-05) 306 0

曾几何时，多模态预训练已经不是一个新的话题，各大顶会诸多论文仿佛搭上Visual和BERT，就能成功paper+=1，VisualBERT、ViLBERT层出不穷，傻傻分不清楚......这些年NLPer在跨界上忙活的不亦乐乎，提取视觉特征后和文本词向量一同输入到万能的Transformer中，加大力度预训练，总有意想不到的SOTA。如何在多模态的语境中更细致准确地利用Transformer强大...

谁才是Transformer家族中的最强王者？谷歌告诉你答案 14

知行编程网人工智能前沿 2年前 (2022-02-05) 126 0

自从17年Attention is all you need发出，继而18年BERT刷新各大榜单，大型预训练Transformer似乎已经成为自然语言处理的标准基准模型，甚至进一步渗透到图像领域。各路大神基于Transformer提出了海量改进方法。这些改变是否对大多数任务有效？谷歌的研究人员对大量的设定在统一的代码库和硬件环境下进行了实验比较。出乎意料的是，大多数“高大上”的改进都不能拓展到所有...

我删掉了Transformer中的这几层…性能反而变好了？ 13

知行编程网人工智能前沿 2年前 (2022-02-03) 15 0

基于Transformer结构的各类语言模型（Bert基于其encoder,Gpt-2基于其decoder）早已经在各类NLP任务上大放异彩，面对让人眼花缭乱的transformer堆叠方式，你是否也会感到迷茫？没关系，现在让我们回到最初，再次看看transformer 本来的模样——Rethinking the Value of Transformer Components。该文收录已于COLI...

互联网大厂CTR预估前沿进展 49

知行编程网人工智能前沿 2年前 (2022-01-31) 301 0

前言 CTR（click through rate）预估模型是广告推荐领域的核心问题。早期主要是使用LR（线性回归）+人工特征工程的机器学习方法，但是存在人工组合特征工程成本较高，不同任务难以复用的问题。后来随着FM因子分解机的出现，提出了使用二阶特征自动交叉的方法，缓解了人工组合特征的难题。之后2014年Facebook使用GBDT+LR方案，提出了树模型构建组合特征的思路。2015年后，由于深...

Transformer哪家强？Google爸爸辨优良！ 13

知行编程网人工智能前沿 2年前 (2022-01-28) 12 0

2017年Attention is all you need横空出世，Transformer横扫机器翻译，隔年诞生的BERT建立在层层堆叠的Transformer之上，凭借这个平平无奇的Attention点乘模型一举刷新了各种沉积许久的榜单，一夜间仿佛不懂Transformer，都不敢说自己是NLPer了，曾经最心爱的RNN也瞬间黯然失色。 Transformer有着简易的的结构、SOTA的能力，...