我删掉了Transformer中的这几层…性能反而变好了?

我删掉了Transformer中的这几层…性能反而变好了? 13

知行编程网 人工智能前沿 2年前 (2022-02-03) 14 0

基于Transformer结构的各类语言模型(Bert基于其encoder,Gpt-2基于其decoder)早已经在各类NLP任务上大放异彩,面对让人眼花缭乱的transformer堆叠方式,你是否也会感到迷茫?没关系,现在让我们回到最初,再次看看transformer 本来的模样——Rethinking the Value of Transformer Components。该文收录已于COLI...

Transformer哪家强?Google爸爸辨优良!

Transformer哪家强?Google爸爸辨优良! 13

知行编程网 人工智能前沿 2年前 (2022-01-28) 12 0

2017年Attention is all you need横空出世,Transformer横扫机器翻译,隔年诞生的BERT建立在层层堆叠的Transformer之上,凭借这个平平无奇的Attention点乘模型一举刷新了各种沉积许久的榜单,一夜间仿佛不懂Transformer,都不敢说自己是NLPer了,曾经最心爱的RNN也瞬间黯然失色。 Transformer有着简易的的结构、SOTA的能力,...

凭“难听”上热搜的 idol 们,不如考虑下让 Transformer 帮您作曲?

凭“难听”上热搜的 idol 们,不如考虑下让 Transformer 帮您作曲? 2

知行编程网 人工智能前沿 2年前 (2022-02-23) 8 0

视频制作 | 白鹡鸰 编 | 小轶 考虑到 “AI 音乐”这一主题的特殊性,唯有多媒体的视频形式才能更好地给大家带来视听上的多重感受。于是,小屋的白鸟鸟同学在科研间隙连续肝了好几个晚上,才得以完成这次视频。然而在上周的推送中,不知道微信出了什么 bug,最最精华的视频部分居然消失了!所以今天又特意为这期视频单独发了一篇推送。还请各位移步下方小程序链接观看视频~ 在这短短 10 分钟的视频中,白鸟鸟...

扫一扫二维码分享