软硬兼施极限轻量BERT!能比ALBERT再轻13倍?!

软硬兼施极限轻量BERT!能比ALBERT再轻13倍?! 28

知行编程网 人工智能前沿 2年前 (2022-01-30) 89 0

这个世界上有两种极具难度的工程:第一种是把很平常的东西做到最大,例如把语言模型扩大成能够写诗写文写代码的GPT-3;而另一种恰恰相反,是把很平常的东西做到最小。对于NLPer来说,这种“小工程”最迫在眉睫的施展对象非BERT莫属。 从18年那个109M参数的BERT,到52M参数的蒸馏后的DistilBERT,再到14.5M参数的蒸馏更多层的TinyBERT,最后到12M参数的层级共享的ALBER...

吐槽贴:用ELECTRA、ALBERT之前,你真的了解它们吗?

吐槽贴:用ELECTRA、ALBERT之前,你真的了解它们吗? 3

知行编程网 人工智能前沿 2年前 (2022-01-25) 29 0

在预训练语言模型中,ALBERT和ELECTRA算是继BERT之后的两个“后起之秀”。它们从不同的角度入手对BERT进行了改进,最终提升了效果(至少在不少公开评测数据集上是这样),因此也赢得了一定的口碑。 在平时的交流学习中,笔者发现不少朋友对这两个模型存在一些误解,以至于在使用过程中浪费了不必要的时间。在此,笔者试图对这两个模型的一些关键之处做下总结,供大家参考,希望大家能在使用这两个模型的时候...

扫一扫二维码分享