ALBERT

软硬兼施极限轻量BERT！能比ALBERT再轻13倍？！ 28

知行编程网人工智能前沿 2年前 (2022-01-30) 89 0

这个世界上有两种极具难度的工程：第一种是把很平常的东西做到最大，例如把语言模型扩大成能够写诗写文写代码的GPT-3；而另一种恰恰相反，是把很平常的东西做到最小。对于NLPer来说，这种“小工程”最迫在眉睫的施展对象非BERT莫属。从18年那个109M参数的BERT，到52M参数的蒸馏后的DistilBERT，再到14.5M参数的蒸馏更多层的TinyBERT，最后到12M参数的层级共享的ALBER...

吐槽贴：用ELECTRA、ALBERT之前，你真的了解它们吗？ 3

知行编程网人工智能前沿 2年前 (2022-01-25) 29 0

在预训练语言模型中，ALBERT和ELECTRA算是继BERT之后的两个“后起之秀”。它们从不同的角度入手对BERT进行了改进，最终提升了效果（至少在不少公开评测数据集上是这样），因此也赢得了一定的口碑。在平时的交流学习中，笔者发现不少朋友对这两个模型存在一些误解，以至于在使用过程中浪费了不必要的时间。在此，笔者试图对这两个模型的一些关键之处做下总结，供大家参考，希望大家能在使用这两个模型的时候...

软硬兼施极限轻量BERT！能比ALBERT再轻13倍？！ 28

吐槽贴：用ELECTRA、ALBERT之前，你真的了解它们吗？ 3

联系我们

标签云

推广返利