BERT

NLP的游戏规则从此改写？从word2vec, ELMo到BERT 20

知行编程网人工智能前沿 2年前 (2022-01-06) 2 0

前言还记得不久之前的机器阅读理解领域，微软和阿里在SQuAD上分别以R-Net+和SLQA超过人类，百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂，似乎“如何设计出一个更work的task-specific的网络"变成了NLP领域政治正确的研究方向。而在这种风向下，不管word2vec也好，glove也好，fasttext也好，都只能充当一个锦上添...

我的BERT！改改字典，让BERT安全提速不掉分（已开源） 3

知行编程网人工智能前沿 2年前 (2022-01-24) 98 0

背景当前，大部分中文预训练模型都是以字为基本单位的，也就是说中文语句会被拆分为一个个字。中文也有一些多粒度的语言模型，比如创新工场的ZEN和字节跳动的AMBERT，但这类模型的基本单位还是字，只不过想办法融合了词信息。目前以词为单位的中文预训练模型很少，据笔者所了解到就只有腾讯UER开源了一个以词为颗粒度的BERT模型，但实测效果并不好。那么，纯粹以词为单位的中文预训练模型效果究竟如何呢？有没...

如何让BERT拥有视觉感知能力？两种方式将视频信息注入BERT 35

知行编程网人工智能前沿 2年前 (2022-01-15) 6 0

一只小狐狸带你解锁NLP/ML/DL秘籍老板老板，听说BERT是个瞎子此话怎讲？它能理解语言，但是理解不了小夕的自拍！ video-BERT了解一下喵喵喵？ AI的三大核心板块（CV/Speech/NLP）近几年都相继取得了非常大的发展和进步。但是正所谓成也萧何，败也萧何，深度学习一直在能力泛化和鲁棒性问题上饱受诟病，通用AI之路遥遥无期。不过，近期得益于预训练模型的成功，似乎跨模态问题...

还在用[CLS]？从BERT得到最强句子Embedding的打开方式！ 17

知行编程网人工智能前沿 2年前 (2022-01-30) 490 0

文：涅生编：兔子酱你有尝试从 BERT 提取编码后的 sentence embedding 吗？很多小伙伴的第一反应是：不就是直接取顶层的[CLS] token的embedding作为句子表示嘛，难道还有其他套路不成？ nono，你知道这样得到的句子表示捕捉到的语义信息其实很弱吗？今天向大家介绍一篇来自于 CMU 和字节跳动合作，发表在 EMNLP2020 的 paper，详尽地分析了从预训...

吊打BERT Large的小型预训练模型ELECTRA终于开源！真相却让人... 11

知行编程网人工智能前沿 2年前 (2022-01-15) 91 0

一只小狐狸带你解锁炼丹术&NLP 秘籍还记得去年写下《ELECTRA: 超越BERT, 19年最佳NLP预训练模型》时兴奋的心情，在我等到都快复工的时候，终于看到了它的身影和源码[1]：才第五吗？没事，期望越大，失望越大谷歌在github放出的预训练模型效果是这样的：燃！鹅！在论文中声称的效果却是这样的 Github repo中官方的解释是精调的震荡比较大，他们测试了很多随机种子...

软硬兼施极限轻量BERT！能比ALBERT再轻13倍？！ 28

知行编程网人工智能前沿 2年前 (2022-01-30) 88 0

这个世界上有两种极具难度的工程：第一种是把很平常的东西做到最大，例如把语言模型扩大成能够写诗写文写代码的GPT-3；而另一种恰恰相反，是把很平常的东西做到最小。对于NLPer来说，这种“小工程”最迫在眉睫的施展对象非BERT莫属。从18年那个109M参数的BERT，到52M参数的蒸馏后的DistilBERT，再到14.5M参数的蒸馏更多层的TinyBERT，最后到12M参数的层级共享的ALBER...

当NLPer爱上CV：后BERT时代生存指南之VL-BERT篇 13

知行编程网人工智能前沿 2年前 (2022-01-15) 23 0

一只小狐狸带你解锁炼丹术&NLP 秘籍前言 BERT的出现让NLP发展实现了一个大飞跃，甚至有大佬说NLP已经没有可以做的啦，后面就是拼机器拼money了。但是，我认为任何领域的进步之后都会有更苛刻的要求，科研没有尽头，需求也永远无法满足。而多模态，要求机器拥有多维度的感知能力，就是一个更强的挑战。关于这个话题也逐渐成为另外一个新热点。从19年到现在的论文数量就可见一斑。所以，为了...