NLP的游戏规则从此改写?从word2vec, ELMo到BERT

NLP的游戏规则从此改写?从word2vec, ELMo到BERT 20

知行编程网 人工智能前沿 2年前 (2022-01-06) 2 0

前言 还记得不久之前的机器阅读理解领域,微软和阿里在SQuAD上分别以R-Net+和SLQA超过人类,百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂,似乎“如何设计出一个更work的task-specific的网络"变成了NLP领域政治正确的研究方向。而在这种风向下,不管word2vec也好,glove也好,fasttext也好,都只能充当一个锦上添...

我的BERT!改改字典,让BERT安全提速不掉分(已开源)

我的BERT!改改字典,让BERT安全提速不掉分(已开源) 3

知行编程网 人工智能前沿 2年前 (2022-01-24) 98 0

背景 当前,大部分中文预训练模型都是以字为基本单位的,也就是说中文语句会被拆分为一个个字。中文也有一些多粒度的语言模型,比如创新工场的ZEN和字节跳动的AMBERT,但这类模型的基本单位还是字,只不过想办法融合了词信息。目前以词为单位的中文预训练模型很少,据笔者所了解到就只有腾讯UER开源了一个以词为颗粒度的BERT模型,但实测效果并不好。 那么,纯粹以词为单位的中文预训练模型效果究竟如何呢?有没...

如何让BERT拥有视觉感知能力?两种方式将视频信息注入BERT

如何让BERT拥有视觉感知能力?两种方式将视频信息注入BERT 35

知行编程网 人工智能前沿 2年前 (2022-01-15) 6 0

一只小狐狸带你解锁NLP/ML/DL秘籍 老板老板,听说BERT是个瞎子 此话怎讲? 它能理解语言,但是理解不了小夕的自拍! video-BERT了解一下 喵喵喵? AI的三大核心板块(CV/Speech/NLP)近几年都相继取得了非常大的发展和进步。但是正所谓成也萧何,败也萧何,深度学习一直在能力泛化和鲁棒性问题上饱受诟病,通用AI之路遥遥无期。 不过,近期得益于预训练模型的成功,似乎跨模态问题...

还在用[CLS]?从BERT得到最强句子Embedding的打开方式!

还在用[CLS]?从BERT得到最强句子Embedding的打开方式! 17

知行编程网 人工智能前沿 2年前 (2022-01-30) 490 0

文:涅生 编:兔子酱 你有尝试从 BERT 提取编码后的 sentence embedding 吗?很多小伙伴的第一反应是:不就是直接取顶层的[CLS] token的embedding作为句子表示嘛,难道还有其他套路不成? nono,你知道这样得到的句子表示捕捉到的语义信息其实很弱吗?今天向大家介绍一篇来自于 CMU 和字节跳动合作,发表在 EMNLP2020 的 paper, 详尽地分析了从预训...

吊打BERT Large的小型预训练模型ELECTRA终于开源!真相却让人...

吊打BERT Large的小型预训练模型ELECTRA终于开源!真相却让人... 11

知行编程网 人工智能前沿 2年前 (2022-01-15) 91 0

一只小狐狸带你解锁 炼丹术&NLP 秘籍 还记得去年写下《ELECTRA: 超越BERT, 19年最佳NLP预训练模型》时兴奋的心情,在我等到都快复工的时候,终于看到了它的身影和源码[1]: 才第五吗?没事,期望越大,失望越大 谷歌在github放出的预训练模型效果是这样的: 燃!鹅!在论文中声称的效果却是这样的 Github repo中官方的解释是精调的震荡比较大,他们测试了很多随机种子...

软硬兼施极限轻量BERT!能比ALBERT再轻13倍?!

软硬兼施极限轻量BERT!能比ALBERT再轻13倍?! 28

知行编程网 人工智能前沿 2年前 (2022-01-30) 88 0

这个世界上有两种极具难度的工程:第一种是把很平常的东西做到最大,例如把语言模型扩大成能够写诗写文写代码的GPT-3;而另一种恰恰相反,是把很平常的东西做到最小。对于NLPer来说,这种“小工程”最迫在眉睫的施展对象非BERT莫属。 从18年那个109M参数的BERT,到52M参数的蒸馏后的DistilBERT,再到14.5M参数的蒸馏更多层的TinyBERT,最后到12M参数的层级共享的ALBER...

当NLPer爱上CV:后BERT时代生存指南之VL-BERT篇

当NLPer爱上CV:后BERT时代生存指南之VL-BERT篇 13

知行编程网 人工智能前沿 2年前 (2022-01-15) 23 0

一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 BERT的出现让NLP发展实现了一个大飞跃,甚至有大佬说NLP已经没有可以做的啦,后面就是拼机器拼money了。但是,我认为任何领域的进步之后都会有更苛刻的要求,科研没有尽头,需求也永远无法满足。而多模态,要求机器拥有多维度的感知能力,就是一个更强的挑战。 关于这个话题也逐渐成为另外一个新热点。从19年到现在的论文数量就可见一斑。 所以,为了...

吊打BERT、GPT、DALL·E,跨模态榜单新霸主诞生!

吊打BERT、GPT、DALL·E,跨模态榜单新霸主诞生! 8

知行编程网 人工智能前沿 2年前 (2022-02-09) 217 0

最近,三个重量级榜单,视觉推理VCR、文本推理ANLI、视觉问答VQA同时被统一模态模型UNIMO霸榜。一个模型统一了视觉和文本两大主阵地,重塑了小编的认知和期望。如此全能,堪称是AI领域的外(一)星(拳)选(超)手(人)!带着兴奋与好奇,我们来解读一下这篇ACL佳作! 论文题目: UNIMO: Towards Unified-Modal Understanding and Generation ...

ACL2020 | FastBERT:放飞BERT的推理速度

ACL2020 | FastBERT:放飞BERT的推理速度 9

知行编程网 人工智能前沿 2年前 (2022-01-16) 39 0

一只小狐狸带你解锁 炼丹术&NLP 秘籍 FastBERT 自从BERT问世以来,大多数NLP任务的效果都有了一次质的飞跃。BERT Large在GLUE test上甚至提升了7个点之多。但BERT同时也开启了模型的“做大做深”之路,普通玩家根本训不起,高端玩家虽然训得起但也不一定用得起。 所以BERT之后的发展也比较清晰,一部分壕大佬们继续搞预训练提升效果,当你对BERT Large望而...

中文BERT上分新技巧,多粒度信息来帮忙

中文BERT上分新技巧,多粒度信息来帮忙 15

知行编程网 人工智能前沿 2年前 (2022-02-10) 172 0

自然语言处理实在是太难啦!中文尤其难! 相比于英文,中文是以词作为语义的基本单位的,因此传统的中文 NLP 都需要先进行分词。分词这步就劝退了很多人,比如“研究生活很充实”,怎么让模型分出“研究|生活”,而不是“研究生”呢? 随着预训练模型的到来,中文模型通常直接用字作为输入。甚至 19 年的一篇 ACL[1] 给出结论:基于“字”的模型要好于基于“词”的模型。但是,中文是以词作为语义的基本单位的...

扫一扫二维码分享