BERT

还在用[CLS]？从BERT得到最强句子Embedding的打开方式！ 17

知行编程网人工智能前沿 2年前 (2022-01-30) 491 0

文：涅生编：兔子酱你有尝试从 BERT 提取编码后的 sentence embedding 吗？很多小伙伴的第一反应是：不就是直接取顶层的[CLS] token的embedding作为句子表示嘛，难道还有其他套路不成？ nono，你知道这样得到的句子表示捕捉到的语义信息其实很弱吗？今天向大家介绍一篇来自于 CMU 和字节跳动合作，发表在 EMNLP2020 的 paper，详尽地分析了从预训...

吊打BERT、GPT、DALL·E，跨模态榜单新霸主诞生！ 8

知行编程网人工智能前沿 2年前 (2022-02-09) 217 0

最近，三个重量级榜单，视觉推理VCR、文本推理ANLI、视觉问答VQA同时被统一模态模型UNIMO霸榜。一个模型统一了视觉和文本两大主阵地，重塑了小编的认知和期望。如此全能，堪称是AI领域的外（一）星（拳）选（超）手（人）！带着兴奋与好奇，我们来解读一下这篇ACL佳作！论文题目: UNIMO: Towards Unified-Modal Understanding and Generation ...

中文BERT上分新技巧，多粒度信息来帮忙 15

知行编程网人工智能前沿 2年前 (2022-02-10) 172 0

自然语言处理实在是太难啦！中文尤其难！相比于英文，中文是以词作为语义的基本单位的，因此传统的中文 NLP 都需要先进行分词。分词这步就劝退了很多人，比如“研究生活很充实”，怎么让模型分出“研究|生活”，而不是“研究生”呢？随着预训练模型的到来，中文模型通常直接用字作为输入。甚至 19 年的一篇 ACL[1] 给出结论：基于“字”的模型要好于基于“词”的模型。但是，中文是以词作为语义的基本单位的...

BERT重计算：用22.5%的训练时间节省5倍的显存开销（附代码） 14

知行编程网人工智能前沿 2年前 (2022-01-16) 138 0

一只小狐狸带你解锁炼丹术&NLP 秘籍前言虽然TPU的显存令人羡慕，但是由于众所周知的原因，绝大部分人还是很难日常化使用的。英伟达又一直在挤牙膏，至今单卡的最大显存也仅仅到32G（参考V100、DGX-2）。然而，训练一个24层的BERT Large模型的时候，如果sequence length开满512，那么batch size仅仅开到8（有时候能到10）就把这寥寥32G的显存打满...

我的BERT！改改字典，让BERT安全提速不掉分（已开源） 3

知行编程网人工智能前沿 2年前 (2022-01-24) 98 0

背景当前，大部分中文预训练模型都是以字为基本单位的，也就是说中文语句会被拆分为一个个字。中文也有一些多粒度的语言模型，比如创新工场的ZEN和字节跳动的AMBERT，但这类模型的基本单位还是字，只不过想办法融合了词信息。目前以词为单位的中文预训练模型很少，据笔者所了解到就只有腾讯UER开源了一个以词为颗粒度的BERT模型，但实测效果并不好。那么，纯粹以词为单位的中文预训练模型效果究竟如何呢？有没...

吊打BERT Large的小型预训练模型ELECTRA终于开源！真相却让人... 11

知行编程网人工智能前沿 2年前 (2022-01-15) 92 0

一只小狐狸带你解锁炼丹术&NLP 秘籍还记得去年写下《ELECTRA: 超越BERT, 19年最佳NLP预训练模型》时兴奋的心情，在我等到都快复工的时候，终于看到了它的身影和源码[1]：才第五吗？没事，期望越大，失望越大谷歌在github放出的预训练模型效果是这样的：燃！鹅！在论文中声称的效果却是这样的 Github repo中官方的解释是精调的震荡比较大，他们测试了很多随机种子...

软硬兼施极限轻量BERT！能比ALBERT再轻13倍？！ 28

知行编程网人工智能前沿 2年前 (2022-01-30) 89 0

这个世界上有两种极具难度的工程：第一种是把很平常的东西做到最大，例如把语言模型扩大成能够写诗写文写代码的GPT-3；而另一种恰恰相反，是把很平常的东西做到最小。对于NLPer来说，这种“小工程”最迫在眉睫的施展对象非BERT莫属。从18年那个109M参数的BERT，到52M参数的蒸馏后的DistilBERT，再到14.5M参数的蒸馏更多层的TinyBERT，最后到12M参数的层级共享的ALBER...

ACL2020 | 对话数据集Mutual：论对话逻辑，BERT还差的很远 9

知行编程网人工智能前沿 2年前 (2022-01-16) 77 0

一只小狐狸带你解锁炼丹术&NLP 秘籍前言自然语言处理是人工智能领域的掌上明珠，而人机对话则是自然语言处理领域的最终极一环。以BERT为代表的预训练模型为自然语言处理领域带来了新的春天，在人机对话问题上也不例外。检索式多轮对话任务中，最有名的对话数据集就是Ubuntu Dialogue Corpus了，ACL2018提出的DAM是76.7%的，然而基于BERT来做却直接刷到了85....

万能的BERT连文本纠错也不放过 5

知行编程网人工智能前沿 2年前 (2022-01-18) 71 0

一只小狐狸带你解锁炼丹术&NLP秘籍背景文本纠错（Spelling Error Correction）技术常用于文本的预处理阶段。在搜索引擎、输入法和 OCR 中有着广泛的应用。2020年的文本纠错自然也离不开 BERT 的表演。但原生的 BERT 在一些NLP任务如error detection、NER中表现欠佳，说明预训练阶段的学习目标中对相关模式的捕获非常有限，需要根据任务进行一...

别再蒸馏3层BERT了！变矮又能变瘦的DynaBERT了解一下 10

知行编程网人工智能前沿 2年前 (2022-01-17) 56 0

一只小狐狸带你解锁炼丹术&NLP秘籍神经网络模型除了部署在远程服务器之外，也会部署在手机、音响等智能硬件上。比如在自动驾驶的场景下，大部分模型都得放在车上的终端里，不然荒山野岭没有网的时候就尴尬了。对于BERT这类大模型来说，也有部署在终端的需求，但考虑到设备的运算速度和内存大小，是没法部署完整版的，必须对模型进行瘦身压缩。说到模型压缩，常用的方法有以下几种：量化：用FP16或者IN...