成本砍砍砍!不用数据也能用 BERT 做对比学习?

成本砍砍砍!不用数据也能用 BERT 做对比学习? 19

知行编程网 人工智能前沿 2年前 (2022-02-13) 52 0

大家好,我是小昌,今天和大家聊一聊如何从 BERT 中获取好的句子表征。 大家都知道,BERT 的设计初衷是为了获得更好的单词表征。但是,利用 BERT 来表征句子的需求无论在学术界还是工业界都是非常紧迫的。因此,当下有许多方法被研究者们提出来去利用 BERT 来获取更好的句子表征。最直接的,就是对句子中的每一个单词的表征相加求均值。 而今天带来的这篇文章则是利用了对比学习,使得只使用 BERT ...

BERT重计算:用22.5%的训练时间节省5倍的显存开销(附代码)

BERT重计算:用22.5%的训练时间节省5倍的显存开销(附代码) 14

知行编程网 人工智能前沿 2年前 (2022-01-16) 138 0

一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 虽然TPU的显存令人羡慕,但是由于众所周知的原因,绝大部分人还是很难日常化使用的。英伟达又一直在挤牙膏,至今单卡的最大显存也仅仅到32G(参考V100、DGX-2)。然而,训练一个24层的BERT Large模型的时候,如果sequence length开满512,那么batch size仅仅开到8(有时候能到10)就把这寥寥32G的显存打满...

别再蒸馏3层BERT了!变矮又能变瘦的DynaBERT了解一下

别再蒸馏3层BERT了!变矮又能变瘦的DynaBERT了解一下 10

知行编程网 人工智能前沿 2年前 (2022-01-17) 56 0

一只小狐狸带你解锁炼丹术&NLP秘籍 神经网络模型除了部署在远程服务器之外,也会部署在手机、音响等智能硬件上。比如在自动驾驶的场景下,大部分模型都得放在车上的终端里,不然荒山野岭没有网的时候就尴尬了。对于BERT这类大模型来说,也有部署在终端的需求,但考虑到设备的运算速度和内存大小,是没法部署完整版的,必须对模型进行瘦身压缩。 说到模型压缩,常用的方法有以下几种: 量化:用FP16或者IN...

万能的BERT连文本纠错也不放过

万能的BERT连文本纠错也不放过 5

知行编程网 人工智能前沿 2年前 (2022-01-18) 71 0

一只小狐狸带你解锁炼丹术&NLP秘籍 背景 文本纠错(Spelling Error Correction)技术常用于文本的预处理阶段。在搜索引擎、输入法和 OCR 中有着广泛的应用。2020年的文本纠错自然也离不开 BERT 的表演。但原生的 BERT 在一些NLP任务如error detection、NER中表现欠佳,说明预训练阶段的学习目标中对相关模式的捕获非常有限,需要根据任务进行一...

学会提问的BERT:端到端地从篇章中构建问答对

学会提问的BERT:端到端地从篇章中构建问答对 3

知行编程网 人工智能前沿 2年前 (2022-01-22) 8 0

机器阅读理解任务,相比不少读者都有所了解了,简单来说就是从给定篇章中寻找给定问题的答案,即“篇章 + 问题 → 答案”这样的流程,笔者之前也写过一些关于阅读理解的文章,比如《基于CNN的阅读理解式问答模型:DGCNN》[1]等。至于问答对构建,则相当于是阅读理解的反任务,即“篇章 → 答案 + 问题”的流程,学术上一般直接叫“问题生成(Question Generation)”,因为大多数情况下,...

打破BERT天花板:11种花式炼丹术刷爆NLP分类SOTA!

打破BERT天花板:11种花式炼丹术刷爆NLP分类SOTA! 8

知行编程网 人工智能前沿 2年前 (2022-01-22) 14 0

在2020这个时间节点,对于NLP分类任务,我们的关注重点早已不再是如何构造模型、拘泥于分类模型长什么样子了。如同CV领域当前的重点一样,我们更应该关注如何利用机器学习思想,更好地去解决NLP分类任务中的低耗时、小样本、鲁棒性、不平衡、测试检验、增量学习、长文本等问题。 本文以QA形式探讨了以下问题: NLP分类任务我们每个NLPer都异常熟悉了,其在整个NLP业务中占据着举足轻重的地位,更多领域...

NLP的游戏规则从此改写?从word2vec, ELMo到BERT

NLP的游戏规则从此改写?从word2vec, ELMo到BERT 20

知行编程网 人工智能前沿 2年前 (2022-01-06) 2 0

前言 还记得不久之前的机器阅读理解领域,微软和阿里在SQuAD上分别以R-Net+和SLQA超过人类,百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂,似乎“如何设计出一个更work的task-specific的网络"变成了NLP领域政治正确的研究方向。而在这种风向下,不管word2vec也好,glove也好,fasttext也好,都只能充当一个锦上添...

我的BERT!改改字典,让BERT安全提速不掉分(已开源)

我的BERT!改改字典,让BERT安全提速不掉分(已开源) 3

知行编程网 人工智能前沿 2年前 (2022-01-24) 98 0

背景 当前,大部分中文预训练模型都是以字为基本单位的,也就是说中文语句会被拆分为一个个字。中文也有一些多粒度的语言模型,比如创新工场的ZEN和字节跳动的AMBERT,但这类模型的基本单位还是字,只不过想办法融合了词信息。目前以词为单位的中文预训练模型很少,据笔者所了解到就只有腾讯UER开源了一个以词为颗粒度的BERT模型,但实测效果并不好。 那么,纯粹以词为单位的中文预训练模型效果究竟如何呢?有没...

如何让BERT拥有视觉感知能力?两种方式将视频信息注入BERT

如何让BERT拥有视觉感知能力?两种方式将视频信息注入BERT 35

知行编程网 人工智能前沿 2年前 (2022-01-15) 8 0

一只小狐狸带你解锁NLP/ML/DL秘籍 老板老板,听说BERT是个瞎子 此话怎讲? 它能理解语言,但是理解不了小夕的自拍! video-BERT了解一下 喵喵喵? AI的三大核心板块(CV/Speech/NLP)近几年都相继取得了非常大的发展和进步。但是正所谓成也萧何,败也萧何,深度学习一直在能力泛化和鲁棒性问题上饱受诟病,通用AI之路遥遥无期。 不过,近期得益于预训练模型的成功,似乎跨模态问题...

还在用[CLS]?从BERT得到最强句子Embedding的打开方式!

还在用[CLS]?从BERT得到最强句子Embedding的打开方式! 17

知行编程网 人工智能前沿 2年前 (2022-01-30) 491 0

文:涅生 编:兔子酱 你有尝试从 BERT 提取编码后的 sentence embedding 吗?很多小伙伴的第一反应是:不就是直接取顶层的[CLS] token的embedding作为句子表示嘛,难道还有其他套路不成? nono,你知道这样得到的句子表示捕捉到的语义信息其实很弱吗?今天向大家介绍一篇来自于 CMU 和字节跳动合作,发表在 EMNLP2020 的 paper, 详尽地分析了从预训...

扫一扫二维码分享