中文分词的古今中外,你想知道的都在这里

中文分词的古今中外,你想知道的都在这里 30

知行编程网 人工智能前沿 2年前 (2022-01-15) 16 0

一只小狐狸带你解锁NLP/ML/DL秘籍 前言 分词(word tokenization),也叫切词,即通过某种方式将句子中的各个词语识别并分离开来,使得文本从“字序列”的表示升级为“词序列”表示。分词技术不仅仅适用于中文,对于英文、日文、韩文等语言也同样适用。 虽然英文中有天然的单词分隔符(空格),但是常有单词与其他标点黏滞的情况,比如"Hey, how are you."中的"Hey"和"yo...

打破BERT天花板:11种花式炼丹术刷爆NLP分类SOTA!

打破BERT天花板:11种花式炼丹术刷爆NLP分类SOTA! 8

知行编程网 人工智能前沿 2年前 (2022-01-22) 14 0

在2020这个时间节点,对于NLP分类任务,我们的关注重点早已不再是如何构造模型、拘泥于分类模型长什么样子了。如同CV领域当前的重点一样,我们更应该关注如何利用机器学习思想,更好地去解决NLP分类任务中的低耗时、小样本、鲁棒性、不平衡、测试检验、增量学习、长文本等问题。 本文以QA形式探讨了以下问题: NLP分类任务我们每个NLPer都异常熟悉了,其在整个NLP业务中占据着举足轻重的地位,更多领域...

谷歌:一篇论文,让研究者吃我三份安利

谷歌:一篇论文,让研究者吃我三份安利 18

知行编程网 人工智能前沿 2年前 (2022-02-16) 11 0

前言 计算机视觉、机器学习,这两个词会让你想到什么? 相信绝大多数人第一反应都是CNN,而持续关注这些领域发展的人,则会进一步联想到近几年大火的Transformer,它不仅在自然语言相关任务上表现优秀,在图像领域同样取得了相当不错的效果。去年10月份Google推出的Vision Transformer (ViT),就在图像识别任务上用更高的学习效率,达到了不亚于ResNet的精度。当一个模型性...

吊打BERT Large的小型预训练模型ELECTRA终于开源!真相却让人...

吊打BERT Large的小型预训练模型ELECTRA终于开源!真相却让人... 11

知行编程网 人工智能前沿 2年前 (2022-01-15) 90 0

一只小狐狸带你解锁 炼丹术&NLP 秘籍 还记得去年写下《ELECTRA: 超越BERT, 19年最佳NLP预训练模型》时兴奋的心情,在我等到都快复工的时候,终于看到了它的身影和源码[1]: 才第五吗?没事,期望越大,失望越大 谷歌在github放出的预训练模型效果是这样的: 燃!鹅!在论文中声称的效果却是这样的 Github repo中官方的解释是精调的震荡比较大,他们测试了很多随机种子...

什么?!“路由器”也会做信息抽取了?

什么?!“路由器”也会做信息抽取了? 2

知行编程网 人工智能前沿 2年前 (2022-01-26) 2 0

前几周,一个“撞脸”路由器的联合抽取模型TPLinker横空出世,将NYT数据集的分数直接刷上了90,提高了2个百分点。卖萌屋邀请到作者雨城,来聊一聊他们在关系抽取上的工作。目前,该工作已经被COLING 2020接收。 背景 关系抽取 是从非结构化文本中抽取实体和关系的文本处理技术,属于自然语言处理中的常见任务。它是自然语言理解的基础,在智能问答、信息检索等领域有重要应用。简单来说就是给定一段文...

一训练就显存爆炸?Facebook 推出 8 比特优化器,两行代码拯救你的显存!

一训练就显存爆炸?Facebook 推出 8 比特优化器,两行代码拯救你的显存! 24

知行编程网 人工智能前沿 2年前 (2022-02-21) 15 0

“小夕,小夕!又出来了个 SOTA 模型!赶紧 follow !” 小夕看了看新模型的参数量, 然后看了看实验室服务器的几张小破卡。 小夕,陷入了沉默。 自从人们发现越大的模型性能越好后,神经网络模型的参数量就在越来越大的道路上一去不复返了。从XX-large到GPT3,再到5300亿参数的Megatron Turing-NLG,深度学习越来越像是只有财大气粗的大公司才能玩得起的玩具。如果,我们想...

Google | 突破瓶颈,打造更强大的Transformer

Google | 突破瓶颈,打造更强大的Transformer 4

知行编程网 人工智能前沿 2年前 (2022-01-16) 18 0

一只小狐狸带你解锁炼丹术&NLP秘籍 前言 《Attention is All You Need》一文发布后,基于Multi-Head Attention的Transformer模型开始流行起来,而去年发布的BERT模型更是将Transformer模型的热度推上了又一个高峰。当然,技术的探索是无止境的,改进的工作也相继涌现:有改进预训练任务的,比如XLNET的PLM、ALBERT的SOP等...

NLP太卷,我去研究蛋白质了~

NLP太卷,我去研究蛋白质了~ 16

知行编程网 人工智能前沿 2年前 (2022-01-26) 7 0

为什么“单词”被省略了:单词的本质是含义简单且可以高频重复的信息,句子的本质是经过多个单词不断消歧最终包含指向性含义的信息。从基因角度来看,大的片段相当于句子,对这些片段再分段起单词作用,密码子(每三个核苷酸)对应一个氨基酸,本质上还是字母。从蛋白质角度来看,二级结构中由氢键造成的较为规律的折叠、螺旋可以视作单词,能实现特定功能的蛋白质才称得上句子。 参考文献 理论基础,思想很重要,但论证得并不好...

图灵奖大佬 Lecun 发表对比学习新作,比 SimCLR 更好用!

图灵奖大佬 Lecun 发表对比学习新作,比 SimCLR 更好用! 11

知行编程网 人工智能前沿 2年前 (2022-02-21) 403 0

文 | Rukawa_Y 编 | 智商掉了一地,Sheryc_王苏 比 SimCLR 更好用的 Self-Supervised Learning,一起来看看吧! Self-Supervised Learning作为深度学习中的独孤九剑,当融汇贯通灵活应用之后,也能打败声名在外的武当太极剑。比如在NLP领域中,每当遇到文本分类的问题,BERT + funetuning的套路来应对,但是也正因为如此大...

BERT重计算:用22.5%的训练时间节省5倍的显存开销(附代码)

BERT重计算:用22.5%的训练时间节省5倍的显存开销(附代码) 14

知行编程网 人工智能前沿 2年前 (2022-01-16) 137 0

一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 虽然TPU的显存令人羡慕,但是由于众所周知的原因,绝大部分人还是很难日常化使用的。英伟达又一直在挤牙膏,至今单卡的最大显存也仅仅到32G(参考V100、DGX-2)。然而,训练一个24层的BERT Large模型的时候,如果sequence length开满512,那么batch size仅仅开到8(有时候能到10)就把这寥寥32G的显存打满...

扫一扫二维码分享