自然语言

我的BERT！改改字典，让BERT安全提速不掉分（已开源） 3

知行编程网人工智能前沿 2年前 (2022-01-24) 98 0

背景当前，大部分中文预训练模型都是以字为基本单位的，也就是说中文语句会被拆分为一个个字。中文也有一些多粒度的语言模型，比如创新工场的ZEN和字节跳动的AMBERT，但这类模型的基本单位还是字，只不过想办法融合了词信息。目前以词为单位的中文预训练模型很少，据笔者所了解到就只有腾讯UER开源了一个以词为颗粒度的BERT模型，但实测效果并不好。那么，纯粹以词为单位的中文预训练模型效果究竟如何呢？有没...

FLAT：中文NER屠榜之作！ 11

知行编程网人工智能前沿 2年前 (2022-01-23) 20 0

近年来，引入词汇信息逐渐成为提升中文NER指标的重要手段。ACL2020中一篇来自复旦大学邱锡鹏老师团队的 FLAT: Chinese NER Using Flat-Lattice Transformer 刷新了中文NER任务的新SOTA。如上图所示，在MSRA-NER任务中，FLAT+BERT登顶榜首；而单独的FLAT（1层TransFormer）也超越了预训练模型ERNIE。相比于之前引入词...

Google Research新成果，让表格理解和检索更上一层楼！ 10

知行编程网人工智能前沿 2年前 (2022-02-18) 123 0

如何更好地理解自然语言查询问题与表格信息？Google Research给出了一个改进版Transformer，一起来看看吧！表格以结构化方式存储信息，广泛地存在于web世界中。表格最为常见的一种用法就是人们查询其中的信息。在很多情况下，我们可能只能够用自然语言描述出心中的查询条件，那么，自然语言处理技术是否能理解我们的问题，理解表格信息，帮助我们自动地从表格中检索答案呢？那就让Transfor...

李航教授展望自然语言对话领域：现状与未来 3

知行编程网人工智能前沿 2年前 (2022-02-26) 21 0

作者：李航编译：机器之心（禁止二次转载）、小事原华为诺亚方舟实验室主任、现已加入字节跳动 AI Lab的李航教授近日发表博客，对自然语言对话领域的现状和最新进展进行总结，并展望了未来的走向。本文内容朴实，既重视整体格局和跨领域思维，又能着眼于现实条件，富有启发性。引言语音助手、智能客服、智能音箱、聊天机器人，近年各种自然语言对话系统如雨后春笋般地涌现，有让人眼花缭乱的感觉。一方面对...

文本分类有哪些论文中很少提及却对性能有重要影响的tricks？

知行编程网人工智能前沿 2年前 (2022-01-07) 38 0

前言正好在刷一个比较有趣的task，结果发现奇奇怪怪的tricks可以带来不少的性能收益。再加上后来为了验证一个小idea跑了一堆公开的文本分类数据集，虽然idea没有多亮，倒是积累和摸索了不少刷性能的tricks╮(￣▽￣””)╭然后呢，小夕后续又用这些tricks刷了不少相关的比赛（哪怕是文本匹配这种特殊的文本分类问题），发现baseline+一堆tricks+简单集成就可以随随便便刷到一个...

陈丹琦“简单到令人沮丧”的屠榜之作：关系抽取新SOTA！ 5

知行编程网人工智能前沿 2年前 (2022-01-26) 178 0

大家好，我是卖萌屋的JayJay，好久不见啦～最近在「夕小瑶@知识图谱与信息抽取」群里和群友交流时，JayJay发现了来自陈丹琦大佬（女神）的一篇最新的关系抽取SOTA《A Frustratingly Easy Approach for Joint Entity and Relation Extraction》，光看题目就让人眼前一亮：是啥子简单方法，让实体关系的联合抽取方法“沮丧”了？仔细阅...

从技术到人才，清华-中国工程院知识智能联合实验室发布「2018自然语言处理研究报告」 10

知行编程网人工智能前沿 2年前 (2022-02-26) 10 0

自然语言处理是现代技术最重要的组成部分之一，而最近清华大学和中国工程院知识智能联合实验室发布一份非常全面的 NLP 报告。该报告从 NLP 的概念介绍、研究与应用情况、专家学者概要以及发展趋势这 5 个方向纵览了这一领域的当下与未来，本文简要介绍了该报的概要信息，但读者可以从这些方面纵览 NLP 的发展面貌，完整内容请下载查看原报告。报告下载地址： https://www.aminer.cn...

45个小众而实用的NLP开源字典和工具 3

知行编程网人工智能前沿 2年前 (2022-01-14) 42 0

一只小狐狸带你解锁NLP/ML/DL秘籍前言随着BERT、ERNIE、XLNet等预训练模型的流行，解决NLP问题时不用上预训练模型似乎总显得自己有点过时。但是这显然是不对的。众所周知，无论训练还是推理，预训练模型都会消耗大量的算力，且高度依赖GPU计算资源。然而，有很多的NLP问题实际上仅仅靠字典+规则就可以做到够用，那么这时候强行上笨重的模型无异于高射炮打蚊子，性价比是非常低的。于...

NLP太卷，我去研究蛋白质了~ 16

知行编程网人工智能前沿 2年前 (2022-01-26) 7 0

为什么“单词”被省略了：单词的本质是含义简单且可以高频重复的信息，句子的本质是经过多个单词不断消歧最终包含指向性含义的信息。从基因角度来看，大的片段相当于句子，对这些片段再分段起单词作用，密码子（每三个核苷酸）对应一个氨基酸，本质上还是字母。从蛋白质角度来看，二级结构中由氢键造成的较为规律的折叠、螺旋可以视作单词，能实现特定功能的蛋白质才称得上句子。参考文献理论基础，思想很重要，但论证得并不好...