如何打造高质量的NLP数据集

如何打造高质量的NLP数据集

知行编程网 人工智能前沿 2年前 (2022-01-07) 16 0

无论是做研究还是解决业务问题,做数据集都是绕不开的问题。很多刚入行的同学觉得发布一个数据集是最容易灌水的了,燃鹅如果你真的做过就会发现,随意产生一个数据集很容易,但是若以解决实际问题或让大家能在上面磕盐玩耍为目的,来产生一个能用的、质量高的、难度适中的数据集一点都不容易,超级费时费脑子甚至费钱好不好(╯°□°)╯︵┻━┻ 虽然并没有刻意的研究数据集该怎么做,不过因为项目或研究需要,已经被赶鸭子上架...

一步步教你构建 NLP 流水线

一步步教你构建 NLP 流水线 16

知行编程网 人工智能前沿 2年前 (2022-02-27) 7 0

前  言 计算机更擅长理解结构化数据,让计算机去理解主要以文化习惯沉淀下来的人类语言实在是太为难它们了。那自然语言处理获得的成功又是如何成就的呢?那就是,把人类语言(尽可能)结构化。本文以简单的例子一步步向我们展示了自然语言处理流水线的每个阶段的工作过程,也就是将语言结构化的过程,从句子分割、词汇标记化、...、到共指解析一步步展现。作者的解释很直观、好理解,对于刚入门 NLP 的小伙伴是不可多得...

ACL20 | 让笨重的BERT问答匹配模型变快!

ACL20 | 让笨重的BERT问答匹配模型变快! 10

知行编程网 人工智能前沿 2年前 (2022-01-18) 33 0

一只小狐狸带你解锁炼丹术&NLP秘籍 背景 BERT、XLNet、RoBERTa等基于Transformer[1]的预训练模型推出后,自然语言理解任务都获得了大幅提升。问答任务(Question Answering,QA)[2]也同样取得了很大的进步。 用BERT类模型来做问答或阅读理解任务,通常需要将问题和问题相关文档拼接一起作为输入文本,然后用自注意力机制对输入文本进行多层交互编码,之...

无需人工!无需训练!构建知识图谱 BERT一下就行了!

无需人工!无需训练!构建知识图谱 BERT一下就行了! 13

知行编程网 人工智能前沿 2年前 (2022-01-28) 63 0

今天给大家带来的是一篇号称可以自动建立知识图谱的文章《Language Models are Open Knowledge Graphs》,文中提出了一个叫Match and Map(MAMA)的模型,无需人工!无需训练!只需语料和预训练好模型,就可以从头建立出知识图谱,甚至可以挖掘出人类发现不了的新关系。当Wikipedia再次邂逅BERT,知识图谱就诞生啦! 通常来说知识图谱的建立需要人工定义...

那些击溃了所有NLP系统的样本

那些击溃了所有NLP系统的样本 10

知行编程网 人工智能前沿 2年前 (2022-01-07) 13 0

非常重要的前言   无论你是PM还是QA还是java开发,请不要拿本文刺激你身边的NLP工程师,人生已经如此的艰难,有些事情就 击溃拼音标注系统篇 写给卖豆芽的对联,我想打印出拼音 长长长长长长长,长长长长长长长。 (solution: changzhangchangzhangchangchangzhangzhangchangzhangchangzhangzhangchang, zhangchan...

百度提出ERNIE,多项中文NLP任务表现出色(已开源)

百度提出ERNIE,多项中文NLP任务表现出色(已开源) 3

知行编程网 人工智能前沿 2年前 (2022-03-17) 60 0

整理 | Jane出品 | AI科技大本营【导语】近日,百度提出知识增强的语义表示模型 ERNIE(Enhanced Representation from kNowledge IntEgration),通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等多项中文 NLP 任务上表现出色,有些甚至优于 BERT 在处理同类中文任...

NLP中的少样本困境问题探究

NLP中的少样本困境问题探究 25

知行编程网 人工智能前沿 2年前 (2022-01-18) 9 0

一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 在医疗、金融、法律等领域,高质量的标注数据十分稀缺、昂贵,我们通常面临少样本低资源问题。本文从「文本增强」和「半监督学习」这两个角度出发,谈一谈如何解决少样本困境。 正式介绍之前,我们首先需要思考什么才是一种好的解决少样本困境的方案?本文尝试给出了三个层次的评价策略,我们希望采取相关数据增强或弱监督技术后: 在少样本场景下,比起同等标注量的无...

NLP领域的首次Hard Label黑盒攻击!

NLP领域的首次Hard Label黑盒攻击! 16

知行编程网 人工智能前沿 2年前 (2022-02-05) 46 0

背景 前段时间已经和大家分享了两篇关于NLP Privacy的文章。今天,我们又来给大家推送优质论文了(公众号学习法)。其实,NLP与其他方向的跨界结合这段时间层出不穷,且都发表到了非常好的顶会上。目前有越来越多的 NLP 研究者开始探索文本对抗攻击这一方向,以 2020 年 ACL 为例,粗略统计有超过 10 篇相关论文。NLP Privacy可谓是NLP研究的下一个风口。 本次给大家介绍一篇文...

对话系统&聊天机器人的设计艺术(上)

对话系统&聊天机器人的设计艺术(上) 2

知行编程网 人工智能前沿 2年前 (2022-01-07) 38 0

  前言   关于本文的阅读方式:   这不是一篇学术综述,也不是单纯的科普文,而是试图从目标出发来渐进式的思考对话系统的设计,顺便科普。因此本文不适合跳读,也不适合5分钟式浏览,而是适合在夜深人静的时候一个人...   我知道你们夜深人静的时候肯定不会看这个的( ̄∇ ̄)   言归正传,其实本文最主要的目的还是试图理清楚对话系统的若干概念,对话是一个很大的概念,有非常非常多的子问题,刚入坑的小伙伴...

数学转CS,看斯坦福NLP博士、Manning高徒Abigail See怎么学AI

数学转CS,看斯坦福NLP博士、Manning高徒Abigail See怎么学AI 6

知行编程网 人工智能前沿 2年前 (2022-03-18) 19 0

选自 | deeplearning.ai编译 |机器之心参与 | 路雪、王淑婷近日,deeplearning.ai 采访了斯坦福 NLP 博士 Abigail See,她师从 Chris Manning,在 NLP 领域已经取得很多成绩,她还是斯坦福经典课程 CS224n 课程的助教。这篇文章介绍了她的日常工作、研究兴趣、对 AI 研究人员的建议等。问:你是如何开始 AI 研究的?答:我在英国剑桥...

扫一扫二维码分享