人工智能前沿

一手AI资讯|计算机视觉|自然语言|机器学习|深度学习
对话系统的设计艺术(完结)

对话系统的设计艺术(完结) 9

知行编程网 2年前 (2022-01-07) 100 0

Motivation 对话是一个很大的概念,有非常非常多的子问题,刚入坑的小伙伴很可能迷失在对话的一小块区域里无法自拔,本文就是为解决这一类问题的。希望读者在看完本文后,可以理清楚对话的每个概念为什么而存在,以及它在整个对话王国中的位置。 不过,小夕也未能关注到对话领域的每个角落,一些小topic也属于仅听过但是没有深入研究过的状态,因此本文表述有失偏颇的地方还望大佬们多多指出~~ 本文结构 对话...

文本分类有哪些论文中很少提及却对性能有重要影响的tricks?

文本分类有哪些论文中很少提及却对性能有重要影响的tricks?

知行编程网 2年前 (2022-01-07) 38 0

前言 正好在刷一个比较有趣的task,结果发现奇奇怪怪的tricks可以带来不少的性能收益。再加上后来为了验证一个小idea跑了一堆公开的文本分类数据集,虽然idea没有多亮,倒是积累和摸索了不少刷性能的tricks╮( ̄▽ ̄””)╭然后呢,小夕后续又用这些tricks刷了不少相关的比赛(哪怕是文本匹配这种特殊的文本分类问题),发现baseline+一堆tricks+简单集成就可以随随便便刷到一个...

如何打造高质量的NLP数据集

如何打造高质量的NLP数据集

知行编程网 2年前 (2022-01-07) 16 0

无论是做研究还是解决业务问题,做数据集都是绕不开的问题。很多刚入行的同学觉得发布一个数据集是最容易灌水的了,燃鹅如果你真的做过就会发现,随意产生一个数据集很容易,但是若以解决实际问题或让大家能在上面磕盐玩耍为目的,来产生一个能用的、质量高的、难度适中的数据集一点都不容易,超级费时费脑子甚至费钱好不好(╯°□°)╯︵┻━┻ 虽然并没有刻意的研究数据集该怎么做,不过因为项目或研究需要,已经被赶鸭子上架...

那些击溃了所有NLP系统的样本

那些击溃了所有NLP系统的样本 10

知行编程网 2年前 (2022-01-07) 13 0

非常重要的前言   无论你是PM还是QA还是java开发,请不要拿本文刺激你身边的NLP工程师,人生已经如此的艰难,有些事情就 击溃拼音标注系统篇 写给卖豆芽的对联,我想打印出拼音 长长长长长长长,长长长长长长长。 (solution: changzhangchangzhangchangchangzhangzhangchangzhangchangzhangzhangchang, zhangchan...

对话系统&聊天机器人的设计艺术(上)

对话系统&聊天机器人的设计艺术(上) 2

知行编程网 2年前 (2022-01-07) 38 0

  前言   关于本文的阅读方式:   这不是一篇学术综述,也不是单纯的科普文,而是试图从目标出发来渐进式的思考对话系统的设计,顺便科普。因此本文不适合跳读,也不适合5分钟式浏览,而是适合在夜深人静的时候一个人...   我知道你们夜深人静的时候肯定不会看这个的( ̄∇ ̄)   言归正传,其实本文最主要的目的还是试图理清楚对话系统的若干概念,对话是一个很大的概念,有非常非常多的子问题,刚入坑的小伙伴...

「小算法」回文数与数值合法性检验

「小算法」回文数与数值合法性检验 6

知行编程网 2年前 (2022-01-06) 2 0

回文数 链接:https://leetcode.com/problems/palindrome-number/description/ 判断一个整数是否是回文数是leetcode上的一个简单算法题。回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。 例1: 输入:121 输出:true 例2: 输入:-121 输出:false 解释:从右往左读为121-。 例3: 输入:10 输出:f...

如何匹配两段文本的语义?

如何匹配两段文本的语义? 5

知行编程网 2年前 (2022-01-06) 7 0

喵喵喵,好久不见啦。首先很抱歉大家期待的调参手册(下)迟迟没有出稿,最近两个月连着赶了4个DDL,整个人都不好了。最近几天终于有时间赶一下未完成的稿子了。在赶DDL的时候夹着写了这篇文章,就先发布这一篇吧~调参手册(下)不出意外的话最近也可以发布啦。 本文由来 一年前在知乎上关注过这么一个问题: 如何判断两段文本说的是「同一件事情」? - 知乎 https://www.zhihu.com/ques...

小哥哥,检索式chatbot了解一下?

小哥哥,检索式chatbot了解一下? 26

知行编程网 2年前 (2022-01-06) 31 0

1. 扫盲 对话的概念很大,从输入形式上分为文本和语音,本文当然只考虑文本。从对话目的上分为任务型对话与非任务型/闲聊型对话。顾名思义,任务型对话就是为了解决任务而进行的对话,比如你让Siri帮你定闹钟、发短信等,而闲聊型对话当然就是human-to-human的正常聊天啦。本文就不讨论任务型对话了,有兴趣的同学可以戳这里扫扫盲,本文聚焦在非任务型对话的多轮对话问题上。 要完成对话的建模,目前主要...

NLP的游戏规则从此改写?从word2vec, ELMo到BERT

NLP的游戏规则从此改写?从word2vec, ELMo到BERT 20

知行编程网 2年前 (2022-01-06) 2 0

前言 还记得不久之前的机器阅读理解领域,微软和阿里在SQuAD上分别以R-Net+和SLQA超过人类,百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂,似乎“如何设计出一个更work的task-specific的网络"变成了NLP领域政治正确的研究方向。而在这种风向下,不管word2vec也好,glove也好,fasttext也好,都只能充当一个锦上添...

训练效率低?GPU利用率上不去?快来看看别人家的tricks吧~

训练效率低?GPU利用率上不去?快来看看别人家的tricks吧~ 11

知行编程网 2年前 (2022-01-06) 92 0

前言 首先,如果你现在已经很熟悉tf.data+estimator了,可以把文章x掉了╮( ̄▽ ̄””)╭ 但是!如果现在还是在进行session.run(..)的话!尤其是苦恼于GPU显存都塞满了利用率却上不去的童鞋,这篇文章或许可以给你打开新世界的大门噢( ̄∇ ̄) 如果发现经过一系列改良后训练效率大大提高了,记得回来给小夕发小红包( ̄∇ ̄) 不过,这并不是一篇怒贴一堆代码,言(三)简(言)意(两...

扫一扫二维码分享