深度学习

论文审稿人可以下岗了？CMU都做出论文审稿机器人了！ 12

知行编程网人工智能前沿 2年前 (2022-02-02) 102 0

机器学习真是越来越火了，这从各大会议逐年增加的投稿量上就可见一斑：AAAI'21收到了9034篇投稿，NeurIPS'20收到了9467篇投稿，一篇投稿至少要经过3位审稿人同行评议，耗费的人力可想而知。那么问题来了：上哪找这么多有经验的审稿人来写评审意见呢？这时，机器学习投稿大头兼业界翘楚CMU的研究者发表了自己的看法：同行评议本质上不就是从输入一篇论文，输出评审意见的Seq2Seq吗？让N宝...

训练效率低？GPU利用率上不去？快来看看别人家的tricks吧～ 11

知行编程网人工智能前沿 2年前 (2022-01-06) 91 0

前言首先，如果你现在已经很熟悉tf.data+estimator了，可以把文章x掉了╮(￣▽￣””)╭ 但是！如果现在还是在进行session.run(..)的话！尤其是苦恼于GPU显存都塞满了利用率却上不去的童鞋，这篇文章或许可以给你打开新世界的大门噢(￣∇￣) 如果发现经过一系列改良后训练效率大大提高了，记得回来给小夕发小红包(￣∇￣) 不过，这并不是一篇怒贴一堆代码，言（三）简（言）意（两...

2018年图灵奖得主：三大深度学习创始人 5

知行编程网人工智能前沿 2年前 (2022-03-18) 71 0

今天，深度学习的三位创始人Yoshua Bengio, Yann LeCun, 和Geoffrey Hinton因其在深度学习理论及工程领域上的重大贡献，获得了2018年的图灵奖，共享100万美元奖金。图灵奖，通常被称为计算机领域的“诺贝尔奖”，为纪念著名的计算机科学先驱艾伦·图灵，由ACM于1966年设置。Bengio，Hinton和LeCun将于2019年6月15日在旧金山ACM年度颁奖...

解析深度学习优化：Momentum、RMSProp 和 Adam 16

知行编程网人工智能前沿 2年前 (2022-02-25) 71 0

虽然局部极小值和鞍点会阻碍我们的训练，但病态曲率会减慢训练的速度，以至于从事机器学习的人可能会认为搜索已经收敛到一个次优的极小值。让我们深入了解什么是病态曲率。病态曲率考虑以下损失曲线图。 **病态曲率** 如你所知，我们在进入一个以蓝色为标志的像沟一样的区域之前是随机的。这些颜色实际上代表了在特定点上的损失函数的值，红色代表最高的值，蓝色代表最低的值。我们想要下降到最低点，因此，需要穿过峡...

文本分类问题不需要ResNet？小夕解析DPCNN设计原理（下） 12

知行编程网人工智能前沿 2年前 (2022-01-04) 71 0

哎呀呀，说好的不拖稿的又拖了两天T_T，小夕过一阵子分享给你们这两天的开心事哦。后台催稿调参系列的小伙伴们不要急，下一篇就是第二篇调参文啦。好啦，接着上一篇文章，直接搬来DPCNN、ShallowCNN、ResNet的对比图。从图中的a和c的对比可以看出，DPCNN与ResNet差异还是蛮大的。同时DPCNN的底层貌似保持了跟TextCNN一样的结构，这里作者将TextCNN的包含多尺寸卷积滤...

谷歌、CMU发文：别压榨单模型了！集成+级联上分效率更高！ 8

知行编程网人工智能前沿 2年前 (2022-01-29) 69 0

集成模型（Ensemble）可以提升模型的精度，但往往面临提升计算量的困境，用级联模型（Cascade）在预测时提前中断则可解决计算量的问题。最近，谷歌和CMU的研究者对此进行了深入的分析，他们比较了常见深度神经网络在图像任务上集成学习的效果。他们提出，通过多个轻量级模型集成、级联可以获得相比单个大模型更高效的提分方案。目前大家大都通过设计模型结构，或是暴力扩大模型规模来提升效果，之后再通过模型...

硬核推导Google AdaFactor：一个省显存的宝藏优化器 2

知行编程网人工智能前沿 2年前 (2022-01-17) 68 0

一只小狐狸带你解锁炼丹术&NLP秘籍前言自从GPT、BERT等预训练模型流行起来后，其中一个明显的趋势是模型越做越大，因为更大的模型配合更充分的预训练通常能更有效地刷榜。不过，理想可以无限远，现实通常很局促，有时候模型太大了，大到哪怕你拥有了大显存的GPU甚至TPU，依然会感到很绝望。比如GPT2最大的版本有15亿参数，最大版本的T5模型参数量甚至去到了110亿，这等规模的模型，哪怕在...

这篇论文提出了一个文本<->知识图谱的格式转换器... 21

知行编程网人工智能前沿 2年前 (2022-02-06) 67 0

Hello, 大家好，我是小花。今天给大家介绍一篇有野心的paper。为何如此说呢？因为该工作提出了一个知识的格式转换器，用于转换无结构化的纯文本(Text)和结构化的知识图谱(KG) 。换句话说，给模型一打句子，它能够将其转换为一个图。图中的节点是句子中的关键信息，边表示不同节点的关系。反过来，给模型一个图，它能将其格式化为流畅的自然语言。举个例子，就是实现下面句子和图之间的格式转换： Th...

恕我直言，你的实验结论可能严重依赖随机数种子！ 17

知行编程网人工智能前沿 2年前 (2022-02-15) 60 0

God does not play dice with the universe ...... But BERT Does ! 包括BERT在内的预训练模型已经是现今NLP工作的标配。但你有没有考虑过，这些工作的实验结论可能都是虚假的？在 Bertology 中，大家从 huggingface 上下载 Google 训好的模型，在精调中结合改进，并应用于下游任务。所有的工作都是基于一组特定的初始化...

Facebook刷新开放域问答SOTA：模型训模型！Reader当Teacher！ 7

知行编程网人工智能前沿 2年前 (2022-02-01) 60 0

一部问答系统发展史就是一部人工智能发展史。早在1950年的图灵测试就提出：如果人类无法通过问答将机器和人区分开，那么这个机器就可以被认为具有智能。问答系统和人工智能有着密不可分的关系。从基于规则和结构化数据的自动问答，到基于精细设计神经网络的文本问答，再到T5[1]将一切文本任务都转化为问答，我们足以看出自动问答系统在走向机器智能的过程中的重要性。当前主流的问答系统主要分为几类：FAQ检索型、闲...