深度学习

互联网大厂CTR预估前沿进展 49

知行编程网人工智能前沿 2年前 (2022-01-31) 300 0

前言 CTR（click through rate）预估模型是广告推荐领域的核心问题。早期主要是使用LR（线性回归）+人工特征工程的机器学习方法，但是存在人工组合特征工程成本较高，不同任务难以复用的问题。后来随着FM因子分解机的出现，提出了使用二阶特征自动交叉的方法，缓解了人工组合特征的难题。之后2014年Facebook使用GBDT+LR方案，提出了树模型构建组合特征的思路。2015年后，由于深...

ICLR最高分论文揭秘模型泛化，GNN是潜力股 19

知行编程网人工智能前沿 2年前 (2022-01-30) 3 0

文 | Jerry Qiu 编 | 小轶我们都知道，人类在很多任务上都可以很好地完成“外推”，例如：啊不——我是说——例如，我们学会两位数的加减乘除后，就可以轻松将其推广至任意大整数的四则运算：从数学的角度来讲，外推其实是与内插并列的一个概念。想必大家对多项式插值、样条插值等插值方法不陌生。通过已知的、离散的数据点，在范围内推求新数据点，即称为内插（Interpolation）。而如果我们在...

测试集没标签，可以拿来测模型吗？ 10

知行编程网人工智能前沿 2年前 (2022-01-29) 121 0

背景正常情况下，我们可以用一个带标签的数据集来测试分类器的表现（称之为测试集）。然而，现实中，因为种种因素的制约（标注成本高、标注难度大等 Google：穷人不配搞机器学习），很多场景下难以求得一个规模大、标注正确率高、采样无偏的测试集。而采用人工评估的方式，往往耗时耗力，且方差极大，结果对机器学习模型的迭代速度产生了很大的制约。由此，本文提出了自动模型评估（AutoEval） ——目标是...

Facebook大公开：解决NLG模型落地难题！工业界的新一波春天？ 14

知行编程网人工智能前沿 2年前 (2022-01-29) 13 0

作为NLP领域的“三高”用户（高产、高能、高钞），FaceBook最近（2020年11月）又发表了一篇高水准文章，目前已被COLING-2020接收，号称解决了自然语言生成（NLG）落地的问题：Best Practices for Data-Efficient Modeling in NLG:How to Train Production-Ready Neural Models with Les...

再介绍一篇Contrastive Self-supervised Learning综述论文 23

知行编程网人工智能前沿 2年前 (2022-01-29) 49 0

之前已经介绍过三篇自监督学习的综述：《怎样缓解灾难性遗忘？持续学习最新综述三篇！》。这是最近2020年10月arXiv上的又一篇论文"A Survey On Contrastive Self-supervised Learning"。论文地址： https://arxiv.org/pdf/2011.00362.pdf Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【122...

谷歌、CMU发文：别压榨单模型了！集成+级联上分效率更高！ 8

知行编程网人工智能前沿 2年前 (2022-01-29) 69 0

集成模型（Ensemble）可以提升模型的精度，但往往面临提升计算量的困境，用级联模型（Cascade）在预测时提前中断则可解决计算量的问题。最近，谷歌和CMU的研究者对此进行了深入的分析，他们比较了常见深度神经网络在图像任务上集成学习的效果。他们提出，通过多个轻量级模型集成、级联可以获得相比单个大模型更高效的提分方案。目前大家大都通过设计模型结构，或是暴力扩大模型规模来提升效果，之后再通过模型...

我拿乐谱训了个语言模型！ 7

知行编程网人工智能前沿 2年前 (2022-01-28) 8 0

最近在刷EMNLP论文的时候发现一篇非常有趣的论文《Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models》，来自斯坦福大学NLP组。论文有趣的发现是让语言模型先在乐谱上进行训练，再在自然语言上训练可以有效的提升语言模型的性能。在看了一大堆BERT-based的模型...

一人之力，刷爆三路榜单！信息抽取竞赛夺冠经验分享 24

知行编程网人工智能前沿 2年前 (2022-01-28) 33 0

在现如今的NLP竞赛中，信息抽取（IE）任务已占据半壁江山。来，让我们看看今年的一些IE竞赛都有啥：看到如此众多的IE竞赛，心动的JayJay抽空参加了CHIP2020（中国健康信息处理大会）中的3个评测，最终获得了2个冠军、1个季军，具体如下表所示：评测任务名称所获名次评测网址中文医学实体关系抽取第一 http://cips-chip.org.cn/2020/eval2 临床医学术语...

谈谈工业界落地能力最强的机器学习算法

知行编程网人工智能前沿 2年前 (2022-01-28) 35 0

尽管BERT为代表的预训练模型大肆流行，但是身处工业界才会知道它落地有多难，尤其是QPS动辄几百的在线推荐、搜索系统，哪怕在大厂也很难在线上系统见到它们。今天就想反其道而行之，谈谈工业界搜索、推荐、广告这类核心场景中落地能力最强的算法（之一）：因子分解机（FM）。我不敢说它是最简单的（FM的确很简单），但是作为一个推荐算法调参工程师，掌握FM一定是性价比最高的。我推崇FM算法的原因，有以下三点：...

NLP未来，路在何方？12位巨佬联名指路！ 7

知行编程网人工智能前沿 2年前 (2022-01-27) 8 0

CMU、华盛顿大学、南加州大学、MIT、MILA、密歇根大学、爱丁堡大学、DeepMind、伯克利、Apple…如果我说来自这些地方的dalao共同发表了一篇文章，你相信么？但别惊讶，在即将召开的EMNLP'20的长文列表里，我们就真找到了这样一篇“奇文”。一篇论文引得众星云集，那解决的必然不是小问题。这不，作者也很贴心地把他们所希望解决的问题斜体独行地放在了论文的首栏里—— Where is N...