机器学习

ICLR'21 | 一个二值化词向量模型，是怎么跟果蝇搭上关系的？ 14

知行编程网人工智能前沿 2年前 (2022-02-03) 9 0

可能有些读者最近会留意到ICLR 2021的论文Can a Fruit Fly Learn Word Embeddings?，文中写到它是基于仿生思想（仿果蝇的嗅觉回路）做出来的一个二值化词向量模型。其实论文的算法部分并不算难读，可能整篇论文读下来大家的最主要疑惑就是“这东西跟果蝇有什么关系？”、“作者真是从果蝇里边受到启发的？”等等。本文就让我们来追寻一下该算法的来龙去脉，试图回答一下这个词向量...

百度提出新冠高风险小区预警算法，AAAI21收录！ 10

知行编程网人工智能前沿 2年前 (2022-02-02) 4 0

编：夕小瑶几个月前，小屋推送了一期上帝视角看新型冠状病毒（COVID-19）对公众出行影响的顶会论文解读——《这篇顶会paper，讲述了疫情期间憋疯的你和我》，这篇有趣的paper来自百度地图团队，发表在KDD2020。几个月后，新冠病毒仍在全球范围肆虐，并对人们的日常工作与生活产生了严重的影响。与此同时，社会责任感爆棚的百度研究人员再次发挥时空大数据优势，又发表一篇硬刚新冠疫情的最新研究成果...

数据有偏差，照样能学对！20年前就有这么强的算法了？ 16

知行编程网人工智能前沿 2年前 (2022-02-01) 5 0

背景 “每个人都依赖自己的知识和认知，同时又为之束缚，还将此称为现实；但知识和认识是非常暧昧的东西，现实也许不过是镜花水月——人们都是活在偏见之中的，你不这样认为吗？这双眼睛，又能看多远呢？” 机器学习，作为模仿人类思维方法进行建模的过程，虽然从数据中抽取模型的水平还不如人类，但是在获取偏见（bias）的方面，已经青出于蓝而胜于蓝了。关于机器学习模型偏见产生的机理，谷歌花了59页，从自然语言、图像...

NeurIPS 2020 | 没有乘法的神经网络，照样起飞？ 15

知行编程网人工智能前沿 2年前 (2022-01-31) 36 0

今天给大家介绍一篇1962年的论文《Computer Multiplication and Division Using Binary Logarithms》[1]，作者是John N. Mitchell，他在里边提出了一个相当有意思的算法：在二进制下，可以完全通过加法来近似完成两个数的相乘，最大误差不超过1/9。整个算法相当巧妙，更有意思的是它还有着非常简洁的编程实现，让人拍案叫绝。然而，笔者发...

打脸！一个线性变换就能媲美“最强句子embedding”？ 13

知行编程网人工智能前沿 2年前 (2022-01-31) 83 0

小编：前几周小屋刚推完《还在用[CLS]？从BERT得到最强句子Embedding的打开方式！》，苏神就来打脸了_(:з」∠)_ BERT-flow来自论文《On the Sentence Embeddings from Pre-trained Language Models》[1]，中了EMNLP 2020，主要是用flow模型校正了BERT出来的句向量的分布，从而使得计算出来的cos相似度更为...

怎样将Embedding融入传统机器学习框架？ 2

知行编程网人工智能前沿 2年前 (2022-01-29) 5 0

LR本身是一个经典的CTR模型，广泛应用于推荐/广告系统。输入的特征大多数是离散型/组合型。那么对于Embedding技术，如何在不使用深度学习模型的情况下（假设就是不能用DNN），融入到LR框架中呢？让我们来看看清华大学的博士石塔西大佬是如何解答的。问题实战意义其实这个问题可以再扩展一下，即，如何在传统机器学习算法（LR/GBDT）中使用Embedding信息。这个问题并非空穴来风，而是有...

再介绍一篇Contrastive Self-supervised Learning综述论文 23

知行编程网人工智能前沿 2年前 (2022-01-29) 49 0

之前已经介绍过三篇自监督学习的综述：《怎样缓解灾难性遗忘？持续学习最新综述三篇！》。这是最近2020年10月arXiv上的又一篇论文"A Survey On Contrastive Self-supervised Learning"。论文地址： https://arxiv.org/pdf/2011.00362.pdf Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【122...

谈谈工业界落地能力最强的机器学习算法

知行编程网人工智能前沿 2年前 (2022-01-28) 35 0

尽管BERT为代表的预训练模型大肆流行，但是身处工业界才会知道它落地有多难，尤其是QPS动辄几百的在线推荐、搜索系统，哪怕在大厂也很难在线上系统见到它们。今天就想反其道而行之，谈谈工业界搜索、推荐、广告这类核心场景中落地能力最强的算法（之一）：因子分解机（FM）。我不敢说它是最简单的（FM的确很简单），但是作为一个推荐算法调参工程师，掌握FM一定是性价比最高的。我推崇FM算法的原因，有以下三点：...

谷歌重磅：可以优化自己的优化器！手动调参或将成为历史！？ 7

知行编程网人工智能前沿 2年前 (2022-01-25) 5 0

背景 Google Brain团队发布的一篇最新论文在外网引发热议，或将成为Deep Learning发展历程上里程碑式的工作。它所讨论的，是所有AI行业者都要面对的——Deep Learning中的优化问题。也就是，如何更好地训练一个模型。深度模型的训练过程是非常困难的，常见的挑战包括：陷入局部极小值、梯度消失/爆炸、长期依赖（long dependency）等等。但对于大多数算法工程师来说其...

聊聊工业界做机器学习的里程碑

知行编程网人工智能前沿 2年前 (2022-01-24) 24 0

阅读说明，本文的机器学习领域限制于互联网搜索、推荐、广告场景，仅限于个人观点。 2017年，我和团队的几个核心去了趟北京，找了各大互联网公司一线实战的同学，交流各自在机器学习上的经验。这次交流让我的认知上了一个台阶，开始思考什么是真正优秀的机器学习团队。感慨一句，百度，特别是凤巢，真是中国机器学习的黄埔军校，门生遍布天下。系统——经济基础决定上层建筑工程系统中，提升收益是优化算法的根本动机。...