机器学习

打脸！一个线性变换就能媲美“最强句子embedding”？ 13

知行编程网人工智能前沿 2年前 (2022-01-31) 83 0

小编：前几周小屋刚推完《还在用[CLS]？从BERT得到最强句子Embedding的打开方式！》，苏神就来打脸了_(:з」∠)_ BERT-flow来自论文《On the Sentence Embeddings from Pre-trained Language Models》[1]，中了EMNLP 2020，主要是用flow模型校正了BERT出来的句向量的分布，从而使得计算出来的cos相似度更为...

线性代数应该这样讲(三)-向量2范数与模型泛化 9

知行编程网人工智能前沿 2年前 (2022-01-02) 22 0

在线性代数（一）中，小夕主要讲解了映射与矩阵的关系；在线性代数（二）中，小夕讲解了映射视角下的特征值与特征向量的物理意义。本文与下一篇会较为透彻的解析一下向量的二范数与一范数，他们在机器学习任务中是最常用，有时甚至是核心的东西哦。首先，来一个俗俗的开篇。向量x的p范数表示如下：由此，p=1、p=2就分别代表1范数和2范数。本文只看p=2的情况。二范数相信大家在大一学线性代数的时候就已经被灌输...

【重版】朴素贝叶斯与拣鱼的故事 42

知行编程网人工智能前沿 2年前 (2021-12-29) 6 0

重版公告由于小夕之后要讲的好几篇文章要基于这一篇的知识，但是以前写的的这篇文章对朴素贝叶斯的讨论不够深入，又不值得再额外写一篇朴素贝叶斯啦，因此本文重版了以前的文章《朴素贝叶斯》。与旧版相比，新版对基础知识的讲解进行了大幅更新，并加入了一些更深的讨论和结论，并重新进行了排版。朴素贝叶斯分类器可以说是最经典的基于统计的机器学习模型了。首先，暂且不管贝叶斯是什么意思，朴素这个名字放在分类器中好...

聊聊工业界做机器学习的里程碑

知行编程网人工智能前沿 2年前 (2022-01-24) 24 0

阅读说明，本文的机器学习领域限制于互联网搜索、推荐、广告场景，仅限于个人观点。 2017年，我和团队的几个核心去了趟北京，找了各大互联网公司一线实战的同学，交流各自在机器学习上的经验。这次交流让我的认知上了一个台阶，开始思考什么是真正优秀的机器学习团队。感慨一句，百度，特别是凤巢，真是中国机器学习的黄埔军校，门生遍布天下。系统——经济基础决定上层建筑工程系统中，提升收益是优化算法的根本动机。...

机器学习梗图大赏 65

知行编程网人工智能前沿 2年前 (2022-02-04) 43 0

大家好呀，我是日常遭到小轶摁头赶稿的白鹡鸰～最近的投稿高峰期各位都过得如何呢？白鹡鸰要偷偷爆料，最近的小轶可是超级辛苦的～不过白鹡鸰还很轻松，毕竟已经决定赶300天以后的ddl了。有句俗话说的好啊：“世上无难事，只要肯放弃。”可不就是这样的（笑）。今天来点轻松的整活儿，带大家参观参观小轶手机里珍藏的机器学习梗图，诶嘿～ 01 自定义层明明和原模型很！般！配！！！（声嘶力竭） 02 生动形象，有理...

当机器学习遇到鸡蛋受精

橙子每日Arxiv 2年前 (2022-01-14) 18 0

今天橙子姐姐带大家看看基于一阶统计特征提取的支持向量机分类器在鸡蛋受精方面的应用,大家一起看一下吧！本研究旨在使用支持向量机（SVM）分类器方法识别鸡蛋的生育力。分类基础使用一阶统计（FOS）参数作为识别过程中的特征提取。这项研究是基于过程的识别过程开发的，该过程仍然是手动的（传统的）。尽管目前在识别过程中有许多技术，但它们仍然需要发展。因此，这项研究是图像处理技术领域的发展之一。样本数据使用...

NeurIPS 2020 | 没有乘法的神经网络，照样起飞？ 15

知行编程网人工智能前沿 2年前 (2022-01-31) 36 0

今天给大家介绍一篇1962年的论文《Computer Multiplication and Division Using Binary Logarithms》[1]，作者是John N. Mitchell，他在里边提出了一个相当有意思的算法：在二进制下，可以完全通过加法来近似完成两个数的相乘，最大误差不超过1/9。整个算法相当巧妙，更有意思的是它还有着非常简洁的编程实现，让人拍案叫绝。然而，笔者发...

【经验分享】数据科学与机器学习面试指南

知行编程网人工智能前沿 2年前 (2022-03-02) 73 0

George Seif 最近分享了他在找工作时遇到的常见的面试问题，并与大家分享如何处理这些问题，23道面试题让你熟悉机器学习、数据科学常见知识点，建议大家学习和收藏。 Data Science and Machine Learning Interview Questions 数据科学与机器学习面试指南啊！可怕的机器学习面试。面试前你可能觉得你自己什么都知道，直到你被测试的时候才发现情况并没有你...

神经网络激活函数=生物转换器？ 24

知行编程网人工智能前沿 2年前 (2021-12-31) 2 0

啊~昨晚躺了一个小时竟然没有睡着，美容觉泡汤了...于是竟然大半夜起来写了这篇文章在《逻辑回归到神经网络》中，小夕让神经网络冒了个泡。在《一般化机器学习与神经网络》中，将神经网络这一火热的模型强制按回机器学习一般框架里。在《BP算法的本质》里，详细的阐述了BP算法的本质与目标。好啦~这一篇回到简单、纯粹的状态，我们来一起戳一戳可爱的神经细胞。学生物的人眼里的神经细胞：学数学与机器学习的人眼...

我删了这些训练数据…模型反而表现更好了！？ 17

知行编程网人工智能前沿 2年前 (2022-02-15) 13 0

预训练语言模型的训练语料是全网数据，其来着不拒，只要喂过来的数据，统统吃掉，尽可能消化掉。而统计模型，除泛化能力外，另一个重要的能力就是记忆能力。我们知道，人类的本质是复读机，啊，不是，全网数据中，重复或接近重复的数据是相当多的，尤其是数据爆炸的今天，当我们浏览各个来源的网络资讯的时候，时不时总会有似曾相识的感觉（当然这一定程度也归功于各大自媒体的洗稿）。这种重复的数据在统计模型的眼里，无疑是在...