搜索引擎核心技术与算法 —— 词项词典与倒排索引优化

搜索引擎核心技术与算法 —— 词项词典与倒排索引优化 20

知行编程网 人工智能前沿 2年前 (2022-01-14) 12 0

一只小狐狸带你解锁NLP/ML/DL秘籍 老板~我会写倒排索引啦!我要把它放进咱们自研搜索引擎啦! 我呸!你这种demo级代码,都不够当单元测试的! 嘤嘤嘤,课本上就是这样讲的呀?! 来来,带你见识一下工业级搜索引擎里的倒排索引是怎么优化的! 前言 首先回顾一下构建倒排索引的几个主要步骤: (1) 收集待建索引的文档; (2) 对这些文档中的文本进行词条化; (3) 对第2步产生的词条进行语言学预...

谷歌、CMU发文:别压榨单模型了!集成+级联上分效率更高!

谷歌、CMU发文:别压榨单模型了!集成+级联上分效率更高! 8

知行编程网 人工智能前沿 2年前 (2022-01-29) 69 0

集成模型(Ensemble)可以提升模型的精度,但往往面临提升计算量的困境,用级联模型(Cascade)在预测时提前中断则可解决计算量的问题。最近,谷歌和CMU的研究者对此进行了深入的分析,他们比较了常见深度神经网络在图像任务上集成学习的效果。他们提出,通过多个轻量级模型集成、级联可以获得相比单个大模型更高效的提分方案。 目前大家大都通过设计模型结构,或是暴力扩大模型规模来提升效果,之后再通过模型...

开局一段扯,数据全靠编?真被一篇“神论文”气到了

开局一段扯,数据全靠编?真被一篇“神论文”气到了 3

知行编程网 人工智能前沿 2年前 (2022-02-23) 7 0

看来以后我们看论文的时候,不仅要关心论文成绩的可复现性,还要留意它们的求和、均值、方差等有没有算错,否则真的是“无奇不有”!! 这篇文章谈一下笔者被前几天出来的一篇“神论文”气到了的经历。 这篇“神论文”是 《How not to Lie with a Benchmark: Rearranging NLP Leaderboards》 ,论文的大致内容是说目前很多排行榜算平均都用算术平均,而它认为几...

高光谱图像聚类新方法

高光谱图像聚类新方法

橙子 每日Arxiv 2年前 (2022-01-04) 33 0

稀疏子空间聚类友好深度字典学习在高光谱图像分类中的应用 子空间聚类技术在高光谱图像分割中显示出良好的应用前景。子空间聚类的基本假设是属于不同簇/段的样本位于可分离子空间中。如果这种情况不成立怎么办?下面和橙子姐姐一探究竟吧~ 本文推测,即使这个条件在原始空间中不成立,数据也可能被非线性地变换到一个空间,在那里它将被分成子空间。在这项工作中,本文提出了一种基于深度字典学习(DDL)原则的转换。特别地...

ICML2020 | 一行代码就能实现的测试集上分技巧

ICML2020 | 一行代码就能实现的测试集上分技巧 4

知行编程网 人工智能前沿 2年前 (2022-01-21) 24 0

在训练模型的时候,我们需要损失函数一直训练到0吗?显然不用。一般来说,我们是用训练集来训练模型,但希望的是验证集的损失越小越好,而正常来说训练集的损失降低到一定值后,验证集的损失就会开始上升(即过拟合),因此没必要把训练集的损失降低到0。 为了对抗这种过拟合现象,提高模型的测试集表现(即泛化能力),一种很自然的想法是提前终止(early stopping),也就是当观测到模型的验证集表现不降反升时...

全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!

全球44家机构,55位大佬,历时两年,打造最强NLG评测基准! 14

知行编程网 人工智能前沿 2年前 (2022-02-03) 16 0

(大家好,我是已经鸽了夕总仨月没写文章了的小轶(yì)!新的一年一定改过自新,多读paper多写稿,望广大读者敦促(ง •̀_•́)ง) 今天要和大家分享的是卖萌屋学术站上的本月最热paper。何以最热,看它头上顶了多少大厂tag大概就知道了: 点开paper以后,小铁我更是直呼好家伙..... 超长author list——55位作者众星云集,来自共计全球44家不同机构。并且,在paper末尾更...

训练效率低?GPU利用率上不去?快来看看别人家的tricks吧~

训练效率低?GPU利用率上不去?快来看看别人家的tricks吧~ 11

知行编程网 人工智能前沿 2年前 (2022-01-06) 92 0

前言 首先,如果你现在已经很熟悉tf.data+estimator了,可以把文章x掉了╮( ̄▽ ̄””)╭ 但是!如果现在还是在进行session.run(..)的话!尤其是苦恼于GPU显存都塞满了利用率却上不去的童鞋,这篇文章或许可以给你打开新世界的大门噢( ̄∇ ̄) 如果发现经过一系列改良后训练效率大大提高了,记得回来给小夕发小红包( ̄∇ ̄) 不过,这并不是一篇怒贴一堆代码,言(三)简(言)意(两...

论文投稿新规则,不用跑出SOTA,还能“内定”发论文?!

论文投稿新规则,不用跑出SOTA,还能“内定”发论文?! 15

知行编程网 人工智能前沿 2年前 (2022-02-09) 50 0

从5月初开始,CV圈似乎开始了一阵MLP“文艺复兴”的热潮:在短短4天时间里,来自谷歌、清华、牛津、Facebook四个顶级研究机构的研究者分别独立发布了4篇关于MLP结构在图像任务上取得不错效果的论文。虽然研究本身令人兴奋,但发表的过程却让人一言难尽:来自牛津的小哥Luke就在reddit上抱怨到他正在进行的实验被谷歌的MLP-Mixer抢先发表(scoop)了,所以他正在撰写的实验总结也只能以...

从逻辑回归到神经网络

从逻辑回归到神经网络 21

知行编程网 人工智能前沿 2年前 (2021-12-29) 21 0

回顾 小夕在文章《逻辑回归》中详细讲解了逻辑回归模型,又在《Sigmoid与Softmax》中详细讲解了Sigmoid的实际意义(代表二类分类问题中,其中一个类别的后验概率)。   至此,我们已经比较透彻的理解了逻辑回归模型假设函数(也就是用于预测类别的函数)。纯从计算顺序上来说,逻辑回归预测类别的顺序即: 1. 输入样本X与模型参数作内积,结果记为z 2. 将中间结果z输入到Sigmoid函数,...

扫一扫二维码分享