BERT重计算:用22.5%的训练时间节省5倍的显存开销(附代码) 14
一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 虽然TPU的显存令人羡慕,但是由于众所周知的原因,绝大部分人还是很难日常化使用的。英伟达又一直在挤牙膏,至今单卡的最大显存也仅仅到32G(参考V100、DGX-2)。然而,训练一个24层的BERT Large模型的时候,如果sequence length开满512,那么batch size仅仅开到8(有时候能到10)就把这寥寥32G的显存打满...
一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 虽然TPU的显存令人羡慕,但是由于众所周知的原因,绝大部分人还是很难日常化使用的。英伟达又一直在挤牙膏,至今单卡的最大显存也仅仅到32G(参考V100、DGX-2)。然而,训练一个24层的BERT Large模型的时候,如果sequence length开满512,那么batch size仅仅开到8(有时候能到10)就把这寥寥32G的显存打满...
一只小狐狸带你解锁 炼丹术&NLP 秘籍 FastBERT 自从BERT问世以来,大多数NLP任务的效果都有了一次质的飞跃。BERT Large在GLUE test上甚至提升了7个点之多。但BERT同时也开启了模型的“做大做深”之路,普通玩家根本训不起,高端玩家虽然训得起但也不一定用得起。 所以BERT之后的发展也比较清晰,一部分壕大佬们继续搞预训练提升效果,当你对BERT Large望而...
一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 自然语言处理是人工智能领域的掌上明珠,而人机对话则是自然语言处理领域的最终极一环。 以BERT为代表的预训练模型为自然语言处理领域带来了新的春天,在人机对话问题上也不例外。检索式多轮对话任务中,最有名的对话数据集就是Ubuntu Dialogue Corpus了,ACL2018提出的DAM是76.7%的,然而基于BERT来做却直接刷到了85....
一只小狐狸带你解锁NLP/ML/DL秘籍 老板老板,听说BERT是个瞎子 此话怎讲? 它能理解语言,但是理解不了小夕的自拍! video-BERT了解一下 喵喵喵? AI的三大核心板块(CV/Speech/NLP)近几年都相继取得了非常大的发展和进步。但是正所谓成也萧何,败也萧何,深度学习一直在能力泛化和鲁棒性问题上饱受诟病,通用AI之路遥遥无期。 不过,近期得益于预训练模型的成功,似乎跨模态问题...
一只小狐狸带你解锁 炼丹术&NLP 秘籍 还记得去年写下《ELECTRA: 超越BERT, 19年最佳NLP预训练模型》时兴奋的心情,在我等到都快复工的时候,终于看到了它的身影和源码[1]: 才第五吗?没事,期望越大,失望越大 谷歌在github放出的预训练模型效果是这样的: 燃!鹅!在论文中声称的效果却是这样的 Github repo中官方的解释是精调的震荡比较大,他们测试了很多随机种子...
一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 BERT的出现让NLP发展实现了一个大飞跃,甚至有大佬说NLP已经没有可以做的啦,后面就是拼机器拼money了。但是,我认为任何领域的进步之后都会有更苛刻的要求,科研没有尽头,需求也永远无法满足。而多模态,要求机器拥有多维度的感知能力,就是一个更强的挑战。 关于这个话题也逐渐成为另外一个新热点。从19年到现在的论文数量就可见一斑。 所以,为了...
前言 还记得不久之前的机器阅读理解领域,微软和阿里在SQuAD上分别以R-Net+和SLQA超过人类,百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂,似乎“如何设计出一个更work的task-specific的网络"变成了NLP领域政治正确的研究方向。而在这种风向下,不管word2vec也好,glove也好,fasttext也好,都只能充当一个锦上添...
推广返利