最近在刷EMNLP论文的时候发现一篇非常有趣的论文《Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models》,来自斯坦福大学NLP组。论文有趣的发现是让语言模型先在乐谱上进行训练,再在自然语言上训练可以有效的提升语言模型的性能。在看了一大堆BERT-based的模型后,看到这篇文章时便觉得眼前一亮。激发了花椒的好奇心。都说学习音乐可以让大脑更加聪明。难道语言模型也一样?从音乐中获得了“灵感”,变“聪明”了? 于是乎带着脑洞继续往下读。
论文题目:
Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models
为了回答这3个问题,作者提出了一种叫做TILT (Test for Inductive Bias via Language Model Transfer)的测试方法。核心思想是,先用L1语言预训练一个LSTM语言模型,然后固定其参数,直接在L2语言上测试其困惑度。通过改变L1固定L2,来对比不同潜在结构对于自然语言学习的影响。结合文中的流程图更好理解(如下):看图说话:
Q1: 怎么用语言模型训练Music数据呢?A1: 关键是将乐谱转换为线性序列。文中使用了MAESTRO数据集,包含了172个小时的经典的钢琴演奏曲。该数据集采用MIDI格式的音乐数据,每个MIDI文件,对应一个序列的音符的标注信息。因此一首曲子就可转换一个线性的序列,这样子乐谱就可以愉快的和LSTM玩耍了~ 比如对于下面的mid文件[1]:(哈哈,点不了哦~)会被标注为音符"3/4 c4 d8 f g16 a g f#", 然后传递给模型。
内容反馈