知行编程网知行编程网  2022-06-09 15:00 知行编程网 隐藏边栏 |   抢沙发  2 
文章评分 0 次,平均分 0.0

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI

金磊 发自 凹非寺
转自 | 量子位

见识过「听歌识曲」,体验过看弹奏动作识曲吗?

就像最近的一档综艺节目中,郎朗比划了几个弹钢琴的动作,他媳妇(吉娜·爱丽丝)秒答:《柴可夫斯基第一协奏曲》!

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI

来自华盛顿大学的研究团队提出了一种新方法Audeo,就解锁如此神奇的操作——仅仅根据钢琴师弹奏时的动作,就能直接复现原声音乐。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI

先来体验下这种神奇的感觉。

下面便是钢琴师演奏时的动图,我们能看到的,仅仅就是手指在钢琴键盘上的变换。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI

然后,你知道这是哪首曲子吗?

大部分人(或许郎朗级别的大神们可以)应该是猜不到的。

但AI可以,下面便是这项技术复现的原声音乐。


那么,这般神奇的操作是怎么实现的呢?


   三步实现「看动作识音乐」

简单来说,Audeo方法主要包括三大步骤,分别是:

  • 钢琴按键检测

  • 生成乐谱内容

  • 合成音乐

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI


钢琴按键检测

这个步骤可以理解为一个多标签(multi一label )分类问题。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI

输入是弹钢琴视频中5个连续的帧,将它们输入到Video2Roll Net中,经过ResNet18、特征变换、特征细化(refinement)和相关学习的处理,最后输出中间帧的按键预测。

值得注意的是,在这个步骤中,研究人员没有直接使用ResNet18,而是在此基础上做了算法改良,提出了Video2Roll Net。

这样做的原因很简单,就是ResNet18检测到的「精度」不够细致,下面2张热力图的对比,便一目了然地展示了2种方法的效果。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI


生成乐谱内容

在第二个步骤中,就需要将 Roll 转换为 Midi(乐器数字接口),以便合成音乐。

但在上步生成出来的 roll ,没办法直接转换成 Midi,一个至关重要的原因就是—— Roll 不包含时间信息

此外,由于 Midi 比较依赖音频流,所以经常出现的一个现象就是:演奏者按一个钢琴键的时间较长时,相应频率的幅度会逐渐衰减为零,也就是在 Midi 中会被标记为零。

像下面这张图中显示的那样,就会造成不匹配的现象。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI

并且,研究人员表示:

这种不匹配的现象,是经常发生的。

于是,研究人员便提出了一个叫 Roll2Midi Net的方法解决了这个问题。

主要是在二者之间加入了一个生成对抗网络(GAN),来调节并解决上述问题。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI


合成音乐

最后一步,就是根据调节好的 Midi 来生成音乐,主要过程如下图所示。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI

将 Midi 作为输入,经过一个上采样,而后可以选择通过「Midi 合成器软件」,也可以选择使用「PerfNet+Unet+GriffinLim」的组合方式来生成音乐。

至于 Audeo 方法与其它方法的定量比较,主要集中在第二个核心步骤。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI

可以明显看到,研究人员在第二步骤中提出来的 Roll2Midi Net方法,在各项评测指标中,都具有一定优势。


   合成音乐还可以转换成别的乐器

当然,Audeo 除了精准复现视频中的钢琴音乐外,还有一个更有意思的玩法。

它可以将钢琴原声,转换成其他乐器的声音

例如,可以将钢琴音乐转换成吉他的声音。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI


还可以将钢琴音乐转换成日本十三弦古筝的声音。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI


这个有趣的玩法,主要得益于「合成音乐」这个步骤,选择的方法不同,得到的结果便不同。


   研究团队

这项研究由华盛顿大学的三位研究人员共同完成,研究还入围了本届CVPR。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI

从左至右:Kun Su、Xiulong Liu和Eli Shlizerman

论文一作是Kun Su,本科就读于美国纽约州伦斯勒理工大学(RPI),目前在华盛顿大学攻读电子与计算机工程系攻读硕士。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI

Kun Su

研究的另一位作者是Xiulong Liu,本科在上交大就读,硕士毕业于华盛顿大学,目前在OneClick.ai 担任数据科学家。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI

Xiulong Liu

论文最后一位作者是Eli Shlizerman,华盛顿大学应用数学及电子与计算机工程助理教授。

目前专攻生物神经网络和人工神经网络的基本特性,通过结合时空数据分析、机器学习和动力系统理论的方法将这两个系统联系起来。

CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI

Eli Shlizerman

那么问题来了,如果以郎朗的手速弹奏钢琴,这个AI的效果还会如此惊艳吗?

论文地址:
https://arxiv.org/abs/2006.14348

作者系网易新闻·网易号“各有态度”签约作者

<pre style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;widows: 1;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section><p style="margin-bottom: 15px;padding-right: 0em;padding-left: 0em;max-width: 100%;color: rgb(127, 127, 127);font-size: 12px;font-family: sans-serif;line-height: 25.5938px;letter-spacing: 3px;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(0, 0, 0);box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;font-size: 16px;font-family: 微软雅黑;caret-color: red;box-sizing: border-box !important;overflow-wrap: break-word !important;">为您推荐</span></strong></span></p><p style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;">MIT校长评中美科技竞赛:胜利不是期盼对手的失利</p><p style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="font-size: 14px;">GitHub重大更新:在线开发上线,是时候卸载IDE了</span></p><p style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="font-size: 14px;">美国官宣117000名 IT 人失业,真是史无前例!</span><br  /></p><p style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;">数据分析入门常用的23个牛逼Pandas代码</p><section style="margin: 5px 8px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;">特朗普拿H1B签证开刀,LeCun吴恩达等实名谴责!<br  /></section></section></section></section></section></section></section></section></section>
CVPR 2020 | 看弹奏动作识曲,你见过吗?跟郎朗媳妇有得一拼的AI

本篇文章来源于: 深度学习这件小事

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享