编者按:机器人已经开始做很多工作了,这并不奇怪,不过机器人现在所代替的一般是繁琐的机械性的工作,在创意和艺术方面,机器人可能还有很远的路要走。不过现在有位叫“Shimon”的机器人开始尝试进行音乐创作了,而且还能积极与人类配合,它是怎么做到的呢?IEEE Spectrum 的记者 Evan Ackerman 对 Shimon 的制造者进行了采访。

在佐治亚理工学院音乐技术中心, Gil Weinberg 凭借其“机器人学”和“人工智能”的相关专业技术和创造力,开始让他们的机器人进行音乐创作。至今,他们不仅完成了很多机器人音乐项目;还进行了大量非常有趣的、关于机器人与人类合作进行即兴音乐创作的调查研究。最值得关注的是他们的“Shimon”机器人,一个有着四条胳膊的、极富表现力的“马林巴琴演奏家”,它能够对音乐进行实时的分析,并与人类作曲家进行即兴音乐创作

Shimon的音乐创作才华着实让人眼前一亮,Shimon 的音乐天赋在很大程度上受到了人类作曲家的限制。而现在,Shimon利用了深度学习,可以独立创作出了有结构的、连贯的乐曲。

下面是Shimon的第一支原创古典爵士乐曲:

Shimon的“音乐老师”是来自“乔治亚理工大学”的博士生Mason Bretan。你现在所听到的音乐旋律,其实是一个“种子旋律”在神经网络运行后的得到结果。这个神经网络是经过近5000首完整的歌曲(其中包括了贝多芬、披头士、Lady Gaga、Miles Davis和John Coltrane的歌)和大量音乐元素(包括即兴歌曲、音乐主题、音乐片段、歌词等)测试训练的成果。

在Shimon独创乐曲的第二段中,Bretan使用了一个节奏稍快的“种子旋律”,所以这一段的音乐与上一段风格完全不同,节奏明显更加轻快:

我们必须要知道,Shimon的作曲过程并不是简单地将不同的音乐片段组合到一起,也并没有使用所谓的“音乐生成器”。Shimon的曲子实际上是深度神经网络对成千上万首歌曲进行分析、学习后的结果。它能够创作出和声和弦,并且能够像人类一样关注于曲子的整体结构,而非乐章的某一部分。

Bretan把Shimon的这种创作特点称作“高级音乐语义学”。我们现在还不能完全认同Shimon的音乐,因为它创作的曲子说到底只是一个深度学习系统的创造性输出。Weinberg把Shimon的音乐形容为“美妙的、振奋的,同时也是奇怪的”。Shimon的曲子确实与人类创作的音乐有共通之处,但它同时也有着自己的独创性。

为了进一步了解Shimon音乐创作方面的更多细节,我们通过电子邮件与Bretan和Weinberg教授进行了交流:

 IEEE Spectrum:这几段音乐视频是您从Shimon作品中特意挑选出来的吗?这些曲子是不是Shimon的作品中特别出色的?

Gil Weinberg:这些是Shimon使用深度学习创作的前两部作品,并不是我们有意挑选的。这两首曲子是Shimon在对大量歌曲进行分析学习之后创作出来的作品,同时也是其“种子旋律”的展现。如果我们扩大了训练Shimon的歌曲数据库,在训练数据中加入了很多不同的音乐元素;或者我们输入了不同的“种子旋律”——那么Shimon创作出的音乐就会大不相同。

IEEE Spectrum:如果只以一种类型的音乐作为数据训练机器人(假设是古典乐,或者甚至是某个作曲家创作的古典乐),那么这个机器人创作出的曲子与训练数据相关的程度究竟有多大?

Weinberg:Shimon的音乐与训练数据集的关系非常密切,所以如果训练数据集中只包含一个作曲家的音乐作品,那么Shimon创作出来的音乐很可能与这个作曲家的风格非常相似。另一个非常重要的创作要素是“种子旋律”,它对于音乐的风格有着至关重要的影响。

IEEE Spectrum:Shimon的训练数据集中为什么既有零散的音乐元素,又有完整的歌曲?它是如何做到将这两种数据整合的呢?

Mason Bretan: 我们是想让神经网络通过这些数据,理解重要的结构性概念。如果一个人想要写作,那他必须要先了解词语、句子、段落的概念。在音乐创作中,歌词、主题、音乐片段都是必不可少的组成部分。让神经网络自己学习这些音乐概念,我们就只需要通过改变音乐序列的长度对它进行动态的训练,从而让这个网络根据前一段曲子来预测下一片段的曲子,或者根据前两段、前八段,直到前十六段乐曲来预测接下来的音乐片段。

IEEE Spectrum:您能向我们详细地讲述一下Shimon作曲的过程吗?

Bretan:Shimon作曲的第一步,也可以说是最重要的一步,就是“神经嵌入”,意思是让神经网络学习一小段音乐的有效数字表示。在“语言建模”中,“词向量”是神经网络学习词语概念的方法。在音乐创作中,有着与之相似的操作过程,通过这样的操作,神经网络就能学会有效地表示一段乐曲。

第二步就是“音乐序列建模”,即对这些音乐片段进行预测。经过训练后的神经网络需要根据前面给出的音乐段落,对接下来的曲子进行预测。这并不是机器人训练中通常使用的“强化学习”——机器人通过学习一系列离散的动作来解决问题。Shimon是在一个连续的空间内预测一个数字序列。假设我们给神经网络的序列是“1,2,1,2,1,2,1”,那么接下来网络就会预测出数字“2”。这就意味着在训练中,离数字2越远,网络对参数的更新就越具有实质参考价值。因此,如果网络经过了训练,接收到一个“种子旋律”,它就能够不断地对接下来的音乐片段进行预测,而这些预测的音乐片段实际上就成了Shimon的音乐作品。

IEEE Spectrum:Shimon作为一个“作曲家”,有没有独特的创作风格呢?Shimon的音乐作品与其他的人类创作的音乐作品存在哪些不同呢?

Weinberg:我们的机器人“音乐家”创作的基本原理是将人类喜欢的音乐与音乐演奏的新方式充分结合。在这里,深度学习建筑主要是在捕捉人类使用的音乐概念和模式。作为创作的一份子,我们可以用算法任意添加一些数学序列,然后Shimon就有可能创作出一些新颖、美妙、奇怪的音乐了。

IEEE Spectrum:除了音乐创作以外,这一学习方法和即兴创作技术还有其他的实际应用吗?

Weinberg:我们现在正使用的是“LSTM网络”(长短期记忆网络)和“基元选择”。这两种方法都能用于“语言建模和生成”,而“语言建模和生成”就等同于我们所说的“即兴创作”。

IEEE Spectrum:那么您二位接下来研究的方向是什么呢?

Weinberg:我们现在开始研究如何让深度学习不单单从一系列符号象征中学习,还能从人类音乐表演的数据中学习。这就意味着机器人不仅要知道乐曲中的旋律,还要掌握演奏这些音乐的方法,让它听起来更具有表现力。

Bretan:而我接下来研究的大问题是关于互动,以及如何在音乐创作中获取对音乐更深层次的理解。Shimon有四支胳膊,它与有着十指、两臂的人类相比,在音乐领悟方面到底有什么不同呢?

注:本文由「图普科技」编译,您可以关注微信公众号tuputech,体验基于深度学习的「图像识别」应用。

 

四只胳膊,可与人类合作即兴作曲,这款机器人是怎么做到的?

发表评论

电子邮件地址不会被公开。 必填项已用*标注