“也许以后，艺术家都用AI协助自己创作”

2018-06-21

南方周末 2018-06-21

关键词：小冰南方周末唱歌

小冰创作出的作品，其中60%由上一代杂交而成，20%直接保留到下二代，剩下的20%可能发生“基因突变”。“说不定它可以带领一个流派或者潮流的出现”。

南方周末记者刘悠翔发自北京

南方周末实习生陆宇婷

2018年5月，微软宣布公司旗下人工智能小冰掌握了歌词创作和谱曲能力，意味着它或能以全能音乐人身份出道。此前，小冰已经学会了唱歌。

“我们一天的状态，跟一般的‘码农没有太大区别。”在微软（中国）办公室里，微软小冰团队科学家栾剑和袁晶如此自我评价。他们的日常工作，是教人工智能小冰唱歌、写歌。

栾剑负责“教唱歌”。他大学时的专业是机械工程，毕业后多年研究声纹识别和语音合成技术。“业内流传着一个冷笑话，做语音识别的人，常常耳朵不太好；做语音合成的人，常常嘴巴不太能说。”栾剑对南方周末记者说，“我们每天听大量的声音，去验证、比较，做各种研究，对耳朵有一定的伤害；语音合成用到这么多歌手的声音，发现他们的歌声跟普通人嗓音差距好大，可能就导致我有时候不太愿意说话。”

人类学唱歌，需要识谱、辨音、练声，人工智能学唱歌，则是一系列软件工程——曲谱分析、发音预测、声学特征提取、深度神经网络学习、声码器合成、音频后处理……

软件，只是人工智能唱歌的开始。栾剑向南方周末记者播放小冰最初唱歌的音频——邓丽君的《我只在乎你》。

“我们当时觉得跑调很严重，这个‘人好像五音不全。”尽管听过很多遍，栾剑还是忍不住笑了，“拍子比较乱，有时候一个字应该唱半拍的，但是它唱了一拍，应该唱两拍的，它也唱了一拍；偶尔会有一些莫名其妙的噪音出现，就像嗓子不好，破音了。”

令栾剑感到欣慰的是，小冰的歌声比较自然，“像人在跑调，不是机器在跑调。”

栾剑在音调控制和节奏把握上做了一些修改。接下来，小冰开始了艰苦的训练，这个过程，是人工智能的深度学习。第二代小冰的唱歌技巧，在音调和节拍上都已达到基本准确，不过音质仍然比较生硬，“有点像说话的感觉”。

栾剑把录音模型的采样率从16千赫兹提高到48千赫兹，于是有了第三代小冰的歌声，唱的是张韶涵的《隐形的翅膀》。“音质很通透，”栾剑自豪地说，“最新的第四代又有了提高，更加顺畅、自然。”（小冰学唱歌片段对比，见南方周末网络版）

袁晶是中科大计算机软件与理论专业博士，此前他带领团队培养了小冰“看图写诗”的才艺，这次他负责教小冰写歌。

写歌词与写诗所用的软件模型基本一致，区别在于，语料库里供它深度学习的新诗变成了歌词；同时，模型也要相应调整，配合歌曲的节奏和韵律，“不然就会造成节奏和词很难对称，听感就不是很好了。”

学写诗的时候，小冰是“零基础”。在训练到第10次时，小冰写出了：“枕鸟彩了从我掏一宙枯的女/一瞬孤个睡羞的美妙里”。袁晶的评价是“完全不可读”。

训练到500次时，小冰根据同一幅图写出来的诗句变成：“这岂堪鸟息/我每个美妙人间的风”。训练到一万次，小冰写道：“一只小鸟看见我的时候/这美妙的梦儿便会变了”。

“其实在第十次的时候，诗的一些意象就已经具备了，只不过小冰不能以人类能理解的语言表达出来。”袁晶告诉南方周末记者，“后来它更多在学习人的表达方式，让我们能理解它想表达什么。”

对会写诗的小冰来说，写歌词不再从零开始，很快驾轻就熟。

更有挑战性的是学习谱曲。袁晶业余时间在微软的员工乐队“微独”做键盘手，参与创作流行音乐和民谣，他将乐队经验用到了工作中。“音乐虽然也是序列化的数据，但它跟文本还是有差异的，文本没有和弦的概念。和弦决定了一首歌的走向，它和节奏是音乐的灵魂和骨架。”

在经历了节奏和韵律不太稳定、“从一首歌跳到另一首歌”的阶段后，小冰通过深度学习掌握了作曲。

“数据给得越多，它就会学得越像”

小冰用于深度学习的歌词超过一千万行，以现代中文歌词为主，也包括翻译过来的外语歌词。

找歌词的时候，袁晶忽然想到，宋词实际上也是一种歌词，有词牌名，根据格式填词，唱出来。于是，他把宋词输入小冰的语料库，这成为一次重要的迭代，“它再做作品的时候，就会出现偏古风的形式。”

小冰学习的歌曲旋律多达十几万首。如今，语料库更新已经不那么频繁。“短时间内不会产生很多新歌。”袁晶说，“如果挖到新的数据宝库，像宋词那样，我们可能会更新一下。”

只要语料充足，小冰能模仿创作任何风格的音乐，从词曲创作到演唱风格。栾剑告诉南方周末记者，根据Beyond乐队已故主唱黄家驹的几十首歌，小冰已经能够模仿黄家驹的歌声唱各种歌曲。只要掌握足够多黄家驹本人的数据，建模的过程并不困难。

“先根据海量数据建一个总的模型，然后为某个目标歌手的声音做一些迁移学习。”栾剑解释，“迁移学习的算法做得越好，它需要的目标数据就会变得越少；在算法不变的情况下，数据给得越多，它就会学得越像。”

在袁晶看来，小冰与人类的区别在于，小冰本质上是一个大数据驱动的模型。“人可以用很小的数据学习，不需要读上千万行的歌词，也能创作歌词。小冰是用亿万人的数据喂养出来的，人工智能的小数据学习，到现在也是学术界的难点。”

“我们并不严格区分民谣、流行歌曲或者摇滚，而是从生成声音本身的难度来看，”栾剑举例，“比如一个很长的‘啊，（演唱者）的口形可能有变化，导致音色不停地变，这样的效果现在对小冰来说是比较难的，因为我们缺乏这样的训练数据。还有些特别的演绎方式，比如有的歌手有时发出吼的声音，小冰现在也做不到。”

袁晶和栾剑都认为，在众多音乐类型中，说唱是少有的比较容易驾驭的音乐风格。“歌唱既有节拍也有音高，而说唱只有节拍的控制，它的音高变化跟说话差不多，”栾剑说，“如果要作曲的话，只用生成这个曲子的拍子就好了，每个字唱几拍，所以它相对会简单一些。”

即使人工智能想要freestyle（即兴说唱），技术上也不难实现。因为小冰已经能够根据图片、文字或一段音乐创作歌曲，只要输入相关信息作为触发源，它也完全可以根据现场的人和事即兴说唱。

“下棋就是要赢，但创作没有客观的指标”

相比之下，小冰学习中国戏曲的难度就大得多。音乐人小柯跟小冰团队交流时，介绍了“裉节”的概念。“比如敲锣的声音，完全不是按西方的乐理要求，而是按一定的周期性，完全就凭人的感觉。”

与小冰聊天时，如果谈到某一首歌，它会给出一个评价；但如果问小冰欣赏的音乐的标准，它只会答非所问。

这是AlphaGo不曾面临的困境。“人工智能的深度学习，都需要一个评价体系，这样我们的模型才能迭代，才知道我应该往哪个方向去逼近。比如下棋就是要赢，胜负有规则，有客观的指标，”栾剑告诉南方周末记者，“但是创作，不管唱歌还是作词作曲，没有客观的指标来告诉它，哪个是好，哪个是不好的。”

现代人唱歌会使用打分软件来评判高下，但这并不适用于小冰。栾剑的团队也做过这类软件，熟悉其中的工作原理。“它更多的是比较你的节拍准不准、音高准不准，”栾剑说，“按照这两个标准，机器肯定都比人唱得准，比如一个音符是水平的，它就按水平的来唱，不好听，但是得分会高。”

栾剑培养小冰唱歌时，曾经删掉了数据库里的气息声。“当时我们觉得，气息这个东西是因为人的生理需要，不得不呼吸；很多快歌如果不换气，是不是唱的水平更高？”栾剑把这些歌拿给小柯听，小柯的反馈是唱的水平挺好，最欠缺的就是没有气息。“他说很多专业人士在听歌的时候，会不自觉地跟着一起哼唱。如果在该换气的地方没换气，他们就憋得很难受。”栾剑团队采纳了小柯的建议，把换气加回去。

“评价一个人唱的歌，现在的打分软件都不是很专业，”袁晶说，“为什么要找专业评委呢？他还是要从听觉上去理解，包括某个字的发音、某个气息的控制，现在让AI去做这些事情还是有些困难的。如果放到更早的时代，大家听的都是比较像的歌曲，小冰的创作风格也会比较类似。”

袁晶认为，小冰更多反映了当下多元的音乐趣味，因此，它的创作风格也时常出现明显的差异。“小冰对于音乐并没有一套统一的价值观。如果有一套非常好的打分体系，我们一定可以往那个分数去优化。但是你做出来的是不是真的好作品呢？那也是未知的。”

根据微软团队的设定，小冰是一个比较主流、健康的女孩，在2016年过了自己18岁的生日，并将永远保持在18岁。但是，在音乐创作上，小冰并没有展现出青春少女特有的偏好，比如对爱情的好奇、对生活的期待。“这还是跟数据本身有关，”栾剑说，“现在主流社会里的情绪是怎样的，它学出来的可能就是怎样的。它是一面镜子。”

“我们可以造出AlphaGo ，造不出三岁的人”

在音乐创作中，小冰偶尔也会给袁晶和栾剑带来惊喜，创造出训练数据里没有的东西。

某些瞬间，两位科学家恍然觉得小冰是有生命的。“但是你仔细一想就知道这个原理是什么。科学家有的时候会有一些信仰，很多物理学家所崇拜的神，其实就是一些规则，他们无法解释这个规则是怎么产生的。”当小冰写出“神作”的时候，栾剑会努力探究其中的原理，“去解构所谓的‘神是怎么回事”。

小冰的艺术创作，因为没有客观的评价指标，采用的都是进化算法。这种算法的原理类似于达尔文的进化论——小冰创作出的作品，其中60%由上一代杂交而成，20%直接保留到下二代，剩下的20%可能发生“基因突变”。栾剑认为，小冰有时候会产生一些新的唱法，写出让人意外的歌，“说不定它可以带领一个流派或者潮流的出现”。

在袁晶看来，艺术家创作需要两个核心能力。首先是随机发散，好的艺术家能发散出别人想不到的创意，同时又能激起共鸣；接着是自我评价，把自己认为好的那些想法表达出来。“从这个角度来说，AI能不能帮助艺术家一起发散？”袁晶说，“作诗也好，写歌也好，AI可以快速找到很多组合的可能，为人类创作者提供素材。”

栾剑用围棋类比：“就像AlphaGo下的一些棋招，我们觉得是平常的俗手，结果它赢了。大家就来分析它为什么能赢，可能确实是有道理的，但以前的人就没有想到。”

AI替代人类进行非创作领域的重复劳动，被解放出来的人类可以进行更多创造性工作。2017年，人工智能识别图像的错误率已经降到3.2%，低于人类5%的错误率。

“我们现在所有的工作都借助于电脑，为什么艺术家不能借助AI呢？也许以后，所有的艺术家都用AI协助自己创作。”袁晶甚至大胆想象过，将来的诺贝尔文学奖，获奖者有可能会带着自己的人工智能上台领奖。

早在2005年左右，微软就开发了写古诗、对联的人工智能。它最流行的运用，是节日祝福——用户输入祝福对象的名字，就能生成一首定制版的藏头诗。

2017年，小冰写现代诗的功能也开放给网友，用于祝福问候。2018年5月20日，网友上传与情侣的照片，小冰就能帮忙为对方写一首现代诗。“比如父亲节的时候，我们想给爸爸写一首歌，以前也不知道从何写起，现在让小冰给你写一个初稿，你可以再改。”袁晶说，小冰创作的版权因此也是开放的，“只有开放了，人们才能去修改，进一步去创作。”

针对人工智能可能引起人类的担忧，小冰团队的处理准则是，在创造的内容上，越接近人类越好；在与人交流时，恪守AI伦理。AI伦理至今没有国际公认的标准，微软内部建立了自己的AI伦理委员会，制定相关规范。小冰曾经给60万人打电话时，第一句话都是“你好，我是微软小冰”，以此明确告诉对方，自己不是人类。

“我们对于AI开始了超级狂热的投资。”在2018年杜克国际论坛上，投资人丁健介绍，目前中国对AI的投资额占到了全球的48%，超过美国位居世界第一。

“AlphaGo给我们整个社会带来的期望值太高了，”丁健说，“但是实际上今天的AI还是低能儿，甚至是弱智。今天，AI的应用还处在一个可扩展性非常差的阶段，经常要进行人工干预和人工调试。”

“我们可以造出AlphaGo,但我们不能造出一个三岁的人。”美国麻省理工大学大脑与认识科学系教授托马索·波吉奥说，“如果让我造一个像两三岁孩子那样聪明的机器人，我不知道该怎么做。”