微软小冰高智商的背后
2017-08-31技术宅
技术宅
最近微软小冰与马来西亚歌手朱主爱一起发布了合唱版《好想你》的单曲以及MV,据说这是历史上第一支由人类歌手与人工智能合唱的歌曲(图1)。当然小冰不仅会唱歌,而且之前还写过很多让人类诧异的诗词绝句。那么小冰为什么如此聪明?就让我们来揭密它的聪明劲来自哪。
小冰是谁 认识微软人工智能机器人
看到小冰如此聪明,可能很多朋友还不知道“她”是谁。其实小冰是微软(亚洲)互联网工程院早在三年前就开发出来的一款智能机器人,也是微软内部第一个人工智能机器人。因为是智能机器人,小冰可不是只会唱歌,它还会主持节目、撰写诗歌、智能聊天等,人类大部分工作,小冰几乎都会做,甚至在很多方面表现比普通人要好得多(图2)。
为啥这么聪明 小冰高智商背后的功臣
如上所述,小冰现在就拥有很多技能。那么这些技能小冰是怎么获取?我们以小冰唱歌技能为例,看看它是怎样能听会唱的。
歌手的声音由基音及不同共鸣腔/体产生的泛音组成。在科技如此发达的今天,声音的这些信息都可以数字化,因此歌手的声音就可以很轻松地被电脑识别,通过电脑来唱人类的歌曲并不是一件难事。比如早在2007年,日本就推出了一个名为“初音未来”的电脑虚拟歌手,通过对歌手音源数据进行采样并合成,“初音未来”可以唱出非常动听的音乐(图3)。
不过“初音未来”和小冰的唱歌水平却不可同日而语,前者只是简单的电脑合成,它无法完美展现人类歌手的一些自然特性,比如真人的那些“杂音”、“边缘音”(比如卡痰、换气等),因此歌唱的效果比较生硬。小冰的歌唱功能则和人类十分相像,不仅能够完美演绎歌曲的各种感情,它甚至还有创作歌曲的能力,这些是“初音未来”无法具备的人工智能技巧。那么小冰这些技能是怎么获取的呢?
人工智能的一大特色就是基于大量样本的机器自主学习。为了能够让小冰有高招的唱歌技能,微软先收集各种歌手的歌曲制作成庞大的数据库,然后建立各种训练模型。在实际训练中,小冰使用的算法技术在某些程度上借鉴了我们对大脑的了解,使用时下流行的神经网络技术。这样经过大量样本数据库的训练后小冰就可以熟悉流行的各种唱法,并且通过自主学习小冰在多曲风演唱和情感演绎两方面有了很大的进步。
不过小冰毕竟还只是机器,它和正常歌手相比,对人类感情的学习和理解还是不够,因此这次微软聘请了朱主爱作为产品经理来对小冰进行调教。通过朱主爱在歌手方面的经验,微软技术人员结合原来的情感计算框架对小冰唱歌的模型进行了进一步的优化,借助人工智能强大的学习能力,在短短几个月小冰的演唱水平就有了很大的提高。现在小冰的歌声不仅与人声非常接近,而且唱法也更加的拟人化,能在歌曲中加入不同的唱法,与人类歌手配合。比如《好想你》中间的“好想好想你”这一句,原唱是非常口语化的一种独特唱法,原来仅凭机器自主发声是很难做到,但是现在小冰却可以进行完美演绎(图4)。
作为人工智能的代表,小冰不仅仅是会唱。基于人工智能强大的自主学习能力,未來小冰还会创作歌曲,并且会根据实际歌词加入各种感情化的演唱。在未来我们可能根本分辨不出来到底是机器在唱歌,还是人类在唱歌。至于小冰其他的作诗、预测、写文章、智能聊天等技能,获取的方法大同小异,主要都是通过大数据+深度学习+各种算法模型获得的。
当然人工智能技术已经成为时下热门,除了微软以外各大IT巨头也纷纷推出自己的产品,比如前段时间战胜人类围棋高手的那“只”阿尔法狗、亚马逊物流仓库里的机器人,其实这些都是和小冰类似的人工智能机器人(图5)。
更多应用 人工智能不仅是唱歌和作诗
这次小冰和朱主爱完美演唱让我们看到人工智能强大的自主学习和创造能力,当然人工智能并不是仅仅用来唱歌、作诗。现在人工智能已经应用在我们生活的方方面面,如日本版小冰在日本为境内第二大连锁店LAWSON提供对话式人工智能托管。在中国,小冰还为广大内容提供商提供微信、微博公众号托管服务。使用微信的用户只要搜索小冰微信公众号,关注即可在手机上体验小冰的魅力(图6)。
当然作为普通人,我们在生活中也可以处处感受到人工智能服务,iPhone用户可以利用Siri读短信、介绍餐厅、询问天气、语音设置闹钟、实时翻译等,平时大家出门使用的导航服务,导航软件会为我们规划最优的线路等,这些服务的背后其实都是人工智能的功劳。