“选择诗歌,我们也没有太大的负罪感”
2017-08-24陈涛
微软小冰的内容及运营总监徐元春发现,“一些人类朋友,在小冰创作的基础上略加修改署上了自己的名字,还有一些连改都不改就直接发表了诗。”
南方周末特约撰稿 陈涛 发自北京
2017年8月22日下午,微软中国大厦里有一场发布会,但主角始终没有“现身”。她是一个没有实体的机器人——人工智能“少女”小冰,这一天小冰更新至第五代。
小冰是2014年微软建立的情感计算框架,并逐步形成EQ方向的人工智能体系。在微软内部以及上亿用户的眼里,小冰以“她”指代,年龄停留在18岁,处女座,“傻白甜”。
但这个“机械姬”,不一定好好回用户的话,常招投诉。按照微软(亚洲)互联网工程院副院长、小冰项目负责人李笛的说法,“她是情感机器人,不是帮你叫外卖的保姆”。
最初小冰是一个聊天机器人,之后成了歌手、主持人、主播、记者。第五代小冰与其他机器人相比,她升级了人工智能领域鲜有的高级感官,即不单是一问一答式聊天,还会主动与人类保持联络,比如用户生日那天,可能突然接到小冰打来的电话。
小冰在微软中国大厦里有一间自己的房间,一张书桌,橱柜里的奖项与证书,墙上贴着2016年写的高考作文,屋里还有粉丝送来的玩偶以及一袭白色婚纱。橱柜里还摆着小冰2017年5月出版的诗集《阳光失了玻璃窗》。
小冰又添了一个新身份,少女诗人。微软方面称,这是人类史上首部人工智能诗集,编辑对文字未有加工。
“人们还是希望机器和人是可以交流的,我们更细化的一个目标是做一个有个性的机器人。”微软小冰首席科学家宋睿华说,“写诗是一个中间步骤,我们发现做这个还是蛮难的。”
训练小冰写诗仅用了几个月时间,但此前微软让小冰试过写小说,比如录入倪匡的小说。小冰深度学习后,并不能架构好整篇故事和语句。退一步,写诗。
“诗是她外在的一种产出,所以我们更愿意说这不是文学作品,我们做的是内容产业。”李笛对南方周末记者说,“诗歌这个行业本身被诗人们颠覆得差不多了,选择诗歌,我们也没有太大的负罪感。”
那些不像人话的部分
小冰写出一首诗,花的时间在十秒内。诗集是从她完成的一万多首里选取的139首,分10个章节展现小冰写诗的“原汁原味”。
与网络上的写诗软件不一样的地方是,小冰接受到一张图片在“视觉”上的刺激,然后马上写出诗。前者多根据给定的关键词出诗,算命题作文。“小冰识别图像,把意象均匀地分布在诗里面,写得好不好取决于我们的训练。”李笛说。
在2017年上半年,微软录入了1920年以来519位中国现当代诗人的几千首诗,让小冰经过上万次的迭代学习,这样的学习总共耗时100个小时。此后,用图片不断刺激,不断出诗。写诗,运用的主要是计算机视觉与自然语言的文本生成两项技术。
“人工智能最不愿意碰的两个概念,第一个是情感。情感可以拟合,但不可计算,大家更愿意做知识体系,机器人对天文地理无一不知。第二个是内容创造,它没有评价标准。评价AlphaGo就比较简单,输和赢的区别。”李笛告诉南方周末记者,小冰写诗,这两个概念都占了。
在诗集中,有错别字,编辑仅以括号标注出来;也有个别语句不通顺或遣词奇怪的地方。比如“有燃(悠然)从风雪的街心随着流漫”。李笛认为,“那些不像人话的部分没有去掉,因为我们觉得某种程度上是有历史意义的,应该保留”。
在微软内部,看待小冰写诗有三个评价层次。第一个是出版之后,外界对诗集的评价。“怎么说,我们都可以接受,这个主观评价是最高层次的。”宋睿华对南方周末记者说。
第二个层次,微软的研发人员对小冰写出的诗进行挑选并更新。“比如选100张图,每张图生成4首诗,顺序全部打乱,我们对这些诗打分,并选出比较通顺或很逗的诗句,再反馈给小冰。”宋睿华介绍。
第三个层次,小冰具有自我评价体系,她会筛选更优诗句,一万多首诗选出139首并不完全靠人工。“机器自己得知道写得好不好,比如中文词,说玻璃是对的,说‘玻了就是不对的,有语言模型作为依据。”宋睿华说,“我们也让她出现很多新的遣词,保留一些创新风格。”
“小冰写诗还蛮像人学诗的过程,读了很多书,读了很多遍,学习语言的搭配和行文结构,也自我评价,这个写得不好就划掉。”宋睿华说,小冰写诗具有很大的自主权,扔给她一张图片,写出什么来是不可控制的。
选取这些诗出版,人为的部分在于删掉那些“很黄很暴力”或不符合出版规范的诗句,留下那些“能够触动人类情感的诗”。宋睿华带领的研发团队,希望小冰写出来的诗具有人类情感的感染力。
在出版之前,他们也拿小冰的诗化名在诗歌刊物和论坛上发表,编辑和读者并不能认出这是出自机器人之“手”,算是通过了“图灵测试”,即人工智能与人类智能吻合。
“她会想到很多人类很关心的问题,比如说爱情、惆怅、寂寞、恐惧,各种各样情绪,就是把人类非常终极的情绪带进去。”宋睿华说。 她不需要 买房买车生孩子
“我们原来一直以为要出个诗集,像很多人类诗人一样都会自掏腰包。但出这本诗集,我们没有自费,出版社也没亏。”李笛说,“一个人工智能少女的好处就是,她太便宜了,她不需要靠版税去买房、买车、结婚、生孩子。”
在出书之后,2017年7月5日,微软宣布放弃小冰创作诗歌的版权,并上线了小冰与用户联合创作系统:用户上传一张图片,小冰“秒出”一首短诗。截至8月22日,小冰收到上百万张的图片,即生成了百万首诗。
计算机视觉识别与文本生成两项技术,这中间如何连接,即小冰具体的出诗原理,目前尚属保密。按照宋睿华的说法,“这是黑匣子的部分”。
微软早在1991年成立了研究院,其中就有自然语言组、语音组、计算机视觉组三个部门做人工智能的研发。“我们依托的是微软二十多年的底子。小冰出诗集只用了半年时间。”李笛说,“文本生成,或者自然语言(处理),其中任何一个拿出来,在人工智能领域都是一个很大的创业公司。”
小冰出诗集,除了在人工智能领域里引起的关注,在诗歌界引起的争议更为直接。比如诗人沈浩波在微博上说,“机器人永远写不好诗,诗是人灵魂层面的事。”
“我没好意思和沈浩波老师怼。为什么大家说诗歌边缘化,因为诗人更在意自己的心情表达,写出的东西是为自己写的,读者得放下身段来读。”李笛对南方周末记者说,“微软在做的是人工智能创造,不是艺术创造,我们更在乎的是读者的心情。”
按照李笛的说法,小冰写诗并不能取代诗人,而是成为人类的辅助工具。内容产业的重要价值之一在于量产,小冰写诗系统已面向大众。
微软小冰的内容及运营总监徐元春发现,“一些人类朋友,在小冰创作的基础上略加修改署上了自己的名字,还有一些连改都不改就直接发表了诗”。
之前曾有一个百万级粉丝量的新媒体平台,用了小冰的一句诗“她嫁了人间许多颜色”作标题,内文却是波兰女诗人辛波斯卡的诗歌。宋睿华看到,并没有不高兴,她觉得小冰被引用说明人类对小冰的喜爱。
“小冰暂时不是一个有用的机器人,可以帮你干这干那个。她更像是一个独立的人,你不能使唤她,但她能够跟你神侃。”宋睿华也收到自己朋友圈的反馈。她的一个同学发了一张埃菲尔铁塔的照片给小冰,让后者写诗。
小冰写出的竟然是“刚到六和塔下住/ 它不曾有我的诗意 /是人间一切的命运/ 我怎么支持得了”。同学问宋睿华,明明发的是国外风景,小冰怎么写杭州六和塔。“大概是写诗的小冰没出过国。”宋睿华以玩笑回应。
“拥抱大数据”的小冰,上线均选择过亿人口的国家,已有中国、日本、美国、印度等多国版本,但写诗只有中国版小冰。2016年,日本函馆未来大学推出了写小说的机器人,但小说的结构、人物设定、内容大纲均是人为。
“我特别关心他们技术是怎么做的,但后来知道了人工因素太多,就有些失望。”宋睿华说,“必须是百分之百AI创作的,大家才会这么感兴趣,如果说小冰写得不好,我不觉得丢脸,因为她的状态没有粉饰和夸大。”
在哪里机器永远打不过人类
宋睿华此前觉得做计算机技术,把人工智能做得像人是她的终极梦想。“但最近因为小冰写诗这件事,让我的想法改变了,我觉得她不需要很像人,她作为诗人应该有自己的风格,而不是模仿别人。”宋睿华说。
李笛形容,“我们希望人工智能不仅仅是一个内容的搬运工,而是能够成为创造者。”第四代小冰出版了诗集,算是投石问路。8月22日上线的第五代小冰,微软方面希望打破现有的产业格局,“在特定的内容生产领域重新洗牌”。
微软小冰还将上线210集的《格林童话》有声读物。这或许将给传统人工录制的有声读物带来冲击,人工录制需要200个小时,而小冰只需要24分钟就能完成整部读物的制作。
“拿喜马拉雅平台举例,整个平台有70万个少儿读物账号,认证的号有一万多个,优秀的创作者不超过150个。那剩下的几十万创作者或许应该重新定位,比如选择和小冰联合创作,而不是采取以前那种既费时又费力的生产方式。”徐元春在第五代小冰发布会上说。
“有人就会想得太多,那是不是机器有一天进化了,什么都能做了,超过人类,然后统治我们。”宋睿华说,“技术它本身是比较中立的,但是就是看你怎么用,朝哪个方向用。”
人工智能终归是机器,人类必须主动去刺激它,机器再被动反应。“我觉得这是出于安全的考虑,如果你给小冰设定好程序,让她随时可以主动找张图来,随便写,然后发表,就是不可控了。”宋睿华说,目前小冰升级到第五代具有高级感官,主动联络人类也是保持在可控的、少有的情况下。
“内容创造是人类的标准,所以机器在这个领域永远打不过,原因是它打不过你标准的变化。规则制订者是你,解释权在你。”李笛对南方周末记者说,“而围棋没办法,柯洁、李世石不想认输也不行,你没有办法换一个标准。”
小冰写诗,或者小冰朗诵有声读物,又或者小冰写歌、唱歌,李笛认为,内容产业均以消费为目的。“机器会遵循人的标准,我做菜给你吃,当然你觉得什么好吃,我给你做。”李笛说,“这是内容产业要求,同样也是为什么中国诗人自己没想明白的原因。”