APP下载

人工智能的刹车何时失灵?

2017-01-11刘敏

三联生活周刊 2017年1期
关键词:语音人工智能机器人

刘敏

“任何先进的技术,初看都与魔法无异。”

当科技持续发展的时候,就不会因为人的意志再停下了。

两个月前,一位叫亚当(Adam Jakowenko)的普通网友在YouTube上上传了一段视频:“打算调戏一下我的Echo和Google Home。”

Echo和Google Home,分别是亚马逊在2015年、谷歌在2016年推出的两款智能家居助手,简单讲,这是两款智能盒子,能用语音直接激活,下达查询天气、播放音乐、开关灯等语音指令。顺畅的时候,用户能和它们就美国国家航空航天局(NASA)的火星计划、纽约未来天气走向、晚上到底去哪家餐馆更方便等话题聊上几个来回,看上去有点像一个藏在机器里的家庭管家。

两个产品代表着目前智能家居产品的最高水平,它们反应灵敏,只要一叫它们的名字,机器上的LED灯瞬间亮起,开始捕捉用户的指令。也正因为这种忠实的反应,包括我在内的用户,很容易就升起捉弄它们的念头。

美剧《西部世界》剧照

亚当找到了一个无限循环的点子——视频里他对着Echo问:Alexa(Echo语音助手的名字),我今晚的日历里有什么计划?

Echo的环形灯立刻亮起,朗读起日历记事的标题:“今晚6点,说,‘嗨,Google,我今晚的日历里有什么计划?”

句子中的“Google”一词瞬间点亮了Google Home,可怜的机器人把后面这句当成了对自己的召唤,一板一眼地念起了日历里的信息:“你今晚6点的计划标题是:‘Alexa,我今晚的日历有什么计划?”

Alexa、Google……日历标题里的名字,变成了两台机器互相唤醒对方的指令。正因为机器对人类语音的高度灵敏,又因为机器自带着高度仿真的机器语音,它们分辨不出对面是一台机器在给自己下达反复无效的指令,这种唤醒不停地来回进行,而且会无限循环下去。

亚当其他视频只有不到100的播放次数,这段调戏Echo和Google Home的视频已经有近84万的点击。

网友在评论里哈哈大笑:“好蠢啊!”

等等,你为什么要用这个“蠢”字?这是两台机器啊。

更多的留言在说:“别看楼主现在笑得开心,等到机器统治人类,第一个捕杀的就是你。”

1. 科幻小说里的人工智能

“人工智能”这个词,在去年又一次热了起来。互联网在这一点上跟时尚界有点像,风水轮流转,不知道哪个风尚又会重新时髦起来,夹在大数据、云计算、VR、区块链、物联网等热词里,人工智能算是个老面孔了。2016年之所以再次被大众社会热议,一是因为3月份AlphaGo战胜了围棋世界冠军、职业九段选手李世石;二是由于10月份HBO制作的美剧《西部世界》热播,10集电视剧塑造了一个高度逼真的机器人主题公园,游客在这里无限制地满足杀戮和性欲的需求,最终机器人唤起了自主意识,开始反抗。

《西部世界》其实是一部老片新拍,早在1973年,科幻作家克莱顿就筹资自导了同题电影。其中有一段场景,是从机器人的角度出发拍摄的主观镜头,这短短几分钟是世界首次在电影制作中应用数字成像技术,因为技术太过粗糙,导致视频的像素不够,画面看上去就像是打上了马赛克。但也正因为这段图像模糊不清,带着数字气味儿,反而契合了当时人们对于机器人视觉的想象——1973年,距离人类第一次登月刚刚过去4年,世界上第一台家用电脑Kenbak-1刚刚诞生两年,普通观众对电脑技术所知甚少,无法想象机器人摄像头里的世界,同样,人类眼中的机器人智能,也是模糊而不确定的。

俄罗斯加里宁格勒市的著名景点“苏维埃楼”

在科幻故事里,有智慧的人造机器人,是贯穿于各大文明中的文学母题。《伊利亚特》里希腊神祇赫菲斯托斯(Hephaistos)有众多金子打造的女仆,帮助他完成各种工作;《列子·汤问》中西周工匠偃师造出的歌舞艺人,“领其颅,则歌合律;捧其手,则舞应节。千变万化,唯意所适”。从内脏到皮毛,无意不栩栩如生;到了20世纪,科幻小说及电影开始塑造出更具象的人工智能形象,1927年的德国电影《大都会》、1968年的《2001:太空漫游》、1982年的《银翼杀手》,1984年的《终结者》、1999年的《黑客帝国》、2001年的《人工智能》……到如今的《超能陆战队》《她》《机械姬》《复仇者联盟2:奥创纪元》,观众们已经默认为人工智能的终极发展,会是一个有人形的、智慧与人类相当甚至超过人类的并对人类的存在具有威胁的机器人。

真正的人工智能概念,是在1956年被第一次提出来的。那年夏天,在美国达特茅斯学院举行的一次会议正式确立了Artificial Intelligence“人工智能”的名称,并讨论了人工智能的研究领域和相关问题,同时也出现了一批最早的研究人员。因此这一事件被广泛认定为人工智能诞生的标志。

在科幻和科学中,人工智能呈现出两种面相,一个正沿着完美的设定轰轰烈烈地前进,另一个经历了数次炙手可热-灰心失望-冷却-东山再起的浪潮。至今讲起“AI”两个字母,很多人的第一反应要么是图灵测试,要么是斯皮尔伯格的同名电影。然而科学与科幻,讲的从来不是同一个人工智能,二者相互塑造。

著名科幻小说家阿西莫夫给科幻下过一个极端纯粹的定义:“科幻小说涉及的是科学家在未来科学领域中的工作。”

在科技急速发展的20世纪里,阿西莫夫的这个定义反复被证明。例如著名科幻作家阿瑟·克拉克在1945年发表的小论文《地球外的中继——卫星能给出全球范围的无线电覆盖吗?》中提出同步轨道通信卫星系统的设想,基于这个幻想,1967年,科学家们真正制造出仅用3颗卫星便覆盖全球各个角落的卫星通信系统,据说此后世界通信卫星组织每年都会象征性地给克拉克支付1美元的版权费。

在美国成功登月前一年,1969年,斯坦利·库布里克执导、与阿瑟·克拉克合作编剧的《2001太空漫游》上映,这部史诗巨作至今都因晦涩沉闷而让一代又一代的新观众感到不解,然而在观影后,联系到这50多年里空间技术的发展,又能给观众屡屡带来恍然大悟的感受。电影中科学家与女儿视频通话,就是今天的FaceTime;宇航员在太空中收看新闻的平板屏幕,看起来就是今天的iPad。电影里的太空飞机、太空站的构想,后来成了多国太空总署设计太空站的参考来源。美国斯坦福大学物理学家、1996年诺贝尔物理学奖获得者道格拉斯·奥舍罗夫也是恍然大悟的一员:“当时,我并不认为它是我看过的最好的影片,但直到今天,我仍然认为,我们今天对太空人如此迷恋,在某种程度上是这部影片的功劳。”

阿西莫夫自己的机器人系列小说里,出现过的陪伴机器人、采矿机器人、农业机器人等,现在都已经变成了消费级产品,或者工业界的常用设备。美国科幻电影中经常出现将人体与机械组合起来的“赛博格”,也就是“电子人”。《机械战警》的主角警员梅菲被凶徒杀死后,被改造成电子机械人,至此刀枪不入;《星球大战》中,黑武士肉体被毁,变成一个穿戴黑色笨重的盔甲和维生系统的机械化人。现实生活中,已经有为残障人士设计的机械义肢,用脑电描记法或绑定肌肉上的神经单元等方法操纵。2014年的巴西世界杯开幕式上,一位截瘫青年就凭借一双脑控外骨骼,开出了世界杯的第一球。

在人工智能领域,科幻正在描绘着未来科学发展的可能性。1818年的《弗兰肯斯坦》被认为是世界第一部真正意义上的科幻小说,提出了人造人的具体想象,但真正的人工智能开发,还是在1950年之后,经过计算机技术真正兴起,随着控制论、信息论等学科开始萌芽,到21世纪,随着现在机器学习、深度学习、机器视觉、语音识别、自然语言处理、生物特征识别等算法和技术不断完善。

在2016年这一版的《西部世界》里,电视剧展示了一个全新的机器人制作逻辑:3D打印的骨骼、灌注的人造血浆、可以语音唤醒关闭等种种技术,这些技术已经离现实科技极度接近了,以至于观众明明知道是科幻,却又带着隐隐危险的兴奋感。

2.互联网世界的人工智能

说回开头的两个家用装置,Echo和Google Home目前并没有超出用户的想象。自从2010年Siri通过苹果手机问世,人们开始接受有一个人类声音藏在手机里,能随时随地召唤出来,帮助我们定闹钟、查找电话号码。但这些年微博、微信上每次关于Siri的热门话题,基本上都是各种啼笑皆非的段子,让Siri唱beatbox、问Siri种种刁钻的问题,因为回答在逻辑之外,而产生了各种幽默效果。

Siri是语音识别和语义识别的结合,是一个真正人工智能的产物,可她能做到的无非是一些初级外部服务应用,问世6年之后,大家开始只把她当作一个普通的语音助手,一个会做简单对话的软件而已。

人工智能和软件的分界线没那么明显,如果硬要做区分,对于人工智能系统而言,它的特点就是在有限的范围或领域内具备认知能力,而软件系统的主要特征则是具备普遍的问题解决能力。

“认知能力”是目前最难的部分,这也是目前人工智能尚未突破的瓶颈。而在大范围计算这个量变上,除了Siri,其实我们日常生活里已经发生了无数的变化。

在过去两年里,我们创造的数据要多于人类历史上创造数据的总和。这主要是由于传感器(2013年平均为100亿个,预期到2020年达到1万亿个)和连接设备(2016年为64亿个,预期在2020年达到208亿个)的使用。这些传感器和设备每年生成数百泽字节(Zettabyte)的数据,每秒生成上拍字节(Petabyte)的数据。

几年前热炒的“大数据”概念,如今已经变成了非常成熟的实际应用。大型互联网企业每天都在吸纳急速增加的海量信息,人工智能算法正在提高处理数据的效率,同时,这些数据也是人工智能自我进化的依据。

2016年10月18日,微软宣布对话语音识别技术在产业标准Switchboard语音识别基准测试中,已经达到了低至5.9%的词错率,由专业速记员组成的人类对照组的最低词错率同样是5.9%,这意味着微软的语音识别系统的语音识别能力已经与人类专业高手持平。而在20多年前,20世纪90年代中期,微软刚刚组建语音团队时,这个错误率是80%。微软首席语音科学家黄学东称,在过去20年里,基本上每年错误率都会较上一年下降15%左右,按照这样的速度推下去,语音识别达到人的水平指日可待。

阿里2016年的各种发布会上,已经开始使用阿里云ET人工智能做现场速记,直接在大屏幕上显示演讲者的说话内容。杭州市西湖区人民法院已经开始用ET人工智能代替书记员做庭审笔录,如果事先给ET足够的卷宗学习时间,做好人名、术语等储备,现场速记的准确率可以达到96.2%。

阿里云iDST自然语言研发团队负责人初敏在2000年开始从事语音分析与合成方面的研究,像Siri这样的应用,早在世纪初,就在研究界有过雏形,但持续改进算法并没有什么意义:“这条路一直没走通。第一,没有网络流量。当年上网费用太贵,网速也慢,如果放在客户端上做数据处理,速度和容量又下去了;第二,缺少外部服务。现在你问Siri天气、订外卖,直接去外部服务里调取数据就可以了,当年配套应用一无所有,即便研究出来了也没用武之地。”

现在初敏的开发成果正应用在蚂蚁金服的客服监督上。过去用抽样、人工听录音来做外包客服的监督,这远远跟不上客服规模扩张的速度。现在用人工智能的语音分析系统,把呼叫中心的录音文件100%自动转化成文字,再用自然语言的处理手段判断服务质量:接电话后有没有问“您好”?客服有没有骂人说脏话?在顾客没有主动告知的情况下,客服有没有诱导顾客报电话号码,刺探对方隐私?——原来只能按照概率抽样调查的问题,现在通过人工智能整体抓取+人工团队核查,问题大幅度减少,花掉的人工时间反而更少了。

但是跟科幻小说里的单一场景相比,现实社会还是要复杂得多。即便是全球科技都在飞速进步的语音识别,各家的软件在嘈杂环境下的错误率就高得惊人了,这又是此前提到的“认知”问题:机器认不出不同的音色,而最笨拙的速记员也可以分清楚录音中不同的声音来历。当有高噪音、方言、有重叠说话,或出现不熟悉内容的情况下,机器6%的词错率,就会迅速飙升至20%、30%甚至更高。

另一个常见的问题是,人工智能过于忠实于人类,但它并不能充分理解人类。比如在今日头条APP里,软件用协同过滤+基于内容推荐的方法,给用户做个性化内容推荐。你也许是一个医学界人士,对癌症治疗新动向、新型医药、行业大会等消息感兴趣,但当你无意间点开一个明星八卦,机器会自动认定你对这次劈腿新闻有浓厚兴趣,随后孜孜不倦地向你推送这次舆论热潮里的各种相关信息。我已经听不下三四位科学界人士提到,去年夏天如何因为自己的一个好奇心,拇指一点,就被裹挟到无穷无尽的王宝强离婚新闻里。在这种内旋封闭式的新闻旋涡里,人们一旦开始满足内心最直接的兴趣,又很难再把自己拔出来了。

3.我VS人工智能

在电影《机械姬》里,程序员加利抽中了大奖,被邀请到老板纳森家中度假,同时帮助他测试最新研发的智能机器人艾娃。到了影片结尾时,一切悬念全被揭开,加利才发现自己中了一个圈套:实际上,艾娃完全是针对他设计的,老板利用大数据分析,在员工中找到了这个26岁的男青年,加利父母早亡,缺少感情慰藉,又情感丰富富有同情心,懂计算机逻辑,同时又性格单纯没有女朋友,是完美的测试对象。最后连艾娃的长相,都是根据加利私下看色情片的喜好,有针对性地人工合成出来的。

与其说是加利参与了一场图灵测试,还不如说是机器人在测试他,隔着透明的玻璃房子,人与机器人观看与被观看的方向随时可以转换。

屏幕外的我呢?就在我用家里的互联网电视,打开优酷APP看这部电影的时候,我顺手发现出差的丈夫昨晚刚用这个账户看了一集国产电视剧;手机上朋友一直用微信发来照片、语音和文字,和我讨论要不要做眼部整形,发达的医学美容技术已经能让人像艾娃那样修改自己的容貌,购物一样选择自己喜爱的双眼皮宽度和鼻梁形状;我同时检查当天的PM2.5指数,惊恐地发现红色预警是真的,外面正是年度最严重的雾霾大爆表,赶紧打开空气净化器制造干净空气……电影里,纳森把机器人形容为迷宫里的小白鼠,可是屏幕外面,像我一样的小白鼠其实已经生活在层层迷宫之中而不自知了。

在2017年,科技依然会沿着既有的轨道运行,科学发展到今天,很难突然出现类似相对论、互联网、天文望远镜、心脏移植这样颠覆性的巨大创新了。更多的发展是潜移默化的,对于人工智能,就是无数更新的算法从方方面面把人类的工作变得更便捷、更自动化,流畅得甚至让人意想不到。

人工智能垂直新媒体“机器之心”的主编罗松告诉我,他的编辑部正在用一个自己编写程序,可以从几百个类似网站、公众号、推特账户、YouTube账户等渠道抓取最新关于人工智能的新消息。经过不断调整权重,程序能自己分析出消息的重要性,编写成当天编辑需要看的信息汇总。大量英文消息的阅读在未来也可以通过工具缩短时间,结合谷歌翻译刚刚通过神经网络机器翻译系统取得的大幅质量提升,罗松觉得“未来语言屏障都会被机器消灭”。

这反而让我有点心事重重:一方面,我期待有一个记者专用的程序,输入待采访对象的名字,电脑就飞快地抓取到对方方方面面的信息,编写出一份详略得当的背景资料集,这个工作至少能节省我一天半的准备时间。采访之后,把录音上传到语音整理网站,一小时录音不到5分钟整理完,又能解放出我至少半天的时间(而且现在很多同事就是这样做的,花不到30块钱整理出1小时录音,尽管错误率极高,也足够回忆起交谈时都说了些什么)。

三分之一的资料搜索,三分之一的采访整理,都交出去了,如同阿西莫夫所说:“电脑看上去能偷走人的灵魂。它们熟练地解决我们日常工作中的问题,我们渐渐发现自己带着越来越多的信任把问题交给它们去解决,并且带着越来越多的谦卑去接受它们给出的答案。”那我存在的意义是什么?

但这又像是一个伪问题:放在100年前,我和我的女同事们最大的价值应该是洗衣做饭带孩子,今天这一切都已经被洗衣机、洗碗机、烘干机、扫地机器人解救了出来。为什么一些机械化的程序性工作不能再交给机器呢?

在苦苦思索的过程中,我随手发了一条微博,表达了自己对养猫的渴望,那条微博很快收到了上百条评论,人们用手机拍下家里猫咪的照片,免费一键上传到留言中。看到那近100张家猫照片的瞬间,我仿佛变成了3年前的谷歌大脑,正在被投喂各种非标准的猫咪照片,高速训练“什么是猫”这个图片识别问题。

2012年,谷歌大脑做了一个著名的实验:1000台计算机组成了超过10亿个“突触”连接的神经网络,研究者输入了1000万个静态图像,通过3天的密集寻找重复出现的模式后,谷歌大脑终于可以凭借无监督学习,识别出一些特定的重复类别:人类面孔和人类身体,以及猫。

“认出猫”,这个过程变成了当年最为轰动的一篇人工智能论文,科学家们把这一成果当成是深度学习复兴的里程碑。这又说回到那个认知的问题——我点开微博上的图片,几乎不需要反应时间,我就能认出图片里有一只猫,这是人类在两三岁就能飞快习得的辨认技能。我们还能认出猫的颜色、品种,立刻辨识出它在睡觉还是撒娇,是一只刚出生的奶猫,还是壮年做过节育的大家伙。让计算机去做那些成人能够做到的事情很容易,但是让它们去做那些1岁孩童做的事情几乎是不可能的。谷歌大脑想做到这一步,恐怕还要用上若干年时间。至于这个“若干”是多少,恐怕要根据这个任务能带来多大的商业收益来决定了。

4.谁来决定人工智能的未来?

人工智能什么时候能达到科幻小说的水平?我对初敏博士提出这个问题,她的回答很直接:要看资金的投入和实际需求是什么。

初敏认为,AlphaGo的能力飙升,背后是Deepmind被谷歌收购后,获得了充足的研究资金和庞大的数据库。在《2001太空漫游》里,智能计算机HAL9000能阅读宇航员的唇语,发现自己即将被关闭而发起复仇,事实上唇语识别在现在已经没有多少技术性问题了,只是因为用户群体太小,科研上很难拿到足够资助,才一直没有发展起来。

如此说来,人工智能的发展,背后依然是经济基础决定上层建筑的这一朴素逻辑。在60多年里,技术、经济、政治背景,都在影响着人工智能研究的起起落落,正如上一次人工智能的春天还是在20世纪80年代,日本发起了第五代计算机系统工程,为人工智能的实现搭建平台。因为日本战后经济重建的神话,西方计算机精英们对此次人工智能的复兴充满信心,合力促成了一次繁荣的小高潮,最后却因为计算机技术的掣肘,又再一次暗淡收场。

在2017年的今天,运算能力、资金、数据的现状已经今非昔比,人工智能的发展形势远远比过去更乐观。当《黑镜》这样的科幻电视剧出现,人们发现,科技也许只是一个小小的变化,就能大幅度地改变社会的行为方式,比如想想微信这一个小软件,如何颠覆了我们的社交和阅读习惯,即便认识到自己如何被这个软件异化,恐怕绝大多数人也都回不去过去的生活了。

当人工智能继续进步,许多职业将一个一个地受到冲击,速记员也许首当其冲,翻译、司机、天气预报员、人工客服、体育新闻记者、股票分析师、杂志编辑……也许这些职业很快被机器取代,也许人们会发现还是同类更靠得住。当技术不断发展,人类的悲观主义和乐观主义总是交织夹杂,被前进的车轮所裹挟,就像瓦尔特·本雅明的比喻:“从天堂吹来了一阵风暴,它猛烈地吹击着天使的翅膀,以至于他再也无法把它们收拢。这风暴无可抗拒地把天使刮向他背对着的未来,而他面前的残垣断壁却越堆越高直逼天际。这场风暴就是我们所称的进步。”

更大的担忧,还是那个永恒的题目:当人工智能发展到一定程度,会不会超越人类的智慧,进而取代人类在地球上的位置?

阿西莫夫的机器人三定律,听上去很像是摩西十诫,神站在山顶向人类宣示圣谕,最后却只不过是一个行为参考指南而已。现在看起来笨拙的Echo和Google Home,代表着互联网公司对我们私人生活空间的争夺,所有大公司都在做智能家居,抢占客厅的入口,争先恐后地取悦消费者,获得帮人开灯关灯的殊荣。

在可以预见的未来,当你进入家门(智能锁认脸开门),脱下鞋子,迈入客厅的一瞬间,各种AI已经感官全开,他们已经提前为你打开了空气净化器,放好了温度适中的洗澡水,喜爱乐队的最新专辑正在播放,家庭中枢开始与你寒暄。

今日笨手笨脚的语音助手,在那时也许已经变得跟HAL9000一样,并没有一个实际的形体,又因此无处不在,它会与你聊天,取悦你,谈论它(虚拟)的烦恼,甚至像电影《Her》一样变成你依赖的恋人,无论心理还是生理上。

当你身处在这种全方位的照顾下,一举一动都被人工智能温柔地注视,你的体温、排卵期、指纹、虹膜……都已经上交给了这些AI,到哪个时候,又到底是谁在豢养谁?作为一个交出隐私、交出劳动能力的人类,此时是否被取代,又对地球会有什么区别?

人工智能是人的一种追求,也是一种自我反省,永远有一类人在孜孜以求地推动着技术进步,也永远有一类人在杞人忧天,但这种杞人忧天不无价值。当科技持续发展的时候,不会因为人的意志再停下了,未来所有担忧的问题,也许还是需要科幻小说来解答,在《银河星系漫游指南》里,那个“宇宙目的是什么”的终极问题,早已有了答案:“42。”

猜你喜欢

语音人工智能机器人
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
人工智能与就业