Interactive Cognition
——从图灵测试的漏洞谈开去
2016-12-06李德毅
□文/李德毅
Interactive Cognition
——从图灵测试的漏洞谈开去
□文/李德毅
李德毅 中国工程院院士、欧亚科学院院士,指挥自动化和人工智能专家。1983年获英国爱丁堡海里奥特·瓦特大学博士学位。总参第61研究所研究员、中国指挥和控制学会名誉理事长、中国人工智能学会理事长
近几年,人工智能被推到了高科技领域的风口浪尖,呈现出一片火热的红海。在AI诞生60周年后的今天,人们已经欣然接收AI智慧概念,并从中看到了未来的模样。AI公司将会成为最成功的公司,AI产品也将成为大众化的产品,未来,AI将与人类相伴一生。
现在,人们非常关注AI,AI的本质是什么?人们该如何了解AI呢?人们需要知道什么是认知科学(Cognitive Science)。
曾经,伟大的人工智能之父阿兰·图灵提出了“图灵模型”的概念。在图灵去世后的几十年里,人们熟知计算认知(Computational Cognition),并一直认为计算是最重要的。但是现在我们要对它提出质疑,难道智能就是计算?想要证明这个命题的真假,我们就不得不从探索交互认知(Interactive Cognition)开始。
为什么要研究交互认知?
人类通过交互、记忆和计算获得认知。在过去的半个世纪里,我们太多地关注了计算智能,忽视交互智能和记忆智能,导致创新思维固化,创新能力变弱。我们应该打破这种思维状态,从计算智能的坑,跳到交互智能的坑,再到记忆智能的坑,再回头看看三个坑之间有什么关系,形成一种互相联系看问题的思维,实现跨界创新,所以我们应该研究一下交互智能、记忆智能。
有很多小孩子,如果大脑发育不正常,就会得一种病,叫自闭症,又称孤独症。这是一种典型交互认知障碍性疾病,遗传因素对自闭症的作用趋于明确,所以早期干预治疗尤其重要,否则会造成孩子终生生理缺陷。自闭症有很多表现,比如到幼儿园不合群、行为刻板重复、语言表达有障碍、有智力缺陷等。那么,我们想通过图灵测试来看看,被测试者能不能分清楚聊天机器人和自闭症患者。
假如测试者不变,把左边这个人换成了一个聊天机器人,比如微软小冰,而把右边的聊天机器人换成一个自闭症的儿童,拥有强大聊天功能的微软小冰比自闭症儿童更会聊天,这样测试者就有可能会受到迷惑,在主观上错误的以为微软小冰是自然人,而自闭症儿童才是机器人,这就是图灵测试的弊端:因为测试者看不到机器人和自闭症患者,仅仅从双方对话上做出主管判断,那么微软小冰或许更胜一筹。
图1 :图灵测试能否区别人和机器人?
现在,人们喜欢手机就像80年代人们喜欢电脑一样,手机语言交互、图像交互和体感交互空前繁荣,已然成为一个人类跟世界沟通的最好的交互认知手段。手机的发展历史就是人机交互自然化的历史,最初大哥大刚出来时,像一块砖头,后来对键盘进行了升级,有了操作键盘、软键盘。直到今天,通过升级智能系统并搭配各种类型的传感器,实现人脸识别、摇一摇、扫一扫,过不了多久,还可以实现闻一闻,最终成为集思想、情感、体感与社交为一身的“私人助理”。就目前而言,我国智能手机APP掌上娱乐、掌上支付、掌上诊疗已经走在了世界的前列。
聊天总是有太多的不确定性,在不同的聊天环境下,同一个问题或许会收到不同的回答。我们看看用手机聊天的例子,前面几次问题的回答还算客气,而到最后的回答显的有点不耐烦,“你丫有病吧?”,这句话真实地反应了聊天者的性格、修养和幽默,是真正的社交交互的体现。
所以,我们提出了质疑,聊天总是在特定的语境、语用、语义和语构下发生,在过去的半个世纪的自然语言理解研究中,我们是否太多地关注了语义和语法,忽视了语境和语用?忽视了语言交互中的不确定性呢?若是你买的聊天机器人没有体现出良好的社交交互认知水平,那么它很快就变换成摆设,甚至成为占用空间的垃圾。
我们再看一个更严肃的主题——教育。什么是教育?教育就是教学,就是教和学的交互认知,教育学本质是交互认知方法学,交互认知带给从幼儿园到大学的教育的最核心的精神是“改变”,所以教育其实是一种交互。
云计算和大数据成就了人工智能,慕课、微课、翻转课堂和个性化教学等交互认知手段,实现“教”和“学”即时地、个性化反馈和有效沟通,将逐渐把教师转型为教练。随着个性化教育的出现,今后的大学里也许会出现更多的教练机器人替代人类教师,像微软小冰这样的人工智能机器人,如果有知识储备就可以实现教学,这对现在的青年教师是一种极大的挑战。
三个例子,一个是自闭症,一个是手机,一个是教育改革,都说明了交互认知不同于、但又一定伴随有计算认知和记忆认知,并且三者之间不能相互替代。
什么叫做计算认知,我们做出了这样的定义:认知主体自身进行计算。而交互认知是至少认知两个主体,甚至更多的主体相互之间进行了交互认知。因此,从计算科学角度来讲,计算认知的本质是思维,而从认知科学角度来讲,认知的本质是计算。它是数值计算、符号计算和多媒体数字化信息的处理、变换、演绎、推断和挖掘等;是概念、判断、决策的形成过程;是对多感知信息的觉悟,加深理解,发现价值,获得新的认知。
记忆是脑认知的核心,记忆力强、记忆量大,人才聪明,比如爱因斯坦的大脑。图灵曾经说过一句非常经典的话,“遗忘也是人类智能的显著表现”,为维护脑的正常认知,需要积极遗忘,抑制记忆,遗忘是不可或缺的,否则大脑将不堪重负。记忆又可分为瞬间记忆、工作记忆和长期记忆,比如大多说老人会有老年痴呆的表现,比如他早上吃饭的事,到下午就忘了,然而却记得小时候的事,这就是长期记忆。又比如演员在短时间可以背会大量的台词,说明他的瞬间记忆很强,再比如律师具有丰富的工作记忆。所以说,记忆的时间特性各不相同,形成记忆认知的动态演化过程。感知也可以触发记忆,依据记忆搜索匹配问题,寻找答案,获得认知,并最终增强记忆。
现在,人们都知道认知分为三种——交互、计算和记忆,那我们具体来解析交互认知。认知的外在表现:如何听说、如何看、如何感觉,这三个的本质,分别是语言交互、图像交互、体觉交互。语言可理解为对交互认知的语义标注;图像可理解为对交互认知的情感标注; 体觉可称之为肢体语言。交互认知的度量可用情商和智商表示,所以更加说明了交互、计算和记忆是相互关联的。
美国心理学家艾伯特·梅瑞宾指出:“在利用语言实现交互认知的过程中,语义的作用占 7%,语音的作用占38%,面部表情和肢体语言的作用占剩下的55%”,这就是著名的艾伯特定律。从定律中,我们可以明显地看出,在研究交互认知的过程中,语音、面部表情和肢体语言占大部分,可是人们过去过多地关注语义的作用,这值得我们深思。
在电视新闻里,主持人报道某人去世的消息时气沉声缓,表达着他对离世的悲伤情绪;当人们愤怒时,则气粗声硬地大骂,表达着自己的不满。我们可以通过这两个例子看出,语音语调是情感的真实流露。如果一个聊天机器人具有丰富的语音语调,那么肯定会让人们喜欢上它。
图2 :言外之意:语音语调是情感的流露
脑认知,除了脑内部不同区域之间发生频繁地交互之外,还和外部世界交互,通过视觉、听觉、触觉、嗅觉、味觉五感,单模态或者多模态地交互,这就是交互认知的二重性。外部交互体现出选择性注意,在交互过程中和其他自然人、机器人、外部世界互动,尤其是理解自然人的表情、心理、意愿、动机等,相互启发、学习。交互作用使得认知更准确,自己更聪明。
交互认知也具有不确定性。这体现在三个方面,交互触发的瞬间性;交互方式的随意性;交互内容的未知性。不确定性人工智能要在看似瞬间性、随意性和未知性中发现交互认知的基本规律性,又能体现不确定性的魅力。
图像交互是交互认知的主体。与听觉、触觉等相比,视觉主导着人的情感知觉,并影响其思维方式。因此,生物视觉图像交互的情感表达,成为交互认知的核心。
从交互认知的二重性、交互认知的不确定性和图像交互的主体性的意义上来看,我们就可以解释图灵测试的漏洞的真正原因了。在图灵测试的过程中,如果被测试的一方支支吾吾、保持沉默或主动插话介入,就可能颠覆测试者的主导地位,就很难区分到底对方是人还是机器人。比如最常见的例子,一个人去面试,本来是考官和面试者一问一答,如果面试者特别健谈,主动插话,就可能颠覆双方的问答模式,并且常常更容易被录用,这就是利用了图灵测试的漏洞,也再次暴露出图灵测试的瑕疵!
图灵测试原本是测试对方是否具有人的智能。如果图灵测试的漏洞被多次利用,图灵测试就转化为比拼测试双方谁更睿智的问题,已经不在乎双方是生物人还是机器人了。
研究交互认知的突破口
要找到交互认知的突破口,首先得知道什么叫做交互。对话是最直接、最便捷的交互,对话智能是几乎所有服务机器人的必备技能,那么可否把对话机器人作为研究交互认知的突破口呢?
图3 :对话是所有服务机器人绕不过去的坎儿
现在,创新热情高涨,各大公司都在积极努力探索创新产品。在语音智能领域,科大讯飞走在了前列,那么它的成功秘诀是什么?那就是聊天。聊天是浅层次、短时长的对话,也是最通用的对话。聊天也许是在讲废话,但可带来亲和感,在社交生活中不可或缺。不会聊天的对话机器人太乏味,势必会被社会所抛弃。
那么,怎样让聊天机器人聊的起来呢?我们认为,交互认知可以从探索“互联网+对话机器人”开始,具体从5方面入手:
①对话的语境和语用入手;
②优先考虑交互环境,优先考虑情感交互;
③强调沉浸感、交互感和构想感;
④关注交互认知环境中的选择性注意;
⑤研究不确定性交互认知中的客观性、普遍性和积极意义,寻找不确定性中的基本确定性。
可以看到,要让服务机器人会聊天、能聊天,对话就是个绕不过去的坎。不管是那一类型的服务机器人,首先得会与人对话,使人听懂它的意图。
什么算不会聊天?什么算会聊天呢?通过两个例子,可以展现出来。
“小样小样你吃了吗?”,“对不起我听不懂。”这其实只是人在打招呼时的用语,但机器人完全没听懂。再这样问它,他支支吾吾了,回答不出来。直到最后一句回答“小样最爱蹭饭吃”才略显幽默。我们在3年的不同时间阶段,对微软小冰做了同样的测试,对于此问题重复多次的回答都有所不同,有一次是这样回答的:“你自己玩的挺high啊”,幽默滑稽的回答博得大家开心一笑,我们感慨,机器人终于有了人情味。
这是来源于网络的一段人机对话。问:“你体验爱情吗?”,“不,我53岁了。”这个回答很有意思,似答非答,转移话题,让人琢磨不透。再问:“你能说说53岁的感觉吗?”,答:“你多大了?”,这是明显的回避话题并再次改变话题,而这个人却上当了。后面的聊天已经转移成为正常的聊天语境,有了社会常识储备,这正是钻了图灵漏洞的空档。
对话机器人自身是活生生的认知主体,而不是一个刻板的“问题——回答”系统,充满不确定性和变通,有情感和语言交互能力,有社交的技巧,背后是与特定语境、语用相关,要具备对缺省知识和常识知识的表示、获取、学习、推理的能力。
在最近不到一年的时间里,我们利用云模型的不确定性,研发了对话机器人,我们认为,可以用传统的方式来研究对话机器人的形式化约束,具体方式有4条。
①定对话背景;
②对话双方,是有故事、有个性的人或机器人;
③动画体现情感交互、语音交互、文字交互;
④话题、情感、性格等不确定,常识知识可缺省。
在这4条的约束下,我们研发了对话引擎,
方法很简单:第一,基于检索系统或搜索引擎生成一个可选的答句集。第二,借用机器翻译技术润色答句,保持个性。第三,也是最难的一点,怎么实时同步交互。第三点的关键是在于下一个触发点的选择,聊天的瞬间性、随机性、未知性。寻找下一个触发点,触发点的初始概率选择可高达10^-3至10^-4量级。
为什么这么高呢?如下图所示,你提出一个问题,就会有超过一万句的答案来回答,所以,触发点怎么选择很重要。比如语义,有话题、有上下文、有语义关联等等;语构,有主语、有谓语、有宾语等等;同样语境、语用也是如此。每个都要选择,下一个触发点就是万分之一,这就是不确定性的难处。为此,我们提出5个诀窍:
诀窍一:对话中的不确定性,可以用云模型中的期望、熵和超熵来度量,随着对话的展开,熵通常会急剧地下降,表现为长尾特性,对话机器人的研发难在开头。
诀窍二:对话开头的语境的不确定性,常常导致对话机器人很傻,利用常识和缺省知识,填补语境和语用知识,减少语境的不确定性,大有作为。
诀窍三:记录对话数据,可从生人变熟人,并从对话数据库中学习和挖掘常用聊天的语境、对象的身份、性格、兴趣话题、语用习惯等,可提高机器人的智商和情商。
诀窍四:对话过程中,利用图灵测试的漏洞,机器人可适时主动插话介入,争抢话语的主动权,避免尴尬,淡化谁在问谁在答,主导对话走向。
诀窍五:人们通过微信形成的对话大数据是研发对话机器人的天然源泉,是对话机器人自学习的在线语料库,且能与时俱进。可快速生成表情包、话题包、语境包、问答包等。
下面是我们研发的基于云模型的对话机器人聊奥运会话题的例子。可以看出,在前面的聊天过程中,对于相同问题,云模型生成不同的回答,然后机器人说:“我们聊聊王宝强,我对娱乐八卦很感兴趣”开始,聊天环境渐入佳境,这就是机器人利用图灵漏洞颠倒话语主导权的结果。如果用这样的方式聊天,你会感觉很亲和。虽然只是浅层次、短时长的对话,但非常重要。今后,我们不光要做好双人聊天的研究,还要研究多人聊天、群体智能、研究复杂系统涌现中的交互认知。
十年前的2006年,我们做了一个名为“掌声响起来”的研究课题,这是一个典型的交互认知的研究案例。我们用计算机模拟在音乐厅内1024个人对节目的掌声反馈。
研究发现,如果节目一般,人们就会发出礼貌性掌声或交织性掌声,无法实现同步;如果节目相当精彩,就会发出自发的掌声,并最终形成同步的掌声。我们提出了一个猜想,怎么才能让掌声同步得更快一些呢?通过研究发现,在适当的位置布置“托”,带动大家一起鼓掌,掌声同步的速度会变得更快,这是一个典型的复杂系统交互认知导致的自组织同步现象。
我们一直没有停止过研发,在十年后的今天,我们和东南大学合作研发了聊天机器人。这是脑科学和人工智能交叉的共同载体,拥有几百个典型情感微表情库和典型语音语调情感库,有望成为认知障碍早期发现机器人。通过手机聊天或对话,尽可能早地发现幼儿自闭症、多动症、中青年抑郁症和老年痴呆症的迹象。
虽然现在国家大力提倡“大众创业、万众创新”,但我们还是要给出一个警示。如果连浅层次、短时长的对话机器人的交互认知都做不好,如果机器人不具备最基本的语音交互、图像交互和体感交互能力,中国的服务机器人产业,就跳不出同质化、玩具化、低端化的怪圈,“高开低走”只能把服务机器人行业推入血腥的“红海”。
交互认知的本质:协商和学习
我们认为,交互认知的本质是协商和学习。
协商的作用是什么?
协商作用的结果一定是达成共识;
达成一定程度的共识;
没有共识,但知晓了对方的认知,利于下一次交互。
这三个结果都对交互具有重要意义。共识是交互认知的结果,是认知主体任何一方单独进行计算或者推理无法得出的新认知,所以交互认知是计算认知、记忆认知替代不了的。
同样,我们也要研究学习是什么?
学习是一方从另一方获得新的认知的过程。
这种学习可以是单向的,也可以是双向的。
人类社交活动中的交互认知,以及人和自然、自然人、机器人之间的交互认知,大大扩展了单个人、一群人、乃至整个人类的智能。
举个例子,机器人来到一扇门前问:“这扇门怎么开?”,作为物联网的终端,门回答:“我是个滑动门。”门的类型有好多种,不过门已清楚说明了自己是滑动的门,机器人也就知道怎么通过了,这说明对话和学习无处不在。
典型案例:智能驾驶中的交互认知
这几年,无人驾驶汽车特别火爆,Google、特斯拉等高科技公司将更多的资源和精力投入到无人驾驶汽车的研发当中,意图在未来实现汽车自动驾驶,从而改变人类的驾车体验。
无人驾驶的概念的本质,就是实现“机器换人”,而我和我的团队提倡汽车实现智能驾驶,即汽车“双驾双控”,并研发了“驾驶脑”,汽车和人相互学习,让人教汽车怎么开车,实现汽车和人的驾驶交互。
图2 :自动驾驶陷阱
驾驶交互一:驾驶过程中的人车交互。人对方向盘、油门和制动的长期交互,可以舒适地、凭感觉定性操作,人能够自如、熟练、定性地让车完成各种精巧的运动。驾驶员根据自身的脚感、手感、路感、体感,获得的交互认知,能够灵巧操作,不但确保了行车安全,还可以让乘员舒适,让车省油。
驾驶交互二:驾驶员对周边环境和车流的交互。车辆行进中,驾驶员对道路环境变化和周边流量不停地进行交互,用车的运动行为让周边车辆感知自身的存在,通过灯语、笛语,手势等和附近车辆、行人沟通,并将认知的结果转为对自身车辆的控制,且交互认知的差异,反映了个人智力和运动协调能力的差异。如果每个驾驶员不和周边环境进行交互,只凭借自己的主观判断认为车该怎么开,道路势必会造成拥堵。这和“掌声响起来”的礼貌性掌声一样,大家都认为自己是合理的,整体就会毫无秩序。
那么,以后的自动驾驶汽车会不会也会造成道路拥堵呢?我们通过一个实验来证明。在这样一个抽象的环境里,黄色的车子是自动驾驶汽车,红色的是人工驾驶汽车,每个车都按照自己规定的路线在车道混合行驶。
假如这两辆红色的人工驾驶的汽车不按规则行驶,由于自动驾驶模式缺少交互认知能力,受到人工驾车干扰,预设的自动驾驶门槛立马崩溃,几乎全都转为人工驾驶,这就是自动驾驶的陷阱。所以我们认为特斯拉的自动驾驶并不可靠,把手放在方向盘上,只能叫做辅助驾驶,而我们追求汽车实现自动驾驶,让汽车成为一个认知主体,成为一个交互轮式机器人。
驾驶交互三:轮式机器人和多种人交互。汽车有了自动驾驶而成为轮式机器人,它需要和七种人进行交互,分别是轮式机器人、驾驶员、程序员、乘员、互联网远端的车主、互联网远端的服务请求和互联网远端的黑客,通过和这七种人的交互才能保证轮式机器人能够自主驾驶、安全驾驶、更懂得“人情世故”,实现驾驶交互的应用。
轮式机器人应该具备在线交互认知。我们的团队研发出“驾驶脑”,其实这才是无人驾驶在线认知的真正核心。“驾驶脑”的功能决定了它不只是简单的自动驾驶,而是向驾驶员“取经”。轮式机器人的“驾驶脑”在驾驶员开车时,能“悄悄地”学习,把驾驶员在线交互认知转化为机器驾驶脑,并和机器行为融合在一起,让驾驶员调教机器开车,让大数据开车。
智能车研发的困难,不仅仅是汽车动力学的性质和各种各样的传感器的要求,更重要的是要研发和驾驶员一样在线的“机器驾驶脑”,模拟实现人在回路的自主预测和控制,应对车辆行驶中的不确定性。如果把人在回路中的自主驾驶让车厂去模拟,把机器驾驶脑的研发让车厂去做,这对车厂来说无疑是难以承受之重。
我们把“驾驶脑”比喻为对应的“驾照”、“驾龄”、“路熟”、个性化驾驶和标杆驾驶,因为“驾驶脑”通过和人之间的驾驶交互已经学会了开车,拥有了驾照,也有了相应的驾龄,并在学习驾驶的过程中掌握了大量的路况信息,形成互联网地图替代不了的“路熟”,同时也具有了独特的个性化驾驶。通过这些信息的积累与分析,“驾驶脑”成为了驾驶高手,这大大减少、简化了实时处理的数据量。
轮式机器人向驾驶员学习开车,这是正学习的过程。人们通过深度学习来认知如何去开车,同时摄像头等车载传感器记录下行车中的驾驶态势,通过把人的认知和汽车的驾驶态势融合形成驾驶态势认知图库,并由驾驶记忆棒认证提取。当轮式机器人在自主驾驶时,通过搜索记忆棒中相同的认知,自主操控油门、制动和方向盘,实现驾车态势的自主判断,而不是由互联网去控制,大大提高了驾驶的安全和效率。
人常常是在错误中学习的,在实践中吸取事故教训是提高驾驶认知水平的重要环节。因此,机器人也需要从驾驶事故中吸取教训,防止相同的驾驶事故再次发生,这是自学习中的负学习。
总 结
人工智能是否应该更多地关注交互认知?研究人与人、人与机器人、机器人与机器人、或者混合的认知主体之间的交互认知,既有双人交互、更有多人交互和群体交互,以满足机器人市场和机器人联网的迫切需求。
机器人的发展势在必行,人机交互将会占领未来的“高地”。因此,有人担心机器人的出现会对人类造成整体伤害。区域人群、乃至全人类群体交互认知的共识,几千年来,以文字记载和传承,形成区域或人类的文化、文明。这种共识就是人类的意识、道德、规范和普世价值,构成人类社会的生态。从这个意义上说,不必担心机器人的出现会对人类造成整体伤害。人也好,机器人也罢,一个个独立的认知主体,在这样的生态下诞生,都是人类自身的延续,整体上会遵从这些区域的、乃至全人类的普世价值,就如同不必对隔代认知差异大惊小怪一样。