图灵测试的明与暗

2020-12-02于剑

计算机研究与发展 2020年5期

于剑

(北京交通大学人工智能研究院北京 100044)(交通数据分析与挖掘北京市重点实验室(北京交通大学) 北京 100044)

如果追踪现代人工智能(artificial intelligence, AI)的缘起，可以发现起导火索作用的就是图灵测试[1].发展至达特茅斯会议，现代人工智能已经可以算瓜熟蒂落了.因此，人工智能避不开图灵测试.关于图灵测试，已经有非常多的研究，本文分4部分叙述.

1 图灵测试

最原始的图灵测试，也就是图灵提出的图灵测试[1].实际上起初机器模拟的是女人，不是范围更大的人.当然，女人也是人，广义上说模拟人也没有错.现在，图灵测试一般是指模拟人.在1991年有人就专门设计这种比赛，比赛还有一个专门的奖(Loebner prize)，每年奖励做的好的参赛队伍.现在为止，能够通过图灵测试的还没有.

那么通过了图灵测试，是否就意味着机器具有人的智能了呢？对此，塞尔设计了一个特别的思想实验来回答这一问题[2]，这个实验的名称叫中文实验室.该实验明确说明，即使通过了图灵测试，机器具有的也只是人工智能，并不是人的智能.为什么说不是人的智能呢？原因很简单：因为只是文字通过了测试，并不意味着现实中就能通过.

现实中，完全有可能文字通过了，可是其他方面不对.作为人，不光是通过文字理解世界，还要通过视觉、触觉、听觉、味觉等全面地感知世界.只有在所有方面通过，才可能算人的智能.1989年Harnad提出了完全图灵测试(total Turing test, T3)[3],原始图灵测试称为T2.中国有一个真假美猴王的故事，可以用来说明所谓的T3测试.在真假美猴王这个故事里，众多能力高超的神仙采取了各种各样的测试手段，也分不出哪个是真的美猴王，哪个是假的美猴王.如果通过了这个测试，那就是通过了T3.对于人工智能的各种恐惧感，可能都起源于T3.一旦T3通过了，人就可以完全被替代了.因为可以造个机器人，可以完全把人代替了，而且谁都看不出真假，就像真假美猴王一样.在这种情况下，要求人们不恐惧人工智能似乎也不现实.

但是，不论T2还是T3，是否真有实现的可能呢？这就需要深入讨论.

2 图灵测试的预设

要想知道T2或者T3能否实现，需要仔细研究T2以及T3的预设.考虑到T3是T2的扩展，只需考虑T2的预设就可以了.要考虑图灵测试的预设，一定要看图灵生活在什么年代.图灵生活在1912—1954年，这个时间段非常关键.所有的东西都需要放到历史中看，因为没有人能摆脱历史的限制，没有人不受限于历史.现在有智能手机，图灵时代肯定没有智能手机，这是很自然的事情.图灵发表图灵测试的文章是在1950年[1].而到1953年，维特根斯坦出了一本书，叫《哲学研究》[4].这个顺序不能乱，知道了这个顺序之后，就可以理清很多事情了.

在《哲学研究》出版以前，一般假设概念是存在经典定义的.如果某个概念没有经典定义，那么只能说明研究还不够深入，需要继续研究.这方面，希尔伯特的话最为经典，他说“我们必将发现，我们终将发现”.什么是概念的经典定义？概念的经典定义由3部分组成：1)符号表示，名字表示概念的名称；2)内涵表示，由命题来表示；3)外延表示，就是概念要指称世界的对象，要把对象一一列出来，即经典集合表示.

这么说比较抽象，举个具体的例子，比如素数这个概念的经典定义，素数的符号表示在中文中就是“素数”，英文中为“prime number”，反正是一个名称；它的内涵表示就是“只能被1和自身整除的自然数”这个命题；它的外延表示就是集合{1,2,3,5,7,11,13,17,19,23，29，…}.有了概念的经典定义之后，很多事情实现起来就非常容易.

在《哲学研究》出版以前，人们认为概念都可以像素数这个概念一样具有经典定义.在《哲学研究》出版以后，这个假设就不一定正确了.《哲学研究》出来之后，哲学界花了多年进行深入研究，最后基本上认可了这本书的观点.这些共识传播到计算机领域，就比较晚了，大约是本世纪初左右的事情.

在《哲学研究》出版以后，一般认为概念不一定存在经典定义.如果概念没有经典定义，那么需要研究概念的其他表示，这是认知科学中的一个重要方向.《哲学研究》出版以后，概念是否存在经典定义本身需要研究，有的存在，有的不存在.在《哲学研究》中，维特根斯坦已经论证了日常生活中的大多数概念都不存在经典定义.说的更加直白一点，要给出像素数那样干干净净的经典定义，对于日常生活中的很多概念是不可能的事情！

现在回过头来看图灵测试中的预设.图灵测试中预设概念都是经典概念.可惜的是，这个预设并不一定成立.图灵测试中预设了2个概念是经典概念，一个概念是智能，一个概念是人.这2个概念都不具有经典定义，下面给一个稍微仔细一点的说明.

1) 先说智能.庄子认为“知也者，争之器也”[5]；霍尔认为智能的本质是“注意应该注意的事情”[6]；爱因斯坦认为“智能的真正表示不是知识而是想象”；王飞跃认为“智能是开放的情报，情报是封闭的智能”[7]；等等.可以发现智能的概念五花八门，到现在为止，并没有一个大家都认可的定义.考虑到智能实际上是一个不断扩展的概念，甚至未来也不可能存在一个大家公认的定义.因此，要想给出智能的一个经典概念，目前看来并不可能.

2) 图灵测试中的另外一个重要概念是人.关于如何定义人，从古至今，也一直是研究的重点.普罗泰戈拉认为“人是万物的尺度，是存在的事物存在的尺度，也是不存在的事物不存在的尺度”，柏拉图认为“人是没有羽毛的两脚直立的动物”[8]，马克思认为“人是一切社会关系的总和”[9]等等，不一而足.据说，柏拉图给出的这个定义就只存在了一天，因为第二天亚里士多德就在课堂上出示了该定义的一个反例——一只拔光了羽毛的鸡.上面提到的这些人都非泛泛之辈，给出的定义也不是完全没有参考价值.但是到现在为止，这些定义都没有得到大家的完全认可.到目前为止，“人”这个概念尚没有经典定义.概念只要没有经典定义，在很多情形下就计算不了，计算不准.这导致图灵测试中的人没有了统一的标准或一致的判据.其后果就是图灵测试的重复性没有理论保障.这次测试通过了，下次换一批人换一批任务说不定就通不过了.

由于人和智能这2个概念没有经典定义，说机器的智能超过人的智能，如果不做一定限制的话，就是一件没有意义的事情.

从以上分析可以看出，图灵测试是建立在概念存在经典表示的预设之上的.但是，这个假定并不成立.即使进一步缩小范围，对于“智能”和“人”这两个在图灵测试中的核心概念，也同样不存在经典表示.这对于图灵测试带来了致命的后果.

3 图灵测试的明与暗

由于图灵测试中预设概念存在经典表示，对于图灵测试中涉及的概念就划定了严格的范围，可以对问题进行封闭研究或者实验.

但是，第2节已经论证了这一预设不成立.这使得图灵测试具有3个特点:1)问题不确定，问题完全开放.在图灵测试中并没有限定问题的范围，所有的问题都可以问，是完全开放的，也就是说，图灵测试中模仿的内容或者任务是开放的.2)实验中的人未定，实验中的对象是开放的.实验中的人是中国人？是3岁的小孩？是疯子或者是聋哑人？等等这些都完全未定.3)图灵测试中使用的语言未定，测试使用的语言是开放的.图灵测试并没有说指定用什么语言来问.如果用泰国语来问作者，那本文作者也是什么不知道，这个模拟就没什么意义了.总之，原始的图灵测试是开放测试.工程上要实现的话，一定要封闭实现.就这点来说，图灵测试实际上只是思想实验，不是工程实验.

虽然如此，图灵依然是当之无愧的人工智能先驱者.由于时代的限制，图灵测试中假设使用的概念都是所谓的经典概念.既然假设都是经典概念，那么“人”也是可定义的概念，虽然目前可能还给不出“人”的内涵定义.考虑到概念的内涵表示与外延表示的等价性，图灵测试就避免了智能的内涵式定义以及判定难题，将研究智能的重点放在智能的外在功能性表现上，使得智能从功能上看，似乎是工程上可以实现和判断的，这极大鼓舞了早期人工智能研究者的热情.

为了方便起见，原始的图灵测试，可以称为开式图灵测试，或者简称图灵测试，它是开放式的，对于问题、人与语言都不封闭.但是，现在所有的说通过图灵测试的，它一定是封闭式的.参加测试和判定的人不是抽象意义的人，一定是一个或一些特殊的人，问题一定是特殊的问题，语言要选定特殊的语言.封闭实现的图灵测试，可以称之为闭式图灵测试.现在宣称实现了图灵测试的，其实都是闭式图灵测试.当然，即使闭式图灵测试实现了，进步也很大.即使这样，也必须考虑闭式图灵测试在很多情况下是存在严重问题的，比如说模拟某个人是否合法？是否合乎伦理？

到现在为止，在很多特殊情况下，在很多具体任务下，闭式图灵测试已经成功了，已经给生活带来了很多的好处，这个大家都感受得到，但是也带来了一些坏处.具体说：机器写作、图像合成、视频合成、语音合成技术已经面向大众了.限定在这些特定任务上，说通过了图灵测试并不是开玩笑.这些特定任务的成功也绝不是没有社会代价.目前，鉴定数据真假已经成为亟待解决的挑战性问题了.现在人们接收的很多信息都是机器制造的，有时都不知道交流的对象到底是不是人，也搞不清楚信息的真假.这种状况已经构成了现实的威胁.

为什么人工智能的有限成功会造成这样严重的后果呢？这需要更加深入的分析.

4 人工智能的基本假设

人工智能已经取得了令人瞩目的成绩.但是AI的基本假设是什么？到现在为止，人工智能发展遇到了什么样的瓶颈？要回答这个问题，还是要通过分析图灵测试来寻根问底.

众所周知，语言是图灵测试的关键，语言也是正常人的关键标志之一.正常人都是通过语言来交流互动的.这里说的语言不一定是通常所说的语言，也可以是盲哑人的手语.对于语言，有一个基本的事实：语言的基本单位是词，语言自身也是一个词.词是概念名，人工智能也是一个词，也是一个概念名，因此将概念研究清楚，对于语言图灵测试和人工智能都至关重要.

概念的基本功能有3个：1)指物功能.概念指向客观世界的对象，表示客观对象的可观测性.对象的可观测性指的是对象或者仪器的直觉感知特性，不依赖于人的主观感受.2)指心功能.要指向人的心智世界里的对象，代表心智世界里的对象表示.3)指名功能.要指向认知世界或者符号世界表示对象的符号名称，这些符号名称可以组成各种语言.

举例来说明概念的功能.比如“你那么会抬杠，怎么得不到停车场这份工作呢？”这句话，前面的抬杠是比喻用法，是指心，后面的抬杠是指物.一句话里，同一个抬杠，已经从指心转指物.再比如“若不撇开终是苦”这句话，这个若字是指名，就是指“若”这个字本身，撇开终是苦，那苦的话你心里感觉到苦，就是指心，是借名以指心，整个句子是从指名转指心.“各能捺住即成名”就是指名转指物.“能用黑笔写红字”这又是指物转指名.诗句“抓住漂亮词藻把它捏死”，这又是所谓的指心，把在物理世界不可能的事情转化到心理世界了.

AI也是一个概念，要实现人工智能，就得实现人工智能这个概念所具有的3个功能，即从3个方面实现AI，指物指心指名，这正好对应人工智能的3个主义.AI指名功能对应符号主义，AI指物功能对应行为主义，AI指心功能对应连接主义.到现在这3条实现人工智能的路线都取得了非常多的成就.

符号主义认为物理符号假设是实现智能的充要条件.人工智能就是符号的计算，只要符号正确就一切正确.代表性的成果是机器证明、机器翻译、专家系统.连接主义认为所有的概念都在大脑里一个表示，这个表示就是神经网络.目前最具代表性的AI技术，深度学习，就属于连接主义的，AI的这次热潮也是由它引起的.行为主义认为智能取决于感知和行动，不需要知识、不需要表示、不需要推理，只需要表现出来就行了.最有代表性的成果就是波士顿的动力机器人.

在过去，这三大流派曾经竞争的非常厉害，比如符号主义，又称逻辑主义，曾经拒发连接主义的文章，以至于连接主义的研究者不得不另立门户.人工智能有个著名的会议叫世界计算智能大会(WCCI)，就是由那些不属于传统的符号主义的研究者们创立的会议，所谓计算智能主要是指模糊逻辑、神经网络和演化计算.这其中，模糊逻辑不属于传统的符号主义，神经网络属于典型的连接主义，演化计算属于行为主义.连接主义也曾经有占上风的时候，20世纪80年代曾经提出过人工智能已死、神经网络万岁的口号.行为主义，在历史上又称进化主义或者控制论学派.据说之所以叫人工智能是因为要与控制论做切割.

到现在，这3个流派已经不象历史上斗争的那么厉害，已经在合作了.比如在机器学习中，统计机器学习基本上是按照符号主义走的，深度学习基本上是连接主义这条路线，所谓的强化学习属于行为主义.机器学习已经不是一种单一的流派了.

曾经，这三大流派认为只要实现自己的路线就可以实现人工智能.符号主义说只要实现指名功能就可以了，指名正确就一切正确；连接主义说只要实现指心功能就行了，指心正确就一切正确.行为主义说只要实现指物功能就够了，只要能指物正确，就什么都正确.

为什么会这样说呢？令人惊讶的是，导致这3种流派的居然是一个共同预设，概念的指名指物指心3个功能是等价的.如果概念的3个功能确实等价的话，当然只要实现任意一种就可以了.这个预设对吗？如果概念有经典表示，这个预设确实正确.原因很简单，概念的经典表示有5条预设：外延表示是经典集合论；内涵表示是命题表示；外延表示与内涵表示对应相同的概念名；同一个概念表示对任何人都相同，不依赖于个人特性；内涵表示和外延表示用来指称对象的时候功能完全一致.容易知道，在这5个预设之下，概念的指名、指物、指心3个功能是等价的.

概念的三指等价具有非常大的好处.如果每个人使用的概念都满足三指等价，这样的社会就是一种诚信社会，计算简单，交易成本、沟通成本很低.理想的社会形态都以三指等价为基本假设，自然科学都是以概念的三指等价为预设的，机器学习公理化也是以概念的三指等价为基本假设的[10].社会上，也有很多通过概念的三指等价来表达自己的观点和情绪的事例.现实生活中为了保证三指等价也做出了很多制度保证，像政府、学校、法律、警察、军队、监狱等.

当然三指等价也不是没有害处的，害处就是易轻信、易上当、易迷信，在极端情形下会产生严重的悖论.例如：迷信中的“扎小人”，其实就是假设三指等价，认为扎一个人的名字就等于扎到那个人了.数理逻辑中，有一个著名的乌卡谢维茨悖论“C：C不是一个真语句”[11].如果概念的指名指物指心等价，那么就自然会得出如下结论：C是一个真语句，当且仅当C不是一个真语句，这显然是一个矛盾.如果应用本文的观点，在三指不等价的情况下，乌卡谢维茨悖论并不会产生.因为C只是指名的话，即C只是一个名字，则C这个名字不是一个真语句，实际上是一个真语句，故矛盾消除.换句话说，如果概念的三指不等价，乌卡谢维茨悖论就不成立了.实际上，按照这个思路可以解决历史上的很多语义悖论，在此就不一一详细论述.

经典概念在现实生活中是不一定存在的.比如概念的外延表示，谁能保证与概念对应的经典集合一定存在？比如作者本人，到底算不算秃头？不同人有不同的看法，有人觉得是，但也有人觉得不是.显然，秃不秃头本身不是一件黑白分明的事情，并不符合经典集合的定义.对于概念的内涵表示，其可以外显的命题表示也并不一定存在.从某种意义上，维特根斯坦一生就研究概念这么一件事情，前半生坚信概念存在经典定义，认为“凡是能够说的事情，就能够说清楚”，出了一本书，叫《逻辑哲学论》[12]；后半生发现不是能够说的事情都能够说清楚，论证了概念不一定存在经典定义，出了一本《哲学研究》[4]，否决了西方自柏拉图以来的信念.对于具体的概念来说，概念名也可能未知，概念的假设外延表示和内涵表示也不一定同名，因为有研究表明日常生活中一个白种人平均每天要说一次谎[13].说谎就是心里想的跟嘴上说的不一样，那就是所谓概念名不一样.概念也不一定存在唯一表示，认知科学的研究告诉我们，实际上每个人对概念的表示都依赖于自身的条件，比如一个盲人对颜色的感知、对颜色的概念跟正常人对颜色的概念实际上不可能一样.概念经典表示要求内涵表示与外延表示用来指称对象的时候效果一样，这个要求在现实生活中太高了.比如中国历史上曾经有“指鹿为马”的著名故事.西方同样有类似的事情，西方著名的历史学家塔西佗《历史》有一段话说得非常好，“在这段时间里，我们享有这样一种稀有的幸福：我们在这一时期里可以按照愿望去想，按照心里想的去说”[14].可见要求概念的内涵表示与外延表示指称等价太难.

现实生活中，虽然三指等价的情形也很常见，但概念的三指不一定等价的情形也不少见，甚至也很不算罕见.

不遵循概念的三指等价的，现在一般不在科学范围内研究，属于伦理、心理、哲学、文学、艺术、医学、政治、军事等研究范畴.社会科学基本不以概念的三指等价为基本假设.例如哲学，西方著名的哲学家奥斯汀在《如何以言行事》[15]中明确论述了言语与行事之间的关系，即指名与指物的复杂关系，指名跟指物不一定等价.例如军事，军事名篇《孙子》[16]开篇即说，“兵者诡道也，故能示之不能，用而示之不用，近而示之远，远而示之近”，终篇即是《用间》.例如政治，马基雅维里所著的《君主论》[17]标志着西方政治学的开端，其中的2章即为《论君主应当怎样守信》、《应该怎样避开谄媚者》.当然概念的指名指物不等价也会导致很多严重的后果，比如欺诈行为会导致犯罪.在财务审计中，账实相符从来不是当然的假设，而是必须验证的事项，即财务审计的一项重要内容是保证指名与指物等价，如果不等价，还要找出彼此其间的差距.

概念的三指不等价在现实生活是有很多优势的：它包含的信息更复杂，生活中有些人会上当受骗，是因为潜意识中相信三指等价，认为说什么就应该是什么，说的就应该是心里想的，但实际不是这么回事，导致结果完全与预料不一样.这样一来，三指不等价对三指等价来说就有更多的行动自由，决策更多变.

当然，三指不等价也有很多缺点.比如，概念的三指不等价时，其信息表示更复杂，交流成本极高，需要“听其言、观其行、明其心”.观察一个人需要考虑言、行、心3个方面，言、行、心任一方面都没有办法充分反映一个人的本质，这导致人们之间的信任度严重降低，交易成本急剧升高.在这种情况下，为了保证概念的三指等价，要签订合同、要有担保、要买保险，以至于设立对冲基金，发展至今甚至要自产自销.当概念的三指不等价时，就需要更加复杂的场景计算.

一旦三指不等价，AI三大流派都面临巨大的问题.符号主义目标是指名正确，保证不了其指物指心正确.连接主义目标是指心正确，保证不了其指物指名正确.行为主义目标是指物正确，保证不了其指心指名正确.在三指等价时，AI至少是努力不骗人的；而在三指不等价时，有时AI可就会或有意或无意的骗人.本文题目中的“暗”就是指这一点.面对这一难题，三大流派都会出现巨大的困难.对于人来说，概念的三指不等价会带来麻烦，但并不是不能处理.人本来就能够在悖论中生存，但机器显然不行.

当面临悖论时，未来的人工智能怎么办？这是人工智能面临的重大理论问题，本文不再展开讨论.

5 结论

本文的结论有2点：第一，图灵测试是思想实验，不是工程实验，能够工程实验的是闭式图灵测试.因此，凡是建立在原始图灵测试通过假设之上的概念都是不成立的.第二，AI的基本假设是概念的指心指物指名功能等价，这与现实有时会发生剧烈的冲突，在人机对话研究中这一点特别明显.所以，目前对AI来说，确确实实需要更加深入的理论研究，AI的理论假设已经面临巨大的挑战.

本文主要思想来自作者在CNCC2019会士论坛的报告，是个人的一些不太成熟的看法，不一定正确.如果有错误的地方，欢迎批评指正！