走近人工智能
2018-01-25刘西瑞
◎刘西瑞
人工智能的诞生
说到人工智能,不妨去它的原点看看。与科学领域中多数学科没有确切的起始点不同,人工智能有着明确的诞生时间和地点:1956年夏天,在美国常春藤名校达特茅斯学院召开的达特茅斯会议上人工智能正式诞生。其时,十位来自数学、计算机科学、信息科学、心理学等领域的领军式人物会聚于此,讨论计算机模拟人类思维的可能性问题。麦卡锡是这次会议的发起人之一,在这次会议上,他为这个新学科取名 “人工智能” (Artificial Intelligence,简称AI)。然而,生命在诞生之前还有一个胚胎发育过程,须有一粒种子作为起始点。对人工智能而言,这个起始点就是图灵机,它的设计者是英国天才数学家阿兰·图灵。图灵机并不是一般意义上的机器,而是一个数学模型。直到今天,无论人工智能的威力多么强大,形式多么复杂,都仍然是建立在图灵机理论之上,没能越出这个范围。
图灵机是由一条可以进行读取的无限长纸带和一个可以递推的逻辑运算序列构成的。无限长纸带决定着对计算量大小没有限制性的规定,而可递推性决定着每一步计算完成时,下一计算步骤可在系统内部自动生成,计算的连续性得以保证。图灵机的构造看似简单,但是与图灵机相关的理论却引出一些相当复杂的逻辑计算问题。其中之一是NP问题。P(Polynomial)是计算复杂性的标志,但是有些问题的复杂性难以预测,于是就存在着NP问题 (Non-deterministic Polynomial),即无法确定复杂性的问题。此外还有停机问题等等。停机问题是说在所有不同情况下,计算机是否能够自我控制停机,这涉及到逻辑中的悖论,也是一个难解的问题。以上两者,用一个形象的比喻来说,就是在计算过程中是不是存在一个死结,使得计算无法进行下去。这些问题至今仍在讨论之中。
图灵不仅设计出图灵机,而且提出了一个著名的计算机智能的检验标准,也是迄今唯一具有可操作性的检验标准,即:图灵实验 (也称图灵检验,图灵测试)。图灵实验是:让一个人和一台计算机分处于两个房间,另一个人作为提问者,在看不到前一人和计算机的情况下分别向他们提问,经数轮提问后,如果提问者不能正确区分哪一边是人,哪一边是计算机,那么就可以判定计算机与人具有同样的智能 (用统计学作为正误的量化标准)。所提问题可以尽量刁钻,例如要求对莎士比亚的十四行诗进行解释,问一问对冬天的感受等等。到今天,还没有一台计算机能够真正通过图灵检验 (有传言说某台计算机通过了图灵检验,但最终都未得到证实。)
图灵机出现在1940年代,从理论上说,它已经为人工智能铺平了道路,但那时它仅仅是个数学模型,在物理世界里,还不存在实现的条件。直到50年代高速计算机问世,图灵机才有了付诸实践的可能性。
人工智能诞生之初,科学家们雄心勃勃,认为在不久的将来,人工智能就可以赶上甚至超过人类的智能。然而,它的发展却是一波三折,相当坎坷,走到今天的规模,实属不易。
关于算法的科学
人工智能究竟是什么?在达特茅斯会议上,西蒙,另一位人工智能大师,经济组织决策管理专家,建议把这门学科叫做 “复杂信息处理”,另有人提议叫做 “认知过程模拟”,然而会议最终采纳了麦卡锡所取的 “人工智能”,这个名字通俗而令人印象深刻。但是,如果从反映学科的性质和功能来看,前两个名字或许更加准确。
所以,我们可以把早期人工智能定义为:处理符号信息的科学。
形象地说,人工智能就是模仿人类思维进行各种活动,做那些看似只有人类智慧才能完成的工作,如做复杂计算,开药方,下棋,开汽车,甚至做诗、绘画,等等。
既是模仿人类,就需要看看人类是如何完成这些工作的。信息加工是人类大脑的主要功能之一。简单说,这个过程可以分为三个部分:信息获取,信息加工和结果输出,以及结果的反馈。对人而言,信息来自对外部世界的感知,或者大脑的内部存储,如记忆。任何信息都必须以某种形式化的方式呈现,可以说,形式化是进行符号加工的先决条件。符号、语言、数学公式是典型的形式化样式,而图像、画面等也是某种形式化的表现。广义的形式化,或者广义的符号系统,是包括语言符号系统在内但比之宽泛的符号系统,它们都适合于人工智能 (机器)进行读取。人工智能的信息可以由外部 (人或其他设备)以数据方式直接输入,也可以自己生成,但即使自己生成,其生成方法也是由人事先设定的。
在加工能力方面,人的信息处理能力取决于两方面:先天能力和后天学习获得的能力。人的先天能力是由大脑构造所决定的,非常强大,它以本能的方式呈现,也是后天学习的基础。而机器的信息加工能力是由人赋予的。可以直接作为程序输入,也可以通过学习程序来提高。但是以何种方法进行学习,仍然离不开人的指令。针对每个不同的任务,需要编写不同的程序,各式各样程序的关键所在是算法 (algorithm)。是特定的算法决定着机器的加工过程。在这个意义上,把人工智能称为 “算法的科学”或许是更加准确的。
人工智能历史上的进步都与新算法的出现有关,例如神经网络提供的分布式算法,多层网络的深度学习的算法。当然计算机硬件在提升速度、增大存储量方面的贡献也十分重要。
人工智能常常被说成是计算机的一个分支,是建立在二进制基础上的一种计算。这里存在着一种误解,即把人工智能与现今的计算机看作是同一体。人工智能是以计算机为载体的,这不假,但是人工智能决不仅限于这种物质载体。当今的计算机主要是用硅和金属元素制造的,但还可以有生物计算机、量子计算机等种种不同的物理形式;采用二进制只是便于利用电路开和关两种状态。一位专家说过,如果不考虑速度,即使用卫生纸卷也可以造一台计算器。准确说来,任何一种物理形式的机器,只要能够满足图灵机的要求,就可以作为承载人工智能的工具。硅和金属类的计算机的应用,只在于它的高速度和大容量存储能力。
人工智能和自动化机器有什么不同?人工智能是在纯抽象的符号层面上完成关键步骤的,而自动化是依靠物理世界中的物质特性来完成复杂变化的。以温控装置为例,自动化过程可以直接通过金属构件受温度影响的长短变化进行控制;而人工智能的温控操作则需要把温度转换为符号,在符号系统中进行变换 (计算),再用其计算结果指导物理世界的动作。如果是一套复杂的动作变换,在物理世界中完成,需要耗费巨大工程量,而通过符号计算进行操作则简便得多。对于那些本身就处于符号层面的事物,人工智能自然就更是得心应手了。
人工智能何以有强大威力
阿尔法狗 (AlphaGo)战胜围棋冠军李世石和柯洁九段 (2017年),再次把人工智能推到媒体的聚光灯下,而无人驾驶汽车、刷脸证身、家务机器人等实用技术,让我们感到人工智能好像无所不能。它何以有如此之大的威力?
前面说过,人工智能是模仿人类的思维,同时也可以把它看作是帮助人类进行思维的一个工具。想一想仅仅帮助人类改善了一项运动能力的汽车给人类社会带来何等巨大的变化,就不难推想当处于更高统领地位的思维获得一个工具时,会产生出怎样惊人的结果。思维的涉及面之广,影响程度之深,远非任一项物理世界的技术可比。目前这种影响才仅仅是一个开端,更加强大的影响还没有充分显露出来。
计算机是由人来操作的,但是它在几个方面的能力大大超过人类:加工速度,精确性,存储量;同时,它还没有情绪,不知疲劳,等等,都绝非人类能比。
决定人工智能进步的主要在于算法。计算机硬件在速度、存储量方面的贡献也起到相当大的作用,但这只是同质层面的扩充。以下棋为例,从理论上说,穷尽式的搜索当然可以完成对任何棋局的查找,从而选出最优方案,赢得胜局。早期的下棋程序正是基于这种思路。但是这种计算的计算量之庞大,即使采用当时最快的计算机,也可能需要成千上万年甚至更长时间,没有实际的可行性。有一个术语 “计算组合爆炸”就是指这种情况。所以下棋程序必须由棋艺大师指导,制定出特定的有效搜索方法,才能够在实际允许的时间内完成计算。1997年战胜世界国际象棋冠军的深蓝,是美国IBM公司生产的一台国际象棋计算机,有32个微处理器,每秒钟可以计算2亿步,它的进步在于采用了并行处理系统,其算法是通过对已有棋谱的分析进行决策,采用混合决策方法,以及深层算法。深蓝可搜索随后的12步棋,而人类顶级象棋大师大约可估计10步棋。
到了阿尔法狗时代,人工智能具备了一个更加强大的算法工具:深度学习。谷歌旗下团队开发出这一程序,其所用算法是深度学习网络(CNN)与蒙特卡罗搜索树 (MCTS)的结合。一方面它熟读了已有的数万盘人类对弈的棋局,记录其获胜步骤的走法,形成了概率评价系统;并且它还通过大量的自我对弈,产生了3000万盘棋局,用作训练学习价值网络。
人类棋手提高围棋水平的方法有掌握定式,背棋谱,复盘等等,这些过程快的需要几分钟,慢的需要数小时,而阿尔法狗在1秒钟内可以复盘上万次。这种能力人类棋手远远望尘莫及。人的思维是受瞬间工作记忆的容量限制的,我们都体验到人很难同时思考两个以上的问题,并行机则不受这种限制,可以多路计算同时并进。计算机具有强大的信息处理功能,在这个方面超过人类是很自然的事情。
再看机器做诗。这儿有一首机器的诗作:“白沙平舟夜涛声,春日晓露路相逢,朱楼寒雨离歌泪,不堪肠断雨乘风。”这诗句看起来很优美,但创作过程与人全然不同。机器须有一个专门的数据库,储备丰富的语汇和大量诗歌蓝本,同时建立进行联结的规则。这些规则来自诗人的经验。编程者对诗歌的理解水平直接决定着语汇库和联结方式的质量和水平,从而决定着诗歌创作的水平。机器可以成批量地写诗,写几万首也无须多长时间。但是,做诗程序还必须建立一个评价体系,把那些劣质的诗剔除出去。这个评价体系恰恰是程序中最难的部分。不难看出,同形式比较自由的现代诗歌相比,规则较多的古代诗歌更容易由机器操作来实现。
纵观人工智能的历史,其发展路径渐渐离开了对人的思维过程的模仿。从早期的符号主义(Symbolicism)发展到联结主义 (Connectionism),再到当下的行为主义 (Actionism),在表征上、计算上不再把模仿人类当作是最佳的唯一的方法。的确,机器智能自有特定的规律和元素,不可能和人类完全一致。况且人类也未能完全了解自己智慧中的许多重要因素。充分发挥机器自有的特长,人工智能的路可以越走越宽。
目前,机器已经涉足了诸多领域,在这些领域中,或者远远超过人类,或者在将来也有可能超过人类。机器一旦拥有了 “思维”的能力,的确是件令人生畏的事情。
人工智能的困境
然而机器也有它的死穴。
算来人工智能已经走过60年的历程,只在近20年来才引起社会的广泛关注。事实上它在发展的道路上数度跌入低谷,遭遇寒冬。
人工智能诞生之初,曾经取得一些令人振奋的成绩,其中最著名的是 “四色定理”的成功证明 (四色问题:再复杂的地图,只需四种颜色就可以把不同的国家分隔开来)。这个数百年来的数学难题被机器破解,给人工智能专家们极大的鼓舞。西蒙曾雄心勃勃地和他的学生纽厄尔合作开发了 “通用问题求解系统”GPS(General Problem Solver)。他们的目标是机器可以像人那样解决各式各样的问题,所以用了 “通用”二字。这款程序直接模仿人类思维的符号加工过程,可以解决11种不同类型的问题。而这些类型基本上属于逻辑表达式一类,虽然在定理证明领域出手不凡,但其局限性是很大的,远远谈不上 “通用”。这一程序的最大作用也许是让人工智能专家们冷静下来,去寻找其他途径,而不仅仅用逻辑符号的方式来完成任务。
“通用”背后的灵活性是人类的特有本领。下棋程序再厉害,也只会一种棋艺,阿尔法狗下围棋是能手,但对象棋一窍不通。真正可以模仿人类思维,解决大多数日常问题的程序至今没有出现。甚至在目前可预见的时间尺度内还看不到这样的希望。2007年,麦卡锡又重申了人工智能的理想:制造出达到人类水平的人工智能 (AI)。然而他说,“人类水平的AI将会实现,但是必须要有新的思想观念,所以不能确切地预见这个日期——可能是五年,也可能是五百年。我倾向于认为是在21世纪”。人工智能专家对人工智能的预期总是过于乐观的,事实上这个目标或许永远都没有可能实现,这个问题的论证是哲学家应当承担的。
人工智能面临着种种难题,其中最大的问题是自然语言理解。当然不只此一项,实际上凡属人类本能的方面,人工智能模仿起来都十分艰难。
我们来看看机器翻译的情况。早期的翻译机闹了不少笑话。例如:英语 “the spirit is willing but the flesh is weak(心有余而力不足)”翻译成俄语,再译回英语时,变成了 “the vodka is good but the meat is rotten(伏特加酒好而肉臭)。”这种尴尬的状况使得美国政府撤销了对这一项目的资助。当然电子辞典是非常流畅的,人工智能做这种数量巨大,但结构简单的事情最为得心应手。由于计算机存储器可以容纳十分庞大的电子词典和众多语法结构条款,人们对它进行翻译也充满期待。但是翻译进入了语义领域,人工智能变得举步维艰。今天的机器翻译水平已经大大提高,它采用的不是人类翻译方式,而是统计学计算方法。方法之一是:通过建立词库,对每个词汇的衔接频率进行统计学标记,翻译时根据统计概率来选取词汇。类似方法在人工智能中经常使用。当无法像人一样完成任务的时候,人工智能就另辟途径,有些方法虽然拙笨,但高速度和大容量足以弥补许多缺点。
在语言理解方面,人工智能历史上人工智能专家和哲学家有过数次交锋。一个著名的例子是哲学家塞尔提出的 “中文屋”思想实验。
这是一个有趣的实验:塞尔设想自己被关在一间充满中文字条的屋子里,通过在窗口传递中文字条与外界发生联系,并靠一本英文指令书在屋内将各种中文字条配对,然后把答案字条送出窗口,这样,他就可以正确地回答屋外中国人的提问,屋外的中国人看到答案,认为他是懂得中文的,可是,塞尔真的懂得中文吗?回答当然是否定的。“懂中文”意味着什么?塞尔特别强调了理解的作用:理解的实质决不是程式化操作;人是在语义层面上进行思维的,语义涉及内在解释,符号只是意义的外在承担者,机器只能在符号的表面操作,经此一比机器与人的差异就十分清楚了。
识别问题,也是人工智能遇到的难题之一。想想我们如何把一张照片上的人物和背景区分开来,这好像很难说清楚。既说不清楚,当然就无法教会机器。不过人还是为机器找到解决办法,这是一种十分复杂的计算过程,全然不同于人的识别方式。此外还有很多问题。凡是人类无法说清的事情,对机器而言都是难点。这让我们想起哲学家维特根斯坦的名言:对难以说清的东西保持沉默。
机器是没有生命没有心灵的,因而也就没有意向性。它可以做出优美的诗歌,但是它对于意境和美毫无知觉。它可以赢得棋局,但是它不懂享受胜利的喜悦。它只能够做人类指令它去做的事情,而毫无自己的独创性。
与人类的关系
任何一项重要科学技术的产生都会对人类社会带来重大的影响。围绕汽车,要修建公路,制定交通法规,要忍受交通事故的伤害。原子核能技术既可以提供巨大的能源,也因为核武器而改变了世界政治的格局。但是它们对人类的影响与人工智能相比仍然是局部的、程度有限的。人工智能发展所产生的影响是全方位的,是可以抵达思想的深层的,这种影响势必大于之前任何一种新技术的影响。但是在这个问题上我们并没有做好必要的准备。
人们十分关心一个问题:机器人 (人工智能)在未来某一天会凌驾于人类之上吗?会成为人类的主人,去奴役人类吗?或者,机器人会伤害人类吗?
对于这类问题,是可以做出回答的。人工智能就其本质而言是一种特殊类型的机器。机器本身没有主观意识,没有自由意志,它既不会把人看作朋友,也不会把人看作敌人,它没有权力欲望,更不会妄想去统治世界。但是,机器人是服从和服务于人类的。一个人或是一小群人,因为有了人工智能,其支配能力就会大大加强。人的善与恶都会被进一步放大。古代皇帝要监控舆情,须得派东厂的探子们四处奔波;今天只需搜集敏感词汇和点击量,许多事情就轻松搞定。在社会问题方面,人类的概念显得过于笼统。可以说,由于人工智能的存在,少数人统治多数人之事变得更加容易了。由人制造的机器人去控制、驾驭其他的人,是完全可能的事情。
至于机器人会不会伤害人类,这要分主观故意和意外事故两个方面来说。意外事故当然会发生,但这是在可控范围内的事情,如同交通事故一样,当然其影响可能大得多。如果有人借助机器人完成主观犯罪,也是完全可能的。关于机器人与人类的关系,上世纪早期科幻小说家阿西莫夫曾经提出过 “机器人三原则”:
零原则:机器人必须保护人类的整体利益不受伤害。
第一原则:机器人不得伤害人类个体,或者目睹人类个体将遭受危险而袖手不管,除非违反了机器人第零原则。
第二原则:机器人必须服从人给予它的命令,当该命令与第零原则或者第一原则冲突时除外。
第三原则:机器人在不违反第零、第一、第二原则的情况下要尽可能保护自己的生存。
可惜的是,机器人从科幻变成现实后,至今没有真正意义上的关于机器人的约法。
人工智能带来的影响还没有充分显现出来,但是我们可以预见到其中一个方面:社会的分化。机器人代替人类工作,人类只需很少的时间就可以完成生存所需的物质资料。大量的闲暇,将是人类面临的局面。即使在今天的生产力水平下,一个人大约用三到五年的时间就可以完成一生所需的基本物质产品。未来这一时间还会继续缩短,在新型社会中,每个人有着很大的选择自由。是否会出现一个 “上智下愚”式的分化,这种可能性当然是存在的。一批聪明的人负责制造机器人,另一批人只需按按电钮,就衣到饭来。当然这种分化也不是必然的,但是如果不提前预防,就很可能出现。
此外,一些伦理和心理方面的问题也可能出现。
然而总的说起来,人工智能带给人类的福利是主要的,只要人们善意地利用这项技术,我们应该欢迎人工智能时代的到来。