人工智能将让每个平凡人更伟大

2016-04-21□文/余凯

机器人产业 2016年1期

□文/余　凯

人工智能将让每个平凡人更伟大

□文/余凯

过去60年的大部分时间，人工智能一直基于规则的系统进行发展。从上世纪80年代末以来数据驱动的人工智能成为主流，一旦将数据导入机器，机器就可通过消化和吸收生成对世界认知的模型。而未来，所有设备最终都将成为广义的机器人，可以进行感知、理解、决策。这将为人类发展提供更多可能性。人工智能的伟大之处不在于让机器更伟大，而在于开发智能机器来辅助人，让每个平凡的人变得更伟大。

1956年，人工智能（artificial intelligence)这个词汇诞生于Dartmouth会议，参会学者提出了非常有远见的思考，如何让机器仿真实现智能。当然，这样的思想，更早甚至可以追溯到十七世纪末的哲学家、数学家莱布尼茨，他最早提出通过数学演算来模拟智能。参加Dartmouth会议的先贤们虽然有远见，但有些过分乐观，他们认为人工智能的基本问题可以在一个夏天解决，但是这些问题至今也没有完全解决。

“传统人工智能系统”多以科学演绎的方式发展

人工智能首先应具有感知的能力，通过传感器能够感知到环境的变化；其次是理解力，从感知阶段上升到对世界的理解；第三是决策能力，通过理解之后做出决策。

人工智能最简单的形式是通过观测到的现象、数据、知识，映射成预测、判断。例如，输入图像输出“物体”的名字的映射，就是图像识别；输入语音讯号输出“文本序列”，就是语音识别；输入一段话输出“解析的树状结构”，就是云储；输入车辆行使周边路况情况输出“控制决策”，就是自动驾驶。

过去基于规则的人工智能系统，多以演绎的方式来建立系统，其概念类似“一生二，二生三，三生万物”。从一个基本法则出发，推导出一个纷繁复杂的系统。这种方法主要受自然科学的方法论的影响，通常从不言自明的公理出发，但从这一思维出发所得到的人工智能系统，常常会过于简单。

传统基于规则的人工智能系统，没有取得积极的成果，但却得到了很多教训。其一是这个世界是纷繁的，存在着很多因素和要素，彼此之间有复杂的影响，形成复杂的网络和系统，难以用一个公式来描述；其二是有很多因素和参量不能观测到，所以系统具备不确定性；如果用确定性的规则，无法掌握这样的复杂系统，要采用基于统计的概念；其三是现实世界纷繁复杂很难完整描述，只有从数据中不断地学习、加深对问题的理解，同时跟随数据的演化和进化，才是关键。这也是“大数据”的重要意义，数据在本质上，为人提供了了解世界的可能。

隐约听到“轰隆隆的雷声”

如果说2000年以来，由于互联网带来的数据极大丰富，人工智能在搜索、推荐、广告等互联网的应用上扮演了关键角色，人工智能处于“润物细无声”的萌芽期。那么在2010年以来，人工智能所处的阶段，笔者称之为“于无声处听惊雷”的发展阶段，因为我们还是能隐约听到“轰隆隆的雷声”。人类一直在思考，是否可以通过技术的手段复制人类非凡的大脑和智力，这也是人工智能令人着迷之处。回顾信息技术的发展历程，从信息理论到图灵测试、通信技术发展、计算机信息科学等发展都是为了一个结果，即通过计算让机器具有智能。

现在提到人工智能，一个颇具浪漫主义的观点认为，“强人工智能”拥有跟人一样的智能，有强大的学习能力。伟大科学家图灵的图灵测试，提出如果人类分辨不出幕布背后是机器人还是人，其幕布背后的机器就具有“强人工智能”。今天的“人工智能”离真正意义上的“强人工智能”还差得很远。另一种观点认为，机器人具备部分的人工智能，我们称之为“弱人工智能”，它在某个不确定的环境下，完成某类特定任务。

对人工智能，大家也常常有哲学思辨的热情。曾经有一个叫做“思想实验”的例子：如果一个房间里关着一个不懂中文的英国人，但是在房间的桌子上有一本中文书需要他来进行认知。而这时从门外递进一张英文说明，需要他按照说明查阅书里内容后写出一份中文翻译，结果是他写出来了。这看起来很智能，但是这个英国人并不懂中文，他写出翻译的表象行为是否是他的智能呢？其实行为方面表现的智能，并不是真正的智能。有一种解释是这个英国人不懂中文，所以体现不出他的智能，但是“英国人＋书＋房间”，这个系统是智能的。

互联网的本质存在深刻的哲学思辨

在纷繁复杂的世界里，为解释人和世界的关系，孔子提出了“仁”，宗教提出了“彼岸世界”，互联网提出了“人和世界的连接”。人和世界的连接包括人和信息、人和商品、人和人、人和服务的连接，这也催生了一系列行业机会，创造了巨大的社会价值。互联网带来的重要启示，就是高效连接非常重要。

网络索引的趋势是从无序到有序，让无结构化的信息变得有序，更加方便人们获取信息；从数据到语义，方便人们了解数据背后的内容；从线下到线上，检索虚拟信息、商品信息、线下服务信息。

搜索引擎就是一个人工智能系统，因为它有一个非常精致的结构：其拥有感知能力，借助免费服务，用户都在为搜索引擎提供数据，真实的信息也因此在不断分层，即外显信息（在社交上晒出的）、部分信息（在特定地方分享）、隐私信息。互联网最精巧的商业模式之一，就是拿着用户信息实现商业价值。正因为对用户的了解足够正确，就可以推出符合用户当下的广告或商品，这就是一个强大的基于大数据的人工智能系统。

一切的连接都需要通过媒介，互联网通过个人电脑、手机、智能硬件等延展人的能力，使人和世界的连接更加紧密。通过大数据的支撑，人可以用自然的方式和机器交互，而机器可以更好地索引世界。未来交互的终极形态将是“心灵感应”和“脑机交互”。

所有这些，都与机器的进化息息相关，即从个人电脑到智能手机，再分化出智能硬件，最后的趋势是发展出“智能助手”，类似人的助理帮助人完成任何事情。未来通过无处不在的传感器和强大的计算能力，人和机器将完全融为一体，机器将变成在计算机控制下，具有自主行为的机器，它完全懂得人的想法，并能够自主完成人们想做的事。

机器变聪明后其在很多方面将超越人类。如对机器而言，学习将是一瞬间可完成的事，只需通过光纤网络传输。而人要学习知识则需要通过语言、交流以及很长的时间记忆，才能真正地理解。机器却能在极短的时间内复制知识、交流知识，其对人类将可能产生威胁。而规避这个威胁的方式，是在交互上取得突破性进展，使人和机器的交互变成零距离。这样，人也可以具有机器的能力，例如将小型芯片植入人体内。

余凯地平线机器人科技创始人、CEO

找到一个简单的规律

目前人工智能面临的问题是，如何从数据中学习映射函数，形成训练样本。例如将多个图片定义为“长颈鹿”这个标签，系统通过训练学习，然后自动再将类似新图片打上这个标签。

从有限推导无限是不可能的，除非设定了假设，如果没有假设就无法做出判断。“近朱者赤，近墨者黑”就蕴涵了一个朴素的智慧，即在判断的时候一定要隐含假设：两个在某些方面相似的人，在其它方面具有相似的特征和特性。

这就反映人工智能的本质问题，即假设的合理性。人们希望从数据得出的结论是简单的、光滑的，而不是复杂的。所以哲学上有一个词汇——剃刀原理，它指在能够同时解释某个现象的几条规律中，我们喜欢选择其中最简单的规律。总而言之，我们希望能够找到一个规律，既能找到观测样本，又能得出简单的结果。

从纷繁复杂的样本中抽取并总结规律的最好机制，就是人类的大脑。它能够举一反三、不断地学习。在学习中，最简单的单元就是神经元，它有很多神经簇，这些神经簇和其它的神经元相连，神经元接收到外部的信息输入后，把对信息信号的反应通过神经末梢传到其它神经元，这个构造可以用感知机模型这个简单的数学公式描述。基于单个神经元构造具有学习能力的人工智能系统，像神经元一样，从外界获得输入后，传递到中央处理的地方，通过简单的运算再向外输出。

今天，这个简单的模型正向几个维度扩展，其将从线性的输入／输出，发展到深度神经网络，最后形成具备学习功能的人工智能系统。

"深度学习"将加速人类进入人工智能时代

模拟人类大脑的分层结构以及行为

今天已经发现了基于视觉的神经网络（科学家在研究过程中受到了大脑内视觉信息分层表述的启发。随着视觉输入流从视网膜传输到初级视皮层，再到下颞叶皮质，在识别物体前，每层都会进行处理，从而准确地识别物体）。因此，可以用数据训练系统，让系统能够反映出视觉神经网络的结构和行为。为了模拟这一过程，神经网络的设计者们在模型中设计了几层计算。刚开始，最底层的神经元对颜色不敏感，对边界和朝向敏感，它能复原出物体的轮廓，把轮廓提取出来；上面一层的神经元具备一些更有意思的行为，对物体的部位很敏感；更高一层的神经元对物体开始敏感，它是一个逐层的、从局部到整体的敏感过程。这就是从数据开始呈现的视觉网络行为。

在听觉神经系统中也有类似现象，我们用数据的深度训练也得到类似的结果。

深度学习特别适合大数据

过去的模型和方法对大数据的处理存在许多问题，通常衡量一个模型的优劣是用推广误差进行测试。通过推广误差找到原因并得到控制，从而找到一个更好的学习办法。推广误差来自于以下几方面：

其一是对模型进行假设，但模型假设会存在误差。在概率统计学中有一个著名的说法：你所有的模型都是错的，但有些模型是有用的；

其二是数据的不完美，因为样本有限、或有噪声、或有偏差。这几种情况都会带来误差，因为典型的统计学范畴忽略了一点，即假设了无限的计算资源；

其三是计算机完成的实际问题也会导致计算的不完美，会导致误差。所以要尽量让假设完美、让假设足够宽泛、收集大量的数据并寻求算法处理大数据。

传统人工智能算法不能处理更大规模的数据，因为如果算法的复杂性和样本是立方的关系，当计算机设备数量和样本成同比立方增长时，将意味着数据增加算法更难，这就是为什么深度学习应该受到重视，它特别适应于大数据，数据越大，算法越好。

深度学习是一套灵活的建模语言

写出一篇好文章和做出一个好的人工智能系统是相通的，即对语言有足够灵活的驾御能力、需要对所面临的生活和问题有深刻的感悟和思考，灵活的建模语言和内在洞察相结合，才能够做好。

深度学习是历史上第一次出现的端到端学习，不管是语音识别还是从感知、预处理到预测、判断，过去绝大部分的工作是做最后一个部分，而没有完成前面的几个动作。从计算上来讲，在没有深度学习之前，上面几个步骤是消耗计算资源的、人工手动的，但深度学习是一气呵成的，减少人工手动。这个变化是革命性的，今天这已经成为共识了。

人类大脑是通用处理器吗？人从猴子到现在的人类，人之所以能够从物种中脱颖而出，是因为大脑对人类所需要的特殊能力在不断进行优化。从本质上说，大脑是专用处理器，并非通用处理器。

大脑的计算过程较慢，但是人脑对诸如开车、打乒乓球等行为进行了加速处理，从结构上做了专门的优化。