APP下载

浅谈对基于机器学习的人工智能的理解

2017-09-08李健

关键词:机器学习数据挖掘大数据

李健

【摘 要】人工智能学科自1956年诞生以来,便长期处于计算机学科的前沿地位。但由于标准的、规范的定义的缺失,以及部分影视作品的影响,使得大众对人工智能的理解是片面的,错误的。笔者认为当代人工智能的发展的一个重要分支是基于机器学习与深度学习的弱人工智能,即使机器在完成任务时,更“聪明”一些。

【Abstract】Since the birth of artificial intelligence discipline in 1956, it has been in the forefront of computer science for a long time. However, due to the lack of standard and normative definitions and the influence of some films and TV works, the public understanding of artificial intelligence is one-sided and wrong. The author believes that an important branch of the development of modern artificial intelligence is the weak artificial intelligence based on machine learning and depth learning, which makes machines accomplish their missions more “wisely”.

【关键词】人工智能;图灵测试 ;机器学习;大数据 ;数据挖掘

【Keywords】artificial intelligence; turing test; machine learning; big data; data mining

【中图分类号】TP181 【文献标志码】A 【文章编号】1673-1069(2017)07-0192-03

1 引言

人工智能(Artificial Intelligence)是目前引領计算机行业发展的重要力量之一,图灵奖更是于2010年与2011年,连续两年度均授予了为人工智能做出突出贡献的科学家莱斯利·瓦伦特和朱迪亚·珀尔。然而就是这样一个计算机科学领域的重要分支,自学科诞生以来便没有一个明确的定义。

人工智能学科一路走来历经了三个重要的阶段:推理期、知识期以及当前流行的学习期。

首当其冲的便是推理期。很长一段时间,我们把逻辑推理能力作为人工智能的重要衡量标准。在这一时期,最有代表性的成就便是艾伦·纽厄尔和赫伯特·西蒙开发的自动定理证明系统,后来这两位也因为这个贡献加冕了1975年的图灵奖。

第二个时期便是知识期。人们很快发现,仅有逻辑推理能力是远远不够的,还需要辅以大量的知识储备。于是专家系统应运而生。图1为一般专家系统的结构框架。

为专家系统做出突出贡献的爱德华·费根鲍姆荣获1994年的图灵奖。时至今日,专家系统依然是绝大多数服务类软件的基础架构。

第三阶段也便是我们所熟知的当前空前繁荣的机器学习时期。专家系统问世后不久人们便发现,如何建模将知识传递给专家系统成为了最大的难题[1]。学习无疑是获取知识的最有效途径,因此机器学习的概念便应运而生。

机器学习这一概念自诞生以来便受到各行业人士的追捧。一篇发表于《Computer World》中的文章详尽的解析了雇主们无法拒绝的12项计算机相关技能时,机器学习力压群雄夺得榜首。

随着大数据时代的到来,所需处理的数据规模也越来越大,机器学习也逐步渗透到了人们生活工作的方方面面。图2为大规模机器学习流程的构建与部署。2人工智能与图灵测试

2.1 人工智能的定义

人工智能(Artificial Intelligence)自学科诞生以来便没有一个明确的定义,纵观整个自然科学的发展史也是鲜有出现的。

IQ测试是评价一个人智力水平的重要指标之一;但所有智商测试的题目计算机均可以回答的近乎完美,然而我们并不认为计算机具有了智能。记忆力同样是衡量一个人智力水准的因素之一;计算机的存储能力远超目前人类记忆的极限,我们却也难说计算机具有了智能。数学水平与计算能力一度等同于“智商”二字,而计算机的计算能力人类始终难以望其项背,我们也从未以此来说明计算机具有了智能。究竟什么是人工智能?究竟什么是智能?1969年图灵奖得主马文·明斯基定义为:“什么事情是智能的,通过机器来做就是人工智能。”这一定义并没有得到计算机人的广泛认可[2]。随后,著名数学家、计算机科学家爱德华·费根鲍姆对智能的定义逐渐被计算机科学家接受。时至今日,对人工智能定义的争论仍在继续,而我坚持认为,基于机器学习是人工智能重要的评价指标之一。

2.2 阿兰·图灵与图灵测试

每每提及计算机科学,便有一位名人物在脑海中浮现,那就是伟大的英国数学家、计算机学家阿兰·麦席森·图灵。素有“计算机学科的诺贝尔奖”之称的图灵奖便由他的名字命名,图3为图灵与图灵奖杯。

阿兰图灵在其发表的论文《论可计算数在判定问题中的应用》的脚注中提出了“图灵机”的概念,这奠定了这个计算机科学的基础[3]。随后在1950年提出了图灵测试的概念。

在图灵测试发布短短的几年中,便有超过1000篇的论文在讨论与图灵测试相关的问题。长久以来,图灵测试一直被认为是判定人工智能的重要依据,然而图灵测试真的是合格的人工智能的试金石么?目前,计算机科学家们普遍不认为图灵测试对人工智能的评判有决定意义的主要有两方面原因:其一是机器能否了解人类的认知水平(机器是否能够通过图灵测试);其二则是即使通过了图灵测试,能否从“表现”来评判“智能”。endprint

2.2.1 机器究竟能否通过图灵测试

机器能否通过图灵测试的关键在于机器能否了解人类的认知水平,即有效地规避“人为陷阱”。对于类似“《康熙字典》中第1234页的第5行的第6个字是什么?”这种类型的问题,正常的人类是一定回答不出来的,而如果这个被测试机器的数据库中恰好存有《康熙字典》的内容,它就可以立刻的回答出来,从而使图灵测试失败。

再者,如果人类被反复提问同一问题时会表现出烦躁、不耐烦、甚至厌恶等消极情绪。而对于目前的计算机来说,又该如何衡量乃至表现这种“消极的情绪”?

就上述两个问题我们不难发现,要想通过上述这两个测试,就需要机器出除了需要预先存储所问问题的答案,还需要可以了解目前人类所能认知的极限。而这个问题已经远超出我们目前已知和建立的数学模型所能描述的一切范围。

2.2.2 能否从“表现”评判“智能”

即使有机器可以通过图灵测试,那么是否就可以断定它具有了人工智能呢?答案当然是否定的。

1996年,天才棋手卡斯帕羅夫接受电脑“深蓝”的挑战,结果卡斯帕罗夫以4:2宣告胜利。时隔一年,1997年,“更深的蓝”卷土重来,这一次卡斯帕罗夫在6局较量中败下阵来。

在对局中,“更深的蓝”曾经使出十分精明的“弃子战术”,让卡斯帕罗夫一度认为有人为因素参与。赛后采访时,卡斯帕罗夫表示与他对战的机器只有几步展现出了大师级的水准而其他的落子方式则颇为幼稚,也因此他拒绝承认“更深的蓝”具有了人工智能。

时光荏苒,2016年AlphaGo4:1击败韩国棋手李世石;2017年AlphaGo再度披挂出征3:0横扫柯洁。我们似乎都并未曾把AlphaGo作为完全意义上的人工智能。

究竟什么是人工智能,目前尚没有人能给出明确的定义。就上述问题来看,围棋的解空间树完全超出了人类所能用数学表示的极限。因此预先把所有解存入电脑的数据库中是不现实的。而机器学习就为解决这个问题提供了完美的解决方案:通过一定的训练来自主学习、分析下棋的方法,大大缩小了解空间树[4]。

因此我认为当代人工智能的发展是基于机器学习与深度学习的弱人工智能。

3 基于机器学习的深度学习

3.1 机器学习

我们每天也都在不知不觉中使用或受服务与机器学习:我们浏览网站购物时,系统会自动为你推荐最近浏览次数最多的商品;自动驾驶系统也在如火如荼的发展中。我们每天都在享受着机器学习为我们的生活带来的便利,那么究竟什么是机器学习?

这是计算机领域另一个未被明确定义的概念,在我看来:机器学习是一个高度跨学科的研究领域,各领域的科学家都希望借以机器学习的算法来解决诸如计算机视觉、机器人领域、生物医学甚至自然语言学方面的问题。它是人工智能的核心,也是使计算机具有智能的最根本途径,其应用遍及人工智能的各个领域。

3.2 机器学习的主要方法分类

目前学界主流的机器学习分类方法之一是基于学习方法,即根据对输入、输出数据流的限制可将机器学习划分为:监督式学习、非监督式学习以及强化学习。

在监督式学习模式下,输入数据流被称为“训练数据”,且每组训练数据有且仅有一个明确的标识或结果。在建立预测模型时,监督式学习将建立一个完整的学习过程,使预测结果与“训练数据”的实际结果进行比较,并不断进行相对应的适应性调整,使预测结果能够达到一个较高的准确率。

在非监督式学习中,数据并不会被特殊标识,学习模型只是为了推断出数据的可能存在的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。

在强化学习模式下,输入数据流作为对模型的反馈,并不仅是作为一个检查模型正确与否的方式,而是要求输入数据直接反馈到模型,模型必须对此立刻作出相应反馈与调整。图4为部分常见的机器学习方法的分类。

近年来又出现、兴起了半监督式学习。在这种学习方式下,输入数据流会被部分被标识,而其余部分则不会被标识[5]。这种学习模型可以用于进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。此类学习算法常应用于分类和回归,算法包括一些对常用监督式学习算法的延伸,类似算法会试图对未被标识数据进行建模,并以此为基础,再对已标识数据进行预测。

4 结语

人工智能学科一路走来,学科分支也不断发展壮大。而机器学习作为目前应用最为广泛、影响最为深刻的分支之一也在不断地发展着:愈来愈多的算法涌现,越来越多的非计算机学科使用机器学习算法等也从侧面映证了这一观点:当代人工智能的发展的一个重要分支是基于机器学习与深度学习的弱人工智能,即使机器在完成任务时,更“聪明”一些。

【参考文献】

【1】周志华.机器学习[M].北京:清华大学出版社,2003.

【2】安德鲁·霍奇斯.艾伦·图灵传——如谜的解谜者[M].长沙:湖南科学技术出版社,2012.

【3】阿兰·麦席森·图灵.论可计算数在判定问题中的应用[C].伦敦数学会文集,1936:42.

【4】Stanford University, Stanford University Open Courses,http://open.163.com/special/opencourse/machinelearning.html.

【5】伯乐在线学术论坛[DB/OL],http://blog.jobbole.com/77620/l.endprint

猜你喜欢

机器学习数据挖掘大数据
基于并行计算的大数据挖掘在电网中的应用
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究