阿尔法元“完爆”阿尔法狗，人工智能还有何种可能

2017-12-05余靖静

瞭望东方周刊 2017年42期

余靖静

人工智能研究长期以来的一个目标是，在最具挑战性的领域，在没有人类输入的条件下，创造出实现超越人类能力的算法

AlphaGo（以下称“阿尔法狗”）是首个在围棋中战胜人类世界冠军的系统。该系统开发团队DeepMind近日公布，最强版AlphaGo Zero（以下称“阿尔法元”）能零基础“自学成才”，通过几天的训练，就以100比0的战绩击败了“阿尔法狗”。

“阿尔法元”为何能短时间内“完爆”“阿尔法狗”？它给人工智能（AI）的发展带来什么启示？人工智能成长不再受限于人类经验，是否要喟叹“颤抖吧，人类”？

零基礎“自学成才”意味着什么

对于在如此短的时间超越了“阿尔法狗”，浙江工业大学副教授、博导姚信威认为，这种“无师自通”的学习模式在AI整个发展上是具有里程碑意义的。

姚信威说，“阿尔法元”的伟大之处是第一次让机器在不“学习”任何棋谱、只设定规则的情况下，从“一张白纸”的状态开始，迅速成为围棋大师，“在这个过程中，‘阿尔法元是自己的老师。”

“‘阿尔法元丰富了人工智能成长的方式，在方法论上是有重大意义的进步。”国家千人计划特聘专家罗欢认为，“阿尔法狗”学习人类经验，需要大量数据，学习成果是训练数据集里隐含的人类专家认知的集合；而“阿尔法元”通过机器间的博弈来提高，不需要人类经验，在判别模型给定的目标下，可以超越人类经验，发现人类专家还没有探索过的博弈路径。

“人工智能研究长期以来的一个目标是，在最具挑战性的领域，在没有人类输入的条件下，创造出实现超越人类能力的算法。‘阿尔法元的成功，是朝这个目标迈进的一大步。”姚信威说，“阿尔法元”证明了，即使在最具挑战的领域，纯强化学习的方法是完全可行的——即不需要人类的样例或指导，不提供基本规则以外的任何领域知识，能够实现超越人类的水平。

技术惊艳，何时成为主流

姚信威分析说，“阿尔法元”得到这样的结果，是利用了一种新的强化学习方式。该系统从一个对围棋游戏完全没有任何知识的神经网络开始，通过与一种强大的搜索算法的结合，它就可以自己和自己下棋了。在这个自我对弈的过程中，神经网络不断被调整、更新，以预测下一个落子位置以及对局的最终赢家。

他解释说，每一次迭代，更新后的神经网络都会将与搜索算法重新组合，进而创建一个新的、更强大的“阿尔法元”版本，使得神经网络的预测越来越准确，得到更加强大的“阿尔法元”版本。

“无师自通”虽然在技术上令人惊艳，姚信威认为，其在短期还是无法成为主流。“目前人工智能解决的很多事情，实际上都是在模拟人类的某一种技能，让机器应用这一技能去完成任务，而这需要海量的数据与更多的信号输入。所以，在今后很长一段时间内，监督学习依然是AI研究与AI商业化的主流方向。”

“‘阿尔法元是对增强学习理论的一个很好的验证，非常鼓舞人心。”罗欢认为，将来我们会陆续看到大量的研究成果和实际应用出现，“当然，从理论初步验证到实用肯定还有一个工程化的过程。”

姚信威也认为，对弈之外，“阿尔法元”的技术可能在其他领域应用，比如新材料开发、新药的化学结构探索等，“但这需要时间验证”。

他认为，“阿尔法元”的自主学习带来的技术革新，并非适用于所有人工智能领域——围棋是一种对弈游戏，信息透明，有明确结构；而语音识别、图像识别、自然语音理解、无人驾驶等领域，数据无法穷举，也很难完全无中生有；“阿尔法元”的技术可以降低数据需求，但依然需要大量的数据。

机器如此，人类如何自处

面对如此强大的“阿尔法元”，部分人士难免觉得“被碾压”“有些可怕”。专家们则认为，其实不必惊慌。

“严格讲，围棋规则和判定棋局输赢也是一种监督信号。因此，说人类无用，或者说机器可以自己产生认知，都没有准确地理解‘阿尔法元。”姚信威说。

“‘阿尔法元毕竟是个模型，它不是智慧生物。人类棋手依然可以利用智慧，以更奇特的招数来取胜。”上海海事大学信息工程学院教师朱昌明说。

“人的归人，机器的归机器。”罗欢说，围棋人是下不过机器了，而譬如五子棋、象棋等，人早就下不过机器了，但还是有非常多的爱好者。

“围棋有确定的目标，确定的规则，确定的评价方法，这个问题就变成了一个搜索问题，而难点就在于对巨大的搜索空间的剪枝，以及得分的预测。这样的问题往往是机器最擅长的。”复旦大学博士生四年级陈新驰说，人类不擅长这些，但从语义理解的角度，机器什么都做不了。

“所以即使‘阿尔法元（下围棋）可以战胜人类，也不能说明什么问题，因为它根本不知道自己在下棋。”陈新驰说，从实现人工智能的角度，仍有很长的路要走。

“增强学习理论的能力边界离自主意识还很远。‘阿尔法元主要用判别模型取代了数据标注，其对应的是一个简单规则的封闭系统；而对目标不能用数学模型描述的领域，它还无能为力。”罗欢说。

“一个孩子在1岁时，碰几次树就知道以后要避开树行走，而人工智能创造的无人驾驶车却需要碰撞几万次才能学会避开障碍物。这是人类先天的优势。”朱昌明说。

猜你喜欢

阿尔法神经网络机器

机器狗

基于人工智能LSTM循环神经网络的学习成绩预测

三次样条和二次删除相辅助的WASD神经网络与日本人口预测

阿尔法狗围棋界决定组团围殴它了

瞭望东方周刊

2017年42期