APP下载

走,跟AlphaGo下棋去!

2017-06-24孙佑先

机器人产业 2017年3期
关键词:神经网络程序深度

□文/孙佑先

走,跟AlphaGo下棋去!

孙佑先

本刊特约撰稿人

□文/孙佑先

AlphaGo2.0来中国了,在5月23日-27日在乌镇举行的中国乌镇·围棋峰会,AlphaGo2.0与围棋现排名世界第一的柯洁九段进行了三番赛对弈(此前都是五番赛),结局虽然在预见中,但这一从去年夏天就“被谣言”的消息,在各方的期待中变为了现实,意义就不仅仅局限在围棋领域。当下,在金融、医疗、教育等各个领域,人工智能对于人类社会的基础性变革影响力已经展开。这种变革的过程进展飞快,它把我们又卷入了一波技术浪潮带来的、打破均衡、再造均衡的过程。

AI进化者:AlphaGo、Master、AlphaGo2.0

人工智能(AI)和机器人领域的从业者,都对2016年3月李世石与AlphaGo的对决印象深刻。这场“人机大战”让AI从幕后走向了台前,几乎每一位地球人都意识到了AI的发展已经走进了日常生活,未来,还将颠覆我们的生活。

追根溯源,AlphaGo是一款由Google旗下DeepMind团队研发的围棋人工智能程序。“破解智能,用它来让世界变得更好”是打开DeepMind官网后,清晰可见的口号,DeepMind公司早在2014年就以4亿英镑的价格被谷歌收购,今时今日仍是Google截至目前在欧洲地区的最大收购案。而在Google之前,包括特斯拉创始人马斯克、Facebook创始人扎克伯格在内的许多硅谷大佬们也都曾向DeepMind抛出过橄榄枝。

人工智能程序AlphaGo首次被大众熟知是在2015年,因其在没有让子的前提下以5:0击败中国旅欧职业棋手、欧洲冠军樊麾。

围棋九段高手柯洁

随后,AlphaGo以4:1战胜世界围棋名将李世石,这场被称为全球顶级“人机大战”的对抗中,AlphaGo的实力首次被世人真正认可。

但是,围棋界人士也表示,李世石心态上准备不足,在比赛中未必发挥出真实的最高水准。

DeepMind创始人Demis Hassabis在赛后也表达,希望AlphaGo能与中国的高水平棋手对弈,比如柯洁。但因为种种原因顶尖对决被推迟。

AlphaGo在未能“华山论剑”的时间里,江湖还是有它的各种传说,比如“化身” Master标注为韩国九段,在围棋网站弈城与野狐上不断发起挑战,先后击败了包括世界冠军常昊、时越、芈昱廷、唐韦星、古力在内的诸多好手,以及“韩国第一人”朴廷桓与“日本第一人”井山裕太都败北。世界排名第一的柯洁也在与Master的对抗中败下阵来。直到最后,Master宣布自己就是AlphaGo,而代为执子的就是AlphaGo团队的黄士杰博士。

在结束了Master的测试后,DeepMind团队于1月下旬宣布推出新版“AlphaGo”,也就是这次来中国的AlphaGo 2.0。这一版本的升级亮点是——摒弃人类棋谱,即仅通过监督学习和强化学习,再度进化出新的“围棋机器人”。

柯洁遭遇了一个全新的、更强大的对手。

AlphaGo为什么能不断赢?

在AlphaGo出现之前,基于传统算法的围棋程序仅能达到业余棋手的水平,远远不能令人满意。而AlphaGo横空出世后,首战即以5:0大胜欧洲围棋冠军樊麾二段,展现出不俗的实力。因此,说AlphaGo的出现严重动摇了人类智能在围棋上的垄断,是毫无问题的。那么,AlphaGo及其研发团队DeepMind都有什么亮点呢?

在谈及AlphaGo及其开发团队DeepMind之前,必须先介绍一下其领导者Demis Hassabis,可以说,在他出现之前,几乎所有研究者都认为在十年内人工智能战胜围棋大师的机会是渺茫的。而在他出现以后,几乎所有人都在惊呼人工智能已破解了围棋这一历史难题,甚至在极短的时间内两次让研究成果上了《Nature》杂志的封面。因此,英国《卫报》直呼Hassabis就是人工智能领域的超级英雄。Hassabis个人完全配得上这个称谓。

据《卫报》报道,Hassabis的终生目标就是开发出“通用”的人工智能程序,来解决生活中的一切问题。他分别取得了剑桥大学和伦敦大学学院的计算机科学和神经科学学位。Hassabis称自己领导的项目就是“21世纪的阿波罗项目”,这也难怪AlphaGo在击败了李世石九段之后,Hassabis第一时间在Twitter对团队的祝贺中用“登月”形容围棋程序击败人类顶尖棋手的意义。而在此之前,DeepMind通过对近期人工智能技术中最热门的一项技术——深度学习网络,加上“强化学习”的方法使计算机通过自学的方式在上世纪七八十年代的雅达利经典游戏中,获得了近乎人类的表现。而这一成果在更早先的时候登上了《Nature》杂志的封面。拥有千年历史的古老游戏与三十年前的像素游戏纷纷被人工智能攻破,恐怕在未来若干年间,人工智能在任何游戏中都强于人类也不会是太令人震惊的事情吧。

以上所有人工智能领域的发展,都离不开一项技术在近年来的突破,那就是深度学习(Deep Learning),深度学习是传统的神经网络技术的再发展。何为神经网络?神经网络就是人类提出的一套模拟大脑工作方式的计算机算法。人的大脑有100亿个神经元,人类对于环境的感知,对于未知事物的认知与神经元的“可塑性”息息相关,人脑通过对特定的人物或者感兴趣的知识进行“建模”,神经元形成相互连接的“神经网络”,并通过互联神经元的连接强度,即突触权值来储存知识。而所谓人工神经网络,就是将化简后人脑的神经元模型实现于电子计算机之上,从而得到类似于人脑的功能,使计算机可以通过“学习”从外界环境中获取知识。

“通用”的人工智能方法

最初等的人工神经网络出现在20世纪50年代末的“感知机”模型,初步展现了人工神经网络的学习能力,后来的研究表明感知机模型只能解决很有限的几类问题。神经网络的最新发展——深度学习方法源于Geoffrey Hinton教授等人三十多年来的不懈努力研究和推广,自诞生之日起,即在机器学习领域中大放异彩,通过深度学习方法训练出来的模型,在某些特别的图像识别和语音识别的任务中,甚至有超过人类的表现。在当下,深度学习方法是最接近人类大脑的人工智能学习算法。那么将深度学习网络应用于围棋程序AlphaGo又与传统的国际象棋程序深蓝有什么区别呢?

据AlphaGo官方博客介绍,AlphaGo采用了一种更加“通用”的人工智能方法,即采用将改进的蒙特卡洛决策树算法与深度神经网络算法相结合的方法构建最终的学习系统。其中,深度神经网络由一个多达12层的包含上百万个神经元节点的神经网络构成,其包括两个部分:策略网络与价值网络。具体的技术细节在此不赘言,仅说说其发挥的作用。策略网络在当前给定的棋局中,负责预测下一步的走棋,并对下一步走棋的好坏进行打分,如果是好棋,就打高分,最终,最高分的走法被策略网络选为下一步棋的走法。而这个最高分要如何评定呢?此时,现存于人类数据库中的围棋棋谱的作用就体现出来了。对比以往高手对决的棋谱,如果如此走法能得到最终的胜利,那就是好棋,这步就可以评高分,因为以往棋谱的胜负是已知的,反之亦然。在这里,人类历史上的大量围棋起了训练数据的作用,好比老师在“监督”学生做练习,答对了就给高分,答错了不给分。通过对于三千万步人类棋谱的学习,AlphaGo对于人类棋手下一步走棋的预测准确率高达57%(之前为43%)。策略网络的作用好比“模仿”人类棋手的各种走法,以达到预测的效果。

然而仅凭模仿无法击败最顶级的人类高手。因此,AlphaGo增加了价值网络来判断当前的局面,到底对哪一方有利。这一步类似于国际象棋程序中的估值函数,而具体的实现方法却有所不同。象棋程序中需要人工调整估值函数中的权重,以达到最好的效果,甚至需要水平极高的国际特级大师参与调整参数。而围棋程序的局势评估相当困难,只能通过深度学习网络之间自我训练的方法来达到良好的效果。与国际象棋程序相比,围棋好比人类用自己的知识训练电脑,使其达到人类高手的水平。而国际象棋程序则是人类亲自将行棋的方法与逻辑设计为电脑程序,最终由计算机代表人类与人类高手进行对弈。根据Facebook人工智能组研究员田渊栋博士介绍,为了得到合适的价值网络模型,AlphaGo通过自我对局三千万盘的方式训练得到了强有力的价值网络模型,最后再通过传统的蒙特卡洛搜索树方法结合以上两种深度神经网络模型,最终得到了完整的AlphaGo围棋程序。可以说AlphaGo的研发是当今人工智能领域各类技术的集大成者,体现了人工智能技术的最高水平。

AlphaGo下围棋的原理和人类有相似之处,一是判断局部,二是把握全局。但是,AlphaGo就不会输吗?并不竟然。从原理上来说,在大数据时代,更加复杂且更加强大的深度学习模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件做更精准的预测。但是,深度学习也有瓶颈——延迟反馈的问题。

所以AlphaGo下围棋也不是深度学习包下所有的,它还有强化学习的一部分,反馈是直到最后那一步才知道你的输赢。还有很多其他的学习任务都不一定是深度学习才能来完成的。

AlphaGo下围棋背后的DeepMind 方法其实就是深度学习和强化学习混合体,被称为“深度强化学习(deep reinforcement learning)”。简单来说,在这之中,深度学习是主体,强化学习解决了延时反馈的问题。

AlphaGo的行业复制

目前,AlphaGo取得的研究成果正在快速复制到各行各业,谷歌旗下的DeepMind做的第一件事情是用机器学习来管理数据中心。为了解决服务器集群的冷却管理问题,DeepMind训练了三个神经网络,并在某一个数据中心进行了应用,比人管理的时候节电40%。DeepMind认为,这个神经网络不只可以用于数据中心,具有一定的通用性,准备把它发展到发电厂、半导体制造等行业。

DeepMind也将神经网络带到了医疗领域。有数据显示每11个成年人里就有1个会得糖尿病,糖尿病让患者失明的概率提高了25倍,如果失明的症状能在早期发现,那么有98%的可能性治愈。DeepMind与一家叫Moorfields的机构合作,拿到了近百万的原始数据。用这些数据来训练神经网络,然后从图片中提取特征,神经网络在图像识别上的错误率比人低,未来准确率会越来越高。

资深的程序员和性能强大的电脑对AI业务至关重要,但获取真实环境数据也至关重要。利用AI和机器学习技术改进医院、电网和工厂等场合的不同系统时,需要具体的操作数据。

当然,它所属的Google公司拥有海量可服务于这些目的的数据,以供DeepMind“挖宝”。但有关每个细分领域,DeepMind现有的数据还远远满足不了需求。最近它参与了一个研究读唇语的项目,并取得了成功,而成功的关键就在于研究团队掌握了一个庞大的数据集。该项目的研究团队主要来自牛津大学,并以计算机视觉研究者安德鲁·西塞曼(Andrew Zisserman)为首。BBC向研究团队提供了数十万小时的新闻剪辑资料。如果没有这些资料,他们根本无法让AI系统接受读唇语的训练。

DeepMind CEO Demis Hassabis

数据获取对DeepMind未来的重要性,Hassabis持轻描淡写的态度。他称,让人类工程师打造出模拟待解决问题的模型就足够了,再在这些模型中部署AI学习工具。但这并不是目前大多数机器学习系统的运作方式。如果DeepMind需要收集大量个人信息,它将需要考虑清楚:如何应对消费者对企业访问个人数据这类行为的担忧?

近期就有类似问题曝光,DeepMind 被指控通过非法交易获取160万份 NHS(英国国民医疗服务体系)患者病历。英国国家数据监护机构(National Data Guardian) Fiona Caldicott 女爵于2月20日在致皇家自由医院信托会医疗负责人 Stephen Powis 的信件中披露了这一信息。这封信被泄露给 Sky News 并于5月初被公之于众。

如果DeepMind能够解决这类问题,它将是人工智能推向行业的无价之宝:一个算法工厂。它将远不仅仅是Google的AI研究机构和人才集聚地。DeepMind处理过的数据仍属于原本的拥有者,但从数据中学习的软件将属于Google。无疑,在未来,DeepMind将把AI程序用来解决复杂问题,但它或许无法靠这种方式来创造大量营收。然而,AI软件通过分析数据获取的知识或技能将极具价值,让Google为曾经的天价竞标付出的一切努力物有所值。

人工智能超越人类还要多久?

手机扫码阅读

李世石在围棋人机大战第一盘中的失利,几乎掀起了轩然大波,似乎一夜之间人工智能已经战胜人类智能,甚至人工智能完全超越人类智能的那一天似乎也不会遥远了。为此,需要对“人工智能”的概念做一个简单的澄清。

对于人工智能的看法,一直分两派不同的观点,一派是强人工智能,即通过不断地发展机器终将获得类人的自我意识,最终通过不断地自我进化获得远强于人类的智能水平。而另一派则认为人工智能只是对人类劳动的接管,仅在部分领域超越人类,全面超越人类智能只是一个梦想而已。

从目前的研究现状看,强人工智能的研究几乎陷入了停滞,远超过人类智能的强人工智能是否存在依然是个很有争议的话题,更不要说具体的研究方向了。而主流的机器学习技术,依然集中于对人类技能的学习,并通过学习的成果来解决实际的问题。比如说围棋程序AlphaGo,尽管比起国际象棋机器深蓝进步很大,然而本质上依然是在给定规则具体游戏上的探究,一旦改变了规则,甚至换不同规格的棋盘,AlphaGo就必须推倒重来,重新搜集相应棋谱来获得棋力了。很明显,这和人类所认识的“举一反三”类型的“创造知识”的智慧是不相符的。如果要问当今的人工智能是否达到了三岁小孩的智力水平,那也是一件无法比较的事情,因为通过不断地训练机器可以在特定技能上完胜小孩子,但是在一些看似简单的学习上,小孩子需要花费的精力却远小于机器。比如拿起桌子上的杯子喝水,对于小孩来说很容易学会,但对于智能机器来说,却是件连问题是什么都很难描述清楚的事情,更不要说自主学习了。因此,在未来很长一段时间内,所谓人工智能,依然只是对人类技能的补充,好比工具,是对人类智慧的拓宽,即“机器使用人类的知识战胜了人类”,而远非到了远超人类智慧的地步。

当然,人类对于智能的理解还很浅。就拿上文所提的深度学习举例,虽然在实用中获得了广泛的应用,然而人们对其背后的数学机制依然不太清楚,不知道机器做出结论的依据是什么,甚至连Hassabis本人也说不清楚AlphaGo的棋力到底几何。或许直到人类对“智能是什么”这种问题的本质了解透彻之时,对于“人工智能能否超越人类”这个话题才能得到令人满意的答案吧。

猜你喜欢

神经网络程序深度
基于神经网络的船舶电力系统故障诊断方法
四增四减 深度推进
深度思考之不等式
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
给Windows添加程序快速切换栏
简约教学 深度学习
试论我国未决羁押程序的立法完善
“程序猿”的生活什么样
三次样条和二次删除相辅助的WASD神经网络与日本人口预测