阿尔法狗是只什么“狗”
2017-08-23御风
御风
2017年5月,千年水乡乌镇迎来了一场举世瞩目的围棋峰会,世界第一的中国九段棋手柯洁以0︰3输给了阿尔法狗。中国围棋协会向阿尔法狗授予中国职业九段称号,这是中国迄今为止最年轻的九段。早些时候,聂卫平曾评价阿尔法狗的围棋水平相当于职业围棋二十段。
阿尔法狗是什么?它是由英国谷歌深度学习部门开发出来的围棋人工智能程序,是迄今为止最强大的围棋棋手,让我们看看它是如何下围棋的。
围棋的难在于如何分析看似无限的信息与可能。在一局围棋中,平均每一步围棋的下法大约有200种可能,棋盘上可能出现的局面总数远大于宇宙中原子的总数。要想通过暴力、直接手段预测所有情况,并从中筛选出最优走法的思路并不可行。阿尔法狗在围棋中取胜的秘诀有三个:深度神经网络、监督/强化学习、蒙特卡罗树搜索。
深度神经网络是一种模拟人类思维方式的计算机神经网络,它可以通过大量数据信息,寻找到最合适的解决方式和算法。阿尔法狗包含两种深度神经网络:数值网络和策略网络。数值网络是对于盘面优势的判断机制,它计算预测每种不同下法带来的胜率变化。如果在试走两三步棋后,發现胜率不足,就会放弃这个走法,改试其他可能。这使得阿尔法狗能够明晰局势判断,左右全局“战略”,抛弃不合适的路线,可有效减少分析深度;而策略网络则是学习人类的棋谱,通过分析数十万个棋谱,选出20个胜率最高的下一步走法。这使得阿尔法狗能够优化每一步落子,减少失误,有效地减少分析广度。两者结合,使阿尔法狗在有限时间内做出更多棋步运算,从而不需要过于庞大的计算也能够走出精妙的棋局。
监督学习和强化学习是机器学习方式的两种不同种类。监督学习是指机器通过人类输入信息进行学习;强化学习是指机器对自身收集环境中的相关信息作出判断,并成为自己的“经验”,这有些类似于人类的思维方式。在初始阶段,阿尔法狗收集大量棋局数据,学习人类棋手的下法,形成自己的判断。之后,在自己与自己不计其数的模拟对弈,以及每一次与人类棋手的对弈中,阿尔法狗都能根据结果总结分析生成新范式,实现自我下棋技能的提升。
蒙特卡洛树是一种搜索算法。人工智能在利用它进行决策时,会从根结点开始不断选择分支子结点,通过不断决策使游戏局势向人工智能预测的最优点移动,直到模拟游戏胜利。人工智能每一次的选择都会同时产生多个可能,它会进行仿真运算,推断出可能的结果,再选择出最优方案。
依靠这三大“武器”,阿尔法狗成为目前人类制造出来的最优秀的围棋“棋手”。
不过,比赛结果出来后,除了对阿尔法狗的赞扬外,也有另外一种声音。有一些人,甚至包括科技界的大佬,认为阿尔法狗和人类比赛其实并没有太大意义,就好像开着汽车和人赛跑一样,失去了比赛的乐趣。事实上,从竞技的角度上来讲,阿尔法狗的获胜意义也许不大,但从科学技术这个角度来说,它却有着深远意义:阿尔法狗的诞生意味着人们对人工智能的探索已经到达了一个新阶段,而阿尔法狗的学习模式,将被推广到各种已知领域,譬如面孔识别、语音识别等,并且将来也许还能在其他未探索领域中,带来颠覆性的革命。