自学三天，阿尔法元完胜阿尔法狗

2017-11-30

10月18日，《自然》杂志网站公布的论文显示，此前战胜人类围棋世界冠军的电脑程序AlphaGo（阿尔法狗）的开发团队又出力作——新程序AlphaGo Zero（阿尔法元）不依靠人类指导和经验，仅凭自身算法强化学习，就以100：0的战绩击败了AlphaGo。

对于这个程序，人类的输入仅仅限于一张棋盘和一副棋子，没有任何人类数据参与。“阿尔法元”只用到了一张神经网络，这张网络经过训练，专门预测程序自身的棋步和棋局的赢家，让“阿尔法元”在每次自我对弈中进步。

通过3天的训练——包括近500万局自我对弈——“阿尔法元”已能超越人类并打败之前的“阿尔法狗”版本。英国伦敦深度思维公司AlphaGo项目的主要负责人戴维·西尔弗表示，“阿爾法元”远比“阿尔法狗”强大，它已不再为人类的知识所限，而能够自行发现新知识。endprint