自学三天,阿尔法元完胜阿尔法狗
2017-11-30
发明与创新·大科技 2017年11期
10月18日,《自然》杂志网站公布的论文显示,此前战胜人类围棋世界冠军的电脑程序AlphaGo(阿尔法狗)的开发团队又出力作——新程序AlphaGo Zero(阿尔法元)不依靠人类指导和经验,仅凭自身算法强化学习,就以100:0的战绩击败了AlphaGo。
对于这个程序,人类的输入仅仅限于一张棋盘和一副棋子,没有任何人类数据参与。“阿尔法元”只用到了一张神经网络,这张网络经过训练,专门预测程序自身的棋步和棋局的赢家,让“阿尔法元”在每次自我对弈中进步。
通过3天的训练——包括近500万局自我对弈——“阿尔法元”已能超越人类并打败之前的“阿尔法狗”版本。英国伦敦深度思维公司AlphaGo项目的主要负责人戴维·西尔弗表示,“阿爾法元”远比“阿尔法狗”强大,它已不再为人类的知识所限,而能够自行发现新知识。endprint