人工智能新算法更精通游戏

2021-04-18

学苑创造·C版 2021年3期

近日，英国DeepMind 公司的研究人员宣布，新的人工智能算法 MuZero 无须知道规则即可精通游戏。此前，DeepMind 公司研发的 AlphaGo 需要从人类的对局中学习围棋，其后继者 AlphaZero 仅需知道规则即可精通围棋。如今 MuZero 更进一步：它不需要知道规则，而是通过不断试错来了解规则所允许的动作和特定动作带来的奖励，并不断寻找更容易获得奖励和获得更大奖励的方法。

測试表明，MuZero 在国际象棋、将棋和围棋中都能追平甚至略微超过 AlphaZero，并且打破了57个测试用雅达利游戏（包括经典的《吃豆人》）中37个的历史记录。研究人员认为，MuZero 所使用的方法有望应用于游戏以外的领域并创造出普适性更强的人工智能。