微软麻将AI论文发布首次公开技术细节
2020-05-18
中国计算机报 2020年14期
2019年8月,微软公司曾推出一个名为Suphx的麻将人工智能系统,并在麻将游戏社区Tenhou中对其进行测试。据悉,Tenhou是世界上最大的麻将社区之一,拥有超过35万活跃用户。根据测试结果,Suphx最高成绩为10段。这是目前为止,世界上第一个也是唯一一个达到10段水平的人工智能。
近日,微软团队发布了一份修订版预印本文件,对Suphx进行了全面介绍。目前,这项研究发表在学术网站上,论文题目为《Suphx:用深度强化学习打麻将(Suphx:Mastering Mahjong with Deep Reinforcement Learning)》。
研究人員选择用日本4人麻将(Riichi Mahjong)规则训练Suphx模型,训练数据来自Tenhou社区。培训过程耗时两天,研究人员在44个图形处理单元上、用150万个游戏对模型进行了训练。Suphx学习了5种模式来处理不同的情况,分别是弃牌(discard)模式、Riichi模式、Chow模式、Pong模式和Kong模式。所有模式都用网络结构表示。弃牌模式对应34张牌,有34个输出神经元。其他模式仅有两个输出神经元,分别对应执行或不执行操作。
除上述设定外,研究团队还引入了其他几种技术:一是全局奖励预测器(GRU网络)。该预测器可以提前预测游戏的最终结局,提供有效的学习信号,从而使策略网络可执行。二是Oracle代理。相比标准的深度学习过程,利用Oracle代理进行训练可加速模型的学习过程。三是参数化的蒙特卡罗策略自适应算法(pMCPA)。pMCPA会不断调整离线学习策略,使其能适应突发的游戏情节(比如4个玩家丢弃了公共牌)。