APP下载

微软麻将AI论文发布首次公开技术细节

2020-05-18

中国计算机报 2020年14期
关键词:预测器麻将神经元

2019年8月,微软公司曾推出一个名为Suphx的麻将人工智能系统,并在麻将游戏社区Tenhou中对其进行测试。据悉,Tenhou是世界上最大的麻将社区之一,拥有超过35万活跃用户。根据测试结果,Suphx最高成绩为10段。这是目前为止,世界上第一个也是唯一一个达到10段水平的人工智能。

近日,微软团队发布了一份修订版预印本文件,对Suphx进行了全面介绍。目前,这项研究发表在学术网站上,论文题目为《Suphx:用深度强化学习打麻将(Suphx:Mastering Mahjong with Deep Reinforcement Learning)》。

研究人員选择用日本4人麻将(Riichi Mahjong)规则训练Suphx模型,训练数据来自Tenhou社区。培训过程耗时两天,研究人员在44个图形处理单元上、用150万个游戏对模型进行了训练。Suphx学习了5种模式来处理不同的情况,分别是弃牌(discard)模式、Riichi模式、Chow模式、Pong模式和Kong模式。所有模式都用网络结构表示。弃牌模式对应34张牌,有34个输出神经元。其他模式仅有两个输出神经元,分别对应执行或不执行操作。

除上述设定外,研究团队还引入了其他几种技术:一是全局奖励预测器(GRU网络)。该预测器可以提前预测游戏的最终结局,提供有效的学习信号,从而使策略网络可执行。二是Oracle代理。相比标准的深度学习过程,利用Oracle代理进行训练可加速模型的学习过程。三是参数化的蒙特卡罗策略自适应算法(pMCPA)。pMCPA会不断调整离线学习策略,使其能适应突发的游戏情节(比如4个玩家丢弃了公共牌)。

猜你喜欢

预测器麻将神经元
输入延迟系统的切换伪预测镇定控制器
《从光子到神经元》书评
基于真实历史反馈的自适应值预测器的设计与优化*
The Referential Function and Semantic Inference of“[ta]”in the“V+O[ta]+OQC”Construction
一种改进型TAGE分支预测器的实现
麻将迷爸爸
跃动的神经元——波兰Brain Embassy联合办公
爱情预测器
“麻将迷”妈妈
基于二次型单神经元PID的MPPT控制