边做边思考，谷歌大脑提出并发RL算法

2020-06-30

电脑报 2020年19期

RL 算法（强化学习）通常假设在获取观测值、计算动作并执行期间环境状态不发生变化。这一假设在仿真环境中很容易实现，然而在真实机器人控制当中并不成立，很可能导致控制策略运行缓慢甚至失效。为缓解以上问题，最近谷歌大脑与 UC 伯克利、X 实验室共同提出一种并发 RL 算法，使机器人能够像人一样“边做边思考”。目前，该论文已被 ICLR 2020 接收。

该研究在如下情况中研究强化学习：在受控系统随着时间演变的过程中同时对动作进行采样。换句话说，所研究的机器人必须在执行上一个动作的同时考虑下一个动作。就如同人或动物一样，机器人必须同时思考及行动，在上一个动作完成之前决定下一个动作。

研究者分别在仿真与真实机械臂上进行实验

为了开发用于此类并发性控制问题的算法框架，研究者从连续时间的贝尔曼方程开始，随后以考虑系统延迟的方式进行离散化。通过对现有基于价值（value-based）的深度强化学习算法进行简单的架构扩展，该团队提出了一类新型近似动态规划方法，并在模拟基准任务和大规模机器人抓取任務上进行了评估（机器人必须边走边思考）。