清华大学发布深度强化学习框架“天授” 开源后已获900星标
2020-05-18
中国计算机报 2020年14期
日前,清华大学人工智能研究院基础理论研究中心发布了深度强化学习框架“天授”,代码已在GitHub开源。这是继“珠算”可微分概率编程库之后,该中心推出的又一个面向复杂决策任务的编程库。
据悉,“天授”一詞来源于《史记》,意为“取天所授而非学自人类”,刻画了强化学习通过与环境进行交互自主学习,而不需要像监督学习一样需要大量人类标注数据。研究团队继承了首版“天授0.1”在模块化等方面的优势后,推出了基于PyTorch框架的“天授0.2”版本。
据介绍,天授系统具有5大技术优势:代码简洁、模块化、可复现性、接口灵活以及训练速度快。相较于其他PyTorch强化学习框架,“天授0.2”具有结构简单、二次开发友好的特点,整个框架代码1500行左右,支持主流的强化学习算法DQN、A2C等,同时设计了灵活的接口,用户可以定制自己的训练方法。针对现有平台训练速度慢的缺点,“天授”通过将并行采样与缓存机制相结合提高了采集数据的速度。此外,整个框架基于模块化的原则进行设计,在其上实现常见的强化学习算法仅需不到100行的代码。
目前,“天授0.2”版本已在GitHub上获得超过900个星标。