几种经典的策略梯度算法性能对比
2014-11-07王辉于婧
王辉 于婧
摘要:策略梯度函数是基于直接策略搜索的方法。它把策略参数化,并且估算优化指标相对于策略参数的梯度,然后利用该梯度来调整这些参数,最后可以获得局部最优或者局部最优策略。所以这样得到的策略可以是随机性策略也可是确定性策略。通过自主开发的Gridworld策略梯度实验平台,对经典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收敛性能进行了对比分析。
关键词:强化学习;策略梯度;收敛性;仿真实验
中图分类号:TP181 文献标识码:A 文章编号:1009-3044(2014)29-6937-05
Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.
Key words: reinforcement learning; policy gradient; convergence; simulation experiments
强化学习可以分为基于值函数方法和策略梯度方法[1]。基于值函数的算法,不需要显性表示学习客体(agent)的行为策略,而是通过不停地更新状态动作对的累计期望回报来得到最优值函数。在估计所得的最优值函数基础上,在整个状态、动作空间内,使用贪心算法来确定当前状态迁移时所需的最优动作。
值函数方法常用于对确定性策略的求解过程中,对于随机性策略的处理仍存在很大困难,比如在使用线性函数逼近器面对连续状态、动作空间环境时不能保证收敛[2]。策略梯度方法需要显式地表示策略函数,并且能够沿着策略梯度下降的方向持续改善和优化策略函数的参数向量。该方法能够最终逼近约束环境下的最优解。相对于值函数方法,策略梯度方法能够同时处理确定性策略和随机性策略,并且在理论上能够保证收敛。
策略[π]决定了Agent在当前环境状态下对动作的选择,动作选择后Agent按照某种概率分布迁移到下一个状态。环境的状态转移概率直接影响优化指标[J]的计算,不同的[π]的值对应不同的[J]值,即优化指标是一个关于[π]的函数。直接策略搜索方法就是调整其参数,使得指标[J]达到最大。
NAC 策略梯度函数结果方差较大,并且收敛速度较慢,和原来的预期有一定的出入。
从图上也可以看出,强化学习策略梯度的方法引入先验知识的重要性。学习开始的时候累计回报波动剧烈,原因是按照随机概率随意选取策略导致学习初期的时间消耗较大, 并且Agent尚未探索到系统的的全部的观测到整个系统情况。
参考文献:
[1] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].MIT press,1998.
[2] 王学宁.增强学习中的直接策略搜索方法综述[J].智能系统学报,2007,2(1):16-24.
[3] Baxter J,Bartlett P L.Direct gradient-based reinforcement learning[J]. Circuits and Systems,The 2000 IEEE International Symposium,2000:271-274.
[4] 王学宁.策略梯度增强学习的理论、算法及应用研究[D].长沙:国防科学技术大学,2006.
[5] Amari S I.Natural gradient works efficiently in learning[J].Neural computation,1998,10(2):251-276.
[6] Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7): 1180-1190.
[7] Sutton R S.Policy gradient methods for reinforcement learning with function approximation[M].NIPS,1999:1057—1063.
[8] Williams R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine learning,1992,8(3-4):229-256.
[9] Bhatnagar S.Natural actor—critic algorithms[J].Automatica,2009,45(11): 2471-2482.
[10] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine learning,1988,3(1):9-44.endprint
摘要:策略梯度函数是基于直接策略搜索的方法。它把策略参数化,并且估算优化指标相对于策略参数的梯度,然后利用该梯度来调整这些参数,最后可以获得局部最优或者局部最优策略。所以这样得到的策略可以是随机性策略也可是确定性策略。通过自主开发的Gridworld策略梯度实验平台,对经典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收敛性能进行了对比分析。
关键词:强化学习;策略梯度;收敛性;仿真实验
中图分类号:TP181 文献标识码:A 文章编号:1009-3044(2014)29-6937-05
Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.
Key words: reinforcement learning; policy gradient; convergence; simulation experiments
强化学习可以分为基于值函数方法和策略梯度方法[1]。基于值函数的算法,不需要显性表示学习客体(agent)的行为策略,而是通过不停地更新状态动作对的累计期望回报来得到最优值函数。在估计所得的最优值函数基础上,在整个状态、动作空间内,使用贪心算法来确定当前状态迁移时所需的最优动作。
值函数方法常用于对确定性策略的求解过程中,对于随机性策略的处理仍存在很大困难,比如在使用线性函数逼近器面对连续状态、动作空间环境时不能保证收敛[2]。策略梯度方法需要显式地表示策略函数,并且能够沿着策略梯度下降的方向持续改善和优化策略函数的参数向量。该方法能够最终逼近约束环境下的最优解。相对于值函数方法,策略梯度方法能够同时处理确定性策略和随机性策略,并且在理论上能够保证收敛。
策略[π]决定了Agent在当前环境状态下对动作的选择,动作选择后Agent按照某种概率分布迁移到下一个状态。环境的状态转移概率直接影响优化指标[J]的计算,不同的[π]的值对应不同的[J]值,即优化指标是一个关于[π]的函数。直接策略搜索方法就是调整其参数,使得指标[J]达到最大。
NAC 策略梯度函数结果方差较大,并且收敛速度较慢,和原来的预期有一定的出入。
从图上也可以看出,强化学习策略梯度的方法引入先验知识的重要性。学习开始的时候累计回报波动剧烈,原因是按照随机概率随意选取策略导致学习初期的时间消耗较大, 并且Agent尚未探索到系统的的全部的观测到整个系统情况。
参考文献:
[1] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].MIT press,1998.
[2] 王学宁.增强学习中的直接策略搜索方法综述[J].智能系统学报,2007,2(1):16-24.
[3] Baxter J,Bartlett P L.Direct gradient-based reinforcement learning[J]. Circuits and Systems,The 2000 IEEE International Symposium,2000:271-274.
[4] 王学宁.策略梯度增强学习的理论、算法及应用研究[D].长沙:国防科学技术大学,2006.
[5] Amari S I.Natural gradient works efficiently in learning[J].Neural computation,1998,10(2):251-276.
[6] Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7): 1180-1190.
[7] Sutton R S.Policy gradient methods for reinforcement learning with function approximation[M].NIPS,1999:1057—1063.
[8] Williams R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine learning,1992,8(3-4):229-256.
[9] Bhatnagar S.Natural actor—critic algorithms[J].Automatica,2009,45(11): 2471-2482.
[10] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine learning,1988,3(1):9-44.endprint
摘要:策略梯度函数是基于直接策略搜索的方法。它把策略参数化,并且估算优化指标相对于策略参数的梯度,然后利用该梯度来调整这些参数,最后可以获得局部最优或者局部最优策略。所以这样得到的策略可以是随机性策略也可是确定性策略。通过自主开发的Gridworld策略梯度实验平台,对经典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收敛性能进行了对比分析。
关键词:强化学习;策略梯度;收敛性;仿真实验
中图分类号:TP181 文献标识码:A 文章编号:1009-3044(2014)29-6937-05
Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.
Key words: reinforcement learning; policy gradient; convergence; simulation experiments
强化学习可以分为基于值函数方法和策略梯度方法[1]。基于值函数的算法,不需要显性表示学习客体(agent)的行为策略,而是通过不停地更新状态动作对的累计期望回报来得到最优值函数。在估计所得的最优值函数基础上,在整个状态、动作空间内,使用贪心算法来确定当前状态迁移时所需的最优动作。
值函数方法常用于对确定性策略的求解过程中,对于随机性策略的处理仍存在很大困难,比如在使用线性函数逼近器面对连续状态、动作空间环境时不能保证收敛[2]。策略梯度方法需要显式地表示策略函数,并且能够沿着策略梯度下降的方向持续改善和优化策略函数的参数向量。该方法能够最终逼近约束环境下的最优解。相对于值函数方法,策略梯度方法能够同时处理确定性策略和随机性策略,并且在理论上能够保证收敛。
策略[π]决定了Agent在当前环境状态下对动作的选择,动作选择后Agent按照某种概率分布迁移到下一个状态。环境的状态转移概率直接影响优化指标[J]的计算,不同的[π]的值对应不同的[J]值,即优化指标是一个关于[π]的函数。直接策略搜索方法就是调整其参数,使得指标[J]达到最大。
NAC 策略梯度函数结果方差较大,并且收敛速度较慢,和原来的预期有一定的出入。
从图上也可以看出,强化学习策略梯度的方法引入先验知识的重要性。学习开始的时候累计回报波动剧烈,原因是按照随机概率随意选取策略导致学习初期的时间消耗较大, 并且Agent尚未探索到系统的的全部的观测到整个系统情况。
参考文献:
[1] Sutton R S,Barto A G.Reinforcement learning:An introduction[M].MIT press,1998.
[2] 王学宁.增强学习中的直接策略搜索方法综述[J].智能系统学报,2007,2(1):16-24.
[3] Baxter J,Bartlett P L.Direct gradient-based reinforcement learning[J]. Circuits and Systems,The 2000 IEEE International Symposium,2000:271-274.
[4] 王学宁.策略梯度增强学习的理论、算法及应用研究[D].长沙:国防科学技术大学,2006.
[5] Amari S I.Natural gradient works efficiently in learning[J].Neural computation,1998,10(2):251-276.
[6] Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7): 1180-1190.
[7] Sutton R S.Policy gradient methods for reinforcement learning with function approximation[M].NIPS,1999:1057—1063.
[8] Williams R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine learning,1992,8(3-4):229-256.
[9] Bhatnagar S.Natural actor—critic algorithms[J].Automatica,2009,45(11): 2471-2482.
[10] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine learning,1988,3(1):9-44.endprint