基于粒子滤波的强化学习算法建模研究

2017-02-23董春利

无线互联科技 2017年1期

关键词：权值全局滤波

董春利，王莉

（南京交通职业技术学院电子信息工程学院，江苏南京 211188）

基于粒子滤波的强化学习算法建模研究

董春利，王莉

（南京交通职业技术学院电子信息工程学院，江苏南京 211188）

文章对基于粒子滤波的强化学习算法进行了建模。该算法通过结合粒子滤波和Q-学习算法，得到一种基于粒子滤波和强化学习的算法。RLPF继承了粒子滤波的很多优点：实现简单、计算量小、占用内存非常低、能够在策略空间直接进行全局搜索。

强化学习；粒子滤波;策略空间；全局搜索

认知无线电的机会频谱接入（Opportunistic Spectrum Access，OSA）具有认知能力，能感知当前网络条件并且作出规划和决策，具有对以前决策的评判和未来决策判定的学习能力。因为OSA系统中的频谱环境总是随时间而变化，因此在不需要信道环境的先验知识和动态模型的前提下，亟待通过不断与环境进行交互学习，实现优越性能的革新技术出现[1]。图1所示为OSA信道选择和接入框架，即CR观测和接入射频环境示意图[2]。

图1 CR观测和接入射频环境示意

强化学习作为一种无模型、无监督的在线学习算法，是解决上述问题的有效途径，近年来已经成为解决OSA问题的主流方法，得到了广泛应用。

为了提高全局搜索能力，从而找到全局最优策略，将粒子滤波引入到机会频谱接入，这是对传统的基于局部搜索策略的强化学习算法的明显改善。把强化学习的奖励函数看作是粒子滤波的一个不恰当的概率密度函数（IPDF），是基于有限数量采样的未知概率密度函数（PDF）的一种近似估计算法。文献[3—4]提出了基于粒子滤波的直接策略搜索强化学习算法，在策略空间中具有进行全局搜索的能力，从而找到全局最优策略。

文献[5]利用粒子滤波为一个大规模动态频谱接入系统进行资源分配。按照每个用户实现的吞吐量，分析了粒子滤波算法的性能，并将粒子滤波算法与Q学习算法进行了性能比较，验证了所提出的粒子滤波算法的有效性。与卡尔曼滤波相比，粒子滤波适应于一般情况（非线性模型，非高斯噪声，多模态分布）。

1 强化学习和粒子滤波的联系

通过做下面的观测，将粒子滤波和强化学习联系起来。定义参数空间θ∈Θ，把奖励函数R（θ）∈R看作是粒子滤波的一个不恰当的概率密度函数（IPDF）。即使奖励函数R(θ)出现负值，也可在R(θ)中添加一个正的常数L=R(θ)，从而得到一个新的非负的奖励函数R'（θ）。R'(θ)和R(θ)是同一组优化器，优化R'(θ)也会优化R(θ)。

假设R(θ)是粒子滤波的一个IPDF，那么强化学习问题可从一个新观点重新构建，每次试验τ（π(θ))被看作是从这个未知IPDF的一次独立采样，强化学习可被看作是选择一个有限数量采样点的一种算法，以此获得IPDF的数值。为了完成强化学习和粒子滤波之间的连接，可简单地通过归一化（除以它的积分）将IPDF转换成PDF。

2 基于粒子滤波的强化学习算法（RLPF)建模

定义一个策略粒子pi，数组pi=〈θi，τi，Ri，ωi〉，通过运行强化学习策略π(θi)所执行的试验τi得到粒子pi，θi是策略参数值的一个矢量，调节强化学习策略π的行为。策略粒子还存储着评价这次试验的奖励函数值Ri=R(τi（π(θi)))。变量τi包含试验期间记录的特殊任务信息，这个信息被奖励函数执行它的评价使用，变量ωi是该策略粒子的重要性权值，它的计算方法如下。

假定粒子集{pi}是由R(θ)定义的潜在的未知IPDF的一个近似的隐式表达。为了选择遵循真正的IPDF分布的新粒子，可从近似分布采样，由重要性权值变量ωi纠正它与实际分布之间的差异。

（1）策略粒子pi=被分配一个标量的重要性权值ωi，重要性权值ωi来自相应的奖励Ri，ωi和Ri使用转换函数ωi∝g(Ri)转换，g(·)是任意的非负函数。将重要性权值归一化，

（3）引入随机变量z，在时间间隔（0，1）均匀分布，定义y=h−1(z)，可知随机变量y是按照期望的未知PDF（近似）分布的。

粒子滤波有两种变量，相应地有两种RLPF，分别是序贯重要性采样（SIS）和序贯重要性重采样（SIR）。

算法的详细说明如下：

第3—5行，在主循环的每次迭代中，选择exploration（执行全局随机采样）和exploitation（利用粒子滤波作为采样机制选择新的策略参数）。这个选择是由一个用户自定义的函数Pexplore(n)控制，它定义了在迭代次数n∈[1,N]下，RLPF算法选择执行exploration的概率。这一机制允许用户直接控制exploration/exploitation的取舍。实际上，开始时给exploration一个高的概率值，然后为了给exploitation优先权，把它降到最小，这样重点就放在了策略空间中最有前途的领域。在退化情况下，当∀nP Pexexpplolorere( n()n=)1=，1RLPF算法变成全局随机采样。

第9—20行，执行了主要的粒子滤波机制。第11—14行，计算了策略粒子的重要性权值。第15—18行，用基于逆密度函数的机制选择粒子。第19—20行，在先前选定的粒子中，增加指数衰减噪声来选择新的粒子。

第22—23行，基于一次或多次试验，评价新的策略粒子。在确定性情况下，评价每个策略粒子使用一个策略评价。在非确定性（随机）情况下，执行策略粒子的多个评价，平均得到的回报可被用来作为预期策略回报的一个无偏估计。

RLPF继承了粒子滤波的很多优点，实现简单，计算量小，占用内存非常低。利用函数g( R)，增加每个奖励间的相对差异，例如，函数g( R)=(1+R)2，RLPF可把执行全局随机采样的努力集中到策略空间最重要的部分中。通过改变初始噪声水平ε0和衰减因子λ，根据精度和时间的要求，RLPF可显示自适应算法的收敛速度。

3 结语

RLPF作为一个全局搜索算法，因为搜索的范围是尽可能最大的全部策略空间，一般需要更多次的试验来收敛。另外，即便粒子滤波没有收敛性的严格证明，在实践中，粒子滤波的经验已经证明，在实际应用中能获得优异的结果。

[1]XU Y H, WANG J L, WU Q H, et al. Opportunistic spectrum access in unknown dynamic environment：a game-theoretic stochastic learning solution[J].Wireless Communication, 2012（4）：1380-1391.

[2]JOUINI W, BOLLENBACH R, GUILLET M, et al. Reinforcement learning application scenario for opportunistic spectrum access[C].54th International Midwest Symposium on Circuits and Systems, 2011：1-4.

[3]PETAR K, DARWIN G, CALDWELL. Direct policy search reinforcement learning based on particle fltering[C].European Workshop on Reinforcement Learning, 2012：1-13.

[4]BORKAR V S, JAIN A. Reinforcement learning, particle filters and the EM algorithm[C].Information Theory and Applications Workshop, 2014：1-5.

[5]BEN G M, KHALFI B, HAMDAOUI B, et al. Resources allocation for large-scale dynamic spectrum access system using particle fltering[C].Globecom Workshops, 2014：219-224.

Research on modeling by reinforcement learning algorithm based on particle flter

Dong Chunli, Wang Li
（Electronic And Information Engineering College of Nanjing Vocational Institute of Transport Technology, Nanjing 211188, China）

The reinforcement learning algorithm based on particle filter is modeled . An algorithm based on particle filter and reinforcement learning is presented by combining with particle filter and Q-, RLPF inherits many advantages of the particle filter to achieve a simple small amount of calculation, very low memory, and can direct carry on global in strategy space.

reinforcement learning; particle flter; policy space; global search

南京交通职业技术学院高层次人才科研基金项目；项目编号：No. 440105001。

董春利（1964— )，男，山东青岛，博士，教授；研究方向：认知无线电网络与下一代无线泛在网络。