基于两层模糊划分的时间差分算法

2013-10-29穆翔刘全傅启明孙洪坤周鑫

通信学报 2013年10期

穆翔，刘全,2，傅启明，孙洪坤，周鑫

（1. 苏州大学计算机科学与技术学院，江苏苏州 215006；2. 吉林大学符号计算与知识工程教育部重点实验室，吉林长春 130012）

1 引言

强化学习(RL, reinforcement learning)是一种通过agent与环境进行交互学习，以获得最大累计奖赏值的机器学习方法[1,2]。通常基于马尔科夫决策过程(MDP, Markov decision process)来定义强化学习问题的一般框架。当强化学习问题满足MDP框架时，可以采用诸如动态规划(DP, dynamic programming)、蒙特卡罗(MC, Monte Carlo)和时间差分(TD,temporal difference)等类型的算法求解最优行为策略。

传统的强化学习方法一般用于求解小空间或离散空间的问题[1]。通过查询表(lookup-table)存储所有的状态或者状态动作对所对应的值函数，在学习过程中不断地修改表项的值直至收敛，最终求得问题的最优行为策略。这类方法虽然能够有效地解决一些简单的任务，但不适用于求解大空间或连续空间的问题。目前解决此类问题最常用的方法是将函数逼近与强化学习算法相结合。通过采用带有一组参数的近似函数来描述强化学习中的值函数，使学习到的经验信息能够从状态空间子集泛化至整个状态空间。Agent根据此近似函数选择最优动作序列[2～4]。当前已有多种函数逼近方法应用于强化学习问题。SUTTON等人于 2009年提出了梯度TD(GTD, gradient TD)学习算法，该算法将TD学习算法与线性函数逼近相结合，同时引入一个与Bellman误差相关的新的目标函数[5]。SHERSTOV等人于2005年提出一种基于在线自适应Tile-Coding编码的线性函数逼近算法，通过实验验证了算法的有效性[6]。HEINEN等人于2010年提出利用增量式概率神经网络来逼近强化学习问题的值函数，可以较好地求解连续状态空间的问题[7]。

上文所述及目前常见的基于函数逼近的强化学习算法通常收敛速度较慢，而且一般只能用于求解离散行为策略[5～8]。基于模糊推理系统(FIS, fuzzy inference system)的强化学习算法通过引入先验知识，不仅可以有效地加快求解连续空间问题时的收敛速度，还能获得连续行为策略[9,10]。TADASHI等人提出了模糊插值Q学习算法，可以用于求解连续空间问题，但算法的性能较依赖于先验知识[11]。GLORENNEC和JOUFFE将FIS与Q学习算法相结合，利用先验知识并构造全局近似器，有效地加快了收敛速度，但该算法不能用于求解连续行为策略[12]。TOKARCHUK等人提出的模糊Sarsa算法，在不影响算法性能的情况下可以有效地减小状态空间的规模，进而加快收敛速度，但该算法应用于多维状态空间问题时，更容易出现“维数灾”问题[13]。HSU等人提出的基于二型模糊逻辑的自组织 Q学习算法，对于噪声干扰有很强的顽健性，但时间复杂度较高，且不能保证收敛[10]。

虽然基于模糊推理系统的强化学习算法已经可以有效地加快收敛速度，但传统的基于一个模糊规则库的、并可用于求解关于状态的连续行为策略的Q值迭代算法，依旧存在由于某些原因而导致收敛速度慢的问题：算法的某一轮迭代会出现状态动作对所对应的Q值不唯一的情况。若算法进入下一轮迭代时，需要用到的状态动作对的Q值恰好是上述Q值不唯一的情况。已有的此类算法会简单地随机选择一个状态动作对所对应的Q值，而并没有固定的选择策略，或者固定选择策略也不一定有效。由于算法在整个的迭代过程中会多次出现这种情况，这会较大地减缓该类型算法的收敛速度。

针对传统的基于查询表和一个规则库的 Q值迭代算法收敛速度慢的问题，本文提出一种基于两层模糊划分的在策略时间差分算法——DFP-OPTD(on-policy TD based on double-layer fuzzy partitioning)，并在理论上证明其收敛。算法在进行 2次模糊划分时，首先在第一层将连续状态空间进行模糊划分，同时求得连续动作；其次，在第二层将第一层求得的连续动作进行模糊划分，同时求得Q值函数；最后，使用梯度下降方法，更新两层模糊划分共同的规则后件参数。将DFP-OPTD算法应用于倒立摆问题中，实验结果表明，DFP-OPTD可以获得连续行为策略，且具有较好的收敛性能。

2 相关理论

2.1 马尔科夫决策过程

在强化学习框架下，agent与环境交互构成一个有限的MDP[13]，该MDP可描述为一个四元组形式M = ＜ X, U , ρ,f＞，其中：

1)X为所有状态的集合，且xt∈X为agent在t时刻所处的状态；

2)U为所有动作的集合，且ut∈U为agent在t时刻所采取的动作；

3)ρ ： X × U →Rn为奖赏值函数，表示t时刻的状态 xt，在采取动作 ut并转移到状态 xt+1时，agent所获得的立即奖赏 r ( xt, ut)，此外，用 rt表示以r( xt, ut)为均值的分布所产生的随机奖赏；

4) f ：X × U×X→[0,1]为状态转移函数，其中f( x, u, x ') 表示状态x在采取动作u时转移到 x '的概率。

强化学习中的策略 h ( x, u)是从状态空间X到动作空间U的映射，h： X→U。它表示在状态x处选择动作u的概率。利用策略 h( x, u)可以求解出状态值函数(V值函数)或动作值函数(Q值函数)。

强化学习的目标是求解最优行为策略 h*，它是最优值函数的贪心策略，且在所有的策略中满足∀x ∈ X： Vh*(x) ≥ Vh(x)。在最优策略 h*下，最优V值函数满足式(1)，最优Q值函数满足式(2)，为

当f和ρ已知时，可以采用动态规划算法求解最优行为策略；当f和ρ未知时，则可以采用 TD类型的算法求解最优行为策略，例如离策略的Q学习算法和在策略(on-policy)的Sarsa算法。

定义1是一个有界的MDP约束(主要是对状态空间、动作空间、奖赏值以及值函数空间的界定)，本文所有的算法都满足该定义。

定义1 有界的MDP问题已知X和U都是有限集合，令Z表示状态动作集合，即Z： X×U，则Z也为有限集合；奖赏值函数ρ满足0 ≤ ρ (x, u ) ≤ C ；MDP的边界因子 β =1(1 - γ)，其中，γ为折扣因子，且对于∀x∈X及∀( x , u)∈ Z ，0 ≤ V ( x) ≤ β C和0 ≤ Q( x, u)≤ β C成立。

2.2 作为逼近器的模糊规则库

由文献[14]可得，模糊规则库的输出可以用作Q值函数的逼近器。当前有多种类型的模糊规则[15]，其中，TSK 形式的规则如式(3)所示，描述了规则的输出和输入部分的关系为

其中，r∈1,…,NR是规则的下标，Rr表示规则库中的第r条规则， x =(x1,x2,… ,xN)表示N维输入参数。是第r条模糊规则中对应于第i维输入变量的模糊集，每一个模糊集都由一个隶属度函数μχr,i(xi)：X →[0,1]定义。y是输出变量，且g1(x),…,gNR(x)：X→Y是以x为自变量的多项式函数。

当系统输入精确值 x =(x1,x2,… ,xN)时，可以计算它在第r条规则下的激活强度 φr(x)(运算规则为T-norm积运算)为

将 φr(x)用于计算模糊规则的输出值，以激活强度 φr(x)为权重，与其对应的后件值yr相乘并求和，可以得到最终的输出值为

通常采用 MSE(mean square error)作为模糊规则库用于逼近目标函数时的逼近误差。当规则集合达到最优逼近效果时，其所有模糊规则后件值所构成的向量值θ为

其中， Yi( x)为目标函数，( x)为逼近函数。

3 基于双层模糊划分的在策略TD算法

3.1 Q值函数的计算和参数更新

在MDP框架下，使用两层模糊划分相对应的两层模糊规则库以计算Q值函数。

使用两层糊规则库逼近Q值函数的框架如图1所示，其中左框内的模糊规则库1(FRB1, fuzzy rule base 1)以状态为输入，通过FRB1获得的连续动作为输出；右框内的模糊规则库2 (FRB2, fuzzy rule base 2)以从FRB1中获得的连续动作为输入，通过FRB2获得的连续动作的Q值分量作为输出；最后，通过将两层模糊规则库输出部分相结合，逼近在状态x时采取连续动作 ()C x的Q值函数。

图1 使用两层模糊规则库逼近Q值函数的框架

两层模糊划分的主要内容如下所述。

1) 模糊规则库1中的模糊规则如下

其中， x =(x1, x2,…,xN)为状态， ur,j为第r条模糊规则中的第j个离散动作。M个离散动作由动作空间划分而成，qr,j为第r条模糊规则中对应于第j个离散动作的Q值分量。当输入状态为x时，第r条规则的激活强度为

在被状态x激活的规则rR中，根据,rjq 的大小，用 ε-greedy动作选择策略从M个离散动作中选出一个动作，该动作称为激活动作，用表示。因而，结合式(5)，可以得到状态为x时的连续动作 ()Cx为

把 C (x)称为连续动作的原因是 C (x)的变化是关于状态x连续的，它并非指的是状态x可以选择到连续动作空间中的任意动作。为简化式(8)，正则化激活强度 φr(x)，可得

则式(8)可写为

2) 模糊规则库2中的模糊规则如下

FRB2中规则的构建依赖于 FRB1，其M条规则中的规则以 FRB1中的第r条规则为基础：前件部分的νr,j为模糊集，它以FRB1中第r条规则的第j个动作为模糊中心，并用隶属度函数 σνi,j(u)描述；后件部分的 qr,j与FRB1中规则后件的 qr,j一一对应。

将从FRB1中得到的连续动作 C (x)作为FRB2中规则的输入，可以激活 NR˜条FRB2中的规则。通过FRB2的规则的输出，可以得到FRB1中第r条规则所对应的Q值分量(x,C(x))为

与推导公式(9)的方法相同，正则化式(11)中的隶属度函数 σνr,j(C(x))，得到μνr,j(C(x))为

则式(11)可写为

由式(13)可得，FRB1的激活规则 Rr所求得的Q值分量为(x,C(x))，则对FRB1中所有的激活规则，可以得到在状态x下执行连续动作 C (x)时的Q值为

由式(14)可以看出，Q值的大小取决于两层FRB中的模糊集和共同的后件变量,rjθ。由于模糊集是作为先验知识提前设定的，且在算法中不做改变，因而要得到收敛的Q值，需要在算法执行过程中更新,rjθ，直到收敛。

为使FRB逼近Q值函数时的逼近误差最小，即参数向量θ满足式(6)，DFP-OPTD利用梯度下降(GD,gradient descent)方法，结合计算Q值函数的Bellman方程，更新两层FRB的共同后件参数向量θ为

其中，rt+1+γQt( xt+1, ut+1) - Qt( xt, ut)是TD误差。令δ = rt+1+ γ Qt( xt+1, ut+1) - Qt( xt, ut)，结合后向TD算法[1]，可以得到参数更新公式为

其中， r = 1,… ,NR, j = 1,… ,M 。

则式(16)可进一步表示为

3.2 DFP-OPTD算法的学习过程

基于文献[1]中的在策略TD算法，结合本文3.1节描述的内容，得到算法DFP-OPTD。该算法不仅可以解决强化学习中连续状态、离散动作空间的问题，还可以解决连续状态、连续动作空间的问题。算法1为DFP-OPTD的学习流程。

算法1 基于双层模糊划→分的DFP-OPTD算法

2) Repeat(对每一个情节)：

3) x←初始化状态

4) 根据式(7)计算 φr(x)

5) 根据ε-greedy策略选择激活动作 u˜r

6) 根据式(10)选择状态为x时的执行动作u

7) 根据式(12)计算 μνr,j(u)

8) 根据式(14)计算值函数 Qu

9) Repeat(对情节中的每一步)

10) 执行动作u，获得下一状态x'和立即奖赏r

11) δ ← r -Qu

13) 根据式(10)选择状态为x'时的执行动作 u '

14) 根据式(12)计算 μνr,j(u')

15) 根据式(7)计算 φr(x')

16) 根据式(14)计算值函数 Qu'

17) δ ←δ+γQu'

18)θ = θ + α δφr(x )μνr,j(u)

19) u←u'

20) Untilx'为终止状态

21) Until运行完设定情节数目或满足其他终止条件

3.3 算法收敛性分析

在文献[16]和文献[17]中，针对在策略(onpolicy)TD算法在使用线性函数逼近时的收敛性做了详细的分析，当该类型的算法满足一定的假设和引理时，可以以1的概率收敛。DFP-OPTD正是一种使用线性函数逼近的在策略TD算法，当该算法满足文献[16]中定义的证明算法收敛所需的假设和引理时，即可说明其收敛。本文不再赘述对其收敛性的详细证明。

假设1 MDP中的状态转移函数和奖赏函数都服从稳定的分布。

引理1 DFP-OPTD依赖的马尔科夫链具有不可约性和非周期性，且算法的立即奖赏和值函数有界。

证明首先证明其不可约性。根据马尔科夫过程的性质，如果一个马尔科夫过程的任意2个状态可以相互转移，则它具有不可约性[18]。DFP-OPTD用于解决满足 MDP框架的强化学习问题，且该MDP满足定义1。因而对于该MDP中的任意状态x，必定存在一个f满足 f ( x, u, x')≥ 0 ，这表明状态x可以被无限次访问。因而可得每一个状态都可转移到任意的其他状态。因此，DFP-OPTD依赖的马尔科夫链具有不可约性。

其次证明其非周期性。对于不可约的马尔科夫链，仅需证明某一个状态具有非周期性，即可证明整个马尔科夫链具有非周期性。而证明一个状态具有非周期性，只需证明该状态具有自回归性[18]。在DFP-OPTD依赖的MDP中，对于状态x，必定存在一个f满足 f ( x, u, x) ＞ 0 ，它表明了状态x具有自回归性，由此可得该MDP具有非周期性。因此，DFP-OPTD依赖的马尔科夫链的非周期性得证。

最后证明其立即奖赏和值函数有界。由文献[1]可知，值函数是折扣的累计回报函数，即满足又由定义1可得，奖赏值函数ρ有界，且0 ≤ ρ (x, u ) ≤ C ，C为一个非负数。因而有

由不等式(19)可以得出，值函数 Q ( x, u)有界。

综上所述，引理1得证。

条件 1 对每一个隶属度函数i都存在唯一的状态 xi，使 μi( xi) ＞ μi( x) ,∀x ≠ xi，而其他的隶属度函数在状态 xi处的隶属度值都为 0，即有 μi'( xi) = 0,∀ i ' ≠i。

引理2 DFP-OPTD的基函数有界，并且基函数向量线性无关。

证明首先证明其基函数有界。由 φr(x)∈[0,1]和μνr,j(C(x))∈ [0,1]可得

其中，||||∞为无穷范式。已知DFP-OPTD的基函数为φr(x)μνr,j(C(x))，又由不等式(20)可得，DFP-OPTD的基函数有界。

其次证明基函数向量线性无关。为使DFP-OPTD的基函数向量线性无关，令算法所使用的基函数满足条件1[14]，其函数形式如图3所示。由文献[14]可得，当满足条件1时，基函数向量线性无关。

可以将条件1的要求适当地放宽，使 μi'( xi)在状态xi处的隶属度为一个较小的值，例如标准差较小的高斯隶属度函数。将该隶属度函数用于DFP-OPTD中，通过数次实验可得 DFP-OPTD同样可以收敛，但目前还不能对该收敛性给出理论的证明。

综上所述，引理2得证。

引理3 DFP-OPTD的步长参数α满足

证明 DFP-OPTD所用的步长参数α = 1 /(t + 1 )，其中，t为时间步。使用牛顿幂级数展开可以得到

不等式(23)中的不等式部分可通过归纳法证明，因而当t→∞时，满足

由式(22)和不等式(23)可以得出，DFP-OPTD所用的步长参数满足式(21)，即引理3得证。

定理1 在假设1的条件下，若DFP-OPTD满足引理1～引理3，则算法以1的概率收敛。

证明由文献[16]可以得出，在假设1成立的条件下，在策略(on-policy)TD算法在使用线性函数逼近时，如果满足引理1～引理3，该类型的算法收敛。满足假设1的算法DFP-OPTD是一种利用线性函数逼近的在策略TD算法，且该算法对引理1～引理3成立。因而可以得出，DFP-OPTD以1的概率收敛。

4 实验结果及分析

本文以强化学习中经典的情节式问题——倒立摆问题为例，验证DFP-OPTD的收敛性能和求得的连续行为策略的作用。

倒立摆问题的示意如图2所示，一个可以左右移动的小车位于水平面上，上面放置一根底端与小车相连且可以在一定角度范围内自由转动的硬质杆，其任务是通过小车的水平移动使硬质杆可以在一定的角度范围内([- π / 2,π / 2])竖立于垂直方向。同样将该问题建立为一个MDP模型：系统的状态是1个二维变量，用硬质杆与垂直方向的夹角θ和硬质杆的角速度表示，即，且有和∈[-1 6π, 16π](rad/s)；系统的动作为施加在小车上的力，其取值范围为[-5 0,50](N)。此外，施加的力上有外力的随机扰动，该外力服从[-1 0,10](N)的均匀分布。系统的动力学特性描述为

其中， g = 9 .8 m/s2为重力加速度， m = 2 .0 kg为硬质杆的质量，M = 8 .0 kg为小车的质量，l = 0 .5 m为硬质杆的长度，常数 α = 1 /(m + M )。系统的奖赏变化取决于状态的变化，在每一个时间步下，当硬质杆与垂直方向的角度不超过π/2时，会收到大小为0的立即奖赏。而超过π/2时收到的立即奖赏为-1，同时该情节结束。

图2 倒立摆

将 DFP-OPTD算法与 SUTTON等人提出的GD-Sarsa(λ)算法[3]进行比较。设置 DFP-OPTD 所需的参数，用三角隶属度函数作为FRB1和FRB2的模糊集的隶属度函数式(除了状态的定义域不同，夹角和角速度的模糊隶属度函数形式如图3所示)：分别采用 20个模糊中心等距的模糊集对二维的连续状态空间的每一维进行三角模糊划分，模糊集的个数为20×20=400；同理，用12个模糊中心等距的模糊集对连续动作空间进行三角模糊划分，模糊集的个数为 12。其他参数设置为 ε =0.001，α=0.9，γ= 1 .0。GD-Sarsa(λ)中采用10个9×9的Tilings来划分状态空间，参数设置依据文献[1]中给出的最优实验参数：ε = 0 .001，α =0.14，λ=0.3，γ=1.0。

图3 三角隶属度函数

DFP-OPTD，GD-Sarsa(λ)针对倒立摆问题进行30次独立仿真实验的结果如图4所示，图中横坐标表示情节数，纵坐标表示硬质杆竖立于垂直方向及两侧的一定角度范围内所用的平均时间步。分析图4可得，DFP-OPTD在收敛性能上明显优于GD-Sarsa(λ)。

图4 2种算法收敛性能的比较

2种算法的详细性能比较如表1所示，其中，以 DFP-OPTD的一个平均迭代步所需的时间作为基准时间。

表1 2种算法在倒立摆问题中性能的比较

图 5描述的分别为 DFP-OPTD和 GD-Sarsa(λ)这 2种算法在时间步增大的过程中，硬质杆与垂直方向的角度变化情况。其中，GD-Sarsa(λ)基于离散动作，DFP-OPTD基于连续动作。从图中可以清晰地看出，DFP-OPTD所获得的连续行为策略可以使硬质杆摆动的角度只在较小的范围内变化，而GD-Sarsa(λ)所获得的离散行为策略会使硬质杆在较大的角度范围内摆动，这说明了DFP-OPTD求得的策略的稳定性优于 GD-Sarsa(λ)。因而，DFP-OPTD更适用于求解对策略稳定性要求较高的问题。

图5 分别使用上述2种算法时，硬质杆的角度θ的变化情况

5 结束语

本文针对传统的强化学习算法中使用查询表或者函数逼近时收敛速度慢且不易获得连续行为策略的问题，提出一种基于两层模糊划分的强化学习算法——DFP-OPTD。该算法先将状态进行模糊划分，再将第一层模糊规则库所输出的连续动作，作为第二层模糊规则库的输入，同时对动作进行模糊划分。最后将这两层模糊规则库相结合以得到逼近的Q值函数。以该逼近的Q值函数与真实Q值函数的差值平方作为逼近误差，使用梯度下降方法更新2个模糊规则库中规则的共同后件值。将该算法与其他 3种较新的相近算法应用于强化学习中经典的倒立摆问题中，通过实验数据分析可以得到，相比于已有的只使用一层模糊划分的强化学习算法，DFP-OPTD虽然增加了时间复杂度，但需要较少的收敛步数。相比于基于查询表或者其他的函数逼近方法，DFPOPTD有更好的收敛性能，且可以获得连续行为策略。

DFP-OPTD的性能主要依赖于两层模糊划分，而模糊规则库的逼近性能主要取决于模糊集的隶属度函数和模糊规则的个数。本文将隶属度函数和规则个数作为先验知识给出，且在算法执行过程中不做改变。为了获得更好的收敛性能，下一步将考虑使用合适的优化算法，使DFP-OPTD能在运行的过程中不断优化隶属度函数，并且能够自适应地调整模糊规则的条数。

[1] SUTTON R S, BARTO A G. Reinforcement Learning： An Introduction[M]. Cambridge： MIT Press, 1998.

[2] 刘全, 闫其粹, 伏玉琛等. 一种基于启发式奖赏函数的分层强化学习方法[J]. 计算机研究与发展, 2011, 48(12)： 2352-2358.LIU Q, YAN Q C, FU Y C, et al. A hierarchical reinforcement learning method based on heuristic reward function[J]. Journal of Computer Research and Development, 2011, 48(12)： 2352-2358.

[3] SUTTON R S, MCALLESTER D, SINGH S, et al. Policy gradient methods for reinforcement learning with function approximation[A].Proc of the 16th Annual Conference on Neural Information Processing Systems[C]. Denver, 1999. 1057-1063.

[4] MAEI H R, SUTTON R S. GQ(λ)： a general gradient algorithm for temporal difference prediction learning with eligibility traces[A]. International Conference on Artificial General Intelligence[C]. Lugano,2010. 91-96.

[5] SUTTON R S, SZEPESV´ARI CS, MAEI H R. A convergent O(n)algorithm for off-policy temporal-difference learning with linear function approximation[A]. Proc of the 22nd Annual Conference on Neural Information Processing Systems[C]. Vancouver, 2009. 1609-1616.

[6] SHERSTOV A A, STONE P. Function approximation via tile coding：automating parameter choice[A]. Proc of the 5th Symposium on Abstraction, Reformulation and Approximation[C]. New York, USA, 2005.194-205.

[7] HEINEN M R, ENGEL P M. An incremental probabilistic neural network for regression and reinforcement learning tasks[A]. Proc of the 20th International Conference on Artificial Neural Networks[C].Berlin, 2010. 170-179.

[8] PAZIS J, LAGOUDAKIS M G. Learning continuous-action control policies[A]. Proc of the IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning[C]. Washington, 2009. 169-176.[9] BONARINI A, LAZARIC A, MONTRONE F, et al. Reinforcement distribution in fuzzy Q-learning[J]. Fuzzy Sets and Systems, 2009,160(10)：1420-1443.

[10] HSU C H, JUANG C F. Self-organizing interval type-2 fuzzy Q-learning for reinforcement fuzzy control[A]. Proc of the 2011 IEEE International Conference on Systems, Man, and Cybernetics[C]. New Jersey, 2011. 2033-2038.

[11] TADASHI H, AKINORI F, OSAMU, et al. Fuzzy interpolation-based Q-learning with continuous states and actions[A]. Proc of the Fifth IEEE International Conference on Fuzzy Systems[C]. New York, USA,2011.594-600.

[12] GLORENNEC P Y, JOUFFE L. Fuzzy Q-learning[A]. Proc of the Sixth IEEE International Conference on Fuzzy Systems[C]. Cambridge, 1997.659-662.

[13] CHANG H S, FU M C, HU J, et al. Simulation-based Algorithms for Markov Decision Processes[M]. New York： Springer, 2007.

[14] LUCIAN B, ROBERT B, BART D S, et al. Reinforcement Learning and Dynamic Programming Using Function Approximation[M]. Florida： CRC Press, 2010.

[15] CASTILLO O, MELIN P. Type-2 Fuzzy Logic： Theory and Applications[M]. New York： Springer, 2008.

[16] TSITSIKLIS J N, ROY V B. An analysis of temporal-difference learning with function approximation[J]. IEEE Transactions on Automatic Control, 1997, 42(5)：674-690.

[17] DAYAN P D. The convergence of TD(λ) for general λ[J]. Machine Learning, 1992, 8(3-4)：341-362.

[18] 刘次华. 随机过程[M]. 武汉：华中科技大学出版社, 2008.LIU C H. Stochastic Process[M]. Wuhan： Huazhong University of Science and Technology Press, 2008.