基于改进强化学习的PID参数整定原理及应用

2014-03-05高瑞娟吴梅

现代电子技术 2014年4期

高瑞娟+吴梅

摘要：控制系统的响应特性取决于控制律参数，经典的 PID 方法难以实现参数的自整定。强化学习能够通过系统自身和环境的交互实现参数的自动调整，但是在控制律参数需要频繁调整的应用场合，常规的强化学习方法无法满足实时性要求，而且容易陷入局部收敛。对传统的强化学习方法加以改进后，加快了在线学习速度，提高了强化学习算法的寻优能力。仿真结果表明，该方法可以在一定范围内快速求得全局最优解，提高控制系统的自适应性，为控制系统参数的自整定提供了依据。

关键字： PID；参数整定；强化学习；控制系统

中图分类号： TN911?34 文献标识码： A 文章编号： 1004?373X（2014）04?0001?04

Principle and application of PID parameter tuning based on improved reinforcement learning

GAO Rui?juan， WU Mei

（College of Automation， Northwestern Polytechnical University， Xian 710129， China）

Abstract： The response characteristics of control system depend on the control law parameter.The classic PID method is difficult to achieve the parameter self?tuning.Through the interaction of system itself and the environment， parameters can be adjusted automatically by reinforcement learning.However， in the application occasions where the control law parameters requires to be adjusted frequently， the conventional reinforcement learning methods cannot meet the real?time requirements， and is easy to fall into local convergence.Based on the traditional reinforcement learning methods， an improvement method which can accelerate the learning speed and improve the optimizing ability of reinforcement learning algorithm is proposed.The simulation results show that this method can get global optimal solution quickly and improve the adaptivity of the control system in a certain range.It provided a basis for the improvement of control systems parameter self?tuning.

Keywords： PID； parameter tuning； reinforcement learning； control system

0 引言

在现代技术高速发展的今天，反馈的概念已被广泛应用于自动控制理论中。测量，比较，执行为反馈概念的三个基本要素。通常来说，输入量先与测量量做比较，得到了系统误差后，相应的指标将通过这个误差来加以纠正和控制。在过去的几十年里，反馈技术被广泛运用于实践中，其中，使用比例积分微分控制技术的发展是最为突出的。如今，在许多高级控制领域里，到处活跃着 PID控制的身影[1]。

一般的控制理论存在诸多问题（如理论难以实现，或被控对象参数不容易得到，或得不到精确数学模型），PID作为工业控制的主要技术，它可以一一解决，这与其优良的性能是分不开的。它的结构简单，鲁棒性好和工作可靠性高且调整方便。因此，如何高效地调整和优化PID的控制参数成了人们竞相研究的问题。目前，常用的PID控制算法有理论计算和工程整定两类，其中，工程整定主要有：临界比例法，反应曲线法和衰减法等。然而，在复杂控制系统设计中，由于参数优化困难，PID的效果却有待提高。因此，越来越多的人把目光转向了自适应控制。如神经网络，模糊，进化等[1?2]。

本文在分析了各个研究成果的基础上，针对基于强化学习的PID控制算法的收敛速度快，实时性好等优点，提出了一种改进的强化算法的 PID 参数整定算法。通过改进强化学习算法对 PID 参数进行整定与寻优，基于控制系统的性能具体要求，对各项动态指标进行了适当的加权，采用改进强化学习算法对PID的参数进行了全局多目标寻优。其与传统控制算法相比，在寻优时间和参数调整上都有了很大的提高。

1 PID控制器

典型PID控制器原理图如图1所示[2?3]。

图1 PID控制系统原理图

图中控制系统由控制器和被控对象及反馈回路组成。

PID控制器根据给定输入值r（t）和实际输出值y（t）之间的偏差[e（t）=r（t）-y（t）]，将其按照比例，积分，微分的形式，通过线性组合的方法构成控制量，然后对被控对象进行控制，控制规律为[3]：

[u（t）=KPe（t）+1KI0Ietdt+KDde（t）dt] （1）

式中：[KP]是比例系数；[KI]是积分时间常数；[KD]是微分时间常数[2]。

在本文中，首先，串联PID 控制器和被控对象将系统的型别提高了。其次，由于附带两个负实部的零点，使得系统的稳定性和优越性有了很大的提高。详细原理为：积分的存在，导致 PID 控制系统消除误差；微分存在，使得 PID 控制系统的动态性能指标超调量缩小了；从频域的角度分析问题，由于低频段和高频段分别有积分和微分的作用亦满足如上表述的内容。

2 强化学习

强化学习（Reinforcement Learning，RL）是从统计学、心理学等相关学科发展而来的[4]，为人工智能领域一个古老又崭新的课题。最早可以追溯到巴普洛夫的条件反射试验。早在1911年，Tomdlike就提出了效果律，大体原理为：哪种行为会被动物“记住”，会与刺激建立联系，取决于动物行为产生的效果，包括搜索和记忆两层含义。1954年，Minsky将该知识运用于试错学习。同年，Clark和Farley亦在此方向上展开过研究，他们建立了随机学习模型。1957年，Bellman提出了动态规划理论及著名的马尔科夫决策过程。直到20世纪八九十年代，该技术才分别在人工智能和自动控制等领域中得到广泛应用[5?6]。

在强化学习是一个不断地“试探”?“评价”过程[2]。系统中，根据教师信号所提供的训练信息，学习方法有如下三种分类：监督学习（Supervised Learning、无监督学习（Unsupervised Learning）和强化学习（Reinforcement Learning）[2，7]。

强化学习的基本框架如图2所示[2，8]。

图2 强化学习原理图

强化学习与前两种算法不同，环境产生的信号作为学习系统动作的评价指标，但是该信号不能立即反馈给系统如何才能产生正确动作。强化学习主要由RL两部分组成：World（工作环境）和Agent（智能体）。智能体Agent又可以分成三个部分： P（策略单元）、I（输入单元）和R（强化单元）。首先，输入单元感知环境状态后，采取一个动作作用于环境，环境给出一个强化信号，然后将它转化为智能体的输入；接着，强化单元将评价智能体所采取的动作[a（t）]，并将其反馈给强化学习系统，策略单元更新Agent当前已存储的知识的，系统选择下一个动作，其选择原则是奖励值最大 [2，6]。

智能体Agent与环境W的交互时，在每个时刻t会发生如下事件：

（1）智能体Agent感知时刻t的环境的状态[s（t）]；

（2）根据当前的状态[s（t）]和强化信息P，系统选择然后执行某一个动作[a（t）]，该动作[a（t）]作用于当前的环境，环境发生相应的变化；

（3）当前环境状态变换为新的状态，即[s（t）→s（t+1）]，系统反馈及时的奖赏或惩罚回报函数[r（t）]；

（4）回报函数[r（t）]被智能体Agent接收，现有的策略P将发生变化，即[t←t+1]；

（5）系统返回第一步，继续重复上述步骤，在取得满意的目标状态时，该循环停止[2，6]。

其中，及时回报函数[r（t）]由环境状态W和智能体Agent的执行动作[a（t）]共同决定。动作[a（t）∈A]，A即为智能体Agent的所有动作的集合[5，8]。

算法里，首先要考虑选择适当的动作[a（t）]，使得值函数得到最大值，从而能够得到奖赏，这个过程即为Exploitation；同时，为了得到最优策略，智能体Agent要尽量选择不同的动作而且智能体Agent还要尽可能选择不同的动作[a（t）]，即Exploration。对于在线学习来说，Exploration是非常重要的，探索的方法主要有：直接探索和间接探索两种；间接探索的方法最常见的策略为greedy策略，通过为每个可能被选择的动作[a（t）]赋予其对应的执行概率[?]，然后尝试完成所有可能的动作。即智能体Agent一直选择有最高评价函数的动作[a（t）]，目的是为了获取最大及时回报函数。

2.1 强化学习算法

强化学习基本算法有三种：动态规划算法、蒙特卡罗算法和时间差分算法。强化学习是一种无模型的增强学习形式，它是Watkins等人于1989年提出的，是从动态规划算法发展而来，把Q?学习看成一个增量式动态规划，用一步方式来决定策略[9]。

先假定环境W是一个有限状态的离散马尔科夫过程。并且，强化学习系统每选取一个动作[a（t）]都是在单步中进行的，环境一旦接受该动作[a（t）]后便发生状态转移，然后给出评价函数[r]。环境状态发生转换过程时，概率公式如下：

[prob[s=st+1st，at]=P[st，at，st+1]] （2）

强化学习系统必须决定一个最优策略[π]，从而使得奖励值函数达到最大。在策略[π]的作用下，状态[st]的值如下：

[Vπ（st）=r（πst）+γP[st，at，st+1]Vπ（st+1）] （3）

动态规划至少得保证有一个策略[π?]，使得[Vπ?（st）=max{r（πst）+γP[st，at，st+1]Vπ*（st）}] （4）

Q?学习核心的思想是不估计环境模型，直接优化可迭代计算的Q函数，Watkin等人定义此Q函数为在状态[st]时执行动作[at]，并且此后按最优动作序列执行时，累计折扣得到的强化值，如下：

[Q（st，at）=rt+γmaxa∈A{Q（st+1，at）at∈A}] （5）

Watkin有效地证明了Q?学习在特定条件下的收敛性。Q?学习可通过神经网络来实现，其中，每一个网络的输出对应于一个动作的Q值，即[Q（s，ai）]。实现Q?学习的关键是学习算法的确定。

根据Q函数的定义：

[Q（st+1，at）=rt+γmaxa∈A{Q（st+1，at）}] （6）

只有达到最优策略时式（6）才能成立。

在学习过程中，误差信号为：

[ΔQ=rt+γmaxa∈A{Q（st+1，at）-Q（st，a）}] （7）式中[Q（st+1，at）]表示下一状态所对应的Q值[2，9?10]。

2.2 改进的强化学习算法

在上述强化学习的原理上，为了提高系统自适应度，从而推广该算法的使用范围，本文采用随机办法产生数组，并对动作[a（t）]进行寻优，其算法流程图见图3。

图3 算法流程图

由于双曲正切函数在[-1，1]范围内有良好的性能，相应的回报函数设定为：

[r（t）=tanh Q（t）10] （8）

对于PID参数取值优劣的评价，通常可拿偏差积分指标来衡量。常用的偏差积分指标有如下三个：

[IE=0∞e（t）dt] （9）

[ISE=0∞e2（t）dt] （10）

[IAE=0∞|e（t）|dt] （11）

估计不同的过渡过程需要选择不同的积分指标函数，如果着重于抑制过渡过程中的大偏差，则通常选用ISE准则，而惩罚过渡时间过长的问题时则应选择ITAE准则[11]。

综合考虑以上因素，本文选择了IE与IAE的线性组合作为评价函数：

[V（t）=0∞e（t）dt+0∞|e（t）|dt10] （12）

该算法实现了在其初始运行阶段（最初较大时）进行均匀搜索，而在其后期运行阶段（较接近于0时）搜索范围逐渐减小。满足了初期大范围，后期小范围搜索的要求，有利于收敛于全局最优值和提高搜索精度。

改进的强化学习PID调参，在线学习速度加快，从而提高了系统的快速性，且动态性能指标得到了优化。

3 仿真验证

本文利用某型飞艇进行仿真，飞艇初始状态为水平平飞，高度H=2 000 m，速度V=20 m/s，只研究纵向，配平线性化后得到飞艇纵向的线性化方程为：

[x=Ax+Buy=Cx] （13）

式中：[x=[V，α，q，θ]]，分别代表速度、迎角、俯仰角速度、俯仰角。

给定俯仰角跟踪指令[θg=10°]，并且考虑纵向风干扰，为简化问题，假设风干扰通过以下方式引入飞艇系统：

[v=v+vwq=q+qwa=a+aw] （14）式中：[vw，qw，aw]是在风对飞艇状态的量化影响。

对于改进强化学习算法，设置仿真参数如下：[KP]取值范围为[0，50]；[KI]取值范围为[0，0.5]；[KD]取值范围为[0，0.5]；迭代次数选为100，系数[γ]选为0.9。

分别用传统离线设计好的PID控制器和改进后基于强化学习在线调参的PID控制器进行控制[10]。

仿真结果如图4所示。

图4 仿真结果图

从仿真结果可以看出，传统离线设计好的控制器，在有风干扰的条件下，难以实现俯仰跟踪，而基于改进强化学习的控制器，在风干扰条件下，通过对参数的在线调整，实现了俯仰指令的跟踪，各项指标在可以接受的范围内。

4 结语

本文在分析各个研究成果的基础上，根据 PID 控制器具有多目标优化的特点，提出了改进的强化学习的PID控制器参数整定算法，选择了自适应度大的个体所对应的控制参数作为采样时间下的参数，对 PID 的参数进行多目标寻优，通过比较传统强化学习算法，收敛速度更快，实时性更好，Matlab上的仿真结果表明，在 PID 参数的寻优过程中，该改进后的强化学习算法具有更强的寻优能力。因此为PID控制系统提供了一种新的优化方法。

参考文献

[1] 张巍，卢宇清.基于在线自适应遗传算法的 PID参数整定和优化[J].计算机仿真，2011（12）：154?157.

[2] 朱卫华.基于强化学习PID控制器的柴油机调速仿真研究[D].哈尔滨：哈尔滨工程大学，2011.

[3] 陈丹，方康玲，陈乔礼.遗传算法在 PID 参数优化中的应用[J].微计算机信息，2007，23（3）：35?36.

[4] 战忠丽，王强，陈显亭.强化学习的模型，算法及应用[J].电子科技，2011（1）：47?49.

[5] 王醒策，张汝波，顾国昌.基于强化学习的多机器人编队方法研究[J].计算机工程，2002，28（6）：15?16.

[6] 姜沛然.基于模糊理论和强化学习的自主式水下机器人运动规划技术[D].哈尔滨：哈尔滨工程大学，2005.

[7] 付成伟.基于分层强化学习的移动机器人路径规划[D].哈尔滨：哈尔滨工程大学，2008.

[8] 徐莉.Q?learning 研究及其在AUV局部路径规划中的应用[D].哈尔滨：哈尔滨工程大学，2004.

[9] 魏英姿，赵明扬.强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学，2005（3）：190?193.

[10] 张汝波，顾国昌，刘照德，等.强化学习理论，算法及应用[J].控制理论与应用，2000，17（5）：637?640.

[11] 田丰，边婷婷.基于自适应遗传算法的交通信号配时优化[J].计算机仿真，2010（6）：305?308.

根据Q函数的定义：

[Q（st+1，at）=rt+γmaxa∈A{Q（st+1，at）}] （6）

只有达到最优策略时式（6）才能成立。

在学习过程中，误差信号为：

[ΔQ=rt+γmaxa∈A{Q（st+1，at）-Q（st，a）}] （7）式中[Q（st+1，at）]表示下一状态所对应的Q值[2，9?10]。

2.2 改进的强化学习算法

图3 算法流程图

由于双曲正切函数在[-1，1]范围内有良好的性能，相应的回报函数设定为：

[r（t）=tanh Q（t）10] （8）

对于PID参数取值优劣的评价，通常可拿偏差积分指标来衡量。常用的偏差积分指标有如下三个：

[IE=0∞e（t）dt] （9）

[ISE=0∞e2（t）dt] （10）

[IAE=0∞|e（t）|dt] （11）

综合考虑以上因素，本文选择了IE与IAE的线性组合作为评价函数：

[V（t）=0∞e（t）dt+0∞|e（t）|dt10] （12）

改进的强化学习PID调参，在线学习速度加快，从而提高了系统的快速性，且动态性能指标得到了优化。

3 仿真验证

本文利用某型飞艇进行仿真，飞艇初始状态为水平平飞，高度H=2 000 m，速度V=20 m/s，只研究纵向，配平线性化后得到飞艇纵向的线性化方程为：

[x=Ax+Buy=Cx] （13）

式中：[x=[V，α，q，θ]]，分别代表速度、迎角、俯仰角速度、俯仰角。

给定俯仰角跟踪指令[θg=10°]，并且考虑纵向风干扰，为简化问题，假设风干扰通过以下方式引入飞艇系统：

[v=v+vwq=q+qwa=a+aw] （14）式中：[vw，qw，aw]是在风对飞艇状态的量化影响。

对于改进强化学习算法，设置仿真参数如下：[KP]取值范围为[0，50]；[KI]取值范围为[0，0.5]；[KD]取值范围为[0，0.5]；迭代次数选为100，系数[γ]选为0.9。

分别用传统离线设计好的PID控制器和改进后基于强化学习在线调参的PID控制器进行控制[10]。

仿真结果如图4所示。

图4 仿真结果图

4 结语

参考文献

[1] 张巍，卢宇清.基于在线自适应遗传算法的 PID参数整定和优化[J].计算机仿真，2011（12）：154?157.

[2] 朱卫华.基于强化学习PID控制器的柴油机调速仿真研究[D].哈尔滨：哈尔滨工程大学，2011.

[3] 陈丹，方康玲，陈乔礼.遗传算法在 PID 参数优化中的应用[J].微计算机信息，2007，23（3）：35?36.

[4] 战忠丽，王强，陈显亭.强化学习的模型，算法及应用[J].电子科技，2011（1）：47?49.

[5] 王醒策，张汝波，顾国昌.基于强化学习的多机器人编队方法研究[J].计算机工程，2002，28（6）：15?16.

[6] 姜沛然.基于模糊理论和强化学习的自主式水下机器人运动规划技术[D].哈尔滨：哈尔滨工程大学，2005.

[7] 付成伟.基于分层强化学习的移动机器人路径规划[D].哈尔滨：哈尔滨工程大学，2008.

[8] 徐莉.Q?learning 研究及其在AUV局部路径规划中的应用[D].哈尔滨：哈尔滨工程大学，2004.

[9] 魏英姿，赵明扬.强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学，2005（3）：190?193.

[10] 张汝波，顾国昌，刘照德，等.强化学习理论，算法及应用[J].控制理论与应用，2000，17（5）：637?640.

[11] 田丰，边婷婷.基于自适应遗传算法的交通信号配时优化[J].计算机仿真，2010（6）：305?308.

根据Q函数的定义：

[Q（st+1，at）=rt+γmaxa∈A{Q（st+1，at）}] （6）

只有达到最优策略时式（6）才能成立。

在学习过程中，误差信号为：

[ΔQ=rt+γmaxa∈A{Q（st+1，at）-Q（st，a）}] （7）式中[Q（st+1，at）]表示下一状态所对应的Q值[2，9?10]。

2.2 改进的强化学习算法

图3 算法流程图

由于双曲正切函数在[-1，1]范围内有良好的性能，相应的回报函数设定为：

[r（t）=tanh Q（t）10] （8）

对于PID参数取值优劣的评价，通常可拿偏差积分指标来衡量。常用的偏差积分指标有如下三个：

[IE=0∞e（t）dt] （9）

[ISE=0∞e2（t）dt] （10）

[IAE=0∞|e（t）|dt] （11）

综合考虑以上因素，本文选择了IE与IAE的线性组合作为评价函数：

[V（t）=0∞e（t）dt+0∞|e（t）|dt10] （12）

改进的强化学习PID调参，在线学习速度加快，从而提高了系统的快速性，且动态性能指标得到了优化。

3 仿真验证

本文利用某型飞艇进行仿真，飞艇初始状态为水平平飞，高度H=2 000 m，速度V=20 m/s，只研究纵向，配平线性化后得到飞艇纵向的线性化方程为：

[x=Ax+Buy=Cx] （13）

式中：[x=[V，α，q，θ]]，分别代表速度、迎角、俯仰角速度、俯仰角。

给定俯仰角跟踪指令[θg=10°]，并且考虑纵向风干扰，为简化问题，假设风干扰通过以下方式引入飞艇系统：

[v=v+vwq=q+qwa=a+aw] （14）式中：[vw，qw，aw]是在风对飞艇状态的量化影响。

对于改进强化学习算法，设置仿真参数如下：[KP]取值范围为[0，50]；[KI]取值范围为[0，0.5]；[KD]取值范围为[0，0.5]；迭代次数选为100，系数[γ]选为0.9。

分别用传统离线设计好的PID控制器和改进后基于强化学习在线调参的PID控制器进行控制[10]。

仿真结果如图4所示。

图4 仿真结果图

4 结语

参考文献

[1] 张巍，卢宇清.基于在线自适应遗传算法的 PID参数整定和优化[J].计算机仿真，2011（12）：154?157.

[2] 朱卫华.基于强化学习PID控制器的柴油机调速仿真研究[D].哈尔滨：哈尔滨工程大学，2011.

[3] 陈丹，方康玲，陈乔礼.遗传算法在 PID 参数优化中的应用[J].微计算机信息，2007，23（3）：35?36.

[4] 战忠丽，王强，陈显亭.强化学习的模型，算法及应用[J].电子科技，2011（1）：47?49.

[5] 王醒策，张汝波，顾国昌.基于强化学习的多机器人编队方法研究[J].计算机工程，2002，28（6）：15?16.

[6] 姜沛然.基于模糊理论和强化学习的自主式水下机器人运动规划技术[D].哈尔滨：哈尔滨工程大学，2005.

[7] 付成伟.基于分层强化学习的移动机器人路径规划[D].哈尔滨：哈尔滨工程大学，2008.

[8] 徐莉.Q?learning 研究及其在AUV局部路径规划中的应用[D].哈尔滨：哈尔滨工程大学，2004.

[9] 魏英姿，赵明扬.强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学，2005（3）：190?193.

[10] 张汝波，顾国昌，刘照德，等.强化学习理论，算法及应用[J].控制理论与应用，2000，17（5）：637?640.

[11] 田丰，边婷婷.基于自适应遗传算法的交通信号配时优化[J].计算机仿真，2010（6）：305?308.

猜你喜欢

哈尔滨工程大学飞艇桌面

桌面舞龙

Research on Real Meaning of American Dream in Great Gatsby

基于APP在线控制双挤出头FDM桌面3D打印机的研制

桌面云技术在铁路行业中的应用

Research on Uranium Mining

An Analysis of Mood System of Narrative Rock Song Lyrics and Its Interpersonal Functions

基于改进强化学习的PID参数整定原理及应用

猜你喜欢

杂志排行

现代电子技术的其它文章