基于深度学习的控制器设计研究

2022-04-07杨恩平薛栋吉

计算机与数字工程 2022年3期

杨恩平薛栋吉

（南京理工大学计算机科学与工程学院南京 210000）

1 引言

从2006 年，深度学习泰斗Hinton［1］提出深度置信网络和新的训练方法，克服了神经网络遇到的瓶颈，到2013 年深度学习位列十大突破性科技之首，再到后来AlphaGo 横空出世击败了人类的围棋大师，到现在人工智能的广泛运用。这些都是深度学习带给我们的改变。深度学习目前在图像识别、语音识别、文本处理和大数据分析方面已经被广泛应用，在控制领域方面，深度学习也有一定的尝试。不过目前主要突出的是对控制目标识别和状态特征提取方面，对于控制领域最核心也是最基础的控制策略上，深度学习目前成果不多。

深度学习是由机器学习和多层神经网络发展而来，其作为机器学习的一个重要的分支存在。在机器学习算法中，EM 算法［2］是对自动控制领域方面具有重大贡献的算法。有了该算法，就可以很方便地使用高斯混合模型（GMM）［3］来表示隐马尔科夫模型（HMM）状态与输入之间的关系，从而开发新的控制系统。在深度学习出来之前就有人通过多层神经网络实现了自适应模糊逻辑控制系统［4］。

作为机器学习的分支，深度学习拥有更多的隐藏层和神经元，并且提高了学习性能，通过深度学习算法可以解决很多常规神经网络解决不了的复杂问题。本文就是来探索深度学习在控制策略上的应用。目前韩国庆北大学的Cheon K［5］等用DBN网络来代替PID 控制器进行过研究，证明了深度学习算法可以用来代替PID 控制器来控制空载的直流电机。Levine S［6］等分别比较了单层、多层网络和RNN 网络在粗糙地形运动系统中的作用，研究表明，随着实验样本的增加，多层网络和RNN 网络性能均优于单层神经网络，证明了深度学习算法在控制策略中的优势。中科院自动化研究所的王飞跃［7］提出了一种计算智能最优控制：自适应动态规划，其中利用了DNN网络结构作为其核心结构。

本人由于研究无人机控制系统，想探讨将深度学习应用于无人机控制［8~9］上的可能性，参考了机器人运动控制的资料［10］，故本文研究了用深度置信网络来模拟PID 控制器来控制带负载的直流电机，以仿真无人机悬停在空中的时候旋翼的控制。本文采用了Matlab/Simulink 进行了仿真，证明了使用深度学习算法可以代替传统PID 控制器来控制带负载的直流电机。

2 深度学习

深度学习是常规神经网络的扩展算法，其中隐藏层的数量和神经元的数量比常规神经网络的要多。在控制系统中，传统的神经网络已得到充分证明，并用作控制器设计，系统目标识别，自动调优和状态特征提取的工具。尽管深度学习比传统的神经网络更有效，但目前深度学习在控制领域的应用还不普及，尤其是在大数据中。

目前有很多的深度学习网络架构，比较常见的有基于受限玻尔兹曼机（RBM）的深度置信网络（DBN）［11］、基于自动编码器（AE）的堆叠自动编码器（SAE）［12］、卷积神经网络（CNN）［13］、循环神经网络（RNN）［14］等，在本实验中由于训练条件以及控制系统的特性决定选择深度置信网络（DBN）。

深度置信网络（DBN）是有多个RBM 堆叠而成。把RBM 隐藏层的层数增加，可以得到深度玻尔兹曼机（DBM），当把靠近可视层部分的网络换成贝叶斯置信网络，而最远离可视层的部分使用RBM的时候，就可以得到DBN。

不同于传统的人工神经网络，DBN算法的训练过程分为两个过程，即预训练和全局微调。DBN算法包括三个步骤如下，其中步骤1 和步骤2 是预训练过程，步骤3是微调过程。

步骤1：输入数据进入RBM 的可视层，然后考虑第一权重值，数据将被传输到隐藏层。

步骤2：第一层隐藏层成为第二层可视层，并通过考虑第二权重值将数据传输到第二隐藏层。同样，第二隐藏层成为第三可视层，并将数据传输到第三隐藏层。以此类推，逐层训练，直到将所有的RBM训练完毕。

步骤3：全局微调阶段，以训练好的RBM 之间的权重和偏置作为深度信念网络的初始权重和偏置，以数据的标签作为监督信号计算网络误差，利用BP 算法计算各层误差，使用梯度下降法完成各层权重和偏置的调节。

在预训练阶段，只使用了输入数据，没有使用数据标签，属于无监督的学习，另外，在微调阶段，是有监督的学习，可以根据具体的应用场景换成不同的分类器模型，不必是BP 网络。具体的算法框架如图1所示，这里采用的是三层的RBM。

图1 深度置信网络框架

3 深度学习控制器设计

本次实验设计主要分为三个部分，第一部分是深度学习控制器的设计，主要是包括了数据采集过程和控制器设计过程；第二部分是直流电机的说明，主要包括直流电机简单的建模过程；第三部分是深度学习控制器系统的介绍。

3.1 深度学习控制器

传统的PID控制器控制直流电机的过程如图2所示，系统的输入为电压v，输出为转速w，其中在期望电压输入到PID 控制器之前，会与之前的反馈值进行做差，得到e（t）作为控制偏差再输入到PID控制器中。本实验中，会对传统PID 控制器系统进行数据采集，采集对象为PID 控制器的输入信号和PID 控制器输出到直流电机的信号，采集到的数据用于深度学习网络的训练。

图2 PID控制器控制直流电机过程图

在得到了训练数据之后分别把PID 的输入/输出数据作为深度学习算法的输入/目标数据，将深度学习控制器调整为能够替换原始PID 控制器，如图3所示。

图3 深度学习控制器学习代替PID过程

最后再把PID 控制器去掉，使用训练好的深度学习网络来控制直流电机，并与PID 控制器的系统响应图做对比。

本文中采用DBN 网络作为替代PID 控制器的深度学习网络，本网络是基于Masayuki Tanaka［15］开发的Deep Neural Network 工具箱的搭建的，由于原本该工具箱中的DBN 网络是用作模式识别的工具，而本文中用来作为控制器工具，所以，在原来的基础上进行了一些修改，其中隐藏层由3 层组成，每层包含了50个神经元。迭代次数设置的200次，学习率为0.01，丢失率为0.4。

在RBM 的选择上，工具箱里面提供了多种RBM 可供选择，包括：BBPRBM（Beta-Bernoulli 过程RBM）［16］，GBRBM（Gaussian-Bernoulli RBM）和BBRBM（Bernoulli-Bernoulli RBM）。本文选择了GBRBM 结构的RBM，因为GBRBM 中加入了高斯噪音的连续值，其可视层可以处理连续实值随机变量。本文使用ReLU函数作为激活函数。

3.2 直流电动机说明

本文采用的直流电动机，其动力学方程如下：

其中，J是转子的惯性矩，Kt是电动机转矩常数，i是电枢电流，b是电动机粘性摩擦常数，L是电感，R是电阻，Ke是电动势常数。具体直流电动机的参数值如表1所示。

表1 直流电动机参数表

3.3 系统介绍

本文在Matlab/Simulink 中进行了系统设计，如图4，是给出了在Maltab/Simlink 环境下，深度学习控制器控制带负载的直流电机系统图。其中包含了转矩扰动模块、传感器噪音模块，模数转换器模块、深度学习控制器模块和直流电机模块。

图4 深度学习控制器系统

4 实验结果与分析

本实验在Matlab/Simlink R2018b 中完成。一次实验过程的时间是t=10s，系统在第1s、第5s、第7s 发生变化，将10s 实验过程分割成3 段。在第1s的时候，系统的期望转速从0变成了2，在第5s的时候，给系统加上了0.2 的转矩扰动，即为负载，在第7s 的时候，期望转速从2 变成了-2，以测试在阶跃信号下控制器的性能。

实验中，经过反复调试计算，得到了比较满意的PID 控制器的系统响应，如图5，然后DBN 算法学习了该PID 控制器，从而得到了深度学习控制器，深度学习控制器系统响应如图6，为了更详细地比较，在图7 中显示了PID 控制器和深度学习控制器的残差图，并在表2 中展示了在0~5s、5s~7s 和7s~10s 这3 个阶段中，PID 控制器和深度学习控制器的RMSE值。

从图5 和图6 中可以看出，深度学习控制器可以模仿的与PID 控制器的效果几乎一模一样，肉眼已经看不出来区别，可以得到在训练次数足够的情况下，深度学习控制器可以代替PID 控制带负载的直流电机。从图7 中，可以发现，在系统发生变化的过渡阶段，深度学习控制器与PID 控制器的残差相对较大，但是1.2s 之后残差就都为零。另外，从表2 中可以得到，在任何阶段，两个控制器控制效果之间的RMSE变化都非常小，都是10-2数量级，因此也可以证明深度学习控制器很好的控制带负载的直流电机。

图5 PID控制器的系统响应

图6 深度学习控制器的系统响应

图7 PID控制器和深度学习控制器残差变化

表2 PID控制器和深度学习控制器RMSE值

5 结语

本文设计了一种基于DBN 算法的深度学习控制器，用来控制带负载的直流电机，以探索在用深度学习控制器来代替PID 控制器的可能性。本文对PID 控制器和深度学习控制之间进行了比较。事实证明，深度学习控制器在性能上与PID 控制器性能一样优秀，可以用来代替PID 控制器。本文研究的是增加了一个固定的负载，来模拟无人机悬停状态下的工作状态，但是无人机的飞行过程中姿态是经常变化的，而且控制算法中PID 也只是其中比较经典的一种，未来可以研究深度学习控制器在面对线性负载和非线性负载的时候来代替传统控制器的可能性。