基于对机器人的状态行为预测和行动纠正的方法研究

2020-05-11李依霖

网络安全技术与应用 2020年5期

◆李依霖

◆李依霖

（吉林建筑科技学院计算机科学与工程学院吉林 130111 ）

本研究为了实现对动态机器人预测的必要性提出了对状态行动的预测。根据现已提出的在线支持向量回归机实时性逐次预测的方法为基础，由于预测的定义中没有提到状态及行动的概念，因此，本论文提出根据机器人的现状态和行动预测出新环境下的未来状态，然后通过现状态和行动预测值，实现状态再定义的观点。本文为了实现对状态行动预测的必要性，解释说明了关于在线的支持向量回归机的改良方法，并说明状态反馈控制的方法对状态行动的预测。首先将预测每1单元时间下的状态定义为逐一状态预测，在此基础上进行扩展，在n单元时间下，预测状态定义为长期状态预测。因此，预测值优先度的行动补正方法是预测机器人对状态行动中采用最适合行动的补正方法。

在线的支持向量回归机；状态行动预测；预测值的优先度

在线支持向量回归机的基本思想是避免批处理支持向量回归机重复学习的缺点，导入逐一学习的方法[1]。通过这种方法，不对最初的训练数据重复学习，添加和删除学习机中的要点。训练时逐次添加学习数据，通过预测回归系数将得到的学习数据范围作为对象，当学习结束时开始进行预测未来状态。因为在线支持向量回归机能实现逐一学习，但不能实现逐一预测[2]。针对这一问题，我们考虑到利用在线支持向量回归机进行实时性的逐一预测的方法。通过已有的支持向量和新输入的训练数据，并利用逐次更新的参数，构成在下一时刻的输入预测式，提出在线支持向量回归机的逐次预测方法。

1 研究方法

本研究是为预测长期状态，在n样本时间的状态下进行预测。本研究的目的是通过机器人现在的状态和行动预测到机器人下一个阶段将要移动的状态。在每1单位时间内，根据现在的状态采取的行动进行预测，定义为逐次状态预测。并在这种方法的基础上扩展预测状态在第n样本时间上进行预测时，应该采用怎样的方法来决定状态和行动的控制原则[3]。

通过离散时间的非线性状态空间模型表示预测对象的模型的动态的行动。利用这个模型的组合行动和状态预测方法实现控制移动到目标状态，来预测出未来的状态[3]。非线性状态空间模型是通过机器人的现状态和此时采取的行动，预测未来状态的行为。在样本时间上对每个在线的支持向量回归机模块给予时间的系数和行动，预测出每1样本时间的状态，将其表示为得到的预测值。通过预测出的样本状态值，输入公式产生为了决定行动的状态返回增值，并计算出预测出未来的行动系数。如下式：

在任意样本时间内，可以相互导出行动和状态，并能预测出长期的状态[4-5]。根据定义逐次状态预测的结构，实现状态行动对预测的扩展。实现这个状态下行动对预测的扩展，采用在线的支持向量回归机作为预测器，预测状态和行动[6]。从现在的状态和行动预测出下一刻的状态和行动，构成预测系统。将在线支持向量回归机的现状态和行动，组合训练数据，实现对未来的内部状态进行预测[7]。将在线支持向量回归机作为线性二次调节器对下一时刻的状态进行预测时，先定义状态变量和，将非线性离散状态空间模型作为预测对象的模型，用来描述通过现在的状态和行动预测出来的系数返回得到线性二次调节器的状态返回增量。接下来实现对预测行动进行补正。利用状态和行动的组合实现机器人控制的方法，利用学习机通过机器人现在采取的行动预测出未来将会产生的行动反应，从而实现行动补正的方法。如果未来将要采取的行动是包含预测误差的预测值，就将会生成重复行动动作，为了减少这类影响，考虑到使用最合适的控制方法和状态组合预测，决定采用补正的行动方法。

2 设计固定的权重系数。

着重预测结果的变化，设计可以调整的动态权重系数。

考虑利用这两种方法，对过去的预测结果进行检讨。与现在行动的结果进行比对，设置存在下降程度时进行行动补正，导出预测值。

3 研究内容

动态环境下对机器人实施监控控制，为了准确预测未来的行动和状态，要通过预测出的行动结果进行实时修改，令机器人实现“理想行动”状态[8]。本研究设定自动式两轮倒立摆的倒立姿势维持控制，利用对状态行动的预测，得到预测出的可能性扰动，在补正扰动的基础上产生必要的行动，通过状态返回增量进行最合适的控制。倒立摆的机体倾斜角度的变化越小，获得的行动越合适。通过状态行动对预测未来应该采取的行动组合，得到补正倒立摆的控制输入值，使用这个预测值来补正行动，形成状态行动对预测“现时刻”到任意的+时刻的行动预测结果的集合。利用预测结果与预测对象“现时刻”相对比较，产生预测误差比例。设定补正时使用的参数值重要性，为了降低误差影响，要着重确认预测的开始时间[9-10]。

通过逐一学习方法预测逐次状态是组合进一步学习的逐一状态预测方法。但在逐次学习中数据的长度固定的情况下，达不到预定数据组合学习就终止了，存在着预测不到数据的情况。数据组合的长度设定为系数N，将N和前一时刻的N-1设为数据基点进行学习和预测。也就是说，通过在线支持向量回归机上更新学习第N-1次的学习数据时用的参数，从每增加一个学习数据开始预测下一步的组合学习。如图1所示：

在第-1次的学习数据时，重复的向量，偏差项，作为学习数据的特征抽象化参数。本研究中着重学习第-1次的学习数据和第次的学习数据，定义-1次参数的集合，权重向量为，偏差项为。利用这些系数在每1个单位时间下进行状态预测，进行组合批处理向量回归机的进一步学习。此时，把第次得到的数据最小化，作为第次学习数据的行为状态特征。将这个结果集合学习第-1次行动状态，测得学习数据时的参数来实现增量学习。