基于稳健回归算法的无人机数据预处理技术研究∗
2018-11-26王玉伟
王玉伟 高 永
(海军航空大学 烟台 264001)
1 引言
无人机发展如今迈入全新时代,无人机飞行训练的效能评估已成为全世界飞行训练行业的难点之一[1,13],飞行训练质量评价技术渐渐变成训练支持技术研究领域的热点[14]。而飞行质量基于无人机飞参数据特征进行评价,所以数据的预处理效果好坏对于飞行质量评价至关重要[2,8]。
针对飞参预处理,国内外研究资料较少,文献[10]采用了卡尔曼滤波的方法,采用信号和噪声的状况空间模式,采用前一时间的评估值与现一时间的测定值用来革新对于状态变量的评估,得到时刻的评估值,在一定幅度之上降低了数据的噪音。可是实际运用时,在噪音模式于信号模式状况不知道的情况下,没办法保障评估值的准确性,当现实系统的非线性特性比较强,或噪音特性稍微和高斯分布相差比较大的情况下,卡尔曼滤波不能够给出真实的结论。文献[3]采用了经典最小二乘方法,实现了对数据野值的剔除和曲线的平滑。经典最小二乘目的是使残差平飞和达到最小,然而对每个样本点设定的权重却都是一样的,所以异常值对其拟合曲线影响很大,对数据的回归缺乏鲁棒性[6]。
有鉴于此,文章中提出了基于M评估稳健回归多的方式对于数据预处理情况进行研究,利用迭代加权最小二乘估计回归方程系数,根据样本点偏离程度大小确定权重,对偏离程度大的设定小权重,对偏离小的设定大权重,以此建立加权最小二乘估计,不断更替改变权重系数,直到拟合点和实测点中间的偏差小于制定的阈值区域,以达到稳健的目的。
2 飞参数据误差分析
四边航线飞行任务,其中高度数据如图1所示。
0~6000点是处于起飞滑跑阶段,可以看出该阶段内高度接近于0,进行飞行任务的场地是一块平地,所以滑跑起飞段采集的高度数据理想状态应该是一段高度为0m的水平直线,现取前6000个高度数据点作为误差分析对象。如图2所示。
上图可以看出,数据采集有野值和噪声,存在测量误差,导致数据的测量值与被测数据真值有偏差。测量误差一般可分为随机误差、系统误差、粗大误差[2]。
随机误差:在特定的情况下实行重复测定,或时间序列之上收集数据的时候,总是存有一样量值与符号均不确定,改变不存在规律,但是全部来看有符合特定的统计特性的偏差。
系统误差:同一测量环境下,多次测量的数据保持不变或按照一定规律变化的误差。在相同测定情况下,很多次测定的数据维持不变,或依照特定的规律改变的误差。
粗大误差:由于测量环境的意外改变或受到外界的干扰(电磁干扰,发动机振动)等原因造成的测量误差。
这些误差的存在将直接影响飞参数据的判读,对飞行数据细节要求细致的工作,如飞行动作识别和飞行动作质量评估等极为不利[4]。
3 稳健回归算法
稳健回归是一样统计学稳健评估之中的方式,其重要思路是把对于异常值非常敏锐的经典最小二乘回归使用的目标函数实行改进。经典最小二乘回归为了使误差平方和取得最小值作为其目标函数,由于方差是一个不稳定统计量,所以经典最小二乘也是一个不稳定的方式[6]。
3.1 经典最小二乘估计
假设有k个影响因素x1,x2,…,xk,与因变量Y的关系如下:式(1)称为多元线性回归函数。 βi称为回归系数,写成矩阵表达式为
3.2 基于M估计的稳健回归
加权最小二乘估计的原理:给每种样本点授予不同的权重,偏差较大的样本授予的权重较小,偏差比较小的样本授予的权重较大,这样产生的反常野值点也不会对于最终的估计值造成较大干扰[6]。此时目标优化函数为
M估计稳健回归想法是,利用迭代加权最小二乘回归系数。依据前一次测定的回归残差大小来决定各个样本的权重。把目标优化函数改写成:
ρ称为影响函数。在稳健估计中影响函数很多,可依据真实要求选择不一样的影响函数用来替换残差平方和。Huber函数的影响函数如下:
为让M估计具有稳健性,我们在函数之中引进一个稳定的标准估计s让残差得到标准化,s一般取值为Hampel提出的绝对离差中位数除以一个常数 0.6745,获 得 标 准 化 残 差 ,即 ui=这里med表示中位数运算。于是,
算法具体迭代步骤如下:
4)退回步骤 2),依序更替计算 βˆ(i),当相近两步骤的回归系数差的绝对值取得的最大值小于原先制定的尺度误差之时,迭代结束,即max| βˆ(i)- βˆ(i-1)|< ε。 ε为预先设定的一个正数,如0.0001等。和经典最小二乘的强制回归相比较,稳健回归存在很好的鲁棒性。
4 数据拟合
飞参数据采样间隔很短,每0.02s就进行一次采样,1s就会采集50个数据,假如计算1h的拟合曲线,直接利用上述算法会产生矩阵维数过高,求解矩阵呈病态。所以可对数据进行合理分段拟合,采用算法是从零开始取9个点作为第一个区间,设区间回归方程为:y=β0+β1x,用稳健估计出第一个区间的回归系数,计算出中间值即第5个点拟合值,接着取第二个点到第十个点作为第二个区间,得出第二个区间的回归系数,计算出第6个点拟合值,依次类推。开始4个点单独作为区间得出回归系数,计算其拟合值,最后4个点同理可得。所有点拟合完,即第一轮拟合结束。
5 野值识别
假定拟合区间具有N个,每一个区间拟合值与实测值偏差的标准差的之和的平均值公式即
利用稳健估计模型预测的拟合值,并与飞参记录的相应数据进行比较,若实测数据与拟合值相差小于3δ~5δ(根据数据具体处理效果可改变阈值大小),即以为该点就是合理点,反之就认为是野值点,排除该点并利用拟合点代替。一轮替换完毕后,进行下轮拟合,并识别野值和替换,直至新的一轮没有野值为止。
6 仿真实验
用稳健回归方法对飞参数据进行预处理仿真实验,空速的野值剔除以及拟合效果图如图3~图5所示。
由以上仿真可以看出,该方法能有效地对14000个空速数据点进行野值识别剔除,曲线拟合平滑,效果显著。把高度数据为作为例子,运用经典最小二乘与稳健回归方式分别实行预处理,结果如图6所示。
通过图6能够看出,受被野值影响,经典最小二乘现在脱离了标准模式,然而稳健回归最后拟合的结果较好。由于基于经典最小二乘评估的多元线性回归是把每一个样本授予相同的权重,并且都作为非异常值处理,但要是其中存在异常值,如飞参中那些粗大值,离预期真值较远的样本点,此方法获得的估计值会起到较大影响。最小二乘为获得最小化残差平方和的目标,一定要将就异常野值,因此异常值对最小二乘评估非常敏感。
综上可知,针对飞参数据采集过程中出现的野值、噪声等情况,利用稳健回归方法进行数据预处理,可以很好地躲避异常值的影响,并且在拟合精度上相比经典最小二乘方式都有了显著的提升,尤其在现实工程运用上,稳健回归方式存在良好的鲁棒性。
7 结语
本文针对无人机采集飞行数据过程中存在数据野值,噪声以及丢失现象,研究了飞行数据误差的表现及原因,采用了一样基于M估计稳健回归方式,利用反复加权最小二乘迭代的稳健回归方法,获得回归方程之中的回归系数,完成了对于飞参参数的拟合,制定偏差阈值排除了野值。仿真结论显示,稳健回归方式可以有效限制异常值对于参数评估的影响,完成对于数据的拟合和野值的排除。