APP下载

基于SVR的桥梁健康监测系统缺失数据 在线填补研究*

2018-06-12符欲梅陈得宝

传感技术学报 2018年5期
关键词:训练样本离线向量

朱 芳,符欲梅,陈得宝*

(1.淮北师范大学物理与电子信息学院,安徽 淮北 235000;2.重庆大学光电工程学院 光电技术及系统教育部重点实验室,重庆 400044)

对桥梁的运行状态进行长期在线监测,能有效掌握桥梁结构的损伤程度,提前发出事故警告,降低生命财产损失[1-2]。对桥梁所采集的实测数据进行填补的方法主要有传统的时间序列法和人工智能法等[3-5]。文献[6]利用高斯粒子滤波器引入贝叶斯法建立了动态模型对桥梁结构构件的可靠性进行在线预测。文献[7]提出基于相空间重构与混合核的LSSVM动态模型,预测瓦斯浓度,并且利用自适应混沌粒子群优化模型参数。由于桥梁健康监测系统所采集数据是时序的,因此对时间序列数据进行在线预测可以应用于桥梁缺失数据在线填补。文献[8]建立双并联离散过程神经网络模型以在线样本更新权值以解决混沌时间序列的在线预测问题;文献[9]利用时序相似性建立多个LSSVR子模型,实现在线匹配预测。

支持向量机SVM(Support Vector Machine)能有效地避免“维数灾难”,解决小样本和非线性不可分等问题,克服了过学习等不足,具有唯一解,被广泛地应用于各种回归预测领域[3,9-12]。但是由于桥梁健康监测系统所采集的数据具有频繁性、突发性、随机性和不可预料性,因此在实际使用支持向量机建立回归模型预测中仍然存在一些问题。首先支持向量回归算法本身不能选择输入样本,而根据数据特性合理构造输入输出样本对,可以提高预测精度;其次,根据历史数据建立支持向量回归模型预测缺失值时,只能预测一个将来值,而实时采集数据是否缺失是不确定的,对桥梁运行的长期实时在线监测是缺乏实用性的;只有有效利用在线更新的数据信息,才不会造成信息丢失,预测多个缺失值时也不会产生较大偏差。

本文根据桥梁实测参数数据的特点,建立基于支持向量回归SVR(Support Vector Regression)算法的在线自适应预测模型,对缺失数据进行实时在线填补。为解决SVM不能自主选择输入样本的问题,根据桥梁所采集参数的自相关性和变量之间的相关性,重新构造输入样本维数,充分提取有用的信息;为了满足高精度的在线填补需求,建立支持向量回归在线自适应模型,并且根据数据样本的在线更新,以序列最小算法更新训练模型的权值,提高一段时间缺失值的预测精度。

1 支持向量回归原理

支持向量机首先是针对分类问题提出的。支持向量回归算法则是输出为连续变量,构造用于回归估计函数的方法。针对桥梁健康监测系统采集的数据具有小样本和非线性,对于引入松弛变量和核函数的非线性SVR问题描述如下:

给定训练样本集(xi,yi),i=1,2,…,n,xi∈Rn,yi∈R,构造的非线性回归方程为:f(x,w)=w·Φ(x)+b。Φ(x)为非线性映射函数,将原空间的样本映射到高维空间,实现高维空间的线性化。f(x,w)拟合数据样本,Vapnik定义的损失函数为:

(1)

(2)

能够满足所有样本数据的条件为:

(3)

式(2)中第1项是使回归函数更为平坦,从而提高泛化能力;第2项则为减少误差。常数C>0,控制对超出误差精度范围样本的惩罚程度。因此,式(2)和式(3)等价于一个受约束的凸二次优化问题,求解w和b。引入拉格朗日乘子,式(2)和(3)转化为拉格朗日函数:

(4)

式中:α,α*≥0,γ,γ*≥0,i=1,2…,n。式(2)的最优解为式(4)的鞍点,在鞍点处,函数L是关于w,b,ξ,ξ*的极小点,故求其偏导可得:

(5)

将式(5)代入式(2)、式(3)中,可得到拉格朗日函数的对偶函数:

(6)

(·)表示内积计算。然而支持向量机中的非线性映射函数Φ(x)是未知的,核函数的引入使得大量的计算只需在低维空间进行点积运算。算法的复杂性并没有随着维数的增加而增加,且在高维空间中的推广能力并不受维数影响[12]。

设核函数k(xi,xj)满足:

k(xi,xj)=[Φ(xi)·Φ(xj)]

(7)

则式(6)变为:

(8)

最终可得非线性回归方程:

(9)

因此,支持向量回归算法即是根据已知训练样本(xi,yi),求解α,α*。

2 基于支持向量回归算法的在线自适应预测模型

考虑到现实中训练样本并非一次性获得,而是随着时间的推移逐渐积累。使用过去某一小段时间的训练样本所建立的模型来预测另一段时间后的值,其预测精度会大打折扣。因此,如果模型能够随着时间(样本)的推移而不断地自我学习修正,那么预测精度及可靠性也会提高。经典SVM学习算法的学习精度并不能随着样本集的积累而逐步提高,因此必须寻求更新建模的方法[6-9,13-15]。根据样本积累的特点,在线自适应建模的方法主要有两种:一种方法是固定训练样本的长度,当新的样本来临时,丢弃最远的历史样本,重新训练模型;另一种方法是随着样本的积累,在原有最优解基础上,丢弃非支持向量,再与新进来的样本混合训练,更新决策函数中的拉格朗日乘子,使得乘子满足约束条件。后者算法更新速度快,但过于依赖历史训练集中的最优解,并且随着样本的增多,原始最优解的可靠性降低,从而影响预测精度,且随着样本的增多,计算和存储需求都将增大。前者方法的缺点是修正模型速度慢,但是保证了模型的更新效果,针对桥梁健康监测系统采集数据具有小样本的特性,此种预测模型更适合于桥梁健康监测系统的在线残缺数据填补。

2.1 在线更新支持向量回归算法

本文采用更新样本的方法建立基于支持向量回归算法的多输入单/多输出系统模型。即每采集一个新样本数据就建立一个新模型,更新模型参数。

数学模型如下:

样本集(xi,yi),i=k,…,k+n-1,xi∈Rn,yi∈R,在样本个数不变的情况下,每进入一个新样本,同时丢弃一个旧样本,样本集大小固定,但是其中的样本是变化的。因此,核函数内积,待求的拉格朗日乘子和阈值偏差都是变化的函数。即当时刻k为某一确定值时,内积为K(xi+k-1,xj+k-1),i,j=1,…,n,拉格朗日乘子为:α(k)=[αk,αk+1,…,αk+l-1]T,阈值为:b(k)=bk;则支持向量回归算法的决策函数为:

(10)

随着样本的推移,可以建立在线动态模型。

图1 空气温度(时间间隔:1 h)

2.2 输入样本重构

由于支持向量机完全是基于纯数值统计的方法,不能自主分析数据的所有信息[16]。因此,在某些特定领域中,需要融合该领域特定的先验知识来提高预测性能,并且这种方法已成为提高支持向量机模型性能的关键因素[10,17]。

本文实验对象为重庆某高墩桥健康监测系统所提供的5月1日至15日的空气温度、墩顶位移和墩顶错位(倾斜角度)数据。高墩桥墩顶位移和倾斜角度都是桥梁结构参量中的位移物理量。在桥梁位移测量中,往往将位移分解到几个方向上进行测量,表明桥体的整体变形,从宏观上反映了桥梁结构安全状况。

从图1~图3可以看出,所有的监测数据都是按时间顺序采集的序列。温度数据每天在午时(12:00~13:00)达到高峰,早上7点左右达到低谷,具有周期性。墩顶位移和倾斜角度在给定时间段内也具有周期性,并且波动剧烈,表现出随机性,由于两者都属于位移参量,所以相似性非常高。温度高,倾斜角度和位移大;说明桥梁结构变形也受温度影响。

不同的输入样本构造方式对预测的精度有不同的影响,根据数据特性合理构造输入样本,可以提高预测精度[15]。在传统的时间序列预测研究中,输入样本的构造主要凭借经验或人为的确定输入样本维数,这些方法或是维数过低,数据特征提取不完整;或是维数过大,影响泛化能力;或是相关特征时没有针对性的选择,形成多属性影响的复杂时间序列。因此,在实际应用中,应通过对实际数据的特征分析,针对性的构造模型输入样本。

图2 墩顶位移(时间间隔:1 h)

图3 墩顶倾斜角度(时间间隔:1 h)

根据分析所提供的实验对象,可以按照变量间相关度和时间序列的自相关性、周期性构造输入样本。相关系数计算如表1~表3所示。

表1 空气温度相关系数

表2 位移相关系数

表3 倾斜角度相关系数

将表1~表3中相关系数大于0.8的序列纳入对应变量的输入样本,重新构造的样本维数仅为4维~5维。输入样本维数不大,却能充分使用过去数据值。

2.3 预测模型选择

基于SVR算法的模型选择包括核函数的选择和参数的优化。核函数通过将低维非线性样本映射到一个高维特征空间,使其在原空间的非线性转换为高维空间的线性特征,并且求解不需要非线性映射的具体形式,节省了大量的计算时间。应用最广泛的核函数是径向基核函数RBF(RadialBasisFunction),只有一个超参数γ值需要选定[18]。因此,本文采用径向基函数作为核函数。在支持向量回归算法和本文选取的RBF核函数中,需要寻优的超参数包括不敏感损失参数ε、惩罚参数C和RBF核函数中的尺度参数γ。对选定的参数可以采用交叉验证法进行验证,优点是充分地利用样本数据进行了详细地验证,缺点是对于选定的参数值不能自主地改善。目前模型参数调整方法包括经验法和理论法等。经验法对于陌生数据没有经验值可选时,范围较大且带有一定的盲目性。本文采用结构简单、易于实现的粒子群优化算法[19]PSO(ParticleSwarmOptimization)对模型参数进行优化。

2.4 权值更新

对偶函数最后的优化问题为:

(11)

式中:核函数和参数C以及核函数中的参数γ都是已知数,求解{α1,α2,…,αn}上W的最大值。尽管支持向量机是求解凸二次规划的优化问题,但是传统二次规划算法计算量大、矩阵运算复杂,并且需要大量内存,不合适解决大数据量的问题。Plat等提出了序列最小优化SMO(SequentMinimalOptimization)学习算法。这种方法将优化方法的大型二次规划问题分解为一系列最小规模的二次规划问题来解决,即每次重复过程只能优化两个拉格朗日因子,由于只有两个参数得到优化而其余参数保持不变,因而优化可以不用二次规划方法而采用分析方法[20-21]。

具体步骤如下:

①初始化{α1,α2,…,αn};

②优先选取0<αi

③固定αi和αj之外的其他参数;

(12)

④更新完成,判断参数是否满足停止条件;

选择“监视可行间隙”为停止条件,它是原始目标函数值和对偶目标函数值的间隙,对于凸二次优化来说这个间隙为零。

⑤如果满足停止条件,则结束;不满足,则跳转到步骤②。

3 在线自适应模型的残缺数据填补实验与分析

为了验证在线模型是否对预测精度有影响,设计随时间的推移模型对将来预测的验证实验。为了更直观地展示实验验证结果,将在线预测结果与离线模式下的预测结果进行不同方面的比较。

3.1 离线和在线模式

为了展示静态模型(也就是离线训练模式)和动态模型(在线训练模式)之间模型训练和预测的区别,两种模式的示意图如图4、图5所示。

图4 静态模型示意图

图5 动态模型示意图

从图4可以得知,初始训练样本一旦确定,训练得到的模型也就确定,随着时间的推移使用已确定的模型对后续样本进行预测,模型的训练样本并不随之更新。图5为在线模式下的模型训练和预测示意图。由图5可知,训练样本大小固定不变,随着时间的推移,训练样本和预测样本不断地更新。初始训练样本训练所得模型预测下一时段值,随着时间推移,新采集的样本更新初始训练样本空间,重新训练得到新模型,预测下一时段值,此过程不断循环向前推移。

3.2 在线模式与离线模式预测结果对比

将空气温度、墩顶位移和倾斜角度参量的初始训练样本固定为5月1日至5月7日的数据,样本大小为144。在线模式的初始预测值为5月8日缺失的数据。随着时间的推移,每隔1 h,采集一个新样本(真实值),固定训练样本增加一个新样本,去掉一个旧样本,训练样本大小不变;预测样本也随时间推移。每隔1 h,更新一次训练样本,训练一次模型,得到新的模型参数,预测新值。直至5月15日,总共更换了192次训练样本,修正了192次模型,最后修正模型得到5月15日的预测值。离线模式使用初始训练样本直接预测5月8日至5月15日缺失的数据。5月15日的在线模式和离线模式预测结果与真实值之间的对比如图6所示。

图6 在线和离线模式拟合对比图

从图6可知:在线模式和离线模式对同一时段的预测结果不同;使用离线模式训练的模型预测14 d之后的变量值,其结果精度明显要低于在线模式下的动态预测。在线模式预测的RMSE值为离线模式RMSE值的1/3~1/4,精度提高了3倍~4倍之多。由此可见,在线模式以训练样本更新的方式预测,对一段时间后的预测精度更高,更符合实际需求。

3.3 在线模式和离线模式预测误差对比

为了更好地说明离线与在线模式对预测精度的影响,将5月8日至5月15日所有预测结果与真实值之间的误差进行对比。随着时间的推移,温度参数在线模式和离线模式对预测值的误差变化如图7所示(墩顶位移和倾斜角度的误差变化与之相似)。

从图7可知,误差分布可以分为3个部分,第1部分离线模式和在线模式对开始一段较短时间内的预测误差相差不多;说明此时间段内更新的训练样本对预测的精度影响不是很明显。第2部分离线模式与在线模式的预测误差在不断加大;说明随着时间的推移,在线模式更新了的训练样本更好地抓住了所预测时间段的样本特征,所以预测误差比离线模式的小,预测精度更好。第3部分在线模式的预测误差与之前时段的误差相差不多,甚至更小,然而离线模式的预测误差有越来越大的趋势;这说明在线模式以更新训练样方式更新模型,使得预测精度保持在平稳状态。

图7 温度误差

4 结束语

本文建立了基于支持向量回归算法的预测模型,并对模型的输入样本进行了基于变量相关的重构,建立了新的预测方法。针对桥梁健康监测系统采集数据具有实时性,实现了在线自适应的桥梁健康监测系统残缺数据的填补。分析实验结果可知:①使用某一时段采集的样本建立模型来预测新一时段的值,显然是不合适的,时间跨度越久,其预测的准确率就会越低,甚至模型完全不适用。②随着时间推移,在线模式比离线模式更适应新的时间段样本的特征。③在线模式在某点的预测误差也比较大,是因为本文所建立的动态支持向量回归机模型没有更新惩罚参数C和RBF核函数中参数γ;为了更严谨地建立动态模型,应将此两个参数也更新。

参考文献:

[1] Farrar C R,Worden K. An Introduction to Structural Health Monitoring[J]. Philosophical Transactions,2010,365(1851):303-315.

[2] Xiao H,Gong Y,Ogai H,et al. A Data Collection System in Wireless Network Integrated WSN and ZIGBEE for Bridge Health Diagnosis[C]//Sice Conference. IEEE,2011:2024-2028.

[3] 符欲梅,朱芳,昝昕武. 基于支持向量机的桥梁健康监测系统残缺数据填补[J]. 传感技术学报,2012,25(12):1706-1710.

[4] Davey A,Savla J. Estimating Statistical Power with Incomplete Data[J]. Organizational Research Methods,2008,12(2):320-346.

[5] Olinsky A,Chen S,Harlow L. The Comparative Efficacy of Imputation Methods for Missing Data in Structural Equation Modeling[J]. European Journal of Operational Research,1999,151(1):53-79.

[6] 樊学平,刘月飞,吕大刚. 应用高斯粒子滤波器的桥梁可靠性在线预测[J]. 哈尔滨工业大学学报,2016,48(6):164-169.

[7] 付华,代巍. 基于ACPSO的PSR-MK-LSSVM瓦斯浓度动态预测方法[J]. 传感技术学报,2016,29(6):903-908.

[8] 聂侥,吴建军. 在线时间序列预测方法及其应用[J]. 北京工业大学学报,2017,43(3):386-393.

[9] 刘双印,徐龙琴,李道亮,等. 基于时间相似数据的支持向量机水质溶解氧在线预测[J]. 农业工程学报,2014,30(3):155-162.

[10] 张大鹏. 大吨位桥门式起重机主梁挠度预测方法研究[D]. 西南交通大学,2017.

[11] Ding S F,Bing-Juan Q I,Hong-Yan A T. An Overview on Theory and Algorithm of Support Vector Machines[J]. Journal of University of Electronic Science and Technology of China,2011,40(1):2-10.

[12] 乔蕾. 基于支持向量机的高光谱图像分类研究[D]. 哈尔滨:哈尔滨工程大学,2008.

[13] Anava O,Hazan E,Mannor S,et al. Online Learning for Time Series Prediction[J]. Journal of Machine Learning Research,2013,30:172-184.

[14] Gao Y,Shan X,Hu Z,et al. Extended Compressed Tracking via Random Projection Based on MSERs and Online LS-SVM learning[J]. Pattern Recognition,2016,59(C):245-254.

[15] Greenhalgh J,Mirmehdi M. Real-Time Detection and Recognition of Road Traffic Signs[J]. IEEE Transactions on Intelligent Transportation Systems,2012,13(4):1498-1506.

[16] 王少军,刘琦,彭喜元,等. 移动通信话务量多步预测的LS-SVM方法研究[J]. 仪器仪表学报,2011,32(6):1258-1264.

[17] Deris A M,Zain A M,Sallehuddin R. Overview of Support Vector Machine in Modeling Machining Performances[J]. Procedia Engineering,2011,24(8):308-312.

[18] Chen Wei;Wang Jiale;Xie Xiaoshen,et al. Spatial Prediction of Landslide Susceptibility Using Integrated Frequency Ratio with Entropy and Support Vector Machines by Different Kernel Functions[J]. Environ Earth Sci,2016,75:1344.

[19] Ardjani F,Sadouni K,Benyettou M. Optimization of SVM Multiclass by Particle Swarm(PSO-SVM)[J]. International Journal of Modern Education and Computer Science,2010,2(2):1-4.

[20] 王定成,方廷健,唐毅,等. 支持向量机回归理论与控制的综述[J]. 模式识别与人工智能,2003,16(2):192-197.

[21] Tian L Y,Hu X G. Method of Parallel Sequential Minimal Optimization for Fast Training Support Vector Machine[J]. Applied Mechanics and Materials,2010,29-32:947-951.

猜你喜欢

训练样本离线向量
向量的分解
异步电机离线参数辨识方法
聚焦“向量与三角”创新题
浅谈ATC离线基础数据的准备
人工智能
FTGS轨道电路离线测试平台开发
离线富集-HPLC法同时测定氨咖黄敏胶囊中5种合成色素
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法