基于数据驱动的波形护栏监测数据故障诊断方法研究
2021-05-14韩子东崔鹏飞
韩子东,崔鹏飞,张 凯
(中国公路工程咨询集团有限公司,北京 100097)
0 引言
2019年9月,中共中央、国务院正式印发的《交通强国建设纲要》中特别指出,要“构建泛在先进的交通信息基础设施”,该项要求给智慧交通的发展指明了方向[1]。在交通强国建设背景下,交通运输部开展了一系列顶层规划和战略部署,将发展智慧交通作为行业主攻方向[2]。其中,在2019年7月,交通运输部印发了《数字交通发展规划纲要》,提出让“哑设施”具备多维监测、智能网联、精准管控、协同服务能力[3]。高速公路波形护栏就是一种典型的“哑设施”。本研究作者研发团队设计了一种面向端边协同的波形护栏监测系统,该系统以波形护栏撞击监测为主,融合、联动其他感知设施,一方面能够提升感知精度,另一方面能够提高高速公路应急救援和运营养护效率。本研究仅对其中撞击监测的核心算法进行阐述,传感器设计、布设的优化和联动另文描述。
在我国,高速公路交通事故感知基本依赖人工视频轮询监控和视频事件智能检测两种方式,虽然我国各高速公路正在进行全国视频联网建设工作,但距离高速公路主线视频全覆盖还有很长的一段路要走,更何况,受视距、视频质量、天气环境等因素的影响,各类摄像机智能检测的有效距离也十分有限,这会导致高速公路如果仅凭视频手段,很难实现交通事故的全天候、全线的感知全覆盖,而利用护栏监测和视频等其他技术的融合、联动,是提高交通安全、应急保障效率的解决路线之一。但是,行业内护栏监测还处在探索阶段,其技术多采用光纤传感技术[4]和视频比对技术[5]。其中光纤传感技术由于需要在护栏外侧通铺传感器,发生较严重撞击时其传感器也会遭到严重破坏,其建设成本和维修成本居高不下,阻碍了科技成果的转化。而视频比对技术多在运营维护期间,采用车载式摄像机巡逻后,回到数据中心将新、旧视频进行比对而实现护栏的健康状态的判断,无法做到实时监测碰撞事件。此外,对波形护栏撞击类事件数据的研究也十分稀少,现有研究或产品多采用阈值法来鉴定是否有事故发生。
从研究过程中获取的数据发现,护栏监测数据中除撞击产生的数据外,还存在着大量的自然噪声,这些噪声的来源可能是来自自然噪声、传感器漂移、地磁等因素,导致其从多尺度特性上掩盖了故障信息[6],此外数据中还包含有对监测碰撞而言是干扰数据,但确是联动其他设备必不可少的数据,例如有车辆长期占用应急车道。因此,为了能高效识别出碰撞数据,并与其他设备更好实现联动,必须要从多尺度上降低噪声、保留干扰信息、分离并定位撞击产生的数据。采用传统的阈值法显然无法满足上述需求。
本研究将护栏监测的过程视为一种“过程监测”,将碰撞产生的数据、大货车经过时产生的干扰、环境产生的噪声数据共同视为“数据故障”,探索利用数据驱动方法来从海量的过程数据中,去除噪声数据、屏蔽干扰数据,诊断并分离出碰撞数据。由于没有类似的研究以供参考,需要尝试多种基于数据驱动的故障诊断方法,从中选择适合护栏监测的方法,并进行优化。基于数据驱动的故障诊断方法有很多,它是一类方法的总称[7],这些方法不需要建立被监测对象的复杂的数学模型,只需要利用海量的带故障标记的过程数据或不带标记的正常数据来建立投影空间,再利用该投影空间来完成实时数据的故障诊断。数据驱动的故障诊断方法可被分为多元统计类方法、机器学习类方法、信号处理类方法和粗糙集方法等[8]。其中多元统计类方法主要包括主元分析(Principal Component Analysis,PCA)、偏最小二乘法(Partial Least Squares,PLS)和费舍尔判别(Fisher Discrimination Analysis,FDA)等[9]。本研究提出的面向端边协同的波形护栏监测系统中的各监测模块,均采用了多种传感器,当有撞击事件时,各传感器数据之间具有多维相关性,该类数据适合采用基于多元统计类方法的故障诊断,其大致原理是先利用海量的正常历史数据创建多维变量的投射空间,当进行实时监测时,实时数据被投射到该空间内,此时统计各实时数据在该空间的各类统计指标,根据统计指标来进行故障的诊断与分离。
本研究根据上述护栏监测的数据分类,尤其是实地试验受到的环境噪声数据的特征,首先利用前期研究的成果,进一步改进了现有的小波阈值降噪算法,对原始数据实现多尺度降噪,重构后可以尽量在抑制噪声的同时,保留有效信息。将降噪重构后的信号作为故障诊断模型的输入,再通过对比分析基于PCA,PLS,FDA的故障诊断模型的原理后,认为基于FDA的故障诊断更适合护栏监测数据故障诊断;为提高FDA的抗噪能力,将FDA模型和改进的小波阈值算法结合,形成了基于多尺度费舍尔判别分析(Multi-scale Fisher Discrimination Analysis,MSFDA)的故障诊断模型,该模型作为整套波形护栏监测系统的数据处理核心算法。
本研究最后通过对比试验,从理论上验证了基于数据驱动的波形护栏监测模型相比较传统阈值法准确率更高,同时,也验证了数据驱动方法中,FDA比PCA,PLS更适合该类情况,原因可能是FDA在初始空间创建过程中需要利用带有故障数据标记而导致的。此外,本研究最后提出的合成的MSFDA模型为最终应用在护栏监测系统中的算法模型,试验表明,该模型相比较PCA,PLS,FDA,可显著提高该系统的抗噪、抗干扰能力,准确率更高。
1 原始数据分析及监测目标
1.1 原始数据分析
研发团队在货车比例较高的某高速公路外侧护栏以200 m间隔,布设了10个监测点,各监测点设置为触发检测,即有较大震动时采集一组数据。在数据采集过程中没有发生撞击事故,但车流量较大时大型货车占用应急车道现象较多。从中选取3个监测点,在车流量较大时间段和车流量较小时间段各采集1个小时,所采集的检测数据,去除无效数据,各约1 350组数据。将两个时间段数据展开对比如图1所示。
图1 高峰期与非高峰期护栏偏离幅值监测数据对比Fig.1 Comparison of monitoring and testing data of guardrail deviation amplitude in peak period and off-peak period
在没有撞击事故的前提下,从直观上看,数据中包含了大量的的噪声和干扰数据。其中噪声的原因可能来自大自然的干扰、地磁干扰以及前端传感器软硬件工作属性的不一致等[10]。而且随着数据量的增多,大量的噪声在多尺度上掩盖有用信息[11]。干扰信息的产生原因主要是与重载货车经过时产生的震动或传感器的漂移渐变等因素有关,传感器原因导致的干扰数据往往呈现出缓变型、恒偏差型,而大货车震动时产生的干扰数据会呈现出高频型、突变型,这类数据往往会被噪声掩盖。
1.2 监测目标
护栏撞击监测的目标不仅是为了能够实时检测出碰撞事件,也要为与其他设备实现联动提供优质数据来源。例如本研究提到的干扰信息也是有用信息的一种,当干扰信息频繁出现时,能够反映出重载车辆数量可能较多,或者现场监测设备出现了故障,需要提醒运营单位重点关注。
综上分析,本研究首先需要利用数据驱动算法中的小波阈值除噪,在多尺度上降低噪声,并保留大部分有用信息。其次,选择适合护栏监测的数据驱动算法,对比各算法的故障诊断准确度。最后合并适合的数据驱动算法,与小波阈值算法合并,形成波形护栏监测的核心算法。
2 基于数据驱动的故障诊断模型
2.1 改进的小波阈值除噪
本研究提出的改进的小波阈值除噪方法是在过去的研究基础上进行改进。由于前期研究成果是针对交通量检测器而设计的,阈值指标体系较高,本次应用在护栏监测上,需要调低阈值,增强灵敏度。本研究对文献[11]中的噪声标准方差估计、阈值设定和小波系数调整函数3个方面进行修改,让其更适合护栏监测数据的使用情况。
(1) 噪声标准差估计公式:
噪声标准差是衡量噪声与其本来应该正确的信息之间的差距。首先,将原信号进行多尺度的分解,根据经验,本算法将尺度值J设为5,以此获得每个尺度下有一个高频、低频两个信号,而高频信号主要由噪声构成,需要滤除,设高频信号为Wj,k,则该高频信号中的噪声标准差估计公式定义为:
(1)
式中,j为当前尺度,最高尺度为5;N为当前尺度下的小波系数的总个数;k为当前小波系数的个数。
(2)阈值设定函数
为了去除小波分解后得到的各高频信息中的噪声,需要设定一个阈值,这里参考文献[12]中给出的统一阈值公式,从该公式中可看出,随着信号的信噪比不同,阈值也在随着实际情况的改变而改变:
(2)
设定阈值后需要将多尺度分解的J组高频信号系数按绝对值从小到大进行排列,从而得到一个高频信号系数向量:P=[Waj, n], 1≤n≤N。以此来获得每个尺度下的评估向量:R=[rn], 1≤n≤N,其中:
(3)
(4)
其中Pa, j,ρN, j的计算公式如下:
(5)
(3)小波系数估计值的计算方法
因此,得到需要被替换的小波系数的估计值:
(6)
详细的改进小波阈值除噪算法步骤见文献[11]。
2.2 基于多元统计的故障诊断方法综述
2.2.1基于PCA的故障诊断模型
当需要区分正常数据和故障数据的时候,通常采用平方预测误差(Squared prediction error,SPE)和Hotelling’sT2(以下简称T2)来检测过程是否发生异常[14]。
图2 基于SPE指标的PCA故障检测示意图Fig.2 Schematic diagram of PCA fault detection based on SPE indicators
由于SPE与T2指标的监测重点不同,所以会经常出现一个现象:某个在线数据向量在残差空间的投影在正常范围内,但是,该数据向量在主元空间的投射却超过了其控制域范围。这说明该数据可能是数据故障,也有可能是测量范围出现了变化,需要用其他手段来辅助决策故障信息。
综上,当PCA故障诊断模型应用在护栏故障检测中,可以将10组监测点的每一个传感器视为一个变量,共同组成一个数据矩阵X。以此来监测数据故障,来判断是否有传感器检测出异常情况。
2.2.2基于PLS的故障诊断模型
但是在护栏监测系统的实际应用中,为了判断碰撞事件,只需要重点关注某一到两种传感器数据,其他种类传感器的数据仅作为辅助,PLS模型恰巧可以实现该功能。PLS模型是在PCA模型的基础上,从变量x(t)中,选取重点关注的变量R(t),其方法也基本类似,即利用历史正常数据构建出Sp与Sr两个子空间,再将在线监测数据投射到这两个子空间中,设置统计指标,完成故障检测。如果变量空间Y中发生故障,即该故障会影响质量变化,则故障一定发生在子空间Sp,如果发生故障不会影响质量变化,则故障一定发生在子空间Sr中。通常,采用T2指标来检测Sp的故障,用Q指标检测发生在Sr中的故障[16]。
在上述计算过程中,会发现一个现象,即T2和Q是相关的,这会导致某一个故障可以同时出现在两个子空间中,这与PCA中采用SPE,T2指标类似,该类现象需要用其他手段来辅助决策故障信息。此外,只有在对被监测系统更了解的前提下,采用PLS的故障诊断模型能够比PCA更准确、更高效。
2.2.3 基于FDA的故障诊断模型
FDA与PCA和PLS一样也是一种利用训练数据构建降维空间,再把在线数据投射到该空间,利用投射的特征参数进行数据的故障诊断。但是,FDA的不同之处在于,它不仅需要正常数据的训练,还要有标签的故障工况下的数据参与训练[18]。如果将护栏撞击的数据视为一种数据故障,可以人为的创建各种类型的撞击事件,用采集到的数据,与正常数据一起,对FDA模型进行训练。
基于FDA的故障诊断模型原理如下[19]:
以前文提到的变量x(t)构成的空间X为正常数据,人为创建的撞击事件监测数据,按类区分为g(t)构建成的故障事件数据空间G,假设将G并入X,X=[x1x2…xn]T∈Rn×m,一起来训练FDA模型。定义数据总离散度为:其中,是n个样本的均值向量。定义Xj为属于第j类数据的样本向量集合,第j类数据的类内离散度Sj和总的类内离散度Sw分别为:
(7)
(8)
其中,假设Sw可逆,FDA向量等价于:Sbwi=λiSw·wi。由于Sb的秩小于p,所以最多有p-1个非零的特征根,将计算得到的FDA向量,按列构成投影矩阵Wp∈Rm×(p-1)。因此,样本xi可被投影到p-1维FDA空间,得到从而对数据实现最优分离。当进行在线监测时,将在线样本x投影到Wp矩阵的列向量构成的低维空间,得到样本的FDA得分:结合文献[20]的马氏距离等度量方式,找到x所属故障来源,实现故障诊断。
由于FDA在训练过程中把故障工况下的数据也一并考虑了,理论上其故障诊断的准确性要优于PCA和PLS,且它以满足最小化类内离散度、最大化类间离散度为准则的同时,对建模数据进行排列,从而完成故障诊断,避免了PCA和PLS故障诊断指标之间的不确定性。综上分析,FDA更适合护栏监测系统的故障诊断。
2.3 基于MSFDA的数据故障诊断模型
为了满足实际使用需求,本研究设计了一种基于多尺度费舍尔判别分析(MSFDA)的数据故障诊断模型。经前文的理论分析得知FDA更适合护栏监测系统的故障诊断,但上述分析中均是在假设没有噪声的条件下进行的。在实际使用过程中,故障信息和部分干扰信息具有多尺度特性,因此,需要增强FDA的多尺度抗噪能力。本研究提出的基于MSFDA的数据故障诊断模型训练流程如图3所示,在离线训练过程中,使用实测数据,添加模拟撞击事件产生的数据后,构成样本数据,用来训练模型。模型利用小波的多尺度特性,将样本数据分解后除噪;经信号重构后,再进行FDA建模。
图3 MSFDA数据故障诊断模型训练流程示意图Fig.3 Schematic diagram of training process of MSFDA data fault diagnosis model
在过程监测时,对采集到相同空间大小的数据进行小波分解后,对每一层进行阈值除噪;再将各层信号重构,将过程变量投影至FDA故障空间并排序,利用故障分离图将干扰信息和碰撞信息分离出来。整体流程见图4。
图4 MSFDA数据故障诊断模型工作流程图Fig.4 Flowchart of MSFDA data fault diagnosis model
3 试验设计及结果
为了验证理论分析结果并对比各类故障诊断模型的准确度,设计仿真试验,对基于PCA,PLS,FDA,MSFDA的数据故障诊断模型在MATLAB平台中分别进行仿真试验。各模型仿真试验流程如图5所示。通过训练数据,在MATLAB中建立各模型的残差空间和主元空间数据库,再利用相同的输入,作为在线数据进行仿真在线故障诊断。根据输出结果,对比4种模型的准确度。
图5 试验流程图Fig.5 Flowchart of experiment
3.1 训练数据
训练数据的选择方式和质量会直接影响到模型的实用性和准确性,因此本研究选择采用实测数据来训练模型。试验准备了2组训练数据。第1组训练数据采用前文描述的交通量较小时的实测数据。第2组训练数据采用模拟撞击护栏的方法来获取检测数据,方法为:选取相邻的10个监测点,编号从S1~S10,在S2~S5之间的3段护栏,用约10 kg左右的钢筋,随机选位置撞击护栏,记录全过程的测量数据。测量数据如图6所示,可看出,模拟撞击实测数据中除了撞击数据外,在监测点6~10之间还出现了大量的不规则数据,可能是噪声,也可能是干扰信息。
图6 模拟撞击实测数据展开图Fig.6 Expansion of measured data of impact simulation
用第1组训练数据训练基于PCA,PLS的数据故障诊断模型。用第1,2组训练数据训练基于FDA和MSFDA的数据故障诊断模型。
3.2 在线数据
在监测点S1至S2之间的护栏,选择随机位置,采用相同方法撞击护栏,记录全过程测量数据,作为PCA,PLS,FDA,MSFDA这4个故障诊断模型的输入。
3.3 误差指标及定义
定义误报率μf、漏报率μg以及故障算法准确率Φ。其中,误报率是形容某数据不是故障,但错报成故障的情况,漏报率形容某数据本应该是故障,却没有被检测到的情况。
计算方法如下:
(9)
式中,n为误报数据点个数;m为漏报点个数;N为数据总个数。
(10)
3.4 试验结果及分析
3.4.1 PCA故障诊断模型仿真
基于PCA的故障诊断模型需要统计SPE和T2两个指标来实现故障诊断,各控制限指标结果见图7。
图7 基于PCA的故障诊断T2和SPE统计结果Fig.7 Statistical result of T2 and SPE based on PCA
为了定位发生故障的传感器位置,采用贡献图的方法,结果如图8所示。
图8 基于PCA的贡献图Fig.8 Contribution graph based on PCA
由于大量的噪声干扰,以及在实际应用过程中,各传感器之间的线性关系不明显,导致PCA基本无法实现本次试验的故障诊断。
3.4.2 PLS故障诊断模型仿真
基于PLS的故障诊断模型需要统计SPE和Q两个指标来实现故障诊断,各控制限指标结果如图9所示。
图9 基于PLS的故障诊断SPE和Q统计结果Fig.9 Statistical result of SPE and Q in fault diagnosis based on PLS
为了定位发生数据故障的传感器位置,采用贡献图的方法,结果如图10所示。
图10 基于PLS的贡献图Fig.10 Contribution graph based on PLS
与PCA相比,PLS的故障诊断模型的准确率更高,但误报率也非常高。例如,PLS故障诊断监测到了来自S1,S3的数据故障,但也认为S7和S10也出现了数据故障,其误报原因可能是噪声或干扰信息导致。此外,与PCA相同的地方,在实际应用过程中,各传感器之间的线性关系不明显,也是导致PLS误报率过高的原因之一。
3.4.3 FDA故障诊断模型仿真
由于在训练过程中,将噪声、故障数据与正常数据一并参与,在线性降维的过程中将噪声也一并纳入故障数据中,因此在FDA故障诊断的结果,如图11(a)所示,出现了大量的离散噪声,但由于噪声与故障信息之间没有线性关系,因此在利用马氏偏移量进行故障定位的时候,如图11(b)所示,准确的定位到S1,S2,S3发生了故障,且故障发生位置可能与S1更接近,这与模拟在线数据的情况基本一致。
图11 FDA故障诊断样本得分及故障定位结果Fig.11 Fault diagnosis sample score and fault location result based on FDA
通过以上对比仿真,证实了FDA故障诊断方法,相比较PCA和PLS更适合护栏监测。
3.4.4 MSFDA故障诊断模型仿真
为了从多尺度上降低噪声对故障诊断的影响,采用MSFDA模型,从仿真结果上,如图12所示,由于训练和模拟在线监测的过程中,均采用了改进的小波阈值除噪对数据进行了预处理,因此MSFDA故障诊断中准确的将故障信息分离出来,并相比较FDA,更能精确的定位故障位置。
图12 MSFDA故障诊断样本得分及故障定位结果Fig.12 Fault diagnosis sample score and fault location result based on MSFDA
3.4.5 误差对比结果分析
通过上述对比试验,从直观上证实了FDA更适合护栏监测,且MSFDA相比较FDA,故障定位能力更准确。本研究还将通过量化统计,利用各模型的误报率、漏报率、以及算法准确率,来进行量化对比。结果如表1所示。
表1 故障检测结果准确率对比
从上表结果中可看出,4种方法的漏报率均保持在较低水平,但影响准确率的主要因素是误报率。在护栏监测过程中,FDA相比较PCA和PLS,误报率有大幅降低。而MSFDA比FDA,由于降低了噪声在多尺度上对故障信息的影响,使得在误报率和漏报率上均有优化,准确率更高。
4 结论
为了能让高速公路波形护栏具备多维监测、协同服务等能力,本研究作者研发团队研发了一种面向端边协同的波形护栏监测系统,该系统不仅要实现波形护栏撞击事件的实时监测,达到及时检测出撞击事件的发生,并准确定位其发生的位置、区间的目标,还要具备与视频等其他设备联动,实现其他交通感知、管理及运营功能。因此对护栏监测的数据要求是降低噪声的影响、保留日常震动干扰信息、分离撞击类信息并实现其定位。而利用传统的阈值法显然不能实现该要求,但是基于数据驱动的故障诊断方法只需要利用海量的带故障标记的过程数据或不带标记的正常数据来建立投影空间,再将在线数据投影至该空间中,最终利用统计指标来完成实时数据的故障诊断。由于没有该类研究的参考,本研究通过理论分析和仿真对比试验,验证了数据驱动中,基于多元统计类方法中,FDA比PCA和PLS更适合护栏监测。但在试验过程中也发现了,这3种方法的抗噪能力均不强,因此引入了数据驱动方法中的小波分析法,并在前期的研究基础上,根据波形护栏原始数据中,噪声在多尺度上掩盖了有用数据的特性上,改进了小波阈值算法,将该算法与FDA结合,形成了MSFDA故障诊断模型。最终,试验结果表明相比较PCA,PLS,FDA,本研究得到的MSFDA算法,可显著提高该系统的抗噪、抗干扰能力,准确率更高。