基于支持向量机的相位敏感光时域反射仪研究
2022-07-12马诗洋王鹏飞李君婵靳宝全
马诗洋, 王 宇, 王鹏飞, 李君婵,白 清, 刘 昕, 靳宝全,2
(1.太原理工大学物理与光电工程学院新型传感器与智能控制教育部与山西省重点实验室,山西 太原 030024; 2.煤与煤层气共采国家重点实验室,山西 晋城 048012)
1 引 言
分布式光纤振动传感系统因具有灵敏度高,抗电磁干扰以及传感距离长等优点[1~4],被广泛应用于周界安防、轨道交通、管道输送及目标识别等众多领域[5~7]。传感光纤通常会受到敷设环境的影响,如刮风下雨、动物活动及行人误碰等,使得传感系统产生误报,不利于监控人员对入侵事件进行准确判断与识别。
为此,国内外相关学者围绕光纤传感系统中振动信号的准确识别问题开展了深入研究。2013年,谢鑫等[8]提出了自适应动态阈值的特征提取算法,将特征向量放入3层误差反向传播(BP)神经网络进行训练。文献[9]中,王思远等利用人工神经网络(ANN),对从原始信号提取的时间特性进行分类训练。孙茜等[10]基于图像处理中的形态学变换提取时空二维特征信号,并用相关向量机进行模式识别;蒋立辉等[11]在经验模态分解(EMD)中加入白噪声进行特征提取后,放入双重支持向量机中分类。文献[12]中,Tejedor等针对管道威胁入侵检测,利用短时快速傅立叶变换提取特征,并与高斯混合模型相结合,对管道进行监控与危险源识别。沈隆翔等[13]对振动信号波形图进行图像识别处理,利用反向传播神经网络作为分类器进行分类。王艳歌等[14]通过希尔伯特-黄变换构造特征向量,经概率神经网络(PNN)训练实现分类;陈沛超等[15]基于短时傅里叶变换获取信号的时频图,之后采用卷积神经网络对特征向量进行分类处理;张艾伦[16]基于概率神经网络对入侵振动事件进行分类处理;张沫等[17]利用图像处理提取特征向量,将支持向量机与遗传算法优化结合来进行分类训练。张金凤等[18]将商空间与支持向量机结合,搭建了智能诊断模型。由此可以看出将模式识别技术引入光纤振动传感系统中可以进行振动事件识别。
由于传感光纤敷设环境复杂,传统单一的时域或频域特征提取手段易受沿线环境因素干扰,难以对冲击性、突变性、频率分量复杂的非平稳性振动信号进行精确识别。为此,本文在分布式光纤振动传感系统中引入了小波能量谱特征提取方法,根据振动信号的频率特性引入合适的小波基函数,将原始信号分解为高频部分与低频部分。采用了核函数构造简单、泛化能力高、训练速度快且对小样本数据分类准确性高的支持向量机,利用“一对一法”的多分类策略实现了对振动信号的识别,并在实验室环境中模拟了天气、土壤等因素对光纤传感系统的影响,对敲击、行走和慢跑3类典型入侵事件的识别结果进行了性能评估。
2 基于小波能量谱与支持向量机的模式识别方法
2.1 小波能量谱
振动信号的频率分布随时间的改变而改变,即为非平稳信号,在非平稳振动信号的时域或频域分析当中,传统傅里叶变化具有一定局限性,而小波分析以小波基为基函数,对信号分解后可以在较短时间范围内观察到频率的变化[19]。
通过小波变换,信号被分解到各个频率部分,其中,高频段的信号时间分辨率较高,低频段的信号频率分辨率较高[20,21]。
本文基于多分辨率分析,即利用正交小波基将原始信号f(t)分为近似分量A(t)与细节分量D(t):
f(t)=A(t)+D(t)
(1)
近似分量A(t)满足:
(2)
细节分量D(t)满足:
(3)
由式(2)和式(3)可知,下一层的近似系数aj+1,k和细节系数dj+1,k是由上一级系数经滤波器后求得。图1显示了小波分解与能量谱重构过程,以3层分解为例。
图1 3层小波分解与重构Fig.1 3 layers decomposition and reconstruction of wavelet energy spectrum
经过小波分解后,原始信号被分解为各个频段内的信号,再采用能量值作为原始信号的特征向量,对各个频段内信号的能量逐次求解,并按顺序组合后作为一个特征向量。设重构系数长度为N,则重构系数Ej在j分解层下的能量值以及重构系数EJ+1对应的最后一个能量值为
(4)
(5)
对能量值求解组合后,可得特征信号的能量谱E为
E=[E1,E2,…,EJ+1]
(6)
能量谱E即为特征向量,为使分类模型的参数容易收敛,再对特征向量E进行归一化处理,如下式:
(7)
2.2 支持向量机
在样本数量较小时,通常使用支持向量机(support vector machine,SVM)对样本类别进行分类[22]。在本实验条件下,训练样本包含3类事件,需利用SVM的多分类策略对振动事件进行分类[23],常使用的方法为“一对多法”与“一对一法”。
“一对一法”的基本原理是:将N个类别的每两个组合构造一个分类器,因此一共需构造K=N(N-1)/2个分类器,将待测样本依次放入每个分类器中进行分类,结果为“+”时,相应的类别票数加“一”,反之亦然,分类结束后统计各个类别的票数和,得票最多的即为待测样本的类别。“一对一法”SVM多分类流程如图2所示。
图2 “一对一法”SVM多分类流程图Fig.2 “One to one method” SVM multi-class flowchart
“一对一法”优势为每个分类器只包含2个类别,分类速度快且准确率较高,且结合本实验条件,所采集的振动事件只有3类事件,需构建的分类器数量少,对样本训练分类时花费时间短,故本文采用该法进行分类。
采用“一对一法”时,针对第u类事件和第v类事件之间的分类训练器,通过求解式(8)优化问题:
(8)
式(8)满足以下约束条件:
(9)
式中:xi为特征向量;buv为实数;yi为事件类别。
“一对一法”的决策函数为:
f(x)=sign(ωuvxi+buv)
(10)
式中:sign(*)为符号函数,当ωuvxi+buv>0时,f(x)=1;当ωuvxi+buv<0时,f(x)=-1。
通过构造N(N-1)/2个决策函数,来判断测试样本所属的类别。
2.3 性能评估
本文对SVM机器学习分类结果的评估,引入性能度量来评估分类器的性能,分别计算其准确率Ai、精确率Pi、召回率Ri、以及F值。
列有以下计算式:
(11)
(12)
(13)
(14)
式中:TP为真正例;TN为假反例;FP为假正例;FN为真反例;N为样本总数。
为了使实验分类和性能度量结果清晰直观,本文利用混淆矩阵对实验结果进行呈现,样本类别的混淆矩阵与性能度量如图3所示。
图3 样本类别的混淆矩阵与性能度量Fig.3 Sample category comfusion matrix and performance measurement
在模式识别的性能评估时,必须确保2个数据集相互独立,即测试样本和训练样本相互独立,同时,还要保证训练样本的数据量足够大,来使得所有模式特征均被覆盖,使得特征库具有稳定性和可靠性。
在训练时,不可避免地会出现过拟合的问题,即SVM分类器可以准确匹配训练样本,但无法准确预测训练样本外的样本点,如果利用测试样本去调整SVM模型训练参数,会影响最终分类结果。针对此问题,通常从训练样本中拿出一部分数据作为验证样本,放入SVM模型中对模型性能进行评估,该方法称为k折交叉检验法(k-fold cross-validation)[24]。
k折交叉验证法的具体步骤为将训练集等分为k个子样本,选取其中一个作为验证集,剩下的k-1个样本作为训练集,SVM模型训练完成后放入验证样本得到一个评估结果,反复进行k次,则得到k个评估结果。
(15)
(16)
(17)
(18)
3 分布式光纤振动传感系统
基于相干探测的相位敏感光时域反射仪(coherent detection phase-sensitive ptical time-domain reflectometer,COTDR)搭建光纤传感系统,如图4所示。
图4 COTDR系统装置图Fig.4 COTDR system installation diagram
当传感光纤受到干扰时,光纤的折射率和散射点位置发生改变,导致瑞利后向散射光相位的变化,因此通过检测后向瑞利散射光干涉信号,可实现振动信号的定位与还原。超窄线宽激光器中发出的光信号被1:99耦合器分为两路光,其中,99%的传感光通过声光调制器(AOM)进行调制,再经过掺铒光纤放大器(EDFA)被放大为光脉冲后,从环形器进入传感光纤。传感光纤中的后向瑞利散射光与1%的本振光在2*2耦合器汇聚后进入光电探测器,将光信号转为电信号后被采样率为50 MHz/s的高速采集卡采集并上传到上位机。实验中传感光纤长度设定为10 km,探测脉冲的重复频率为8 kHz,脉冲宽度为200 ns。
4 实验结果分析
基于COTDR系统,设计了模式识别方案并验证其可行性。实验中分别对沿光纤行走、敲击光纤、沿光纤慢跑3类振动事件进行模式识别。
同时,为了保证模式识别在实际应用中的有效性,加入了实际环境中的天气、土壤等因素,在实验室模拟实际环境进行实验。依次在传感光纤的2,5,8 km处,对每类振动事件分别进行40次实验,且每次实验采集事件定为4 s。此外,进行了对实际环境的模拟来确保模式识别在实际应用的有效性。考虑了传感光纤实际敷设环境和天气因素的影响,分别将光纤放置在大理石板、干燥土壤和潮湿土壤3种不同环境中,来模拟3种实际环境中的实验条件。
首先,单独在大理石板上进行了3类事件的振动信号采集实验,共采集到360个样本(3个位置×3类事件×40次重复)。此外,每一类振动事件均包含120个振动样本,且每一个振动样本包含32 000个数据采样点,因此对采集到的振动样本进行整理后,可以得到360×32 000的二维矩阵,用于后续的小波分解特征提取。3类振动事件的时域波形如图5所示。
图5 3类振动事件时域波形图Fig.5 Time-domain waveforms of three types of vibration events
得到3类事件的振动样本后,考虑综合信号固有特性,采用Daubechies3正交小波基对原始信号进行分解,共得到360个振动样本的特征向量。因小波分解的层数对特征向量的好坏有着重要的影响,从而还需对360个振动样本在不同分解层下提取特征向量。因此,将不同分解层数下提取的特征向量分别放入SVM分类器中进行训练后,通过10折交叉验证来观察分类准确率的变化。不同小波分解层数下的10层交叉验证如图6所示,分解层从1层至10层,交叉验证折数从1折至10折,且不同层数的分类准确率由不同线条表示。
图6 不同小波分解层数下的10层交叉验证Fig.6 Ten-layer cross-validation under different wavelet decomposition layers
图7 不同分解层下的平均分类准确率Fig.7 Average classification accuracy under different wavelet decomposition layers
设定小波分解层为5层后,对振动样本进行特征提取,以信号能量值为特征值,对各频带的信号求取能量值后并作归一化处理得到3类事件的特征向量,3类事件的归一化能量分布如图8所示。其中,行走事件(蓝色线)和慢跑事件(黑色线)的能量分布较为相似,因其都含有步行过程,而敲击事件(红色线)的能量E分布明显不同于与其他两类事件。
图8 3类事件的归一化能量分布Fig.8 The average normalized energy distribution of three types of events
最后加入干燥土壤和潮湿土壤实验条件,共采集到1 080个样本(3个环境×3个位置×3类事件×40次重复),由小波分解提取特征向量后将其放入SVM模型中进行分类,输出其中一折最优惩罚因子对应下的分类结果,如图9所示。
图9 最优惩罚因子下SVM分类结果及性能度量Fig.9 SVM classification results and performance metrics under optimal penalty factors
由图9可知,混淆矩阵中主对角线表示类别的正确分类,由正确分类数可以得到一次交叉验证后SVM分类Ai为89.8%。其中行走,敲击,慢跑3类事件的F值分别为86.1%,97.3%,85.7%。
完成全部的10折交叉验证后可以得到10组混淆矩阵。图10的折线图反映了3类事件下的Pi、Ri、F值随折数的变化规律。其中,图10(a)、10(b)、10(c)分别为沿光纤行走、敲击光纤和沿光纤慢跑3类事件性能度量的变化趋势,图10(d)代表了每次交叉验证后的分类Ai。
图10 3类振动事件10折交叉验证后的性能度量Fig.10 Performance measurement of three types of vibration events under ten-fold cross-validation
最后结合式(15)~式(18)可以对10组性能度量求平均来得出3类事件的宏观指标,见表1。
表1 3类事件的平均性能度量Tab.1 Average performance metrics of three types of events (%)
在实验中考虑实际环境的条件,采用小波能量谱和支持向量机的模式Ai达到了84.9%。其中,敲击事件F值为96.7%,可知敲击事件很难与其他2类事件混淆,而行走和慢跑事件因振动类型相似,所以F值较低。
5 结 论
本文针对分布式光纤振动传感系统中误报率高的问题,将小波分解与支持向量机结合,提出一种新型模式识别方法。鉴于光纤敷设环境对振动信号的影响,在实验室中模拟了3种实际环境,并在传感光纤不同位置处对3种振动类型分别进行重复实验以获取较多样本数据。此外,对采集到的振动数据进行不同层数的小波分解来确定最优分解层数,获取特征向量后将其放入支持向量机中进行分类训练,并在最优参数下输出分类结果。通过性能度量来对SVM分类模型性能进行评估。最后,对样本数据进行10折交叉验证,实现了84.9%的振动事件分类准确率。