APP下载

分段线性判别技术在红外光谱数字信号处理中的应用

2010-03-23张国胜

化学传感器 2010年4期
关键词:树状判别式分类器

张国胜

(防化研究院,北京102205)

0 引言

化学毒剂红外遥感监测系统是防化兵的一种重要装备。美国在1980年代中期形成M21型红外遥测报警器并列装部队[1]。目前德国Bruker公司也有成熟的装备RAPID系统。此装备可以在数公里甚至数十公里以外发现敌方施放的化学毒剂云团并发出告警信息,以使己方及早采取防护措施,免受化学毒剂的伤害。作为一种预警装备,它对于防化保障能力的提高具有重要的意义。此装备的原理是:用一个去掉光源的红外光谱仪探测周围大气中的红外信号;用一个鉴别器对采集到的红外光谱加以分析,给出光谱中是否含有化学毒剂特征的yes/no判决。

鉴别器设计是该系统的核心。早期采用的是线性分类器,后来为了提高鉴别率采用分段线性分类器,主要是树状分段线性分类器。上世纪90年代以来国外致力于一种新型分类器,即单边式分段线性分类器的研究,但主要是进行针对SF6、乙醇等挥发物时域信号(干涉图)的判别[2~3]。有关这种分类器直接进行光谱判别的研究目前还很少。该文利用DMMP模拟剂光谱对这种新型分类器的判别特性进行研究,并与传统的线性分类器、树状分段线性分类器进行对比。

1 基本原理与算法

分段线性分类器是用线性分类器来解决非线性问题的一个实用的方法。它利用给定的模式空间训练出数个线性判别式,然后将这些线性判别式按照特定的逻辑关系组合起来给出一个非线性判别。

此处wi是权重矢量,xi是模式矢量,w0是阈值矢量,g(x)是判别函数。通常,用g(x)>0和g(x)≤0作出两类判决。对于给定的样本集,可以利用梯度下降法、伪逆法等方法求出wi和w0进而得到判别函数。

树状分段线性分类器的基本原理是:首先利用整个样本集训练出一个线性判别矢量,通过g(x)>0和g(x)≤0将样本集分成二个子集,由于模式空间是非线性的,所以两个子集中均包含两种类别的样本;然后再利用这两个子集分别训练出两个线性判别式……以此类推直至模式空间被完全分开或达到预定的步数。判别过程亦按此顺序逐步进行。图1是一个由3步7维判别矢量构成的树状分段线性分类器的结构示意图[4]。线性判别函数可以用下述方程描述:

图1 一个3步7维判别矢量的树状分段线性分类器的流程图,图中LD表示判别矢量Fig.1 The flow chart of tree-like piecewise linear classifier with 3 steps and 7 vectors,LD denotes discriminant vector

单边式分段线性分类器的原理是:首先利用给定的样本集训练出若干个单边线性判别式,然后利用这些线性判别式做出一个“委员会”式判别。所谓单边线性判别式是指该判别式只有一边是可正确判别的,例如,假定g(x)>0时给出一个类别1的判别,那么g(x)≤0是并非表示一个模式属于类别2。而所谓“委员会”式判别是指只有当所有的线性判别式均未做出类别1的判别时,才做出类别2的判别。单边式分段线性分类器的训练过程如图2所示[3]。首先利用整个样本集训练出一个单边线性判别式,然后在样本集中除去被正确判别的类别1样本,再利用这个新的样本集训练下一个判别式……以此类推直至模式空间被完全分开或者得到预定个数的判别式。最后如果需要再对各个判别式进行优化。各线性判别式按照取小的逻辑关系构成类界面。

2 实验部分

用DMMP(甲基膦酸二甲酯)作含磷毒剂的模拟剂并用草木烟、尘土等作干扰物进行外场实验,采集各种光谱500条。然后对这些光谱进行背景扣除、滑动平均、偏置调节等预处理步骤,得到DMMP信号被增强了的光谱,用其中的400条进行分类器训练,用剩余的100条作鉴别率测试。

在拟定分类器设计方案之后,首先建立了一个由500个二维样本组成的数据库(在0~1之间随机选取1 000个小数,组成二维数组),人为设定一个两类界面,对设计方案进行初步地评价,然后再进行真实光谱的训练。

图2 单边式分段线性分类器的训练流程图Fig.2 Flow chart showing the process for calculating and optimizing single-side piecewise linear discriminants

3 结果与讨论

3.1 二维数据的训练结果

对于二维数据,得到的线性判别式就是一条直线。因而比较直观,便于审查训练结果。人为设定两类界面为y=0.75-12(x-0.6)2进行训练。3步7维树状分段线性分类器的训练结果见图3(a)所示。其中LD3-2-2是在其样本子集已经被完全分开的情况下训练出来的,没有实际意义。LD1判别式同时还是对应于该样本集的线性分类器。从图中可以看出,对应于这样一个两类界面,线性分类器基本上是无效的,必须用非线性分类器才能将两类分开。除LD3-2-2之外的6个判别式按照菜单-路径选择模式构成的类界面与真实界面仍有较大的差距,仅有LD3-1-2在一定程度上与真实界面有所逼近。单边式分段线性分类器经过训练之后得到了4个线性判别式,见图3(b)所示。从图中可以看出,这4个判别式按照取小的逻辑关系组合起来,对真实界面的逼近程度较上述树状分段线性分类器要高。两图中的分散点(■)显示出了500个样本的分布情况,它们是在0<x<1和0<y<1范围内随机选取的,不含有任何会对训练产生影响的规律性。对比两图发现,树状分段线性分类器的设计思想是力求每一步都获得较高的鉴别率,其不足之处是只图将两类分开而不考虑类界面的真实情况,结果整体上对真实类界面的拟合程度不如单边式分段线性分类器;单边式分段线性分类器的特点是并不追求在每一步都获得较高的鉴别率,但力求在某一局部区域逼近真实类界面,结果多个线性判别式组合起来对真实类界面的逼近程度高于树状分类器。此外,单边式分类器所包含的判别式个数比树状分类器要少一些,这对于节省存储空间、提高鉴别速度是一个有利的因素。

图3 在二维数据上的训练结果,(a)树状分段线性分类器,(b)单边式分段线性分类器Fig.3 The training results for 2-dimension data,(a)tree-like piecewise linear classifier,(b)single-side piecewise linear classifier

3.2 对DMMP红外光谱的训练与判别结果

在二维数据训练试验取得了预期结果并获得了成熟的分段线性分类器设计流程之后,用400条红外光谱针对是否含有DMMP信息进行分类鉴别试验。结果表明,由4个判别式构成的单边式分段线性分类器,被正确分类的训练样本达到了97.8%,见表1所示。文献[3]对含SF6信号干涉图的训练设定判别式个数为5,训练样本集被正确分类的百分比在96%~100%之间;或者达到4个判别式时样本集已经被完全分开。该文结果与此相近。表中的漏警(missed alarms)是指将DMMP光谱错判为背景光谱的情况,误警(false alarms)是指将背景光谱错判为DMMP光谱的情况。表1中同时还给出了树状分段线性分类器和线性分类器的训练情况。树状分段线性分类器对训练样本的分离与单边式分类器略低一些,为95.5%。而线性分类器的训练结果较两种分段线性分类器有明显差距。

表1 对400条DMMP光谱的训练结果Tab.1 training results for 400 DMMP spectra

单独选取100条光谱作为预测数据集对三种分类器的性能进行了评估,结果见表2所示。单边式分段线性分类器的判别正确率达到了89%,高于线性分类器的71%和树状分段线性分类器的84%,漏警和误警率也均低于后两者。此外,与表1所示结果对比发现,三种分类器的预测结果均低于训练结果十个百分点以上,这可能与外场试验时人为地加入了各种干扰物有关,同时预测结果低于训练结果应属正常现象。

表2 三种分类器的预测分类结果Tab.2 predicting classification results of three classifiers

4 结论

根据上述实验结果可以认定,单边式分段线性分类器与传统的树状分段线性分类器和线性分类器相比具有明显的优势,在化学毒剂红外遥感监测系统鉴别器设计中体现出良好的应用前景;此外,这种分类判别方法也可以应用于其它分析检测领域,因此有关这种分类器的研究有必要进行更深入的研究。

[1]Meuzelaer H.ComputerEnhanced Analytical Spectroscopy[M].New York and London:Plenum,1990.71~111.

[2]Small G W,Carpenter S E,Kaltenbach T F.Discriminant analysis techniques for the identification of atmospheric pollutants from passive Fourier transform infrared interferograms[J].Analytica Chimica Acta,1991,246:85~102.

[3]Kaltenbach T F,Small G W.Development and optimization of piecewise linear discriminants for the automated detection of chemical species[J].Analytical Chemistry,1991,63:936~944.

[4]边肇祺,张学工.模式识别[M].北京:清华大学出版社,2000.83~120.

猜你喜欢

树状判别式分类器
判别式在不定方程中的应用
钢结构树状支撑柱施工设计
根的判别式的应用问题
树状月季的嫁接技术及后期管理
判别式四探实数根
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
树状月季培育关键技术
列表画树状图各有所长
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别