基于SVM的出入境特殊物品拉曼光谱识别方法*
2018-06-05左佳倩王红球谭玲玉王康琳
左佳倩, 王红球, 谭玲玉, 田 睿, 王康琳, 李 勃
0 引 言
引入新型实验技术和仪器是实现出入境特殊物品的快速无损检测的理想方式,拉曼光谱技术由于具有无需对样品进行预处理、测试时间短等优点,常用于物质结构及成分分析[1]。史永刚等人[2]采用欧氏距离、马氏距离、切比雪夫距离等拉曼光谱识别中常用的距离测量方法,结合相似性函数,利用物质图谱与标准物图谱中每个谱峰的位置差进行物质识别,方法可用于实验室中化学物质的取样检测,不适用于复杂包装下商品化物质的识别和检测。贾南南等人[3]提出了将投影算法的判定标准由待测物质光谱的量测误差大小是否在限定水平,改进为待测物质光谱与标准物质光谱的量测误差大小水平是否相当、量测误差分布是否相近,改进的投影算法,有助于实现对阿司匹林等特定药品的快速鉴别,但并不适用于液体药品,不具有药品快速鉴别的普适性。陈秀丽等人[4]提出了基于主成分分析(principal components analysis,PCA)和反向传播(back propagation,BP)网络预测模型相结合的拉曼光谱技术,实现了地中海贫血红细胞的判定,该分析方法在算法训练过程中易陷入局部误差,且仅适用于特殊细胞的实验室检测,暂不适用于实际应用。章颖强等人[5]提出了基于多重迭代优化的最小二乘支持向量机(support vector machine,SVM)模型,采用求解线性方程组的方法替代SVM中的凸优化问题,降低了计算复杂度,实现了橄榄油掺伪的识别。王磊等人[6]提出了一种采用表面增强拉曼光谱技术,通过自适应平滑滤波器和结合小波变化的SVM分类器,减少拉曼特征峰强度,并通过小波变换实现数据降维,实现了对常见毒品的识别。上述针对拉曼光谱的算法改进均可实现一定实验条件下某类物质的特征识别,对于复杂包装干扰或高荧光干扰下的物质识别存在一定的局限,也无法实现针对被检物质的无损快速识别。
本文采用拉曼光谱技术结合SVM改进算法,通过采用相关系数对待检物品与标准品进行相似性度量;针对性提出了改进的SVM算法,对相关系数低于阈值的待检物进行分类处理,对高维向量进行降维处理,提升识别准确性,该方法可为检验检疫领域出入境特殊物品的快速无损查验提供有效的辅助手段。
1 算法模型
1.1 相似性度量
拉曼光谱识别技术是对待检物进行分类和识别的应用技术[7]。基本思想是:完成光谱预处理及特征提取后,得到能够反映物质组成的关键信息,提取光谱信号中所包含的光谱信息,按照光谱信息差异对待检测物质进行分类[8]。在物品识别中,相似性度量[9]是一种常用的简单且有效的方法。其中,相关系数(correlation coefficient)是研究变量间线性相关程度的量,是一种衡量向量间相互关系的方法。设有特征向量X=(x1,x2,…,xn),Y=(y1,y2,…,yn),相关系数r定义如下
(1)
选用相关系数作为相似性度量的判断依据,避免了欧氏距离对信息的丢失和马氏距离对微小偏差的放大作用。因此,本文采用相关系数,对算法进行补充验证。
1.2 SVM
拉曼光谱测量中由于样品均匀性差异,仪器噪声、荧光背景等使得光谱产生偏差[10];在光谱处理过程中,去噪、基线校正等也会产生误差[11]。在识别过程中仅采用相关系数进行物质的特征识别的准确率不高,因此,引入了SVM对略低于阈值的待检物进行物品分类。
SVM是一个二分类模型,其基本模型定义为特征空间上间隔最大的线性分类器。其原理如图1所示。设训练样本集X为xi,i=1,2,…,N,样本分属两类,w1和w2,且线性可分。线性判别函数l的一般形式为:g(x)=w·x+b,但该超平面并不唯一。因此,SVM的分类识别问题转化为寻找最大间隔的分类超平面问题。在该过程中,对距离超平面l0最近的样本进行归一化处理,这样Gap/2=2/‖w‖ ,则有线性可分类SVM的优化函数为
s.t.yi(w·xi+b)≥1,i=1,2,…,n
(2)
图1 SVM原理示意
1.3 改进SVM
由于拉曼光谱在经过预处理后,得到高维向量用以表征待识别物质。在直接采用高维向量进行识别分类的过程中,训练学习时间过程较长。为了改变这一问题,在采用SVM进行识别的过程中,首先对于拉曼光谱进行一定的稀疏变换[12],具体运算包括:
1)建立特殊物品标准数据库,即由标准库得到光谱信息的主成分M;
2)对特殊物质的光谱信息y进行重构,y′=Mc,如式(3)所示,即用M的有限子集对光谱信息进行表示,且c的非零元素个数固定,实现拉曼光谱高维且稀疏表示
(3)
改进后的SVM实现了对光谱的高维且稀疏表达,增强了光谱信息的可区分性,可采用线性核SVM实现,使训练和测试速度更快,且所需的存储空间更少,在训练学习过程中减少时间。
图2为双氧水、乙醇2种物质的拉曼光谱;图3为k=2,3时按照改进SVM对拉曼光谱进行稀疏且高维的表示。与原始光谱比较,稀疏后光谱呈现明显的聚集特征,为正确查验奠定坚实基础。
图2 双氧水和乙醇的拉曼光谱
图3 不同k值时拉曼光谱稀疏表示
分类器的建立过程主要包括3个步骤,以二分类为例:1)选取适量样本作为训练样本,对样本进行测量得到拉曼光谱,经过基线校正、去噪、归一化后得到训练样本数据;2)将训练样本分为正样本和负样本,其中正样本即为某种待测物质的光谱信息,负样本为非待测物质的光谱信息;3)通过对光谱进行稀疏表示得到高维且稀疏的光谱信息,采用SVM进行模型建立,得到分类器。
2 实验部分
2.1 实验条件
实验随机抽取北京市出入境检验检疫局日常查验过程中的380种入境特殊物品进行拉曼谱图采集和SVM算法验证实验。统计380种出入境特殊物品物质种类,其中,血液制品、抗体、病毒、培养基、缓冲液及其他所占比例分别为29.3 %,26.4 %,11.2 %,15.6 %,10.8 %及6.7 %。
实验所用仪器为同方威视技术股份有限公司RT6000手持式拉曼光谱仪,激发波长785 nm;分辨率6~9 cm-1;波数范围为200~3 200 cm-1。
2.2 改进SVM的模型验证
改进SVM的准确性验证包括2个方面,对于识别结果与真实值相同的物质判断为正确(pass),与真实值不同的物质判别为错误(fail)。应用测试样本对模型的准确性进行验证。具体流程如图4所示。
图4 改进SVM的模型验证
2.3 实验结果讨论
运用改进的SVM对所有的测试样本进行分析,其中共有6类物质,包括血液制品、病毒、抗体等。对采用相似性度量,与改进SVM算法进行物质的符合性查验的匹配率进行统计。依次选取阈值为0.86,0.88,0.90,查验结果如图5所示。
图5 不同算法查验结果
通过对比图5 (a)~图5(c),图5(d)~图5(f)可知,在增大阈值时,符合性查验的准确率逐渐下降。由于温度、机械噪声、采集位点等差异,使得同类物质谱图信息存在一定的差异。因此,降低物质与样本相似度,在增大阈值时,查验的准确率下降。对比图5(a)和图5(d),图5(b)和图5(e),图5(c)和图5(f)可知,在选取相同阈值时,改进SVM的查验准确率均优于相似性度量的查验准确率。首先,通过对光谱信息的稀疏编码,实现光谱信息较完整的高维稀疏表示,为采用SVM进行查验提供良好的基础;其次,运用SVM寻找物质间的最大几何间隔,在查验过程中,保证经验风险最小,降低置信风险,实现了在查验中的真实风险最小化。因此,在选取相同阈值时,改进SVM优于相似性度量查验。
3 结束语
将SVM分类算法引入拉曼光谱分类识别中,在出入境特殊物品的特征识别方面具有较高的准确性和可靠性;同时,采用改进SVM对所得到的高维向量进行降维处理,缩小了SVM的训练学习时间,提高了特征光谱分类识别准确性。改进SVM识别算法有望为检验检疫领域出入境特殊
物品的无损快速检测提供有效的辅助手段。为实现这一目标,一方面,需进一步进行出入境特殊物品的拉曼谱图的采集工作,建立针对性数据库;另一方面,需结合改进SVM识别算法对便携式拉曼光谱设备进行针对性的设计和改进。此外,基于改进SVM的拉曼光谱识别算法也为复杂包装干扰、高荧光干扰等难以采用拉曼光谱技术直接检测的物质检测提供了新的思路,有望应用于药物快速检测、生物样品筛查等领域。
参考文献:
[1] 朱 倩,程明霄,丁 妍,等.基于拉曼光谱CCD信号的谱峰识别技术研究[J].传感器与微系统,2012,31(12):12-15.
[2] 史永刚,王国民,李华峰,等.激光拉曼光谱相似性测度方法[J].现代科学仪器,2011(4):117-120.
[3] 贾南南,季 江,高鹏飞,等.基于拉曼光谱的改进投影算法快速鉴别药品[J].光谱学与光谱分析,2015(5):1271-1275.
[4] 陈秀丽,王桂文,陶站华,等.基于PCA和BP网络的地中海贫血红细胞拉曼光谱判别[J].中国激光,2009,36(9):2448-2454.
[5] 章颖强,董 伟,张 冰,等.基于拉曼光谱和最小二乘支持向量机的橄榄油掺伪检测方法研究[J].光谱学与光谱分析,2012,32(6):1554-1558.
[6] 王 磊,郭淑霞,戴吟臻,等.尿液中常见毒品微量检测的表面增强拉曼光谱识别[J].分析化学,2015(1):33-39.
[7] 高武斌,凌云汉,孙加林.Au纳米粒子修饰纳米片状结构衬底的SERS研究[J].传感器与微系统,2013,32(4):9-11.
[8] 朱 倩,程明霄,丁 妍,等.基于拉曼光谱CCD信号的谱峰识别技术研究[J].传感器与微系统,2012,31(12):12-15.
[9] 陈欢欢,黄 剑,王 楷,等.基于节点相似性的WSNs故障检测方法研究[J].传感器与微系统,2014,33(4):10-13.
[10] 高国明,李 雪,覃宗定,等.消除拉曼光谱荧光背景的新方法及其应用[J].光学学报,2013(2):258-266.
[11] 胡卫军.基于塑料光纤的Cd(Ⅱ)传感器吸收光谱信号处理研究[J].传感器与微系统,2015,34(9):11-12.
[12] 冯莹莹,程向阳,邓 明.基于稀疏表示的信号DOA估计[J].计算机应用研究,2013,30(2):537-540.