APP下载

基于卷积神经网络特征提取的拉曼光谱分类研究

2022-07-09左佳倩王煜凯王红球耿琳

光散射学报 2022年1期
关键词:曼光谱特征提取毒品

左佳倩,王煜凯,王红球,耿琳

(1 北京鉴知技术有限公司,北京 100000;2 广东省毒品实验技术中心, 广东 510230)

1 引言

激光拉曼光谱作为分子振动光谱,通过检测待测物对于激发光的拉曼散射效应所产生的拉曼光谱来检测和识别物质,它可以反映分子的指纹特征,可用于对物质的检测。拉曼光谱检测方法已经广泛应用于液体安检、珠宝检测、爆炸物检测、毒品检测、药品检测、农药残留检测等领域。拉曼光谱数据特征提取,拉曼光谱数据库与拉曼光谱分类方法是拉曼光谱定性分析的关键,直接影响物质检测的准确性。

传统拉曼光谱的定性分析步骤一般主要包括拉曼光谱预处理,拉曼光谱特征提取和运用机器学习方法进行分类。其中,拉曼光谱预处理一般包括去除荧光背景、平滑滤波和基线校正等,光谱特征提取一般包括波峰信息提取、因子分析等方法,最后选用机器学习方法进行分类。随着拉曼光谱测量技术的不断发展,拉曼光谱数据库和分析方法更趋近高效性和冗余性。

目前,以深度学习为代表的人工智能学习方法,具有强大的学习与判定能力。随着电子设备算力提升,通过权值共享,局部连接的重要特征,深度学习模型学习和分类能力在语音分析,图像识别和自然语言处理等众多领域展现出明显优势。伴随着,2012年AlexNet[1]在ImageNet图像分类大赛中赢得第一名,近年来,深度学习模型更为复杂,层次更深。例如,OpenAI最新提出的GPT-3[2]约具有1750亿个参数。

近年来,深度学习在光谱领域也得到了研究与应用。沈嘉豪[3]等,通过比较不同卷积神经网络中超参数和损失函数的影响,优化网络模型,使得拉曼光谱中的噪声、尖峰、基线和宇宙射线的处理都能够通过一个网络模型一次完成,简化了拉曼光谱数据的处理步骤。 温馨等[4]设计了一种基于深度学习的水果糖度回归模型,比经过预处理和特征波段筛选后的传统偏最小二乘回归模型、主成分回归模型的预测能力更佳优异。

随着经济全球化发展,毒品问题呈恶化态势,传统毒品、冰毒等合成毒品和新精神活性物质形成三代毒品叠加供应态势。新型毒品增多,种类不断翻新。由于毒品不易获取,种类翻新速度快等特性,通过拉曼数据库进行物质种类一一匹配,存在一定滞后性。针对以上问题,提出一种选用卷积神经网络方法,用于对新出现的或数据库里没有的拉曼光谱精神类药品进行分类研究。通过将200余种精神类药品拉曼光谱,按照属性分为Amphetamine,cathinone,Synthetic cannabinoids和others等九类。利用卷积神经网络进行每一类物质的光谱特征挖掘,实现在拉曼数据库不完备状态下,对未知物质的拉曼光谱识别。

2 实验部分

选用United ID Raman Lab[5]实验室数据,选用毒品拉曼数据进行分析。其中将毒品数据主要分为安非他明,卡西酮等类别,拉曼光谱数据如图1所示。

图1 拉曼光谱数据Fig. 1 Raman Spectral

3 模型搭建与训练

3.1 拉曼光谱预处理

选用拉曼光谱数据的有效区间[200,1600]cm-1拉曼光谱数据,选用SG滤波进行平滑滤波处理,三次样条方法进行差值,并通过归一化方法进行数据压缩。

3.2 模型搭建

参照经典卷积神经网络模型LeNet-5,利用卷积神经网络进行谱图特征提取,选用卷积神经网络进行谱图特征提取与谱图分类。

假定预处理后的拉曼光谱数据可表示为S={(x0, y0), (x1, y1), …, (xn yn)},其中xi表示拉曼光谱数据即光谱数据向量,y为物质类别标签即物质种类。按照图2所示模型进行训练。

图2 拉曼光谱分类模型结构Fig. 2 Raman Spectral classification model

其中,在拉曼光谱分类模型中,主要经过卷积层和池化层的运算有效提取原始数据的密集特征,并将特征输入全连接层进行拉曼光谱分类。

输入层(Input):拉曼光谱数据。

卷积层(Conv):一组可训练参数的滤波器组成,也被称作卷积核。在卷积神经网络前向传播过程中,通过卷积运算,如式(1)所示,按照一定方向滑动,可以获取拉曼光谱的局部特征。

(1)

式中,*表示卷积运算,x表示拉曼光谱数据,k表示卷积核函数,b表示偏置。

池化层(Pool):池化层一般是位于卷积层之后,对卷积层运算生成的特征图进行降采样。常用池化层一般包括:最大池化、平均池化等方法。本文采用最大池化的方法进行特征降采样,减少每一个特征图的维度,减少模型数据量,提升运算速度,增强模型鲁棒性。其表达式如公式(2)所示。

y=max{a-i,a-i+1,…,ai-1,ai}

(1)

式中,a表示卷积生成的特征图,池化层和大小k=2*i+1。

4 结论与讨论

4.1 实验数据

在实验过程中,主要选用毒品拉曼光谱数据进行拉曼光谱特征提取及模型训练。其中,将精神药品分为安非他明、卡西酮、大麻素等类别,物质种类列表如表1所示。在模型训练过程中,每一类物质中随机选用60%的数据作为训练样本,20%作为验证样本,20%作为测试样本。

表1 数据说明Table.1 Data description

4.2 实验比较

为验证卷积模型提取特征与模型分类准确性,本文选用K近邻,PCA+KNN、支持向量机(rbf)和卷积神经网络进行拉曼光谱分类方法准确性分析。其中,拉曼数据按照2.1描述进行光谱预处理。

以上多种分类方法在光谱数据上分别测试,绘制混淆矩阵,实验结果如图3所示。在选用KNN,PCA-KNN,支持向量机等传统机器学习方法的过程中,识别准确率依次为79.6%,74.1%和77.8%,而通过卷积神经网络进行特征提取与光谱分类的识别准确率为85.2%。识别准确率约提高5%。由此可见,在使用卷积神经网络,能够更加有效提取拉曼光谱特征,提高拉曼光谱识别准确率。

图3 不同方法的实验准确率Fig. 3 The classification accuracy of different algorithms

5 结论与展望

本文提出一种对数据库中没有的毒品的识别方法,拉曼光谱通过卷积神经网络进行特征提取,实现数据库缺少拉曼光谱数据的定性识别。通过搭建卷积神经网络模型,优化结构和训练参数,实现CNN模型训练。与传统拉曼光谱识别方法相比,卷积神经网络模型,对无拉曼光谱数据库的数据能够更加准确的进行特征提取与物质分类,识别准确率约有5%的提升。由于本文主要是对同类别物质进行讨论,并未在实验过程中通过单条光谱数据增强方法进行数据扩充,在后期研究过程中期望通过数据增强和与传统机器学习方法相结合的方法继续进行研究,提高拉曼光谱识别准确率。

猜你喜欢

曼光谱特征提取毒品
销毁毒品
抵制毒品侵害珍惜美好年华
Preoperative maximal voluntary ventilation, hemoglobin, albumin, lymphocytes and platelets predict postoperative survival in esophageal squamous cell carcinoma
基于Gazebo仿真环境的ORB特征提取与比对的研究
火烧毒品
基于Daubechies(dbN)的飞行器音频特征提取
基于拉曼光谱的面团冻结过程中水分分布的在线监测
Bagging RCSP脑电特征提取算法
远离毒品珍爱生命
基于MED和循环域解调的多故障特征提取