APP下载

基于机器学习的直接电离质谱爆炸物检测方法

2021-05-17洪欢欢李刚强闻路红

分析测试学报 2021年4期
关键词:爆炸物水杨酸乙酰

叶 倩,洪欢欢,,周 峰,郭 荣,,李刚强,,闻路红,,陈 腊,*

(1.宁波大学 高等技术研究院,浙江 宁波 315211;2.宁波华仪宁创智能科技有限公司,浙江 宁波 315100)

直接电离质谱技术[1-2]可在敞开式环境下实现原位、快速实时离子化,且无需或只需极少的样品前处理,广泛应用于化妆品[3]、毒品[4]、爆炸物[5]等领域。介质阻挡放电离子源-质谱(DBDI-MS)是最常见的直接电离质谱分析方法之一,具有结构简单、成本低廉、操作简便等优点,可实现对气、液、固态样品的直接分析[6-7]。然而,直接电离质谱常因工作环境和样品基质差异大,质谱信号易受干扰,同时质谱信号中噪声峰、同位素峰等的存在会降低目标物质鉴定的准确性[8],从而给质谱数据处理和分析带来巨大挑战。常见质谱检测数据分析方法主要包括提取离子流(Extracted Ion Current,EIC)计算信噪比[9]、高斯混合模型(Gaussian Mixture Model,GMM)[10]和机器学习(Machine Learning,ML)[11]等。如Garcia-Reyes等[5]通过计算爆炸物与背景信号强度的信噪比来判断是否检出,但该方法需预设定信噪比阈值;Gao等[10]引入GMM方法计算未知谱峰到噪声基线的距离,通过距离的远近实现对有用信号和噪声信号的分类。Gradisek等[12]研究发现,利用ML可提高电子鼻对爆炸物的化学选择性,从而提高分类准确性;Morton等[13]采用神经网络方法分析微生物-代谢物对的共存情况,可处理多个数量级较大范围强度的数据,具有广泛的适用性。由于传统的EIC和GMM仅利用峰强信息,忽略了峰位置、半峰宽等重要峰形特征,而ML可充分挖掘质谱信号中相关参数作为特征指标,因此可提高检测的准确性。

本研究基于DBDI-MS技术,结合质谱信号预处理和不同分类方法,以离子化效率与爆炸物相近的乙酰水杨酸为模拟物建立检测模型,并将其应用于低浓度的三硝基甲苯(TNT)和硝酸铵两种爆炸物的检测。

1 实验部分

1.1 仪器与试剂

LTQ质谱仪(美国Thermo公司),配Xcalibur数据处理系统;DBDI-100离子源(宁波华仪宁创智能科技有限公司);SQP分析天平(德国赛多利斯公司)。

三硝基甲苯(TNT,纯度大于99%,上海百灵威化学技术有限公司);硝酸铵(纯度大于99%,北京普天同创生物科技有限公司);乙酰水杨酸(纯度大于99%,上海阿拉丁生化科技股份有限公司);甲醇(色谱纯,宁波市江东昌远仪器仪表有限公司)。

TNT、硝酸铵和乙酰水杨酸分别用甲醇溶解,配制所需浓度的标准溶液。

1.2 实验方法

基于DBDI-MS的爆炸物样品检测平台见图1,其离子源出口距质谱仪进样口2.0 cm,将样品溶液滴加至样品载台上,上表面距质谱仪进样口下方0.5 cm,以45°反射进样方式进行样品分析。DBDI采用单电极,当向电极施加高压时,离子化气体电离形成稳定的等离子体,并通过绝缘介质管喷射出来[14]。LTQ质谱仪采用Full scan和MS/MS模式,每个样品采样时间约6 s,负离子检测模式,离子扫描范围m/z60~580 amu;喷雾电压为-4 kV;离子化气体为氦气,流速3 L/min;离子源温度200 ℃,离子传输线温度275 ℃,毛细管电压-21 V,管透镜电压-57 V。

图1 基于介质阻挡放电离子源-质谱的爆炸物样品检测平台示意图Fig.1 Schematic of the explosive sample detection platform with DBDI-MS

1.3 数据分析

1.3.1 数据预处理采用NumPy、SciPy等进行质谱数据处理。Scikit-learn是Python中广泛应用的机器学习库,它包含大量ML算法以及从数据预处理到模型训练、模型测试等多个工具函数[15]。研究中采用的数据预处理主要有Boxcar滤波、插值平滑和峰形校准。

1.3.2 分类方法(1)提取离子流(EIC)指一定质荷比范围内的峰强之和。鉴于LTQ-MS的分辨率,本研究在目标峰对应的质荷比左右各0.5 amu内,通过计算爆炸物和空白对照样本的EIC强度,计算各自的统计分布,并设定阈值进行分类。通常正态分布遵循如下高斯函数:

(1)

式(1)中,μ、σ分别表示EIC强度的均值和标准差。

(2)高斯混合模型(GMM)[10]指多个高斯函数的线性组合,利用期望极大化(Expectation maximization,EM)算法对参数进行估计。本研究分别提取爆炸物和空白对照样本的峰强,以其均值和标准差为初始值,通过EM多次迭代得到收敛后的均值和标准差作为样本中心,然后计算未知谱峰到样本中心的欧式距离并对其分类。如乙酰水杨酸的质荷比-峰强的二维质谱图见图2A。对多张质谱图中目标离子m/z179对应的峰强进行统计分析,发现同一浓度的乙酰水杨酸样品其峰强分布范围较广,可达5个数量级,且伽马函数相比高斯函数具有更好的拟合效果(图2B),然而,拟合参数的选取对伽马函数的拟合结果影响很大[16]。若对峰强取对数后(图2C),相应几率与高斯函数高度吻合,通常这种分布又称为对数正态分布。因此除特殊说明外,本研究均先对峰强取对数后,再进行分析。

图2 乙酰水杨酸质谱图(A)、m/z 179的质谱峰强统计分布与拟合(B)及其取对数后的统计直方图(C)Fig.2 Mass spectrum of acetylsalicylic acid(A),histogram and fitting results(B) and the histogram of log-scaled peak intensity(C) of acetylsalicylic acid at m/z 179 B:the blue bars present the histogram of peak intensity,the green and red lines show the fitting results according to Gamma and Gaussian distribution,respectively(蓝色为峰强统计直方图,绿线为伽马分布拟合,红线为高斯分布拟合);C:the blue bars present the histogram of log-scaled peak intensity,the red line shows the fitting result according to Gaussian distribution(蓝色为m/z 179质谱峰强取对数后的统计直方图,红色曲线为高斯分布拟合)

(3)机器学习(ML)。本研究基于ML的分类方法对爆炸物分类。原始质谱数据经预处理后,获得特征矢量(峰强、峰位置和半峰宽),并对其进行主成分分析(PCA),计算各特征矢量占原始数据总信息量的比例。然后,将数据集划分为训练集(80%)和测试集(20%)进行模型训练和模型测试。

1.3.3 性能评估爆炸物样本设为阳性,空白对照样本设为阴性。查准率(Precision)、查全率(Recall)分别反映假阳性(FP)、假阴性(FN)情况。本研究以Precision和Recall的调和平均F_score[17]作为综合性能指标,只有当两者均很高时,F_score才很大,即分类器效果好。F_score与Precision、Recall间的定量关系如下:

(2)

2 结果与讨论

本研究采用的数据集为检出限附近浓度为1 ng/mL的乙酰水杨酸样本(115个)、两种爆炸物样本(TNT、硝酸铵分别为110、90个)和空白对照样本(366个),每个样本内含10 ~12幅目标物质谱图。

2.1 乙酰水杨酸检测结果分析

由于乙酰水杨酸的母离子[M-H]-(m/z179)易碎裂成m/z137(图2A),故对其双目标m/z137、179进行质谱检测分析。

2.1.1 基于提取离子流与高斯混合模型方法的乙酰水杨酸检测结果数据分析显示,乙酰水杨酸在离子峰m/z137和179处峰强分布特点及一级质谱检测结果均类似,且在离子峰m/z137处的检测准确率更高,因此,本研究重点介绍在m/z137处的检测结果。采用EIC和GMM对乙酰水杨酸在136.5~137.5 amu质量范围内的检测结果见图3。结果显示:乙酰水杨酸与空白对照样本EIC强度分布之间存在一定的交叉(图3A中紫色部分),这可能导致设定单一阈值的检测效果不佳,从而出现一定的假阳性率(FPR)和假阴性率(FNR)。FPR、FNR分别表示将阴性错分为阳性的样本占所有阴性样本的比率以及将阳性错分为阴性的样本量占所有阳性样本的比率,它们与阈值的关系如图3B所示,可看出分类结果比较依赖所设定的阈值。

图3 乙酰水杨酸一级质谱检测结果(A)、EIC假阳性率和假阴性率与阈值的关系(B)以及基于GMM的分类结果(C)Fig.3 Detection results of acetylsalicylic acid(A),the relationship between FPR,FNR and the threshold of EIC(B) and classification results based on GMM(C)A:the histograms and the curves represent the intensity distribution of EIC and its probability density curves,respectively;the purple is the cross part;the standard deviations of the signal peak and the background peak after the GMM iteration are indicated by the length of the respective green line,and the means are indicated by the center position of the respective black line(直方图表示EIC强度分布,曲线表示拟合的概率密度函数,紫色为交叉部分;GMM迭代后信号峰与噪声峰的标准差通过各自的绿线长度表示,均值通过各自的黑线中心位置表示)

采用GMM分类的结果见图3C,图中横轴f为距离函数,分类结果的准确性与所选阈值紧密相关。分析表明,当图3B中阈值设定为4.2和图3C中f为0.58时,分别对应EIC和GMM各自的最优检测结果,此时,计算得F_score分别为0.74和0.89。由此可见,GMM相比EIC具有更高的检测准确性,但其检测结果均过于依赖设定的阈值,在阈值附近的质谱信号很难被正确分类,易造成假阳性、假阴性结果。

2.1.2 基于机器学习的乙酰水杨酸检测结果由于EIC和GMM仅利用离子信号强度的信息,而忽略了峰位置、半峰宽等重要信息。因此,本研究基于质谱信号的相关特征,结合ML对不同样品进行分类,以提高检测准确性。对乙酰水杨酸的PCA分析结果表明,峰强占82.4%,为最重要特征,峰位置、半峰宽分别占13.8%、3.2%,因此选择此3个参数作为特征进行模型训练和测试。利用ML对乙酰水杨酸的检测结果如表1所示。由“2.1.1”的分析结果与表中数据可见,由于ML除了考虑峰强这个单一特征外,还引入半峰宽和峰位置特征,有效降低了空白样品中背景离子EIC强度过高引起的FPR,故基于ML的检测准确率整体较高。综合考虑表1中各ML的训练时间、测试时间及检测准确性等因素,重点介绍采用随机森林(Random Forest,RF)分类方法对乙酰水杨酸数据的研究。RF是利用多棵树对样本进行训练、测试的一种集成算法。在进行分类预测时,RF分别使用模型训练时得到的多组分类器进行预测,最终选择分类器投票结果中最多的类别作为分类结果[18],具有防止过拟合、检测结果准确可靠、适应性强等优势。结果显示,与EIC和GMM相比,基于RF的检测准确率显著提高,且单个样本数据分析时间均不超过0.1 s,可达到快速检测乙酰水杨酸的目的。

表1 基于机器学习的检测结果Table 1 Detection results based on machine learning

2.2 TNT检测结果分析

2.2.1 基于随机森林分类方法的TNT一级、二级质谱检测结果TNT的DBDI-MS一级负离子质谱(m/z226)以及经碰撞诱导解离后的二级质谱分别见图4A和B。在所有碎片离子中,[TNT-NO-H]-(m/z196)的丰度最高,可见TNT最易丢失NO基团。根据乙酰水杨酸各ML的研究结果,此处同样采用RF对TNT一级、二级质谱检测。结果表明,TNT一级、二级质谱的F_score分别为0.76和0.93,且平均单个样本数据分析时间均不超过0.1 s。相比于一级质谱,MS/MS在FPR较低的情况下,仍具有很高的真阳性率,检测准确率显著提高,这是因为m/z196经MS/MS获得,大幅降低了背景干扰,类似于利用高分辨质谱可减少质荷比相同的背景离子对检测的影响[19]。分析表明,与其它ML相比,RF为最佳选择,这与表1中乙酰水杨酸的研究结果类似。

图4 TNT的质谱图Fig.4 Mass spectra of TNTA:full scan MS;B:MS/MS

2.2.2 基于提取离子流与高斯混合模型方法的TNT一级、二级质谱检测结果实验结果表明,对于TNT一级质谱,质量范围在225.5~226.5 amu时,TNT与空白对照样本的EIC强度分布之间的交叉较大(图5A中紫色部分)。由EIC中FNR、FPR和阈值之间的关系(图5B)可见,通过设定单一阈值的检测效果不佳,FN、FP情况此消彼长,即出现少量FN时,FP情况也严重,这与“2.1.1”部分乙酰水杨酸研究结果类似。当FNR、FPR达到均衡状态时,也达到40%以上,这是由于溶剂或空气中背景离子m/z226的干扰,使空白样品中EIC强度过高,从而出现FP。另外,采用GMM分类的结果准确性也与所选取的阈值紧密相关(图5C)。研究显示,当图5B中设定阈值为3.6和图5C中f为0.56时,分别对应EIC和GMM各自的最优检测结果,此时F_score分别为0.30、0.89,即GMM相比EIC具有更高的检测准确性。可能由于空气中塑化剂等的影响,TNT一级质谱杂质较多且噪声严重,从而使质谱信号出现拖尾、重叠等不规则峰形,导致其检测准确率偏低。

TNT MS/MS的EIC强度分布见图5D,与一级质谱相比,MS/MS中TNT与空白对照样本的交叉明显减小(图5D中紫色部分),分类效果也有所提高;当图5E中设定阈值为1.28和图5F中f为0.65时,分别对应EIC和GMM各自的最优检测结果,此时F_score分别为0.85、0.75。EIC比GMM的检测准确性略高,如同TNT一级质谱结果,设定的阈值对检测结果影响均较大。因此,与传统的EIC和GMM方法相比,RF同样也能较好地对TNT进行分类。

图5 TNT一级质谱(A、B、C)与二级质谱(D、E、F)检测结果Fig.5 Detection results of full scan MS and MS/MS of TNTA and D:EIC intensity distributions(EIC强度分布);B and E:the relationship between FPR,FNR and the threshold of EIC method(EIC假阳性率和假阴性率与阈值的关系);C and F:classification results based on GMM(基于GMM的分类结果)

2.3 硝酸铵检测结果分析

除TNT外,为进一步验证RF在爆炸物检测中的适用性,本研究还对另一种爆炸物硝酸铵进行了研究。采用EIC、GMM和ML分别对其双目标离子[NO3]-(m/z62)和[(HNO3)NO3]-(m/z125)进行分类检测。结果表明,当EIC中设定阈值为5.1和GMM中f为0.56时,分别对应EIC和GMM各自的最优检测结果,此时,F_score分别为0.84、0.88。利用RF检测时,F_score可达0.95,且单个样本数据分析时间不超过0.1 s。因此,RF同样也满足对硝酸铵的快速检测。

3 结 论

本研究基于DBDI-MS联用技术,利用爆炸物模拟物乙酰水杨酸进行质谱数据预处理和分类算法研究,建立了一种适用于低浓度典型爆炸物TNT和硝酸铵的快速、准确检测方法。结果显示,无论是空白对照样品还是同一浓度爆炸物样品,信号强度皆呈对数正态分布,横跨几个数量级,这导致传统的EIC和GMM对预设定的阈值较敏感。在典型爆炸物的分类检测中,RF检测准确率均最高,可满足检测需求,且相比传统的EIC和GMM,具有无需设定阈值的优势;同时,相对于质谱仪获取单个样品质谱数据需3~6 s,在所有RF检测中,单个样本数据分析时间皆不超过0.1 s,因此可满足快速、实时检测需求。此外,进一步研究发现,针对TNT检测,MS/MS相比一级质谱可大幅度降低背景干扰,显著提高了检测准确率。综上所述,直接电离质谱技术结合ML可满足现场快速、实时、准确检测爆炸物的需求,具有较好的应用前景。

猜你喜欢

爆炸物水杨酸乙酰
存放年久遗忘的黑火药责任追究
脲衍生物有机催化靛红与乙酰乙酸酯的不对称Aldol反应
存放年久遗忘的黑火药责任追究
西班牙通过WI-FI查爆炸物
HPLC法同时测定氯柳酊中氯霉素和水杨酸的含量
超高交联吸附树脂的合成及其对水杨酸的吸附性能
HPLC测定5,6,7,4’-四乙酰氧基黄酮的含量
对氨基水杨酸异烟肼在耐多药结核病中抑菌效能的观察
反式-4-乙酰氨基环己醇催化氧化脱氢生成4-乙酰氨基环已酮反应的研究
N-(取代苯基)-N′-氰乙酰脲对PVC的热稳定作用:性能递变规律与机理