基于逆检索-非负最小二乘法的拉曼混合物分析方法研究
2019-01-14薛晓康李晓宇
薛晓康 李晓宇 丁 卯
(1 上海化学品公共安全工程技术研究中心,上海 200062;2上海化工研究院有限公司检测中心,上海 200062)
前言
拉曼光谱可以被看作是一项“指纹”技术,因为它可以提供非常丰富的结构信息[1],因此拉曼光谱可以被用作物质的定性识别[2]。拉曼光谱具有制样简单,不破坏样品,在几乎所有的环境下都可以采集[3]。由于拉曼光谱具有上述的优点,故在化学品成分分析中被广泛应用,尤其是在爆炸事故现场,拉曼可以快速地对现场化学品进行分析。但是现有拉曼技术仅对纯物质有较高识别度,然而爆炸事故现场往往混乱不堪,能采集到的样品为纯物质的几率极低,绝大部分为混合物。这时就需要通过计算机算法来对采集到的混合物用激光拉曼光谱法进行分析并识别出其中的组分并进行定量分析。大量的结构信息隐藏在由成千上万个数据点组成的拉曼光谱中。所以从拉曼光谱中确定混合物中组分的化学结构将仍然是一个重要的挑战。
各种化学计量学、统计和数据处理方法已被开发用于处理和提取的光谱组成和复杂系统结构的基本信息,包括拉曼光谱数据库物质识别的建立、谱库检索方法、光谱标准化、荧光背景校正和混合物比例计算。
在不借助数据库技术和相关算法的情况下,解析谱图是一项耗时的任务。对于拉曼系统,即使是便携式拉曼系统,也有适当的光谱分辨率来进行鉴别。大多数应用程序的核心是光谱数据库。目前已经建立了大量的光谱数据库,用于快速无损的识别和检测。Vandenabeele等人对21种偶氮颜料的拉曼光谱进行了分析,建立了矿物识别的方法。此外,Burgio和Clark参考傅里叶变换光谱数据库,分析了60种颜料,矿物和介质组合。Castro等人已开发和实施材料数据库分析不同类型的艺术品。除了在古代的颜料和矿物中的应用外,拉曼数据库也被广泛地应用于其它领域。拉曼光谱和光谱数据库的特殊应用已被应用于解决各种生物医学问题[4]。
随着谱量的增加,需要开发有效的搜索方法来探索这些数据库。常用的方法有相关性、欧氏距离、对原始光谱和一阶导数光谱绝对值相关和最小二乘法。逆搜索具有相似性指标,其优点是未知目标谱可能是两个或多个分量的混合物[5]。一个大的光谱库增加了从许多化合物的类似光谱中提取真正化合物光谱的机会。快速傅里叶变换[6-7]和小波变换[8-9]通常用于光谱压缩和加快搜索速度[10]。基于小波变换的拉曼光谱比较适合于在参考光谱库的帮助下识别未知拉曼光谱的后续峰-峰匹配。Rodriguez报道了一种利用命中质量指数模型评估基于库的拉曼光谱相关方法灵敏度的新方法[11]。一种新的相似度量称为谱线性核查,其性能优于标准方法,因为它能在谱搜索中捕捉到域的细微之处[12]。近年来,人们提出了一种基于命中质量指数的群判定方法,避免了基于模型方法的过度拟合,提高了未知样本的识别率[13]。
在实际环境中,样品的光谱通常代表几种成分的混合物。对于这种类型的问题,已经开发了一些技术。Malinowski的目标因子分析已应用于混合物中可疑成分的定性和定量测定[14]。一种称为交互式自建模混合物的分析方法已经发展到可提取有关的拉曼光谱和红外光谱的混合物[15]纯组分信息。Ryder等人使用近红外拉曼光谱快速定量分析固体混合物中的可卡因。基于信息熵,提出了一种先进的光谱重建算法,用于识别混合谱中的单个化合物[16]。
从上述讨论中可以清楚地看出,数据库建设、逆搜索和比值计算是混合物分析的重要研究领域,对于解决混合物分析问题具有重要意义[17]。在目前的工作中,提出了一种基于数据库技术、逆搜索方法和多变量混合物分析技术的拉曼光谱解决方案[18]。该研究方法使得人们有可能从混合物拉曼光谱中提取到有用信息并得出混合物的组成及其化学结构的结论。
1 实验部分
1.1 仪器试剂
通过B&W Tek i-Raman(i-Raman-785S)光谱仪,配拉曼光纤探头,测定液体和粉末样品。激发源是一个具有用于激光稳定的CleanLaze技术的785 nm激光,激光最大激发功率315 mW,激发波长785 nm。拉曼光谱可以通过一个2 048像素由TE冷却的线性CCD阵列来采集。光谱分辨率为5 cm-1,光谱范围为175~3 200 cm-1拉曼位移。i-Raman系统的关键特征是深度TE冷却,这可以使最大有效整合为4 min。这是一个对于低浓度和弱拉曼散射的化合物理想的光谱仪,并且光谱数据库通过它会有很大的光谱质量产生。数据采集软件:BWspec3.27;4 mL石英比色皿。
化学试剂和样品1-苯基-3-甲基-5-吡唑啉酮(CAS 89-25-8)均为分析纯。
1.2 实验方法
固体样品:利用数据采集软件BWspec3.27,设置积分时间36 000 ms,采集3次取平均值,激光功率90%,采集样品1-苯基-3-甲基-5-吡唑啉酮(CAS 89-25-8)原始拉曼光谱数据。
液体样品:利用数据采集软件BWspec3.27,设置积分时间30 000 ms,采集3次取平均值,激光功率90%,采集液体样品拉曼光谱数据。
2 结果与讨论
基于逆检索-非负最小二乘法的激光拉曼混合物分析方法,包括以下步骤[17],其研究方法架构和流程图见图1。
图1 RSearch-NNLS研究方法架构和流程图Figure 1 Architecture and flow chart of RSearch-NNLS method.
1)通过Whittaker平滑[19]、自适应迭代重加权惩罚最小二乘法的正基线校正(Adaptive iteratively reweighted penalized least squares,ariPLS)[20]以及连续小波变换(Continuous wavelet transform,CWT)[21]建立纯物质的拉曼光谱库。
2)通过逆检索法对采集到的混合物拉曼光谱进行定性分析。
3)根据第2步的结果,使用非负最小二乘法对候选化合物进行比例估算。
2.1 建立纯物质的拉曼光谱库
如图1所示,步骤1)中所述的建立纯物质拉曼光谱库的具体操作如下:
用拉曼光谱仪器录入纯物质的拉曼光谱;对录入的光谱进行Whittaker平滑以及airPLS基线校正(无先后顺序);对进行完平滑、基线校正的谱图使用连续小波变换进行峰检测;记录并储存此纯物质主要峰的拉曼位移;处理多种纯物质主峰的拉曼位移后,纯物质拉曼光谱数据库建立完成。
如图2所示样品原始拉曼光谱通过惩罚最小二乘法平滑和airPLS基线校正(图3),荧光背景能够大大地降低,同时随机噪声有效地减少。整体基线可以通过airPLS灵活拟合,峰可通过小波方法准确地检测。
图2 原始拉曼光谱图Figure 2 The raw raman spectrum of sample.
图3 既通过惩罚最小二乘法平滑又通过airPLS校正的光谱图Figure 3 The raman spectrum corrected by airPLS and smoothed by penalized least squares.
2.2 混合物拉曼光谱定性分析
通过逆检索法对采集到的混合物拉曼光谱进行定性分析。定性分析中所述步骤如下:
用仪器录入混合物拉曼光谱图;对录入的光谱进行Whittaker平滑以及airPLS基线校正(无先后顺序);对进行完平滑和基线校正的谱图使用连续小波变换进行峰检测;对进行完峰检测的图谱进行标准化处理;使用逆检索法对进行完标准化处理的光谱进行混合物定性分析。
上述步骤中的标准化处理具体为:
1)位移标定
(1)用B&W Tek i-Raman拉曼设备录入拉曼位移覆盖区间广的拉曼位移标准样品(对乙酰氨基酚、苯甲腈、环己烷以及聚苯乙烯)的拉曼光谱,并用连续小波变换法对这四种物质进行标峰并储存在数据库中。
(2)当用其它仪器录入样品时,需要先录入(1)中所述四种标准样品并用连续小波变换进行标峰。
(3)使用一个三级多项式来标定(2)中的仪器所录入的拉曼光谱。这个三级多项式为λdb,i-λh,i=β3λ3h,i+β2λ2h,i+β1λh,i+β0,其中,λdb,i和λh,i分别对应(1)中的拉曼光谱仪与(2)中的拉曼光谱仪录入的标准样品中的第i个峰。β3、β2、β1、β0是用来在x轴上标定拉曼位移的多项式参数。
(4)一旦不同仪器所录入的光谱与数据库中光谱的关系被确定,使用这台仪器录入的新光谱就可以很容易标定。
2)反应强度标定
录入光学玻璃标准参考物质(对于785 nm的激光源可以使用NIST SRM-2241)的光谱,此标准参考物质的光谱可以用一个五级多项式表示,使用此五级多项式来校准不同仪器拉曼光谱的反应强度。
上述步骤中,逆检索法具体为:
(1)使用Whittaker 和airPLS 对数据库中的光谱和目标光谱进行平滑和基线校正。 对目标光谱的噪音进行估计并将其绝对值储存在向量中,记为σ。
(2)使用光谱的最大值对其进行归一化处理(光谱中最大强度的峰为1)。数据库中的光谱以及目标光谱的主要峰都可以用连续小波变换法检测出(CWT)。核查数据库中每一个光谱的主峰是否在目标光谱中存在。
(3)如果数据库中光谱d(向量长度为n)中所有的主峰都在目标光谱q的主峰中存在,那么需要计算所匹配这些峰的最小强度比r。使用此强度比r对数据库中匹配的那个光谱进行缩放。对于那个匹配的目标光谱,匹配质量可以通过公式 MQ=count[sign+(abs(q-dr)-3)]/n计算。对于一个没有主峰匹配的光谱,匹配质量为零。
(4)使用非负最小二乘法找出匹配质量大于0.8的光谱进行筛选。
从图4-图9可以看出数据库谱(乙醇、丙酮、乙腈拉曼光谱)和样品光谱(乙醇、丙酮和乙腈混合物的拉曼光谱)之间匹配峰的细节。可以观察到对于拉曼光谱的峰值检测,基于峰匹配的CWT是有效和稳定的。数据库光谱的峰可以被检测和存储在数据库中以用来进行逆检索。对于一个数据库的检索CWT峰值检测只需要应用于其查询光谱,并且逆检索的速度是相当快的。
图4 研究号1717040007样品拉曼光谱图(乙醇∶丙酮=1∶1)Figure 4 The raman spectrum of sample 1717040007(ethanol∶acetone=1∶1).
图5 研究号1717040010样品拉曼光谱图(乙醇∶丙酮=3∶7)Figure 5 The raman spectrum of sample 1717040010 (ethanol∶acetone=3∶7).
图6 研究号1717060041样品拉曼光谱图(乙醇∶丙酮=7∶3)Figure 6 The raman spectrum of sample 1717060041 (ethanol∶acetone=7∶3).
图7 研究号1717040015样品拉曼光谱图(乙醇∶丙酮∶乙腈=7∶2∶1)Figure 7 The raman spectrum of sample 1717040015 (ethanol∶acetone∶acetontrile=7∶2∶1).
图8 研究号1717040016样品拉曼光谱图(乙醇∶丙酮∶乙腈=5∶3∶2)Figure 8 The raman spectrum of sample 1717040016 (ethanol∶acetone∶acetontrile=5∶3∶2).
图9 研究号1717040017样品拉曼光谱图(乙醇∶丙酮∶乙腈=4∶3∶3)Figure 9 The raman spectrum of sample 1717040017 (ethanol∶acetone∶acetontrile=4∶3∶3).
2.3 使用非负最小二乘法对候选化合物进行比例估算
进行定量分析使用的算法是基于非负最小二乘法的混合物组分比例估算。其原理的数学表达式为[19]:
min‖y-Xb‖wherebi≥0
其中,y是混合物的光谱。X是一个矩阵,它的每一列是一个候选化合物的光谱。b是候选化合物比例的向量。通过用非负最小二乘法计算出的比率,不正确的那些纯组分光谱可以被忽略。忽略时需要设定一个用来消除在向量b中是零或低正值化合物的阈值。
乙醇、丙酮和乙腈混合物可被RSearch-NNLS成功估算出大致比例,具体见表1和表2。虽然估算值与理论值有一定的偏差,但通过逆检索和非负最小二乘法的帮助,RSearch-NNLS方法可以快速的识别混合物中的组成及其比例,其在混合物分析方面具有一定的应用前景。
表1 通过RSearch-NNLS方法研究乙醇、丙酮混合物表
表2 通过RSearch-NNLS方法研究乙醇、丙酮和乙腈混合物表
3 结论
通过逆检索和非负最小二乘法的帮助,RSearch-NNLS方法可以轻松和准确地识别混合物中的组成及其比例。通过连续小波变换可以准确识别与分析一个拉曼光谱峰主要的谱峰。通过对混合物光谱峰化合物的逆匹配识别,逆检索程序在确定混合物中化合物的组分是有优势的。识别结果可以用非负最小二乘法进一步细化,也可以估算出各化合物的比值。
RSearch-NNLS估算出乙醇、丙酮和乙腈不同体积混合物的大致比例。所以对于一些应用中拉曼光谱的混合物分析问题,RSearch-NNLS方法利用混合物的拉曼光谱的有用信息,得到混合物的化学结构和组成。RSearch-NNLS的框架也可用于其它高分辨率的分析信号的混合物分析。