多元校正结合质谱数据进行四种有机物快速含量分析研究
2016-06-15李倩倩田旷达熊艳梅闵顺耕
李倩倩,田旷达,唐 果,熊艳梅,闵顺耕*
1. 中国地质大学海洋学院,北京 100083 2. 中国农业大学理学院应用化学系,北京 100193
多元校正结合质谱数据进行四种有机物快速含量分析研究
李倩倩1,2,田旷达2,唐 果2,熊艳梅2,闵顺耕2*
1. 中国地质大学海洋学院,北京 100083 2. 中国农业大学理学院应用化学系,北京 100193
质谱法和化学计量学方法相结合对混合物中苯甲醛,异辛烷,乙酸丁酯,苯乙酮四种物质进行定量分析。将混合物的质量色谱图数据分别用特征选择-多元线性回归(MLR)和全谱-偏最小二乘法(PLS)这两种方法对四种物质进行定量分析。苯甲醛特征选择和全谱建模的RMSEP分别为0.062和0.091; 异辛烷特征选择和全谱建模的RMSEP分别为0.048和0.057; 乙酸丁酯特征选择和全谱建模的RMSEP分别为0.021和0.020; 苯乙酮特征选择和全谱建模的RMSEP分别为0.010和0.032。结果表明苯甲醛,异辛烷,苯乙酮特征选择的结果均优于全谱建模的结果,乙酸丁酯特征选择的结果和全谱建模的结果相近。
质谱; 偏最小二乘法; 多元线性回归; 特征选择
引 言
化学计量学和多元数据分析已提供了很多解决定性和定量分析的问题并且已经应用于食品[1-2],药品[3-4]等许多化学分析领域。质谱已经成为最有效的定性分析和混合物定量测定方法,同时质谱是物质的特征图谱,也是物质的指纹图谱,目前质谱与色谱联用已经成为一种常见方法。色谱分离需要较长的分析时间,而质谱本身也是一种很好的混合物分离方法。质谱法用于复杂体系分离,经常出现以下二种情况: (1)体系复杂不能完全分离; (2)快速分析,节约色谱分析时间无需完全分离或不需要色谱分离。但是,如何对分离不完全的混合物质谱数据进行定量分析是化学计量学中要解决的问题,化学计量学与质谱法的结合已经广泛应用于生物组学分析[5]、药物分析[6-7]和食品分析[8-9]中,但是对未经分离的混合物质谱数据进行定量分析的研究还比较少。本文采用多元校正中常用的多元线性回归(MLR)和偏最小二乘法(PLS)算法,对混合物中苯甲醛,异辛烷,乙酸丁酯,苯乙酮四种物质进行质谱定量分析,取得了满意的结果,为质谱快速分析和复杂体系的快速定量测定提供了一种新的途径。
用GC-MS短柱进行粗分检测前10min的色谱数据并进行保留时间方向累加来模拟样品经色谱柱不完全分离而得到的混合物的质谱数据。处理累加的质谱数据得到的二维谱图,结合MLR和PLS快速测定40个样品中混合物的含量并采用特征选择和全谱建模两种方法进行定量分析。
1 实验部分
1.1 试剂与仪器
苯甲醛,2,2,4 -三甲基戊烷(异辛烷),乙酸丁酯,苯乙酮(分析纯,北京化学试剂公司)。正庚烷,正己烷,环己烷,甲酸乙酯,乙酸乙酯,甲苯(分析纯,北京化学试剂有限公司),四氯化碳(GR,天津傲然精细化学研究所)。
气相色谱-质谱联用仪Clarus 500 GC-MS(Perkin Elmer公司,美国)。
1.2 样品制备
苯甲醛,异辛烷,乙酸丁酯,苯乙酮四种物质为,8.10%~28.00%,0.854%~26.58%, 0344%~12.70%,0.044%~3.184%。四氯化碳作为溶剂,共40个样品。为了检查方法的可行性,将正庚烷,正己烷,环己烷,甲酸乙酯,乙酸乙酯,甲苯加入到样品中,从而使复杂的成分更接近实际环境。
1.3 GC-MS条件
1.4 数据处理
对短色谱柱得到的质量色谱图中2.1~10.0 min的色谱数据并进行保留时间方向累加,将累加的质谱数据得到的二维质量离子流图用来模拟混合样品不经色谱分离而得到的混合物的质谱数据。采用MLR和PLS建立定量方法测定40个样品中苯甲醛,异辛烷,乙酸丁酯,苯乙酮的含量。
为了保证校正集和检验集的代表性,40个样品按照苯甲醛,异辛烷,乙酸丁酯,苯乙酮的含量从高到低的顺序选择10个样品作为独立外部检验集,30个样品作为校正集。分别用特征选择(特征质量m/z选择)和全谱两种方法建立四种物质的定量模型,外部检验集预测标准差RMSEP来评价模型性能。
用Matlab 7.6自编累加程序并进行累加处理。PLS算法用Unscrambler 9.7 CAMO(Oslo, Norway)分析累加质谱数据,建立全谱PLS定量分析模型和特征选择的MLR定量分析模型。
2 结果与讨论
2.1 三维质量色谱图得到二维谱图
由GC-MS得到的质谱数据中,累加保留时间在2.1~10.0 min的1 185个质谱数据(数据点间隔为0.4 s)。图1是混合样品中1个样品的质谱图,40个混合样品保留时间超过10 min的质谱信号很弱因而数据处理是累加前10 min的数据。三维质谱图是以m/z为X轴,时间为Y轴,离子流强度为Z轴。时间累加以后,每个特定离子m/z对应所有保留时间的该离子m/z的强度之和,即m/z为X轴丰度为Y轴的二维谱图。
Fig.1 Tridimensional MS spectra of the forty samples
将1 185个质谱通过累加程序加和以后得到混合物质谱图(见图2),Y轴是m/z对应的保留时间段下碎片离子信息的总和。混合物质谱图中共有251个变量(质量间隔1 aum)。混合物累加后的质谱数据即得到的二维光谱图进一步用化学计量学方法来进行多组分的定量分析。
Fig. 2 Spectrum obtained after cumulating the mass spectrum in time axis (Y axis)
2.2 特征选择-MLR结果(特征质量m/z选择)
为了简化MLR定量分析模型,对苯甲醛,异辛烷,乙酸丁酯,苯乙酮四种物质进行回归特征峰(m/z)选择,将选择出的特征峰进行多元线性回归。
根据四种化合物的质谱特征,定量分析特征峰(m/z)选择结果为: 苯甲醛的基峰m/z=77,质荷比较高的碎片离子峰m/z=105~106,选择质荷比m/z=74~78, 102~107这11个质谱数据对苯甲醛进行MLR回归分析; 异辛烷的基峰为m/z=57,较高的碎片离子峰m/z=56,99,选择m/z=55~58,97~100这8个可以代表异辛烷的变量进行MLR回归分析; 乙酸丁酯基峰m/z=43,强度高的碎片离子峰m/z=56, 61, 73,由于质谱数据是从m/z=50开始收集,因而选择的变量为m/z=54~57,60~62和72~74 amu共10个质谱数据对乙酸丁酯进行MLR回归分析; 苯乙酮的基峰m/z=105 amu, 相对丰度高的碎片离子峰m/z=77, 105,120 amu,选择m/z=76~78, 104~106和119~121 amu共9个变量来建立苯乙酮的定量模型。
图3是四种物质特征选择校正集与检验集样品中含量真实值和预测值的相关关系图,图3(a)中苯甲醛校正集的决定系数R2为94.09%,检验集的相关系数为0.896 0,RMSEP为0.006 2。图3(b)中异辛烷的决定系数R2为96.48%,检验集的相关系数为0.988 0,RMSEP为0.004 8。图3(c)中乙酸丁酯的R2为99.34%,检验集的相关系数为0.989 6,RMSEP为0.021。图3(d)中苯乙酮的R2为98.54%,检验集的相关系数为0.953 3,RMSEP为0.010。
Fig.3 Measured values versus predicted values of MLR after m/z selecting
检验集的结果表明,运用m/z选择的11, 8, 10, 9个变量结合MLR算法和混合物的质谱数据可以准确的测定苯甲醛, 异辛烷, 乙酸丁酯(最低检测到的质量百分数为0.344%), 苯乙酮的含量。
2.3 全谱-PLS结果
苯甲醛,异辛烷,乙酸丁酯,苯乙酮四种物质用全谱PLS方法进行分析。图4是四种全谱建模校正集与检验集样品中含量真实值和预测值的相关关系图,结果见表1。
Fig.4 Measured values versus predicted values of PLS by the full spectrum
对特征选择-MLR和全谱-PLS进行比较,图5可以看出苯甲醛和异辛烷的R2优于全谱建模的R2,RMSEP远远低于全谱建模的RMSEP; 乙酸丁酯特征选择的R2和RMSEP与全谱建模的结果基本相同; 苯乙酮全谱建模的结果不成功。
由于乙酸丁酯质谱图是从50 amu开始收集的,故没有选择其基峰,而是选择了质荷比较高的碎片离子峰进行定量分析,有其他物质的特征离子相干扰(异辛烷,正庚烷,正己烷),导致乙酸乙酯特征值选择和全谱建模两种方法的结果基本相同。苯乙酮全谱建模不成功主要原因可能是苯乙酮的含量低(0.044%~3.184%)被其他物质的特征离子掩盖,导致m/z=105 amu离子峰的相对丰度很低,因而全谱建模结果很差,而选择特征离子后其结果很好,可以准确的测定其含量。
综上所述,特征选择使得模型的稳健性和准确度都得到了很大的提高。m/z将选择的特征峰的变量多元线性回归(MLR),优于全谱建模的所有变量进行PLS回归。苯甲醛,异辛烷,乙酸丁酯,苯乙酮四种物质特征变量选择与全谱建模具体结果见表1。
Fig.5 R2 RMSEP obtained from two methods
Table 1 Results of full-range and m/z models of benzaldehyde,2,2,4-trimethylpentane,butyl acetate, and acetophenone
3 结 论
提出了MS结合PLS用m/z选择特征变量来测定混合物的组成,对质谱法和化学计量学结合处理数据进行了初步探究。采用混合物质谱数据结合化学计量学直接分析苯甲醛,异辛烷,乙酸丁酯,苯乙酮四种混合物中的各成分含量。得到如下结果:m/z对苯甲醛,异辛烷,乙酸丁酯,苯乙酮这四种物质进行特征选择的变量数分别为11, 8, 10, 9; 全谱建模的变量数为251个; 苯甲醛,异辛烷,苯乙酮特征选择的结果均优于全谱建模的结果,乙酸丁酯特征选择的结果和全谱建模的结果相近。用特征选择-MLR和全谱PLS分析了混合物的质谱数据,使得模型的稳健性和准确度都得到了很大的提高。
[1] ZHUANG Xiao-li, XIANG Yu-hong, QIANG Hong, et al(庄小丽, 相玉红, 强 洪,等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2010, 30(4): 933.
[2] Pereira A F C, Pontes M J C, Neto F F G, et al. Food Research International, 2008, 41(4): 341.
[3] DOU Ying, QIU Fang-ping, LIU Pei-yi, et al (窦 英, 邱芳萍, 刘培义,等). Chemical Journal of Chinese Universities(高等学校化学学报), 2004, 25(1): 53.
[4] Grünhut M, Centurión M E, Fragoso W D, et al. Talanta, 2008, 75(4): 95.
[5] LI Xiao-ru, LIANG Yi-zeng, LI Xiao-ning(李晓如, 梁逸曾, 李晓宁). Acta Pharmaceutica Sinica(药学学报), 2007, 42(2): 187.
[6] Eide I, Neverdal G, Thorvaldsen B, et al. Environmental Science and Technology, 2001, 35(11): 2314.
[7] Ledauphin J, Le Milbeau C, Barillier D, et al. Journal of Agricultural and Food Chemistry, 2010, 58(13): 7782.
[8] Huang L F, Wu M J, Zhong K J, et al. Analyticachimicaacta, 2007, 588(2): 216.
[9] Jalali-Heravi M, Vosough M. Journal of Chromatography A, 2004, 1024(1): 165.
*Corresponding author
Multivariate Calibration Combined with Mass Spectrometry for Rapid Analysis
LI Qian-qian1,2, TIAN Kuang-da2, TANG Guo2, XIONG Yan-mei2, MIN Shun-geng2*
1. College of Marine Science, China University of Geoscience, Beijing 100083, China 2. Department of Applied Chemistry, College of Science, China Agricultural University, Beijing 100193, China
A mixture of four substances of benzaldehyde, iso-octane, butyl acetate, acetophenone were quantitatively analyzed by mass spectrometry combined with chemometrics.The mass chromatogram data of mixture were proceeded with two methods for quantitative analysis. One is feature selection-Multiple Linear Regression (MLR) and the other is full spectrum- Partial Least Squares (PLS). The results show that the RMSEP of benzaldehyde were 0.062 and 0.091 after selectingm/zspectrum and full spectrum respectively; RMSEP of isooctane were 0.048 and 0.057 after selecting spectrum and full spectrum respectively; which of butyl acetate were 0.021 and 0.020 and of acetophenone were 0.010 and 0.032. The feature selection results of the mixture were better than that of the full spectrum modeling results expect butyl acetate which got similar results by the two methods.
Mass spectrometry; Partial least squares; Multiple linearregression; Feature selection
Nov. 27, 2014; accepted Mar. 20, 2015)
2014-11-27,
2015-03-20
国家自然科学基金项目(31301685)资助
李倩倩,女,1984年生,中国地质大学海洋学院实验师 e-mail: nancylgq@126.com *通讯联系人 e-mail: minsg@263.net
O657.3
A
10.3964/j.issn.1000-0593(2016)02-0532-05