APP下载

多批次肝衰竭患者呼出气体的电喷雾萃取电离质谱检测及代谢组学数据分析

2016-12-01李鹏辉邓伶莉丁健桦邬小萍

高等学校化学学报 2016年4期
关键词:组学质谱气体

李鹏辉, 邓伶莉,2, 罗 娇, 李 巍, 宁 晶, 丁健桦, 邬小萍

(1. 东华理工大学江西省质谱科学与仪器重点实验室, 南昌 330013;2. 东华理工大学信息工程学院, 南昌 330013; 3. 南昌大学第一附属医院, 南昌 330123)



多批次肝衰竭患者呼出气体的电喷雾萃取电离质谱检测及代谢组学数据分析

李鹏辉1, 邓伶莉1,2, 罗 娇3, 李 巍3, 宁 晶1, 丁健桦1, 邬小萍3

(1. 东华理工大学江西省质谱科学与仪器重点实验室, 南昌 330013;2. 东华理工大学信息工程学院, 南昌 330013; 3. 南昌大学第一附属医院, 南昌 330123)

采用高分辨电喷雾萃取电离质谱(EESI-MS)技术对肝衰竭患者和健康志愿者呼出气体样本进行快速检测, 结合多块偏最小二乘分析(MB-PLS)方法, 对多批次获取的呼出气体代谢数据进行统计建模分析, 并与传统的PLS方法进行比较. 结果表明, MB-PLS方法能有效消除批次差异对统计建模的影响. 此外, 利用MB-PLS模型变量VIP值对变量进行筛选, 可降低数据的冗余, 消除无关变量对模型的影响, 从而有效提高了模型的性能.

呼出气体; 代谢组学; 电喷雾萃取电离质谱; 多块偏最小二乘分析

呼吸是人体基本的生命体征之一, 人体呼出气体作为生物媒介携带了大量生理/病理信息, 有研究报道在健康人体呼出气体中检测出3000多种化合物[1]. 传统的代谢组学方法主要分析生物体液[2~4](血清、 尿液、 唾液、 乳液和组织液等)和生物组织中代谢物水平[5]的变化规律, 实际上生物呼出气体也可作为代谢组学的研究对象, 用于探索机体生理/病理状态[6,7]. 近年来, 在基于代谢组学的疾病研究领域[8~10], 尤其是肝病相关领域, 呼出气体因其安全、 采样方便且非侵入性、 不涉及个人隐私问题以及携带大量代谢信息等特点而备受关注[11,12].

人体呼出气体中代谢物含量极低[13], 因此对检测仪器的灵敏度有很高的要求, 这一直是限制呼出气体代谢组学发展的重要原因之一. 随着现代分析技术的快速发展, 呼出气体检测技术也逐渐丰富, 如气相色谱-质谱联用(GC-MS)[1,12,14]、 离子分子反应质谱(IMR-MS)[15]、 电子鼻传感技术(EN)[16,17]、 激光光谱(LS)[18]、 选择离子流动管质谱(SIFT-MS)[19]和质子转移反应质谱(PTR-MS)[20]等技术. 电喷雾萃取电离质谱(EESI-MS)技术是一种新型直接质谱分析方法[21,22], 可在无需样品预处理条件下对复杂机体进行直接快速检测, 其检测灵敏度高、 响应速度快, 能够实现呼出气体中痕量挥发性有机化合物的原位、 实时、 在线分析[23~25]. 然而, 由于呼出气体的有效存储时间短, 难以在短时间内完成大量样本的收集与检测. 在数据统计分析方面, 为保证结果的可靠性, 通常对样本量有一定要求. 多批次样本虽然可以获取足够的数据量, 但由于人体呼出气体受环境空气影响较大, 不同批次(不同时间或地点)收集的样本其检测结果存在较大的差异. 若直接将不同批次样本数据合并成一个大数据矩阵, 采用代谢组学中常用的主成分分析(PCA)[26]方法或偏最小二乘分析(PLS)[27]方法对其进行统计分析, 由于批次间差异信息的干扰, 通常很难准确提取出有用的特征信息.

代谢组学数据往往非常复杂, 因此数据处理已经成为代谢组学研究中的关键技术和瓶颈之一. 不同批次获取的数据存在批次间的变异, 致使不同批次的数据难以集成. 虽然有一些样本归一化方法已经被开发来解决批次间差异的问题, 例如常数和归一化法[28]、 内标法[29]、 质量控制法[30]和基于方差的归一化法[31]等, 但是每种方法都有其优点和缺点. 多块偏最小二乘分析(Multi-block PLS, MB-PLS)是近年来广泛应用的一种基于监督的多块数据分析方法[32], 该方法能利用数据块之间的关联性将数据块进行有效整合, 并对数据中相关特征信息进行提取. 因其结果是由多个数据块综合分析得到, 故相比于单个数据块的分析结果为更为全面、 准确. 本文利用EESI-MS技术获取了4批次肝衰竭患者和健康志愿者呼出气体的代谢组学数据, 根据各批次数据间“变量空间”一致的特点, 采用相应的MB-PLS方法对其进行整合建模, 并与传统的PLS方法进行比较.

1 多批次数据的多元统计分析

Fig.1 Two typical multi-block problems(A) The objects are in common, but the variables measured on these objects are different; (B) the variables are in common, but the objects are different.

代谢组学数据分析中的多块数据问题通常包括2类: “样本空间”相同但“变量空间”不同; “变量空间”相同但“样本空间”不同(图1). 对于采用EESI-MS技术获取的各批次呼出气体代谢组学数据, 虽然不同批次的样本不同(即“样本空间”不同), 但是所检测的代谢物变量是一致的(即“变量空间”相同), 与图1(B)描述问题相等.

(1)

在PLS模型中, 变量投影重要性指标VIP(Variableimportanceintheprojection)用于评估各变量在模型中的重要性. 对于K个成分的MB-PLS模型, 变量i在该模型中的投影重要性指标VIP定义如下:

(2)

2 实验部分

2.1 仪器与试剂

EESI离子源(东华理工大学研制)[20,22];LTQ-Orbitrap-XL高分辨质谱仪(美国Finnigan公司), 配有Xcalibur数据处理系统;T2PV/L型5L-Tedlar®采样袋(大连德霖气体包装有限公司); 甲醇(色谱纯,SKChemicals公司).

2.2 研究对象与分组

在遵守医学道德准则的相关规定下, 分4个批次收集就诊于南昌大学第一附属医院感染科的共35例肝衰竭患者和35例健康志愿者的呼出气体. 肝衰竭患者年龄均在38~65岁之间, 排除同时患有糖尿病、 脂肪肝、 酒精肝、 自身免疫性肝病、 肾病、 呼吸系统疾病、 未控制的精神病及活动性感染等疾病的患者; 健康志愿者均来自患者家属和医院医务人员, 既往无肝病病史, 无烟酒嗜好, 年龄在28~55岁之间. 各批次样本收集的具体信息如表1所示.

Table 1 Four batches of exhaled breath sample

2.3 质谱条件及呼出气体的收集与检测

高分辨质谱仪在正离子检测模式下工作, 扫描范围m/z50~700; 离子传输管温度100 ℃; 喷雾电压3.5 kV; 雾化气(N2)压力1.2 MPa; 萃取剂为纯甲醇, 流速5 μL/min; 气体样品通过转子流量计控制流速为800 mL/min; 其它条件由LTQ-Orbitrap-XL系统自动优化得到. EESI 离子源2个毛细管喷雾口之间距离1~2 mm, 夹角为60°, 到质谱进样口的距离为5 mm, 详细参见文献[20,22]. 在高分辨质谱扫描模式下, 一级质谱质量分辨率R=60000.

用5L-Tedlar®采样袋收集呼出气体样本, 采样袋在使用前以纯净氮气冲洗3次. 所有受试者在采样前 10 h内禁食、 禁烟、 禁酒, 采样前 24 h 内禁止食用辛辣物, 晨起后仅以清水漱口. 受试者在通风条件良好的环境下呼吸30 min以上, 静息状态下向采样袋内深呼气, 直至采样袋充满为止. 收集后在3 h内完成EESI-MS检测, 并获得相应的代谢指纹图谱. 各个批次疾病组(肝衰竭患者)和对照组(健康志愿者)的代谢指纹图谱如图2所示.

Fig.2 EESI-MS spectra of exhaled breath from liver failure patients and healthy volunteers (A)—(D) MS data of exhaled breath from liver failure patients; (E)—(H) MS data of exhaled breath fromhealthy volunteers. Each row represents a batch.

3 数据分析与讨论

3.1 数据预处理

3.2 数据统计分析与建模

设置类别矢量yb(b=1, 2, ……4), 其中“1”表示疾病组, “0”表示对照组. 采用MB-PLS方法对4个批次数据Xb(b=1,2,3,4)进行统计建模. 通过7-fold交叉验证法确定MB-PLS模型的最优成分数为2个. 图3(A)为MB-PLS模型前2个成分对应的得分图. 图中每1个点对应1个样本, 不同批次样本用不同的图形进行区分(如, 图形△代表第1批次样本); 蓝色和红色分别表示疾病组与健康组样本. 可见, 疾病组与对照组样本之间存在明显的分组趋势, 根据公式X计算类别矢量的回归值, 利用分类准确率(CA), 即正确分类的样本数除以总样本个数, 来描述样本可分性, 计算结果CA=0.93. 图3(A)中, 相同类别的不同批次样本相互混叠, 无明显分组趋势, 表明模型中未提取出各批次数据块之间的差异信息, 因此批次间的差异信息并未对该模型产生干扰.

Fig.3 Scores plot of MB-PLS model(A) and PLS model(B) by the four batches of data respectivelyThe batches labeled by different graphics, the hollow red graphics and solid blue graphics for the disease group and control group respectively.

为与传统PLS方法进行对比, 将4个批次数据串联成1个大的数据矩阵, 即X=(X1X2X3X4)T, 并采用PLS方法进行分析, 模型前2个成分的得分图如图3(B)所示. 在图3(B)中, 虽然同一批次疾病组样本与对照组样本之间表现出一定的分组趋势, 但是样本间批次差异信息在模型中占绝对优势, 严重干扰了与疾病相关的特征信息的提取. 在不同批次的样本间, 疾病组样本难以与对照组样本区分开来, 分类准确率CA仅为0.77.

Fig.4 Model validation results of MB-PLS(○) andPLS(△) respectively

采用蒙特卡洛交叉验证法(MCCV)[34]对MB-PLS模型进行了验证. 在各批次样本中随机选取70%的样本作为训练集用于建立分类模型; 剩余的样本作为测试集代入模型中, 计算测试样本集的预测值. 重复上述过程100次, 计算测试集的平均分类准确率CAMCCV来评估模型的预测性能. 进一步对疾病组和对照组的MB-PLS模型进行置换检验(Permutation test)[35], 样本类别被随机打乱100次, 每次利用打乱后的类别矢量来建模, 并结合MCCV计算预测集的分类准确率CAMCCV, 结果见图4. 图4中, 横坐标│r│为随机打乱后的类别矢量与原类别矢量的相关系数的绝对值, 其中│r│=1对应的CAMCCV值为利用正确类别信息建立模型的分类准确率. 对于一个鲁棒的模型, 当类别信息被打乱, 模型预测性能应该比正确类别信息建立的模型预测性能要差. 图4中, 100次置换检验的结果相对正确类别计算得到的CAMCCV要低, 表明疾病组与对照组数据存在差异信息, MB-PLS模型中提取的差异信息是有效的. 此外, PLS模型由于受到批次差异信息的干扰, 模型的预测能力(CAMCCV=0.72±0.08)显著低于MB-PLS模型(CAMCCV=0.84±0.06). 综上所述, 利用MB-PLS对多批次数据进行分类建模, 能有效避免批次差异对模型的影响, 提取出数据中有用的特征信息.

3.3 变量筛选

在上述MB-PLS模型中, 变量具有很高的维数(1035个变量), 数据中只有少部分变量对建立分类模型有贡献. 因此对变量进行了筛选, 以有效降低数据的冗余, 提高模型的性能.

Fig.5 VIP scores of MB-PLS model

由模型变量VIP的定义可知: 变量的VIP值越大, 该变量在模型中越重要. 利用式(2)计算得到了MB-PLS模型中各变量的VIP值(见图5). 图5中大部分变量对于该模型并不重要, 其对应的VIP值非常小(VIP<1.0), 故可以利用变量的VIP值对变量的重要性进行评估, 选择VIP值大的变量来重新建立分类建模.

实验中将变量按VIP值进行排序, 选取其中VIP值大于某一阈值的变量构成新的数据子集, 进行MB-PLS建模. 结合MCCV计算MB-PLS模型的分类准确率CAMCCV, 结果如图6所示. 图6中模型分类准确率CAMCCV随着选取的VIP阈值总体表现出先增大后降低的变化趋势. 当VIP阈值由0增加到0.8时, 大量冗余或者无用的变量被删除, 模型的CAMCCV急剧增大; 当VIP阈值由0.8增加到2.2时, 由于VIP阈值在这一区域变量相对较少, 模型CAMCCV值变化相对缓慢, 尽管某一阶段区域中CAMCCV值出现了小幅度的降低, 但总体变化趋势仍是不断增大; 当VIP阈值大于2.2时, 可能由于某些有意义的变量被删除, 此时模型的 CAMCCV开始下降. 选取VIP阈值为2.2的9个变量用于MB-PLS建模, 此时模型的分类准确率CAMCCV由原来的0.84±0.06(1035个变量)提高到0.96±0.04.

Fig.6 Variation of the mean CAMCCV of MB-PLSmodel with the threshold of VIP

Fig.7 MS/MS spectrum and proposed structure of m/z 90 from the data of liver failure patients and healthy volunteers breath samples

3.4 差异变量分析

4 结 论

采用EESI-MS对肝衰竭患者和健康志愿者呼出气体样本进行快速检测, 结合MB-PLS方法对多批次获取的呼出气体代谢数据进行分析, 并与传统的PLS方法进行比较. 结果表明, MB-PLS方法能有效消除批次间差异对统计建模的影响, 建立区分疾病组与健康组的分类模型; 采用蒙特卡洛交叉验证和排序测试对模型进行验证, 发现肝衰竭患者与健康志愿者呼出气体中存在显著的代谢差异. 此外, 采用基于MB-PLS模型变量VIP值的筛选方法, 对变量进行筛选, 模型交叉验证分类准确率由原来的0.84±0.06提高到了0.96±0.04, 利用该模型能有效区分肝衰竭患者与健康人群. 该项工作有望为不同分析平台、 不同样本源获取的多批次代谢组学数据的处理提供一种新的途径和依据. 由于部分差异变量及其与肝衰竭的相关性未能确定, 因此仍需要进一步研究.

[1] Phillips M., Herrera J., Krishnan S., Zain M., Greenberg J., Cataneo R. N.,J.Chromatogr.B, 1999, 729(1/2), 75—88

[2] Gieger C., Geistlinger L., Altmaier E., de Angelis M. H., Kronenberg F., Meitinger T., Mewes H. W., Wichmann H. E., Weinberger K. M., Adamski J., Illig T., Suhre K.,PlosGenet., 2008, 4(11), e1000282

[3] Want E. J., Wilson I. D., Gika H., Theodoridis G., Plumb R. S., Shockcor J., Holmes E., Nicholson J. K.,Nat.Protoc., 2010, 5(6), 1005—1018

[4] Sugimoto M., Wong D. T., Hirayama A., Soga T., Tomita M.,Metabolomics, 2010, 6(1), 78—95

[5] Yuan M., Breitkopf S. B., Yang X. M., Asara J. M.,Nat.Protoc., 2012, 7(5), 872—881

[6] Carraro S., Rezzi S., Reniero F., Héberger K., Giordano G., Zanconato S., Guillou C., Baraldi E.,Am.J.Respir.Crit.Care.Med., 2007, 175(10), 986—990

[7] Motta A., Paris D., Melck D., de Laurentiis G., Maniscalco M., Sofia M., Montuschi P.,Eur.Respir.J., 2012, 39(2), 498—500

[8] Gu H. W., Qi Y. P., Xu N., Ding J. H., An Y. B., Chen H. W.,ChineseJ.Anal.Chem., 2012, 40(12), 1933—1937(顾海威, 齐云鹏, 许宁, 丁健桦, 安艳波, 陈焕文. 分析化学, 2012, 40(12), 1933—1937 )

[9] Chen C., Deng L. L., Wei S. W., Gowda G. A. N., Gu H. W., Chiorean E. G., Abu Zaid M., Harrison M. L., Pekny J. F., Loehrer P. J.,J.ProteomeRes., 2015, 14(6), 2492—2499

[10] Gu H. W., Huang Y., Filgueira M., Carr P. W.,J.Chromatogr.A, 2011, 1218(38), 6675—6687

[11] Hanouneh I. A., Zein N. N., Cikach F., Dababneh L., Grove D., Alkhouri N., Lopez R., Dweik R. A.,Clin.Gastroenterol.H., 2014, 12(3), 516—523

[12] Van Den Velde S., Nevens F., Van Hee P., Van Steenberghe D., Quirynen M.,J.Chromatogr.B.Analyt.Technol.Biomed.LifeSci., 2008, 875(2), 344—348

[13] Krotoszynski B., Gabriel G., Oneill H., Claudio M. P. A.,J.Chromatogr.Sci., 1977, 15(7), 239—244

[14] Phillips M., Gleeson K., Hughes J. M. B., Greenberg J., Cataneo R. N., Baker L., McVay W. P.,Lancet, 1999, 353(9168), 1930—1933

[15] Netzer M., Millonig G., Osl M., Pfeifer B., Praun S., Villinger J., Vogel W., Baumgartner C.,Bioinformatics, 2009, 25(7), 941—947

[16] Casalinuovo I. A., Di Pierro D., Coletta M., Di Francesco P.,Sensors, 2006, 6(11), 1428—1439

[17] Roeck F., Barsan N., Weimar U.,Chem.Rev., 2008, 108(2), 705—725

[18] Skeldon K. D., Mcmillan L. C., Wyse C. A., Monk S. D., Gibson G., Patterson C., France T., Longbottom C., Padgett M. J.,Respir.Med., 2006, 100(2), 300—306

[19] Storer M., Dummer J., Sturney S., Epton M.,Curr.Anal.Chem., 2013, 9(4), 576—583

[20] Moser B., Bodrogi F., Eibl G., Lechner M., Rieder J., Lirk P.,Resp.Physiol.Neurobi., 2005, 145(2/3), 295—300

[21] Pan S. S., Zhao N., Ouyang Y. Z., Huang K. K., Ding J. H., Chen H. W., Yuan L., Wang X. X.,Chem.J.ChineseUniversities, 2013, 34(6), 1379—1384(潘素素, 赵娜, 欧阳永中, 黄科科, 丁健桦, 陈焕文, 袁龙, 王兴祥. 高等学校化学学报, 2013, 34(6), 1379—1384 )

[22] Ding J. H., Wang X. X., Zhang H., Pan S. S., Luo M. B., Li J. Q., Chen H. W.,Chem.J.ChineseUniversities, 2011, 32(8), 1714—1719(丁健桦, 王兴祥, 张慧, 潘素素, 罗明标, 李建强, 陈焕文. 高等学校化学学报, 2011, 32(8), 1714—1719)

[23] Chen H. W., Wortmann A., Zhang W. H., Zenobi R.,Angew.Chem.Int.Ed., 2007, 46(46), 580—583

[24] Pan S. S., Tian Y., Li M., Zhao J. Y., Zhu L. L., Zhang W., Gu H. W., Wang H. D., Shi J. B., Fang X., Li P. H., Chen H. W.,Sci.Rep., 2015, 5, 8725

[25] Ding J.H., Yang S. P., Liang D. P., Chen H. W., Wu Z. Z., Zhang L. L., Ren Y. L.,Analyst, 2009, 134(10), 2040—2050

[26] Wood C. C., Mccarthy G.,Electroencephalogr.Clin.Neurophysiol., 1984, 59(3), 249—260

[27] Frank I. E., Kowalski B. R.,Anal.Chim.Acta, 1984, 162, 241—251

[28] Wang W. X., Zhou H. H., Lin H., Roy S., Shaler T. A., Hill L. R., Norton S., Kumar P., Anderle M., Becker C. H.,Anal.Chem., 2003, 75(18), 4818—4826

[29] Redestig H., Fukushima A., Stenlund H., Moritz T., Arita M., Saito K., Kusano M.,Anal.Chem., 2009, 81(19), 7974—7960

[30] Jauhiainen A., Basetti M., Narita M., Narita M., Griffiths J., Tavare′ S.,BMCBioinformatics, 2014, 30(15), 2155—2161

[31] De Livera A. M., Dias D. A., De Souza D., Rupasinghe T., Pyke J., Tull D., Roessner U., McConville M., Speed T. P.,Anal.Chem., 2012, 84(24), 10768—10776

[32] Wangen L. E., Kowalski B. R.,J.Chemometr., 1989, 3(1), 3—20

[33] Beauchamp J., Herbig J., Gutmann R., Hansel A.,J.BreathRes., 2008, 2(4), 046001

[34] Picard R. R., Cook R. D.,J.Am.Stat.Assoc., 1984, 79(387), 575—583

[35] Lindgren F., Hansen B., Karcher W., Sjostrom M., Eriksson L.,J.Chemometr., 1996, 10(5/6), 521—532

[36] Levine M., Tarver H.,J.Biol.Chem., 1950, 184(2), 427—436

[37] Pilgeram L. O., Gal E. M., Sassenrath E. N., Greenberg D. M.,J.Biol.Chem., 1953, 204(1), 367—377

[38] Duvigneaud V., Chandler J. P., Simmonds S., Moyer A. W., Cohn M.,J.Biol.Chem., 1946, 164(2), 603—613

[39] Artom C., Crowder M.,Fed.Proc., 1949, 8(1), 180—181

(Ed.: D, K)

EESI-MS Detection and Statistical Analysis of Multi-batch of Exhaled Breath Metabolomics Data of Liver Failure Patients†

LI Penghui1, DENG Lingli1, 2, LUO Jiao3, LI Wei3, NING Jing1, DING Jianhua1, WU Xiaoping3*

(1.EastChinaUniversityofTechnology,JiangxiKeyLaboratoryforMassSpectrometryandInstrumentation,Nanchang330013,China;2.EastChinaUniversityofTechnology,InformationEngineeringCollege,Nanchang330013,China;3.TheFirstAffiliatedHospitalofNanChangUniversity,Nanchang330123,China)

In metabolomics studies, the number of samples should be enough to guarantee the reliability of data statistical analysis. The effective storage time of exhaled breath is short, and it is difficult to collect and detect a large number of breath samples in a short time. Combining multi batches of samples may obtain a large data, but usually there is a large variance between batches induced by ambient air varying. In this paper, the exhaled breath data of liver failure patients and healthy volunteers were obtained by high resolution extractive electrospray ionization mass spectrometry(EESI-MS) and then analyzed by multi-block partial least square(MB-PLS). The results were compared with traditional PLS method and showed its strength of removing the variance of batches for modeling. Moreover, we provided a variable selection strategy that based on variable importance in the projection(VIP) of MB-PLS to reduce the redundancy of data and eliminate the effect of non-information variables for modeling, and the performance of MB-PLS model had a great improvement.

Exhaled breath; Metabolomics; Extractive electrospray ionization mass spectrometry; Multi-block partial least square analysis

10.7503/cjcu20150826

2015-10-27;

日期: 2016-03-18.

江西省重大科技创新研究项目(批准号: 20124ACB00700)、 长江学者和创新团队发展计划项目(批准号: IRT13054)和国家自然科学基金(批准号: 21265002)资助.

O657.6

A

联系人简介: 邬小萍, 女, 教授, 主要从事传染病临床研究. E-mail: wuxiaoping2823@aliyun.com

† Supported by the Jiangxi Major Scientific and Technological Innovation Research Project, China(No.2012ACB00700), the Program for Changjiang Scholars and Innovative Research Team in University, China(No. IRT13054) and the National Natural Science Foundation of China(No.21265002).

猜你喜欢

组学质谱气体
影像组学在肾上腺肿瘤中的研究进展
二维定常Chaplygin气体绕直楔流动
气相色谱质谱联用仪在农残检测中的应用及维护
非等熵Chaplygin气体测度值解存在性
吃气体,长大个
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
和大气层中的气体做游戏
代谢组学在多囊卵巢综合征中的应用
枣霜化学成分的色谱质谱分析
气相色谱-三重四级杆质谱测定环境样品中17种二