代谢组学数据预处理谱峰对齐方法的研究现状*

2015-01-27蔡富文刘美娜

中国卫生统计 2015年5期

关键词：谱峰代谢物组学

蔡富文罗潇谢彪刘美娜

哈尔滨医科大学公共卫生学院卫生统计学教研室(150081)

代谢组学数据预处理谱峰对齐方法的研究现状*

蔡富文罗潇谢彪刘美娜△

哈尔滨医科大学公共卫生学院卫生统计学教研室(150081)

代谢组学(metabolomics/metabonomics)是继基因组学、转录组学和蛋白质组学之后新近发展起来的一门学科，是目前组学研究领域的热点之一。其概念最早是由英国学者Nicholson等[1]在1999年基于核磁共振(nuclear magnetic resonance，NMR)分析的基础上提出的，通过对生物体液、组织和细胞提取物随时间变化的代谢物运用核磁共振、色谱、质谱等分析技术进行检测[2-3]，结合有效的模式识别方法进行定性和定量分析，将获得的代谢图谱数据借助化学计量工具和模式识别软件转换成相应的信息，并将这些代谢产物信息与病理生理过程中的生物学事件关联起来，了解机体生命活动的代谢过程。随着研究的不断深入，代谢组学技术已经应用于多种疾病的诊断、治疗、预后[4-6]。

在实验检测过程中，由于多种因素的影响，代谢组学原始色谱图容易出现谱峰漂移和一些系统偏倚，因此需要对原始色谱数据进行相应预处理，便于后续的统计分析。代谢组数据预处理方法众多，本文主要介绍谱峰对齐算法。

代谢组学数据预处理

色谱、质谱(MS)和核磁共振(NMR)等高通量、高灵敏度、高分辨率的仪器是代谢组学常用的技术检测手段[7]，但是由于仪器设备的性能、样本预处理中溶剂浓度和PH值、实验温度等因素的影响，原始色谱图会产生一些谱峰漂移，并且原始色谱图由于数据量大、数据点相关性高、基线畸变等因素的影响而不能直接拿来做多元数据统计分析。因此，通常需要对原始色谱数据进行预处理。代谢组数据预处理包括分段积分(binning)(主要针对NMR数据)，归一化(normalization)，标度化(scaling)，滤噪(filtering)和色谱峰对齐(alignment)等方法[8]。

谱峰对齐的重要性

从原子微观角度分析，局部逆磁贡献、局部顺磁贡献、分子内邻近基团各向异性效应、环境效应、电场效应、溶剂或介质效应等因素都会影响代谢物的化学位移而产生谱峰漂移，如含有相似官能团的不同代谢物出现相似的保留时间。从实验宏观角度分析，样本组成成分、溶剂pH值、溶液中离子浓度、实验温度、磁场稳定性等因素会导致谱图上不同样本之间同一代谢物的化学位移不一致，产生谱峰漂移。谱峰漂移使实际代谢谱图变得复杂，导致变量与代谢物之间的对应关系变得混乱，给代谢物归属、定量和模式识别带来困难，影响后续的生物标志物辨识，因此谱峰对齐成为代谢组学数据预处理过程中的一个关键步骤[9]。

谱峰对齐算法介绍

谱峰对齐算法主要分为三类。第一代算法，即轮廓对齐，只根据保留时间来进行对齐，如相关优化解缠法(correlation optimized warping，COW)[10-12]。轮廓对齐方法仅利用保留时间进行谱峰对齐，而具有相似化学官能团的化合物会出现相似的保留时间，损失掉化合物的相关信息会导致结果出现较高的假阳性率。第二代算法，是将样本的原始数据转变成化合物的峰值列表，每一个化合物都由它的保留时间、质谱和相关特征信息来进行描述。同时利用保留时间和化合物碎片离子的质谱信息进行谱峰对齐，能降低对齐算法的假阳性率，如光谱排序算法(mass spectrometry peak sorting algorithm，MSort)[13]、距离和频谱相关优化对齐(distance and spectrum correlation optimization alignment，DISCO)[14]和多尺度谱峰对齐算法(multiscale peak alignment，mSPA)[15]等。第三代算法，是基于模型的谱峰对齐算法，能处理同质数据和异质数据，不需要进行任何形式的数据转换，如基于经验贝叶斯模型(empirical Bayes model，EBM)[16-18]的谱峰对齐算法等。

1.COW(correlation optimized warping，COW)

(1)将长度为LP的待对齐色谱图分割成长度为m的N个部分：

N=Lp/m

(2)每一个部分通过卷积来进行缩小或延伸：

COW算法是将色谱图分割成各个部分，进行分段对齐，每一个部分都被缩小或者延伸来与参考谱进行最佳拟合，利用动态规划方法寻找全局最优的谱图分割，利用相关系数最大法计算各段的漂移量。由于动态规划的执行、相关系数的计算都较费时，因此COW算法的计算较复杂。Nielsen等人的研究指出COW适用于各种类型的色谱数据，在进行谱峰对齐过程中利用的是全色谱数据信息，是一种较精确的对齐算法，不需要任何形式的特征提取，对噪声和时间基线变异不敏感。

2.MSort(massspectrometrypeaksorting，MSort)

MSort算法使用固定大小的用户自定义保留时间窗口，但窗口大小影响着处理软件的可靠性和有效性。具有相同化学官能团的不同代谢物会出现相似的保留时间，在进行谱峰对齐时容易出现较高的假阳性率，而MSort算法使用保留时间和碎片离子的质谱信息能降低谱峰对齐算法的假阳性率，但此算法不能对来自不同实验条件的代谢组数据(异质数据)进行谱峰对齐，例如不同温度梯度下得到的代谢组数据。Cheolhwan等人使用标准代谢产物的混合物、人类血清与标准代谢产物的混合物这两种样本数据来对此算法进行研究，结果表明MSort算法在这两种类型的样本数据中谱峰排序精确性都较高。

3.DISCO(distanceandspectrumcorrelationoptimization，DISCO)

(1)峰条目的峰值合并

其中Api为第i个待合并的峰条目的峰面积，k为待合并的峰条目的个数，RTpi为第i个待合并的峰条目的保留时间。

(2)寻找标志峰

对色谱中谱峰的保留时间进行Z值转换，然后计算谱峰保留时间之间的欧几里得距离，选取距离最小的谱峰再计算其质谱之间的相关系数，根据得到的相关系数值来选取标志峰。

对色谱中的保留时间进行如下的Z值转换：

其中RT1z是经Z值转换后的一维保留时间，RT1是原始的一维保留时间，RT1μ是原始峰值列表中一维保留时间的均值，RT1σ是原始峰值列表中一维保留时间的标准差。二维保留时间转换公式中的字母符号与一维保留时间相同。

谱峰之间相关系数计算公式如下：

R(pc,p1)=

其中Ic和Il是两个碎片离子谱中有相同荷质比(m/z)的碎片离子峰强度。

DISCO算法是对代谢产物的峰条目进行识别，将同一个代谢产物的多个峰条目合并成一个峰条目放入峰值列表中。在对代谢物的保留时间进行Z值转换之后，通过计算所有样本中保留时间和质谱碎片离子的Pearson相关系数来选择标志峰。利用局部线性拟合方法来对非线性保留时间扭曲进行校正，最后通过保留时间地图搜索方法来对所有样本中代谢物的谱峰进行对齐。DISCO算法是MSort算法的改良版本，同MSort算法相似，同时利用保留时间和碎片离子的质谱信息进行对齐，降低了对齐算法的假阳性率。它可以对标志峰进行保留时间的自动切割，不需要对切割的长度和最大翘曲值进行设置，避免了参数选择不恰当和样本不一致性对结果的影响。在Z值转换中，使用欧几里得距离来进行标志峰的寻找，可以处理由不同实验条件所造成的保留时间漂移。此算法使用局部线性拟合方法对保留时间进行校正，可以处理由实验错误引起的非线性翘曲的保留时间漂移。Wang等人利用来自不同实验条件下的样本进行谱峰对齐来评估此算法的性能，研究指出DISCO所选择的标志峰其覆盖面所占比例更高，保证了对保留时间漂移进行校正和谱峰对齐的可靠性。DISCO算法可以有效地运用于进一步的数据分析之中，如模式识别和统计显著性检验。

4.mSPA(multiscale peak alignment，mSPA)

(1)小波函数：

其中a是尺度参数，b是平移参数，ψ(t)是母波函数。

(2)波转换公式：

其中s(t)是信号，C是波系数的二维矩阵。

mSPA算法利用谱峰检测与合并，将谱图划分为多重峰(谱峰团簇)的组合，利用信息熵以谱峰团簇为单元对谱图进行逐步细分，迭代实现多尺度谱峰对齐。mSPA算法的计算复杂度低，但对齐效果取决于谱峰团簇的划分，算法的自适应不够。并且mSPA算法只适用于代谢物保留时间漂移较小的同质数据，因此将代谢物的保留时间转换为保留时间指数即标准化保留时间用于代谢物的谱峰对齐，其性能不是很好。Zhang等人的研究使用模拟数据和真实的色谱数据将mSPA与另外两种谱峰对齐方法RAFF和COW进行比较，结果表明mSPA能较好地保持峰形的完整性，对于保留时间的非线性漂移处理性能较好，并且在峰对齐过程中有着较快运行速度。

5.EBM(empiricalBayesmodel，EBM)

EBM是一个分层统计模型，主要分为四层：

(1)参考谱中的化合物j出现在目标谱中的边缘概率：

P(Yj=1)=ρ,j=1,2,…,N

其中N为参考谱中谱峰的个数。

(2)根据给出的Yj信息，可以估计代谢产物j与目标谱中化合物匹配的条件概率。根据Yj的值，存在两种情形下的条件概率P[Zj=1|Yj=0]和P[Zj=1|Yj=1]。

(3)参考谱中化合物j出现在目标谱中，并且与目标谱中化合物匹配的条件下的概率：

P(Wjl=1|Yj=1,Zj=1)=τ，0<τ<1

(4)利用混合模型来描述混合相似性得分的分布，模型如下：

f(Sj|Wj)=ΠfT(Sjl;ØT)WjlfF(Sjl;ØF)(1-Wjl)

其中，f是混合密度；fT和fF分别表示正确匹配和错误匹配得分的分布；ØT和ØF是相关参数。

基于EBM的谱峰对齐方法主要包括峰匹配和保留时间调整这两个部分。通过构建EBM分层统计模型，以后验概率的形式来进行峰匹配，并计算峰匹配的置信度，选取具有较高匹配置信度的谱峰对，产生有代表性的标志峰，利用这些峰的保留时间制作网格，根据待对齐谱峰的保留时间是否位于网格内来对保留时间进行相应调整。基于EBM的谱峰对齐算法是在结合其他方法优点的基础上，一种基于分层统计模型的算法，适用于同质数据和异质数据，在数据处理过程中不需要进行任何形式的数据转换，能较好地处理实验组间和组内的变异。Jeong等人使用标准代谢物混合物的实验数据证实基于EBM的谱峰对齐算法比非模型算法DISCO、mSPA的性能好。mSPA只能处理同质数据，EBM和DISCO都适用于同质数据和异质数据，但是EBM在进行谱峰匹配时不需要对保留时间进行任何形式的数据转换，而DISCO则需要对保留时间进行Z值转换。

小结

代谢组学的实验结果通常存在着实验间的变异和实验内的变异，实验间变异比实验内变异的量级要高，特别是保留时间，主要取决于实验性能的设置。代谢组学数据的预处理，尤其是峰对齐，是一项十分耗费时间的工作，是代谢组学数据预处理的一个难点。

近年来，代谢组学研究者提出了多种谱峰对齐算法[19]，谱峰对齐自动算法也日趋完善，但这些算法中假设的模型都不能捕获真实的信息，任何一个峰对齐预处理步骤都会导致信息的丢失和模型的偏倚。在对齐过程中需要考虑引起信号畸变程度及对齐的精细程度问题。有一些算法的复杂性和自定义参数的优化使得运行的时间较长，需要考虑计算速度和对计算机内存的需求。对于输入参数的问题，涉及到数据处理能否自动化及对操作人员的专业和经验要求。另外，有的算法需要进行成对的比较和选择参考样本，同样使得算法比较耗费时间。目前所提出来的这些方法都缺少实证比较，没有统一的标准来衡量哪一种算法的性能更好，研究者在算法的选择方面依然存在着一定的困难。

通过研究，本文对谱峰对齐方法选择提出以下建议：

1.在代谢组学的数据研究中，当获得需要预处理的色谱数据为全色谱信息，并且没有进行峰检测、特征提取时可以考虑COW算法。该算法适用单一色谱数据，如标准气相色谱法-火焰离子检测的二维数据或高效液相色谱中单波长紫外检测数据；多种色谱数据，如高效液相色谱联合二级阵列管的三维数据或气相色谱-傅里叶转换红外光谱数据。COW算法结果精确，但计算复杂、费时。

2.在实验中由于各种实验因素和代谢物中官能团的影响，不同代谢物可能会出现相同的保留时间，因此仅利用保留时间进行色谱峰对齐会出现较高的假阳性率。Msort算法和DISCO算法同时利用保留时间和碎片离子的质谱信息进行峰对齐，可以降低峰对齐算法的假阳性率。当数据具有异质性，不宜选用Msort算法；DISCO算法对非模拟的真实生物样本数据，处理效果较好。另外，如果需要进行进一步的数据分析，宜选用DISCO算法，其峰对齐结果可以有效地运用于模式识别和统计显著性检验中。

3.当数据是在相同实验配置下获得的同质数据，且代谢物保留时间漂移较小时，可以选择计算复杂度较低的mSPA算法。但此算法对齐效果取决于谱峰团簇的划分，自适应能力不强。当数据是在不同实验配置下获得的异质数据时，最好选择基于分层统计模型的EBM算法。该算法不需要进行任何形式的数据转换，能较好地处理实验组间和组内的变异。

[1]Nicholson JK,Lindon JC,Holmes E.Metabonomics:understanding the metabolic responses of living systems to pathophysiological stimuli via multivariate statistical analysis of biological NMR spectroscopic data.Xenobiotica,1999,29(11):1181-1189.

[2]Bollard ME,Stanley EG,Lindon JC,et al.NMR-based metabonomic approaches for evaluating physiological influences on biofluid composition.NMR Biomed,2005,18(3):143-162.

[3]Moolenaar SH,Engelke UFH,Wevers RA.Proton nuclear magnetic resonance spectroscopy of body fluids in the field of inborn errors of metabolism.Ann Clin Biochem,2003,40(1):16-24.

[4]Brindle JT,Antti H,Holmes E,et al.Rapid and noninvasive diagnosis of the presence and severity of coronary heart disease using 1H-NMR-based metabonomics.Nature Med,2002,8(12):1439-1444.

[5]隆琦，陈楠.代谢组学在疾病中的应用进展.医学综述，2010，16(9):100-1302.

[6]Zhao XJ,Fritsche J,Wang JS,et al.Metabonomic fingerprints of fasting plasma and spot urine reveal human pre-diabetic metabolic traits.Metabolomics,2010,6(3):362-374.

[7]赵维薇，许文涛，王龑，等.代谢组学研究技术及其应用.生物技术通报，2011(12):57-64.

[8]亓云鹏，胡杰伟，柴逸峰，等.代谢组学数据处理研究的进展.计算机与应用化学，2008，25(9):1139-1142.

[9]黄赫，邓伶莉，周玲，等.一种新的核磁共振谱峰对齐算法.光电技术应用，2013，28(2):51-54.

[10]Nielsen NPV,Carstensen JM,Smedsgaard J.Aligning of single and multiple wavelength chromatographic profiles for chemometric data analysis using correlation optimized warping.Journal of Chromatography A,1998,805:17-35.

[11]Tomasi G,F van den Berg,Andersson C.Correlation optimized warping and dynamic time warping as preprocessing methods for chromatographic data.Journal of Chemometrics,2004,18(5)：231-241.

[12]Christin C,Smilde AK,Hoefsloot HCJ,et al.Optimized time alignment algorithm for LC-MS data:correlation optimized warping using component detection algorithm-selected mass chromatograms.Anal Chem,2008,80(18):7012-7021.

[13]Cheolhwan Oh,Huang XD,Regnier FE,et al.Comprehensive two-dimensional gas chromatography/time-of-flight mass spectrometry peak sorting algorithm.Journal of Chromatography A,2008,1179(2):205-215.

[14]Wang B,Fang A,Heim J,et al.DISCO:distance and spectrum correlation optimization alignment for two-dimensional gas chromatogramphy time-of-flight mass spectrometry-based metabolomics.Anal Chem,2010,82(12):5069-5081.

[15]Zhang ZM,Liang YZ,Lu HM,et al.Multiscale peak alignment for chromatographic datasets.Journal of Chromatography A,2012,1223:93-106.

[16]Jeong J,Zhang X,Shi X,et al.An efficient post-hoc integration methods improving peak alignment of metabolomics data from GCxGC/TOF-MS.BMC Bioinformatics,2013,14(1):123.

[17]Jeong J,Shi X,Zhang X,et al.Model-based peak alignment of metabolomic profiling from comprehensive two-dimensional gas chromatography mass spectrometry.BMC Bioinformatics,2012,13:27.

[18]Jeong J,Shi X,Zhang X,et al.An empirical Bayes model using a competition score for metabolite identification in gas chromatography mass spectrometry.BMC Bioinformatics,2011,12:392.

[19]Smith R,Ventura D,Prince JT.LC-MS alignment in theory and practice:a comprehensive algorithmic review.Briefings in Bioinformatics,2013.

(责任编辑：郭海强)

黑龙江省自然科学基金项目(ZD201314)

△通信作者：刘美娜，Email:liumeina369@163.com