代谢组学方法研究进展
2015-12-22郭盛磊杨玉焕
纪 勇,郭盛磊,杨玉焕*
(1.东北林业大学盐碱地生物资源环境研究中心,东北油田盐碱植被恢复与重建教育部重点实验室,黑龙江哈尔滨150040 2.黑龙江中医药大学药学院,黑龙江哈尔滨150040)
代谢组学是系统生物学的重要组成部分,是通过观察生物体系(细胞、组织或生物个体)受外部刺激(如外部环境因素的变化或某些疾病的出现)后其代谢路径以及相应代谢产物与非刺激条件下的变化区别研究生物体系的一门科学。代谢组学主要研究相对分子量小于1 000 Da的内源性小分子物质。1999年,Nicholson等[1]首次提出代谢组学的概念,使用“Metabonomics”一词,通过对核磁共振(Nuclear magnetic resonance,NMR)的生物数据进行多元统计分析来阐释病理以及生理上的刺激对生物体代谢产生的变化。2000年,Fiehn等[2]提出“Metabolomics”的概念,认为代谢组学主要进行代谢物靶标分析、代谢轮廓分析、代谢物定性定量分析、代谢指纹分析4个层次的分析。
代谢组学作为一种研究手段,主要具有如下优点:①代谢组学反映生物体在各个因素综合作用下的终末效应,是这些效应的综合体现,具有很强的综合信息优势;②其代谢物种类远小于所对应的基因和蛋白质数目,研究相对简单;③基因和蛋白质表达的微小变化会在代谢物水平上得到放大,因此更容易检测;④很多内源性小分子化合物的生化代谢途径已较清楚;⑤许多代谢产物已作为疾病的特异性标志物用于临床诊断。代谢组学的试验流程通常包括以下阶段:①前期试验方案设计;②样品的前处理;③仪器进样分析;④数据处理与分析;⑤阐释相关生物学意义。
1 前期试验方案设计
在进行样品前处理之前大都要拟定相关的试验方案。通过明确试验的研究内容、目的、意义来优化前期的样品处理。根据样品物种来源(如植物、动物、微生物等),需要找到样品前处理的最优方法。例如,在设计人源样本的相关试验时,需考虑样本之间的差异因素(如年龄、性别、身体状况、接触的外部环境等)[3]以及相同因素样本的数量[4],使得样本(即试验样本与对照样本)之间具有可对比性。在设计植物样本前处理时,应将植物组织中的细胞壁充分破碎。同时,细胞内的代谢成分不被破坏。Ducruix等[5]使用Tris和甲醇(含有秋水仙素和肾上腺皮质激素)提取液超声萃取拟南芥的细胞的代谢产物,在破坏细胞壁结构的同时,又能有效地提取相应的代谢产物。另外,根据试验样本基质不同(如尿液、血浆、细胞、组织等),在前处理时需要考虑不同样本之间不同的前处理方法,达到最优的试验预期效果[6]。
2 样品前处理
样品前处理旨在最大限度地将样本中的杂质(如一些蛋白质、糖类、脂肪等)除去,同时能较完整地保留样品中的整体代谢产物或特异性的目标代谢产物。目前,代谢组学研究最广泛的是其在临床上的应用。因此,在处理人的尿液、血浆、细胞、组织过程中会有多种提取方法,如处理尿液、血浆一般采用液液萃取法,而细胞、组织则多采用超声破碎提取。
由于液液萃取,不能最大限度地除去样品杂质,保留样本中的相关代谢物。近些年来,固相萃取(Solid phase extraction,SPE)相关技术的出现能更好地去除样品中的杂质,保留样品中的代谢物。Chetwynd等[7]使用SPE来分析人类尿液,在尿液中鉴定出24种代谢产物。使用SPE能更好地降低基质效应,从而提高检测灵敏度。
王亚平[8]在尿液样品前处理时对直接进样分析、液液萃取、沉淀蛋白、固相萃取(SPE)4种前处理方法进行对比试验。结果表明,沉淀蛋白和直接分析方法处理后得到的样品中尿素浓度过高,离子抑制现象较明显,甚至超过色谱柱容量,导致重现性不好;乙酸乙酯等有机试剂的萃取方法能够检测到极性小的I相代谢产物,极性大的II相代谢产物则会丢失;而SPE法能够同时检测I和II相代谢产物,且离子抑制现象不明显。综上所述,SPE法是研究代谢组学较理想的前处理方法。
3 仪器进样分析
目前,代谢组学主要有液相与质谱联用技术(LC-MS)、气相与质谱联用技术(GC-MS)、核磁共振技术(NMR)3种分析平台。Web of Science的数据显示,LC-MS是目前最主要的代谢组学分析平台,其次为NMR,GC-MS使用相对较少。3种分析平台的特点、局限性见表1。3.1 LC-MS 由于目前代谢组学的研究大多集中在临床医学、药理分析领域,而其试验样本大多为人体尿液、血浆、细胞、组织等,这些样本中的代谢物大都能较好地电离。另外,LC-MS灵敏度较高,检测限为ppb(即十亿分之一),可用于痕量分析。根据液相的柱效,可分为HPLC(高效液相色谱)和U(H)PLC(超高效液相色谱)。以Waters公司的ACQUITY UPLC®系统为例,其分析样本所需时间为HPLC的1/3,灵敏度提高了4倍,分离度提高了2倍;使用试剂节省95%。有研究表明,当用UPLC-MS和HPLC-MS分析同样的大鼠尿液时,前者的灵敏度、峰响应值以及分离的物质种类均优于后者,且前者的分析时间较后者大大缩短,更适用于高通量样品分析[9]。而且,在代谢组学样品分析过程中,可使用填料不同的色谱柱(如 C18,Amid,HILIC,T3,Phenyl等),能更全面地分析样本中代谢物的差异,从而更方便地找到潜在的生物标记物。
表1 代谢组学3种主要分析平台对比
根据电离方式不同,可分为电喷雾离子源(Electron spray ionization,ESI)和大气压化学电离源(Atmospheric pressure chemical ionization,APCI)2种工作方式的质谱。ESI可同时分析挥发性和非挥发性代谢产物,适用于离子型以及极性化合物的鉴定分析。它灵敏度较高,能分析大分子量的化合物(分子量大于1 000 Da)。APCI相较于ESI基质效应小,且受流动相缓冲盐影响较小。APCI主要分析非极性以及小分子的化合物(相对于用ESI电离的化合物而言)。因此,在代谢组学的研究过程中,可同时使用不同的电离源,使得样品中的代谢产物更全面[10]。
根据质量分析器工作原理,质谱主要可分为三重四极杆(Triple quadrupole,TQD)、飞行时间(Time of flight,TOF)、傅里叶变换离子回旋共振(Fourier transform ion cyclotron resonance,FTICR)以及离子阱(Ion trap)。其中,三重四级杆质谱由于其重现性较好主要用于医药、食品安全、大气环境科学等领域的定量分析,因此它可分析代谢组学中已知的某些特定的代谢产物在体内代谢含量的变化[11];而后3种一般被称为高分辨质谱,主要用于代谢组学中的定性分析。
近年来,飞行时间质谱(TOF)与超高效液相色谱(UPLC)串联即UPLC-TOF,能更快速、更精确地分析代谢产物。Shi等[12]研究患有阿尔茨海默症SD大鼠的脑组织样本,使用UPLC-TOF对样本进行了分析,发现酪氨酸、精氨酸、谷氨酰半胱氨酸、N-乙酰半胱氨酸、牛磺酸等10种潜在的生物标记物。
3.2 GC-MS 由于GC-MS在分析样品时需要进行衍生化处理以及只能分析易挥发且较稳定的物质,GC-MS的应用受到了较大的限制[13]。目前,GC-MS在代谢组学的研究中大多作为靶向性物质的分析,亦或作为非靶向性代谢组学LCMS的一种补充。
GC-MS有电子轰击电离(Electron impact,EI)、正化学电离(Chemical ionization,CI)、负化学电离 (Negative chemical ionization,NCI)3种电离方法,其中前两者较常用。EI具有非选择性电离的特点,只要样品气化都能够离子化,离子化效率高且碎片较丰富,而丰富的碎片离子能够提供分子结构的一些重要的官能团信息。CI电离产生的碎片较少,但它能产生准分子离子(Pseudo-molecular ions,M+1),有利于相对分子质量的测定。NCI主要用于带电负性基团的化合物如含卤素的一些化合物[14]。
GC-MS的质量分析器常用的有四级杆质量分析器、离子肼质量分析器、飞行时间质量分析器3种。近年全二维气相色谱(Comprehensive two-dimensional gas chromatography,GC×GC)的发展与应用比传统一维的气相色谱更适合分析诸如代谢组学中成分复杂的样品。GC×GC具有分辨率高、峰容量大、灵敏度高、分析时间短等特点[15]。因此,它与TOF串联使用既能精确地分离样品中的代谢物,又能很好地对代谢物的相对分子质量进行精准测定。Beckstrom等[16]对非灵长类动物围产期窒息个体的血清样本(含肝素)进行GC×GC-TOFMS分析,发现10种显著性的差异代谢物,其中包括一些已知的生物标记物如乳酸与肌酸酐以及一些特异的差异代谢物如琥珀酸、苹果酸、花生四烯酸。这3种酸可以作为潜在的生物标记物。Li等[17]分析了Ⅱ型糖尿病患者的血浆样本,发现葡萄糖、2-羟基异丁酸、亚油酸、棕榈酸和磷酸盐5种潜在的生物标记物。
3.3 NMR核磁共振产生的光谱通过强磁场和射频(RF)脉冲作用到原子核形成的。对于原子与任一个奇数质量数(如1H、13C等),磁场的存在将导致原子核具有旋转能力,也就是核自旋。射频能量的吸收会使原子核从低能量旋转状态跃升至高能量状态,随后就能检测到弛豫过程中所发射的射线。NMR图谱(特别是化学位移)是根据电子绕原子核运行所产生的屏蔽效应所做出的。人们通过目标质子与参照物质中相对应的质子之间共振频率的差异(百万分之一)来确定1H NMR的化学位移。通常,试验中人们将四甲基硅烷溶液设置成0 mg/L。化学位移的变化量一般为:1H在0~10 ppm;13C在0~250 ppm[18]。信号强度取决于相同原子核的数量。
NMR分析样本时不具有破坏性,且不需要过多的前处理(可直接进样),因此可较全面地分析样本成分,不具有偏向性,但其灵敏度较MS低,难以准确地进行定量分析,故而限制其在代谢组学中的应用。目前,NMR只能对样品中含量较高的代谢物进行定性分析。近年来,NMR作为代谢组学研究中的重要分析平台已被广泛地应用于临床医学诊断中,如脑癌、上皮性卵巢癌、肺癌等癌症以及阿尔茨海默症、肌萎缩侧索硬化、精神分裂症等神经性疾病[19]。
目前,代谢组学进行样本分析时多采用3种平台同时分析,从而能更加全面地分析样品的代谢物组成变化,有利于找到更多的潜在生物标记物。
4 数据处理分析
代谢组学研究中的数据分析包括无监督模式识别方法和有监督模式识别方法,其中无监督模式识别方法主要包括主成分分析(Principal component analysis,PCA)、分层聚类分析(Hierarchical cluster analysis,HCA)等;有监督识别模式方法主要包括偏最小二乘判别分析(Partial least squares-discriminant analysis,PLS-DA)、正交信号校正技术偏最小二乘分析(Orthogonal signal correction partial least squares,OPLS)、正交信号校正技术偏最小二乘判别分析(Orthogonal signal correction partial least squares-discriminant analysis,OPLSDA)、随机森林分析(Random forests,RF)等。其中,PCA、PLS-DA、OPLS-DA使用最广泛。
PCA数据处理后生成的图有两种,一种为得分图,另一种为载荷图。另外,根据图形的维度可分为2D图和3D图。得分图反映各个样品在空间中的分布情况,可用于观察样品的离散情况。样品点分布越靠近,说明这些样品的组成接近;样品点分布越远,说明样品间差异越大。PCA中的载荷图可反映样品变量分布情况,可利用其识别样品间潜在的差异化合物。
而PLS-DA与OPLS-DA是在明确样品分类的情况下,使不同类别样品尽可能地分开,它们的分类效果要比PCA更好。与PLS-DA相比,OPLS-DA既能更有效地消除数据集中的干扰信息对分类判别的影响,又能充分发挥样品分类属性的识别作用,提高分类能力。当获得分类识别以后,可使用模型变异权重系数(Variable importance for the projection,VIP)对数据进行分析,通过VIP图来筛选差异化合物(VIP值一般大于1),然后将这些物质的谱图与NIST、Metlin、HMDB等数据库进行比对,进而找到潜在的生物标记物。
代谢组学数据统计分析的主要目标是简化数据结构,达到判别分类的目的,从而为寻找代谢差异物提供数据依据。另外,也可以通过建立数据处理模型,分析代谢差异物的代谢调控关系。代谢组学基本的数据处理流程见图1。
代谢组学研究检测到的是海量多维的数据。分析这些数据,需要借助专门的数理统计和生物信息学软件,从而快速、高效地呈现可视化的分析结果。目前,代谢组学常用的软件可大致分为两类:一类是开放性软件,包括MATLAB(Matrix laboratory)、SAS(Statistics analysis system)、SIMCA(Soft independent modeling of class analogy)-P、R 软件、XCMS等;另一类是仪器自带软件,包括 MarkerLynx(Waters)、MassHunter(Agilent)、MarkerView(Applied Biosystems/MDS SCIEX)、Bruker Profile Analysis(Bruker)等。
5 阐释生物学意义
代谢组学的最终目标就是要找到生物体受到某种外界刺激后产生的代谢途径变化,即通过生物统计的方法分析仪器中的数据,尽可能多地找到生物标记物,利用这些标记物描绘出这种代谢途径的变化。目前,代谢组学主要应用于临床诊断分析上,通过对一些疾病的生物标记物的检测,既迅速又准确地诊断疾病[20]。此外,还可以用于对临床上的差异化治疗提供依据[21]。另外,代谢组学在植物胁迫领域里的应用也有较广泛的应用前景[5]。
6 结语
尽管代谢组学领域中已有许多成果,但目前还有很多问题亟待解决。首先,3种分析平台都有分析样品的局限性,不能较全面地分析样品内代谢物的组成成分,也就不能更客观地掌握代谢途径的变化趋势,因此,需要突破分析平台的这种局限性。其次,在数据前处理时,在降低背景化学噪声、变异校准、峰匹配的过程中会出现一些系统性的错误,导致产生一些人为添加的数据信息。最后,在数据分析过程中,分析模型具有不确定性,不能较精准地分析数据。这需要我们建立更精确的数据分析模型,发现更多的生物标记物。
[1]NICHOLSON J K,LINDON J C,HOLMES E.‘Metabonomics’:Understanding the metabolic responses of living systems to pathophysiological stimuli via multivariate statistical analysis of biological NMR spectroscopic data[J].Xenobiotica,1999,29(11):1181 -1189.
[2]FIEHN O,KOPKA J,DORMANN P,et al.Metabolite profiling for plant functional genomics[J].Nature biotechnology,2000,18(11):1157 -1161.
[3]THEODORIDIS G,GIKA H G,WILSON I D.LC-MS-based methodology for global metabolite profiling in metabonomics/metabolomics[J].TrAC trends in analytical chemistry,2008,27(3):251 -260.
[4]GIKA H G,THEODORIDIS G A,PLUMB R S,et al.Current practice of liquid chromatography-mass spectrometry in metabolomics and metabonomics[J].J Pharm Biomed Anal,2014,87:12 -25.
[5]DUCRUIX C,VAILHEN D,WERNER E,et al.Metabolomic investigation of the response of the model plant Arabidopsis thaliana to cadmium exposure:Evaluation of data pretreatment methods for further statistical analyses[J].Chemometrics and intelligent laboratory systems,2008,91(1):67-77.
[6]GIOVANE A,BALESTRIERI A,NAPOLI C.New insights into cardiovascular and lipid metabolomics[J].Journal of cellular biochemistry,2008,105(3):648-654.
[7]CHETWYND A J,ABDUL-SADA A,HILL E M.Solid-phase extraction and nanoflow liquid chromatography-nanoelectrospray ionization mass spectrometry for improved global urine metabolomics[J].Analytical chemistry,2015,87(2):1158 -1165.
[8]王亚平.抗肿瘤候选新药CAT体内代谢及其药物代谢组学的LC-MS/MS分析方法研究[D].北京:中国医学科学院北京协和医学院,2012.
[9]LENZ E M,WILSON I D.Analytical strategies in metabonomics[J].Journal of proteome research,2007,6(2):443 -458.
[10]WAYBRIGHT T J,VAN Q N,MUSCHIK G M,et al.LC-MS in metabonomics:Optimization of experimental conditions for the analysis of metabolites in human Urine[J].Journal of liquid chromatography & related technologies,2006,29(17):2475 -2497.
[11]TOYOOKA T.Determination methods for biologically active compounds by ultra-performance liquid chromatography coupled with mass spectrometry:Application to the analyses of pharmaceuticals,foods,plants,environments,metabonomics,and metabolomics[J].Journal of Chromatographic Science,2008,46(3):233 -247.
[12]SHI J,WANG Y,LUO G.UPLC-TOF MS-based metabonomic study on coadministration of huperzine A and ligustrazine phosphate for treatment of alzheimer's disease[J].Chromatographia,2011,74(11/12):827 -832.
[13]许国旺,叶芬,孔宏伟.全二维气相色谱技术及其进展[J].色谱,2001(2):132 -136.
[14]XU F,ZOU L,ONG C N.Experiment-originated variations,and multipeak and multi-origination phenomena in derivatization-based GC-MS metabolomics[J].Trac-trends in analytical chemistry,2010,29(3):269 -280.
[15]LACINA P,MRAVCOVA L,VAVROVA M.Application of comprehensive two-dimensional gas chromatography with mass spectrometric detection for the analysis of selected drug residues in wastewater and surface water[J].Journal of environmental sciences-China,2013,25(1):204 -212.
[16]BECKSTROM AC,TANYA P,HUMSTON EM,et al.The perinatal transition of the circulating metabolome in a nonhuman primate[J].Pediatric Research,2012,71(4):338 -344.
[17]LI X,XU Z L,LU X,et al.Comprehensive two-dimensional gas chromatography/time-of-flight mass spectrometry for metabonomics:Biomarker discovery for diabetes mellitus[J].Analytica chimica acta,2009,633(2):257 -262.
[18]DUNN W B,ELLIS D I.Metabolomics:Current analytical platforms and methodologies[J].Trac-trends in analytical chemistry,2005,24(4):285 -294.
[19]ROUX A,DOMINIQUE L,CHRISTOPHE J,et al.Applications of liquid chromatography coupled to mass spectrometry-based metabolomics in clinical chemistry and toxicology:A review[J].Clin Biochem,2011,44(1):119 -135.
[20]EMWAS A H M,SALEK R M,GRIFFIN J L,et al.NMR-based metabolomics in human disease diagnosis:applications,limitations,and recommendations[J].Metabolomics,2013,9(5):1048 -1072.
[21]KADDURAH D R,KRISTAL B S,WEINSHILBOUM R S.Metabolomics:A global bio chemical approach to drug response and disease[J].Annual review of pharmacology and toxicology,2008,48:653 -683.