基于质谱技术的代谢组学分析方法研究进展
2021-01-22田鹤税光厚
田鹤 税光厚
(中国科学院遗传与发育生物学研究所,北京 100101)
代谢组学作为生物样本中小分子代谢物定性、定量研究的有力工具,已经成为注释基因功能、揭示细胞受外源性刺激后产生的各种内源性生理、生化反应的主要手段,并广泛用于各个研究领域,包括生命科学、疾病诊断、药物研发、营养学、毒理学、环境学及植物学等领域[1-7]。
自从Nicholson等[8]在1999年首次提出代谢组学概念以来,代谢组检测技术得到了快速发展。代谢组学研究主要依赖核磁共振(Nuclear magnetic resonance,NMR)和质谱技术(Mass spectrometry,MS)[9]。表1对NMR与MS技术特点做了总结。其中,NMR技术具有强大的结构解析能力和无偏向检测的优点[10]。对于跨越时间长、不同批次大量样本分析,NMR具有非常稳定的检测灵敏度。由于NMR技术无需破坏样品和非接触式检测,避免了样品残留在仪器系统中而导致的灵敏度和稳定性下降,从而有效保证定量的重复性和准确性。然而该技术对于复杂体系的生物样本检测,只能获取有限个代谢物的定性、定量数据,通常分析的代谢物数目不超过100个[11-12]。在采集代谢组数据时,NMR技术通过代谢物化学位移和裂分的特征信号来实现定性与定量,但是生物样本成分复杂,不同组分高低浓度可跨越8个数量级,众多代谢物信号叠加,使得该技术的特异性降低;同时,对于低含量成分的检测灵敏度远低于质谱技术,这些因素限制了其在生物样本中获取信息量的能力。与NMR技术相比,MS具有灵敏度高、选择性好、特异性强的优点,对于生物样本,在一次检测分析中,可以同时覆盖成千上万个分子的定性、定量信息。MS与气相色谱(Gas chromatography,GC)或液相色谱(Liquid chromatography,LC)联用技术,已成为最常用的代谢组学研究工具[9,13]。
表1 NMR、GC/LC-MS在代谢组分析中的优势和不足
GC-MS比较适合分析热稳定、易挥发或经衍生化后易挥发成分,不受复杂生物样本中基质效应的干扰[14]。并且在定性方面,具有大量可检索的质谱库等优势。不论GC-MS来自哪个厂家,利用电子轰击离子化(Electron impact ionization,EI)技术采集的质谱图,均可以很好地与检索的谱库匹配,实现准确定性。GC-MS方法可以同时测定几百个代谢物,分子量通常在600道尔顿以内,包括有机酸、氨基酸、糖、糖醇、芳胺和脂肪酸等。然而,GC-MS不适合检测极性大不易挥发或热不稳定的代谢物。同时,在离子化过程中,电子轰击施加的能量会使结构不稳定成分易于碎裂而难于检测到化合物的分子离子峰。LC-MS比较适合不稳定、难挥发的成分[14]。在一次检测分析中,可以检测生物样本中几千到几万个化合物,因此其应用于非靶向代谢物分析的覆盖度远高于GC-MS,在代谢组学研究中更为常用。
常见的适合与LC联用的质谱仪离子源,主要有电喷雾电离(Electrospray ionization,ESI)和大气压化学电离(Atmospheric pressure chemical ionization,APCI)[15-16]。其中ESI是最软的电离技术,可以通过优化仪器参数主要产生分子离子峰,是代谢组学研究中最常用的离子化技术,适用范围广,适合难挥发、热不稳定、中到高极性化合物的检测,比如溶血磷脂胆碱(Lysophosphatidylcholine,LysoPC)、溶血磷脂酰乙醇胺(Lysophosphatidylethanolamine,LysoPE)、脂酰基肉碱(Acyl carnitines)等。ESI技术的不足之处在于易受生物样本中基质效应的影响,且对弱极性和非极性化合物的离子化能力较弱。与ESI相比,大气压化学电离(Atmospheric pressure chemical ionization,APCI)更适合分析低极性和中性化合物,受基质效应干扰较小。但是,APCI技术不适合受热易分解成分的检测。此外,大气压光致电离(Atmospheric pressure photoionization,APPI)适合分析弱极性或非极性化合物,有较宽的线性动态范围和很高的灵敏度,且基质效应更小。
然而,质谱分析方法中,无论靶向还是非靶向检测,仍面临诸多挑战[17]。首先,样品前处理环节,生物样本中代谢物化学性质各异、成分复杂,无法用一种方法提取出全部代谢物。如脂溶性成分需要用氯仿等亲脂性有机溶剂提取;水溶性成分用乙腈、甲醇等亲水性有机溶剂提取;酸、碱性成分、易氧化代谢物更需要特定的提取条件;对于极微量成分(激素等)需要衍生化处理以增加仪器检测灵敏度。其次,样品检测环节,生物样本中代谢物高、低浓度间的差异远超出仪器检测动态范围,通常从几个皮克到几百个微克,跨越8个数量级,而质谱仪器检测动态范围在6个数量级,因此在一次分析中,当满足低浓度成分检测灵敏度时,高丰度代谢物的检测往往是过饱和的,导致错误的定量结果。同时,化学性质、结构不同的代谢物,其离子化效率会有较大差别,弱极性化合物很难被ESI技术检测,导致最终仅能获得易于离子化的代谢物信息。此外,靶向检测(Multiple reaction monitor,MRM)的灵敏度虽然很高,多用于绝对定量分析,但是覆盖的代谢物有限,无法全面真实反映病理条件下细胞的整体代谢水平。非靶向检测(全扫描采集数据模式)可以覆盖所有信号,侧重于含量高或易于电离的成分,一般用于定性、半定量分析。
本文重点讨论基于LC-MS技术的代谢组分析方法学基本技术和进展,包括不同类型代谢物的前处理方法和与之适应的LC-MS方法。并按照代谢通路和代谢物种类来综述有关分析进展。
1 糖酵解(Glycolysis)通路分析
糖酵解是产生三磷酸腺苷(Adenosine triphosphate,ATP)的一种供能方式,该过程从葡萄糖开始,进一步产生磷酸化糖代谢物,最后生成丙酮酸和乳酸,同时生成ATP。对于这一类强水溶性代谢物的提取,通常采用一定比例的有机溶剂水溶液,如80%甲醇/乙腈[18]。对于生物体液,可直接将有机溶剂加入到样品中,涡旋、离心、移取上清液用于下一步分析。对于细胞样品,在加入有机溶剂后,需要震荡孵化一段时间以充分提取出细胞中的代谢物;对于一些细胞壁在有机溶剂中难以破碎的样品,需要添加磁珠或钢珠来研磨打碎。对于组织样品的处理,如肝脏、肌肉、植物组织等,通常采用液氮研磨处理,然后用有机溶剂提取。对于葡萄糖及其磷酸化的代谢物,大多采用正相色谱分离方法,流动相一般是水相和有机相,并添加醋酸铵和氨水,pH值要求大于9。常规使用的色谱柱有沃特世的BEH amide、安捷伦的HILIC-z、菲罗门的ACE HILIC等。质谱采用负离子检测模式。虽然丙酮酸和乳酸也在糖酵解通路中,但是其理化性质与上游代谢物不同,通常需要反相色谱条件检测。需要注意的是,丙酮酸化学性质不稳定,要通过衍生化手段使其变成稳定的产物后,才可以准确定量检测,同时衍生化处理还可以大幅提高其检测灵敏度[19]。
2 三羧酸循环(Tricarboxylic acid cycle,TCA)分析
TCA是为细胞生命活动提供能量的过程,存在于所有需氧生物机体中的一条核心分解代谢途径,其中间产物也是合成许多生物分子的前体。对于生物样品中该途径的代谢组分析,关注的成分包括柠檬酸、异柠檬酸、酮戊二酸、琥珀酸、延胡索酸、苹果酸、草酰乙酸。这些物质与糖酵解代谢物的提取方法相同。其LC-MS分析方法和乳酸一样,需要用反相色谱条件分离,质谱采用负离子模式[20]。而草酰乙酸和丙酮酸性质一样不稳定,可以使用相同的衍生化试剂处理,以得到可靠的定量结果[19]。
3 脂酰辅酶A与脂酰肉碱分析
脂酰辅酶A是一种高能化合物,作为中间体代谢物在主要的代谢通路中发挥着关键的作用[21]。短至中长链的脂酰辅酶A可以渗透进入线粒体内膜。长链的脂酰辅酶A则很难穿透线粒体内膜,需要与极性的肉碱分子结合进入线粒体基质,下一步释放出游离脂肪酸后,进行β氧化为代谢提供所需的能量。脂酰肉碱含量的高低可以反映其对应的脂酰辅酶A进入线粒体和被利用的效率。脂酰辅酶A的碳链数目分布较广(从短链C2-C6,到中链C7-C14,再到长链≥C16),极性跨越大,前处理方法无法兼顾短链的极性成分和长链的弱极性成分的提取效率,也很难在一个色谱条件将这些全部链长的代谢物获得有效分离。通常使用一定比例的甲醇水溶液来提取生物样本中的脂酰肉碱,采用反相色谱分析,流动相为水和乙腈,添加0.1%的甲酸,质谱设定正离子模式检测。反相色谱中对于短链脂酰辅酶A的分析,需要流动相中加入甲酸来确保其在色谱柱上获得理想的保留与分离。而对于长链脂酰辅酶A的洗脱,则需要碱性流动相使其保持中性分子状态,减少色谱上的拖尾;质谱条件设定为负离子模式。有研究报道尝试在一个梯度洗脱中分析链长在C2-C18的脂酰辅酶A,但是效果并不理想,当碳链延长至C16-C18时,色谱峰发生明显拖尾,导致定量灵敏度和准确度下降;反之,如果色谱条件比较适合长链脂酰辅酶A,则短链长的成分色谱效果不理想。虽然有研究人员用二维液相色谱对不同链长的脂酰辅酶A获得了较为理想的分析结果,然而该仪器普及率不高,一定程度上缺乏实用性。近期,报道了基于LC-MS技术的整合式脂酰辅酶A与脂酰肉碱的靶向分析方法,可以同时定量不同链长的脂酰辅酶A与脂酰肉碱。该方法的建立极大提高了脂酰辅酶A与脂酰肉碱的检测通量与准确性[21]。
4 核苷酸分析
核酸的基本单位是核苷酸。核酸代谢与核苷酸代谢密切相关。遗传信息的复制、重组、转录等均需要通过核酸代谢来完成。核苷酸几乎参与细胞的所有代谢过程。核苷酸具有很强的亲水性,因此在正相色谱方法中有较好的保留与分离,其色谱质谱检测条件与磷酸化糖代谢物相同。NAD+、FAD、NADP等电子载体参与体内重要的氧化还原反应,不断为机体提供ATP。因此定量分析这类成分可以获得重要的生物学信息。虽然这些代谢物的LC-MS分析条件与糖酵解相同,但是它们的活性很强,例如NADPH与ATP即使发生少量的降解,也会导致NADP、ADP和AMP的含量显著增加[22]。因此,提取这类成分时,要求灭活处理条件比较严格。有研究报道,可以向提取溶剂中加入酸来加速酶的失活,一定比例的甲酸混合溶剂(乙腈∶甲醇∶水,40∶40∶20,0.1 mol/L甲酸),几分钟后再添加碳酸氢铵可以有效灭活样品,准确获得NADPH和ATP及其下游成分的含量信息。
5 氨基酸分析
氨基酸代谢与糖酵解、磷酸戊糖途径、TCA循环紧密相连,因此在代谢组学分析中,是备受关注的成分。这类代谢物水溶性较强,通常用一定比例的有机溶剂水溶液提取,如80%甲醇或80%乙腈等[2]。然而有些具有重要生物学功能的氨基酸化学性质不稳定,需要特殊的前处理方法。像同型半胱氨酸在维持氧化还原平衡状态中发挥关键作用,与很多人类疾病的发生机制密切相关。由于其结构中的巯基具有较强的反应活性,易于形成二硫化物,因此需要衍生化反应来稳定这类具有巯基基团的代谢物,以保证定量结果准确[23]。
6 类固醇激素(Steroid hormone)分析
类固醇激素对人体多种生物学反应都起着重要调节作用,包括雄激素、雌激素、孕酮、盐皮质激素、糖皮质激素等。这类成分不仅具有重要的生物学功能,还可以被运动员用作兴奋剂,因此对于类固醇激素的定量分析显得尤为重要。由于类固醇激素在生物体液中的含量很低,对其前处理提取的要求比较严格。对于尿液或血液中的这类成分提取,较为常用的溶剂是甲基叔丁基醚,也有用固相萃取的方法。这类成分在尿液中主要与葡萄糖苷酸和硫酸盐结合的形式存在,因此在提取之前需要进行水解处理,可以使用葡糖醛酸糖苷酶来获得游离的类固醇激素[24]。一般选用反相色谱发分离激素类成分,水相选用含0.1%的甲酸水溶液,有机相选含0.1%的甲酸甲醇或乙腈溶液。色谱柱使用C18类型的调料。质谱使用ESI或APCI离子源。
7 胆汁酸分析
胆汁酸是胆固醇代谢的终产物,被认为可以促进脂肪和脂溶性维生素的乳化和吸收[25]。近期研究表明,胆汁酸广泛参与各种生理过程,包括能量利用、胆汁输送、小肠运动、细菌生长和炎症反应等。胆汁酸还与退行性肝脏肾脏疾病、慢性炎症、肠道黏膜功能障碍、胆汁淤积、癌症的发生发展密切相关。这类成分的提取,通常使用极性有机溶剂,如甲醇、乙腈[26]。对于组织样品的提取,需要预先液氮研磨或加入磁珠打碎。色谱分离采用常规的反相色谱法。
图1是基于LC-HRMS的非靶向反相色谱方法常规覆盖的典型代谢物。
8 脂质组分析
脂质作为构成细胞膜的重要成分,具有结构与功能多样性的特点,其在生物体组织或体液中的含量远高于其它代谢物,脂质组学已成为独立于代谢组学的研究领域。根据LIPIDMAPS的划分,脂质主要包括脂肪酸、甘油酯、甘油磷脂、甾醇酯、异戊烯 醇脂、鞘脂、糖脂、聚酮[27]。
脂肪酸是大多数脂质分子的核心构成单元,具有重要生物学功能。可以作为能量来源和细胞膜脂质的前体。脂肪酸衍生物发挥着激素和胞内信使的功能,参与多种疾病的进程。例如,血液中脂肪酸水平升高,代表机体能量供应不足。虽然常规代谢组提取溶剂,如甲醇或乙腈,可以从生物样本中提取出短链到长链脂肪酸,然而由于从中链、至长链脂肪酸,其脂溶性逐渐增强,为得到较高的提取效率,脂肪酸的分析,通常使用一定比例的氯仿/甲醇/水/甲酸的混合液作为提取溶剂[2]。可以选用反相色谱发分析,流动相中,水相使用一定比例的乙腈/水溶液,有机相选择适当比例的乙腈/异丙醇。
图1 基于LC-MS技术采集细胞样品获得的典型代谢物提取离子流色谱图
甘油磷脂是细胞膜的主要成分,参与细胞的信号传导。根据其极性基团的特点,磷脂可以进一步分为卵磷脂(Phosphatidylcholine,PC)、磷脂酰 乙 醇 胺(Phosphatidylethanolamine,PE)、磷 脂酰丝氨酸(Phosphatidylserine,PS)、磷脂酰肌醇(Phosphatidylinositol,PI)、磷 脂 酸(Phosphatidic acid,PA)、心 磷 脂(Cardiolipin,CL)等。鞘脂主要包括神经酰胺(ceramide,CM)、鞘磷脂(sphingomyelin,SM)、糖鞘脂类(Glycosphingolipid)。例如,人体鞘脂水平的紊乱可能代表糖尿病并发心血管疾病。中性脂包括甘油三酯(Triacylglycerols,TAGs)、甘油二酯(Diacylglycerols,DAGs)和胆固醇(Cholesterol)。甘油三酯参与各种疾病的进程,包括心血管疾病、缺血性中风和血脂异常等。甘油二酯与胰岛素抵抗、老年痴呆和高血压发病密切相关。胆固醇是动物细胞中含量最高的脂,不仅是构建细胞膜的基础成分,同时也是合成类固醇荷尔蒙、胆汁酸和维生素D的前体。
常规脂质组的提取溶剂包括氯仿、甲醇、甲基叔丁基醚、异丙醇/甲醇等[28-29]。虽然在样品的前处理过程中使用这些有机试剂可以提取到大多数类型高含量且具有代表性的脂质。然而,对于特定感兴趣脂质的提取,则需要采用优化过的提取溶剂体系。例如,单一有机溶剂提取体系,提取液中不会产生两相分层,能够更有效的提取整体脂质组,如果使用两相溶剂萃取会产生液面分层,导致极性脂质的损失,包括鞘氨醇-1-磷酸、短链至中链游离脂肪酸等。然而,像Bligh-Dter这种两相溶剂萃取的优点是,水溶性杂质进入上面的水层后,可以减少脂质组检测时的基质干扰和对仪器的污染。
脂质组和代谢组一样,某些成分提取时要求溶剂满足特定pH值的要求。例如,磷脂酸、鞘氨醇-1-磷酸、磷酸肌醇需要酸性提取条件,否则会减低这类成分的提取效率。整体脂质组的色谱分离,通常采用正相或反相色谱方法[30-33]。例如,水相选择高比例的乙腈(乙腈∶水/60∶40);有机相选择一定比例的异丙醇/乙腈水;两相均含有一定浓度的甲酸铵或乙酸铵[34-35]。或选择洗脱能力更强的氯仿、甲醇混合体系,以氨水或醋酸铵作为流动相添加剂。
9 代谢物成像
质谱成像技术(Imaging MS,IMS)与GC/LCMS不同,在一次分析中能够采集样品中分子的空间分布种类与含量信息,包括代谢物、脂质、多肽、多糖和蛋白等[36]。IMS对样品处理要求简单,只需将组织切成薄片,通过敞开式离子化技术,将质谱检测器获得的数据,转换为可视化的二维分布图,即可获得生物样本中化学信息的空间分布。该技术要求首先设定(定义)好切片表面的横轴与纵轴,以及网格区域。切片表面的分子被离子化后,进入质谱检测器,获得对应的网格区域(像素)质谱图。像素点的多少取决于IMS技术的空间分辨率。计算机软件可以从采集的所有像素数据中提取出特定质荷比(mass-to-charge ratio,m/z)的代谢物和其强度数据,然后以热图的形式呈现出样品表面该分子的强度二维分布信息。IMS技术的不足之处在于灵敏度低、定量的可重复性有待提升。IMS与显微镜技术、拉曼光谱、磁共振成像技术(Magnetic Resonance Imaging,MRI)结合,可以显著提升生物学信息的解析能力。随着IMS采集数据速率、空间分辨率和检测通量的提升,IMS已成分临床和制药领域的有力研究工具[37]。
1 0 总结与展望
虽然代谢组学的概念中涵盖了分子量小于1500 kD的内源性代谢物,然而这些成分结构的多样性导致其理化性质各异,根据相似相溶原理,任何一种溶剂都局限于极性相似代谢物的提取。因此需要根据研究目的,首先提出所关注的代谢通路,然后选择对应的前处理方案。例如,选择单一溶剂还是两相溶剂萃取,溶剂pH值的调整,衍生化方法处理等。
基于HRMS技术的非靶向检测,理论上可以覆盖生物样本中的全部小分子代谢物。然而,质谱仪器具有检测偏向性的特点,使得只有易于离子化的成分可以获得检测信号。对于低含量成分,需要采用检测数目有限但灵敏度更高的靶向方法,必要时进行衍生化前处理来增加其检测灵敏度。对于常规ESI源难于电离的代谢物,通常采用APCI源来增强其离子化效率。
因此,要想全面获得生物样本中尽可能多的整体代谢组信息,需要不同前处理方法、多种色谱分析条件(正相、反相)、不同离子化方式(ESI、APCI)的高分辨质谱非靶向扫描等多个分析策略相组合,同时还要结合高灵敏度的靶向检测方法。然而,很多生物样本比较珍贵,研究资源、仪器和经费等条件有限,运用已知的全部分析手段来开展代谢组学研究是不现实的。所以,对于没有明确目标代谢通路的代谢组学研究,首选基于LC-(ESI)HRMS技术的非靶向代谢组检测,采用反相色谱条件,正、负两种电离模式,以获取各条代谢通路中高丰度或易于离子化的代表性成分含量。当从非靶向数据中挖掘出感兴趣的代谢物时,根据需要,可以进一步采用更加专属的前处理和LC-MS靶向分析方法,采集候选代谢物所对应的代谢通路及其上下游中所有成分的精准定量数据,来揭示发生变化的代谢机制。随着前处理方法的不断开发、色谱仪器分析更加快速、质谱仪器扫描速度和灵敏度持续增加,在一次非靶向分析生物样品中,代谢组检测的覆盖度和通量将得到不断提升。