非靶向与靶向代谢组学在妊娠期糖尿病生物标志物发现中的比较

2023-09-18江胜军姜冬梅季晨博

南京医科大学学报(自然科学版) 2023年9期

江胜军，姜冬梅，季晨博，3*

1江苏省溧阳市妇幼保健院检验科，江苏溧阳 213300；2南京医科大学护理学院，江苏南京 211166；3南京医科大学附属妇产医院产科，江苏南京 210004

代谢物通常指在生命体内实现代谢过程的小分子有机化合物，包括有机酸、脂质、吲哚等通过代谢过程产生或消耗的物质，代谢物的变化直接反映了生物体内正在发生或已经发生的活动或过程［1-2］。代谢组学是对小分子代谢物的整体研究，能够全面认识病理和生理条件下生物系统的变化，为小分子代谢物调控和各种生物信号转导提供独特见解［3］。检测技术进步和代谢物数据库的开发加速了代谢物的鉴定发现，也促进了代谢组学在疾病筛查、诊断、进展评估等方面的应用，并逐渐在发现非酒精性脂肪肝［4］、癌症［5］、心血管疾病［6］、糖尿病［7］及肥胖［8］等疾病标志物中崭露头角。

妊娠期糖尿病（gestational diabetes mellitus，GDM）是妊娠期间首次发生或发现的不同程度的葡萄糖耐受不良，是妊娠期最常见的代谢性疾病之一［9］。一项对GDM 血清样本进行的代谢组学分析结果表明，衣康酸可作为GDM发展的潜在生物标志物［10］，Liu 等［11］研究发现26 种血清代谢物可能是GDM 的潜在标志物，但随后Li 等［12］的代谢组学分析发现的差异代谢物与前两项研究存在较大的异质性。上述研究显示，代谢物可能成为GDM 诊断或病程进展的生物标志物，但其诊断效能还需进一步提升。

目前，代谢物的检测主要通过核磁共振或色谱-质谱联用实现，按照无偏检测或靶向策略，可分为非靶向代谢组学和靶向代谢组学。非靶向代谢组学是对样本中的所有代谢物进行无偏检测与鉴定，覆盖率较广但只能相对定量，而靶向代谢组学则是对选定的代谢物进行定量测量，并不能实现全面覆盖［13-14］。基于超高效液相色谱-质谱（ultra high performance liquid chromatography-mass spectrometry，UPLC-MS）技术，比较非靶向和靶向代谢组学在生物标志物发现中的异同，将为代谢组学驱动的生物标志物发现及转化应用提供新的思路和依据。

1 对象和方法

1.1 对象

选取2021年7月—2021年9月在南京医科大学附属妇产医院产科门诊行24～28周产检的GDM患者20例为GDM组，同时期口服糖耐量试验（oral glucose tolerance test，OGTT）阴性的健康孕妇20例为对照组（normal control，NC）。研究对象的纳入排除标准：①纳入标准，年龄25～35岁，自然妊娠，单胎妊娠；在24～28周时行75 g OGTT的产妇；知情并自愿参加本研究；②排除标准，妊娠前就存在糖代谢异常或患有糖尿病；患有其他妊娠合并症或并发症。GDM诊断标准按国际糖尿病和妊娠研究协会提出的75 g OGTT 的诊断标准［15］：服糖前及服糖后1 h、2 h，3 项血糖值应分别低于5.1、10.0、8.5 mmol/L（92、180、153 mg/dL），任何一项血糖值达到或超过上述标准即诊断为GDM。

1.2 方法

1.2.1 血样采集

所有入组受试者于晨起空腹状态下抽取肘静脉血3 mL于真空采血管中，置于4 ℃环境下自然凝固分层1 h，然后在4 ℃、3 000 r/min条件下离心15 min，吸出分离的乳黄色上清液，取200 μL分装至冷藏管中，每份血清样本分装2管，置于-80 ℃冰箱备存，直至上机分析。

1.2.2 代谢物的分离与鉴定

非靶向和靶向代谢组学分析均采用含同位素标记的提取液（甲醇∶乙腈=1∶1）提取血清样本中的代谢物。随后使用超高效液相色谱仪，通过液相色谱柱对目标化合物进行色谱分离，液相色谱A 相为水相，B 相为乙腈。非靶向和靶向代谢组学分析采用不同的离子源参数通过高分辨质谱仪对待测样本进行质谱检测，离子源参数见表1。通过质谱采集软件采集峰信号，使用R 程序包（内核为XCMS）进行峰识别、峰提取、峰对齐和积分等处理，然后与质谱数据库匹配进行物质注释。

1.2.3 质量控制与数据处理

质量控制：非靶向代谢组学分析取所有样品的等量上清混合成质控样品，在样本检测过程中插入质控样本，通过对质控样本的出峰和响应情况进行分析，判断最终质谱信息采集的质量，实时监控仪器稳定性进行过程质控；为排除在物质提取、检测分析过程中的误差，对质控样本的相关性及内标响应稳定性进行数据质控，相关性大于0.8，内标的响应差异小于15%，则认为系统稳定、数据质量高。靶向代谢组学分析取标准品混合溶液作为质控样本上机检测，标准品为600多种已知结构和质谱信息的常见代谢物，其他质控方法步骤与非靶向代谢组学分析一致。

数据预处理：非靶向代谢组学分析是对所有代谢物的无偏检测，需对单个峰信号进行过滤以去除噪音，再通过HMDB 数据库和KEGG 数据库匹配代谢物，为避免检测的偶然性，剔除单组缺失值≥50%及所有组中缺失值≥50%的代谢物数据，其余缺失值通过最小值乘以（0.1，0.5）间随机数进行填补，非靶向代谢组学分析取代谢物峰面积与同位素内标峰面积的比值为该代谢物在样本中的相对定量值。靶向代谢组学分析则直接通过比对标准品的质谱信息识别代谢物，缺失值剔除和填补方法同非靶向代谢组学分析，靶向代谢组学分析代谢物在样本中的绝对定量，通过目标代谢物标准品的标准曲线计算得出代谢物的浓度，单位为nmol/L。

1.3 统计学方法

主成分分析（principal component analysis，PCA）：使用SIMCA软件（V16.0.2）构建PCA模型，将高通量的代谢数据降维，在无监督分类模式下展示样本的总体分布趋势以及组间样本的差异程度［16］。正交-偏最小二乘判别分析（orthogonal-partial least squaresdiscriminant analysis，OPLS-DA）：使用SIMCA 软件（V16.0.2）过滤掉代谢物中与分类变量不相关的正交变量，进行OPLS-DA建模进一步将组间差异可视化，横坐标t［1］P 表示第一主成分的预测主成分得分，展示样本组间差异，纵坐标t［1］O表示正交主成分得分，展示样本组内差异，第一主成分的变量投影重要度（variable importance in the projection，VIP）代表代谢物在分组中的重要性［17］。差异代谢物筛选：为避免只使用一类统计分析方法带来的假阳性错误或模型过拟合，筛选VIP＞1和t检验P＜0.05的代谢物为差异代谢物。生物标志物筛选：通过取GDM组和NC组差异倍数的以2为底的对数（log-fold change，LFC）评价代谢物在两组间表达水平的差异大小，取LFC 绝对值最大的5 种代谢物为备选生物标志物，以ROC 曲线下面积（area under the curve，AUC）评价诊断精度。

2 结果

2.1 研究对象的基线资料

研究对象的基线资料如表2 所示，GDM 组的餐后1 h 血糖和餐后2 h 血糖均高于NC 组，差异有统计学意义，其他临床资料差异无统计学意义。

表2 研究对象的基线资料Table 2 Baseline information of the study objects（）

2.2 质量控制结果比较

两种方法的质控样品相关性均高于0.99，显示样本提取和制备质量较好（图1A～C）。总离子流图显示，内标在质控样品中的保留时间和响应强度稳定性很好，无明显杂峰，说明两种检测技术的数据采集稳定性均很好（图1D～F）。表3显示，两种方法在正负离子模式下的内标响应值的相对标准偏差（relative standard deviation，RSD）均小于15%，说明两种方法所得的实验数据质量均较高，非靶向代谢组学的内标响应RSD较小，系统稳定性更强。

图1 质量控制评估Figure 1 Quality control assessment

表3 正负离子模式下两种方法的内标响应值的RSDTable 3 RSD value of internal standard response of two methods in positive and negative ion modes（%）

2.3 样本分布情况

本研究通过PCA 和OPLS-DA 分析将样本的分布可视化，样本点分布越靠近，说明样本中代谢物的种类和含量越相似。PCA 得分显示在无监督模式下，两种方法检测到的作为主成分的代谢物均不能完全代表GDM 患者血清样本的代谢特征（图2A、B）。从OPLS-DA 得分可以看出，相较非靶向代谢组学，靶向代谢组学的横坐标t［1］P 值为6.71%，得分较高，组间差异较大，纵坐标t［1］O 为8.99%，得分较低，组间差异较小，说明靶向代谢组学分析检测到的代谢物能更好地区分GDM 患者，且重复性更好（图2C、D）。火山图显示非靶向代谢组学分析的差异代谢物更多（图2E、F）。

图2 样本的分布情况Figure 2 Distribution of samples

2.4 代谢物数量和成分比较

非靶向代谢组学分析从样本中共检出4 944个峰，靶向代谢组学分析共检出302 个峰。经过数据预处理，非靶向代谢组学正负离子模式下共保留4 845 个峰，经HMDB 数据库和KEGG COMPOUND数据库匹配后，保留代谢物639个；将靶向代谢组学分析检测出的代谢物与600个绝对定量代谢物的自建数据库比对，仅保留268 个有效代谢物。非靶向代谢组学分析检测出的代谢物占比最大的为脂质，而靶向代谢组学分析检测出的代谢物占比最大的为氨基酸及多肽类似物（图3）。

图3 代谢物检出分类Figure 3 Classification of metabolites detected

2.5 差异代谢物的筛选

将筛选出的差异代谢物进行可视化，通过热图分析观察GDM 组和NC 组样品代谢物组成的多样性，经过代谢物丰度的分层聚类，两组代谢图谱呈现显著差异。非靶向代谢组学分析共筛选出82 种有统计学差异的代谢物，其中40种上调，42种下调；靶向代谢组学分析共筛选出46 种有统计学差异的代谢物，其中25种显著上调，21种显著下调（图4A、B）。两种方法检测并筛选出的共同差异代谢物有6 种，分别是胆碱、葫芦巴碱、精氨酸、3-羟基癸酸、乙酰肉碱和α-亚麻酸。为比较两种方法所检测出代谢物的稳定性，本研究比较了两者共同检测出的差异代谢物在质控样本中的RSD，结果显示非靶向代谢组学的RSD均小于靶向代谢组学，检测数值的稳定性更好（图4C）。

图4 差异趋势及代谢物稳定性Figure 4 Difference trend and stability of metabolites

2.6 生物标志物的诊断效果

图5 显示，非靶向代谢组学分析LFC 绝对值前5 位为植物鞘氨醇、R-3-羟基丁酸、琥珀酸半醛、牛磺鹅脱氧胆酸钠和α-羟基异丁酸，AUC 值最大为0.855，诊断效能较好（表4）。靶向代谢组学分析LFC 绝对值前5 位为柠檬酸、L-氧化型谷胱甘肽、乙酰肉碱、胆绿素和异烟酸，AUC 值最大为0.983，诊断效能很好（表4）。

图5 生物标志物的筛选与评价Figure 5 Screening and evaluation of biomarkers

表4 生物标志物的诊断效能Table 4 Diagnostic efficacy of biomarkers

3 讨论

随着代谢组学发展，代谢物作为疾病标志物的可能性越来越大。本研究采用非靶向代谢组学和靶向代谢组学分析比较GDM 患者和正常孕妇的血清代谢物差异，评估两种方法在发现GDM疾病标志物中的异同。结果表明，两种方法均可以筛选出具有一定诊断效能的生物标志物，但是由于两种方法对于代谢物的覆盖范围和定量程度不同，两者在生物标志物筛选方面各有优势。非靶向代谢组学对代谢物的覆盖相对广泛但是缺乏绝对量化，而靶向代谢组学能够确定特定代谢物的基准水平，二者在生物标志物的筛选方面可以优势互补。

非靶向代谢组学对代谢物的广覆盖率为确定新标志物提供了可能性，但是非靶向代谢组学分析并不能做到真正的无偏检测。目前的代谢组学技术仅捕获一部分代谢物，因此会产生固有的偏倚结果［18-19］。Li等［12］采集了GDM患者24～28周的血清样本进行非靶向代谢组学分析，与本研究的样本性质和样本收集时间一致，但是该研究检测到叶黄素等36种差异代谢物，与本研究检测到的差异代谢物不同，这可能是多种因素共同作用的结果，但是非靶向代谢组学分析较差的重复性也说明其并不能实现对机体代谢组的全面覆盖［2］。进行非靶向代谢组学分析时，必须选择固定相和电离模式的组合，这可能会提高对某些代谢物的检测灵敏度，并降低对另一些代谢物的检测灵敏度［14］。本研究中，非靶向代谢组学和靶向代谢组学分析所检测的血清样本来源完全一致，但是前者检测出的代谢物主要为脂质，后者主要为氨基酸及多肽类似物，这也证实了色谱分离条件和离子源参数可能会影响部分代谢物检出的灵敏度，提示未来应用过程中可以根据疾病特征联合特定类代谢物的检测［3］

靶向代谢组学分析对代谢物的覆盖率较低［20-21］，近些年基于标准品测定的代谢物自建数据库逐渐增多，靶向代谢组学的覆盖率逐渐扩大。Gao 等［22］研究的靶向代谢物仅50种，本研究的靶向代谢组学是基于氨基酸、脂肪酸、吲哚等13 类代谢物的标准品测定的数据库，覆盖的代谢物超过600 种。代谢物的覆盖范围受样品制备方法和所用分析技术固有的敏感性和特异性的限制，非靶向代谢组学分析结果会出现高丰度代谢物的偏倚，从而掩盖低丰度差异代谢物的检测。当使用靶向代谢组学分析时，可以优化样品制备，减少高丰度分子在分析中的主导地位，可以更好地反映与疾病可能相关的目标代谢物在机体中的真实代谢水平［23］。

GDM作为一种典型的妊娠期代谢性疾病，已有不少学者利用代谢组学方法对GDM进行相关研究，并发现了一些GDM 的生物标志物。Diboun 等［24］采集妊娠中期孕妇的外周血通过串联质谱技术进行代谢组学分析，结果发现谷氨酸对GDM的预测价值最高，AUC 为0.81；Lu 等［25］通过液相色谱-质谱法对妊娠早期孕妇外周血进行脂质组学分析，结果显示由4 种不同的脂质代谢物组成的代谢物组对GDM有较高的预测价值，AUC为0.71。本研究结果显示，靶向代谢组学筛选出的柠檬酸对于GDM 的诊断效能超过0.9，而非靶向代谢组学筛选出的差异代谢物AUC值最大仅为0.855，显然柠檬酸作为疾病诊断的生物标志物潜在价值更高［6］。

与基因、蛋白相比，代谢物位于机体生命活动下游，更能反映即时的生理或病理状态，作为疾病标志物优势凸显。近年来，代谢组学相关技术发展，加快了代谢物类疾病标志物的发现与转化。鉴于不同研究结果的异质性，有必要从临床转化角度对其进行审视。非靶向代谢组学提供了广泛而直接的综合分子信息，适合大规模生物标志物的筛选，但是现有技术仍存在假阳性或假阴性的风险。未来更多研究可以聚焦于非靶向代谢组学的质量控制，提高色谱分离技术及质谱识别技术，增加对小分子检测的灵敏性，同时采用多种方式进行数据质控，通过质核比、色谱保留时间、峰值等信息对匹配的代谢物进行评级，以减少结果偏倚。靶向代谢组学筛选出的生物标志物的诊断效能优于非靶向代谢组学，但是对于代谢谱差异的描绘比较局限，应进一步扩大代谢物信息库，扩大机体真实代谢物的覆盖范围。