APP下载

基于生物信息学和机器学习识别与验证卵巢癌中糖酵解相关生物标志物

2023-10-08商泽斌杨天昊赵兵刚赵新春聂善化天津中医药大学天津067中部战区95部队医院天津076空军军医大学西京医院急诊科陕西西安700武警湖北省总队医院湖北武汉006

空军军医大学学报 2023年9期
关键词:糖酵解标志物生物

商泽斌,杨天昊,刘 健,赵兵刚,赵新春,聂善化(天津中医药大学,天津 067;中部战区95部队医院,天津 076;空军军医大学西京医院急诊科,陕西 西安 700;武警湖北省总队医院,湖北 武汉 006)

卵巢癌(ovarian cancer,OC)是妇科最常见的恶性肿瘤之一,其起病隐匿,并且早期缺乏有效的诊断方法,当患者出现症状就诊时多已发展至晚期[1]。因此,OC的预后差,死亡率高,已成为病死率最高的一种妇科肿瘤疾病,严重威胁着女性的健康与生命。基于此,亟需探索新的诊断生物标志物和治疗靶点以提高和改善OC的诊断率与治疗效果。随着对肿瘤代谢的认识和研究的进展,从中探索有效的生物标志物、治疗靶点已逐渐成为一个新的研究方向。

代谢重编程是肿瘤细胞最重要的特征之一,其主要表现为糖酵解增加和氧化磷酸化减少,即所谓的“有氧糖酵解”或“Warburg效应”,这种代谢改变在肿瘤中已被广泛证明,并对肿瘤发生发展的各个阶段有着重要影响[2],被认为是晚期恶性肿瘤的“标志”[3-4]。据报道,糖代谢的异常与OC的发生、进展和化疗药物的耐药性等密切相关[5-10],其中糖酵解途径发挥着重要作用[11-13]。因此,糖酵解途径的异常是区分肿瘤细胞与正常细胞的一个重要特征,从糖酵解的角度来探索OC的生物标志物和潜在的治疗靶点可能具有重要意义。

基于生物信息学分析和高通量测序技术的进步和广泛应用以及机器学习在生物信息学应用中的逐渐成熟,这为挖掘各种疾病的潜在机制、潜在的生物标记物和治疗靶点提供了重要的方法和手段[14]。本研究采用GEO数据库、TCGA数据库中OC的数据集,利用生物信息学与机器学习进行分析,旨在筛选和确定OC中与糖酵解相关的生物标志物。此外,我们还对这些生物标志物进行了免疫浸润分析、富集分析、药敏分析,以探索其在OC中的潜在机制与临床应用的可能,以期为进一步研究提供方向。

1 资料与方法

1.1 资料

本研究中的OC相关数据来自GEO数据库与TCGA数据库。通过对GEO数据库中OC数据集进行筛选,选择含有正常对照与肿瘤组织的数据集,并且两组样本之间的数量差距不超过10倍。GSE12470数据集共包含53例样本,其中10例正常,43例OC肿瘤样本(该数据集包括8例OC早期和35例OC晚期组织以及10例正常腹膜标本的18 716个基因表达谱);GSE18520数据集共包含63例样本,其中10例正常样本,53例OC肿瘤样本(该数据集包括了53例晚期、高级别原发性肿瘤标本和10例正常卵巢表面上皮的基因表达谱)。

1.2 方法

1.2.1 糖酵解相关基因的获取 从KEGG数据库查询、收集糖酵解信号通路的基因,并整合文献资料,得到糖酵解相关基因。

1.2.2 差异表达基因(differentially expressed genes,DEGs)分析 使用R包“limma”对GSE12470的样本进行DEGs分析。以|log2(FC)|≥1.0和Padjust<0.05为标准筛选DEGs,并使用R包“ggplot2”绘制火山图。并与1.2.1中的糖酵解相关基因使用韦恩图交集获得差异表达的糖酵解相关基因,进行后续分析。

1.2.3 构建蛋白质相互作用(protein-protein interaction,PPI)网络 将1.2.2获取的差异表达的糖酵解相关基因导入STRING数据库,限定物种“Homo sapiens”,并以置信度>0.7,构建PPI网络,利用Cytoscape通过MCC算法筛选出PPI网络中排名前10的靶点。

1.2.4 基于机器学习的筛选、识别生物标志物 利用GSE12470数据集,以OC患者和正常人为样本,基因为描述符,采用三种机器学习算法,包括最小化绝对收缩和选择算法(least absolute shrinkage and selection operator,LASSO)逻辑回归、支持向量机-递归特征消除(support vector machine-recursive feature elimination,SVM-RFE)和随机森林(random forest,RF)算法,用来识别差异表达的糖酵解相关基因中的关键特征分子。LASSO是一种评估高维数据的降维方法,本研究通过使用R包“glmnet”中的“cv.glmnet”函数进行拟合LASSO模型。SVM-RFE被广泛用于特征排序和基因签名的选择,本研究通过R包“caret”使用“rfe”算法实现SVM-RFE算法。为了验证SVM-RFE模型,使用十倍交叉验证来选择与糖酵解相关的特征基因。RF是一种有监督的非参数分类方法,本研究通过R包“randomForest”建立RF模型。最终,三种机器学习算法重叠的基因被确定为糖酵解相关的关键诊断性生物标志物,对于预测OC有关键作用。通过R语言“pROC”包使用GSE12470数据集生成受试者工作特征(receiver operating characteristic,ROC)曲线,并计算ROC曲线下面积(area under the curve,AUC)值,以评估所确定的生物标志物的预测效用,并利用GSE18520数据集进行验证。

1.2.5 免疫浸润分析 通过R语言,分别采用TIMER、EPIC、MCPCOUNTER三种算法,利用TCGA数据库的数据对1.2.4筛选得到的生物标志物进行免疫浸润分析。使用Spearman的相关分析来描述定量变量之间的相关性。P<0.05表示差异有统计学意义。

1.2.6 基因组富集分析(gene set enrichment analysis,GSEA) 为了确定关键基因相关的信号通路,我们根据基因表达的中位数将GSE12470数据集中的肿瘤样本分为高表达和低表达组。对1.2.4选得到的生物标志物进行了单基因GSEA富集分析,并用R软件包“clusterProfiler”进行可视化。

1.2.7 NCI-60细胞系分析 通过使用CellMiner数据库(https://discover.nci.nih.gov/cellminer)评估NCI-60。我们研究了NCI-60细胞系中1.2.4筛选得到的生物标志物的表达,并系统地测试了它们在60个人类癌症细胞系中的表达水平与200多个化疗药物的药物敏感性之间的相关性。药物敏感性用Z-score衡量,分数越高,细胞对药物治疗越敏感。

2 结果

2.1 差异表达的糖酵解相关基因及PPI网络构建

通过分析共识别得到4 132个OC DEGs(图1A),糖酵解相关基因67个,两者交集后得到20个差异表达的糖酵解相关基因(图1B)。将20个基因输入STRING数据库构建PPI网络(图1C),探究它们之间的蛋白相互作用,以此得到关键的蛋白。进一步利用MCC算法筛选出排名前十的关键靶点:ALDOA、GPI、ADH1B、ADH1C、ADH1A、ALDH2、ALDH1B1、PGK1、ALDH3A2、ENO3(图1D)。并将20个差异表达的糖酵解相关基因的表达情况可视化(图2),其中ADH1A、ADH1B、ADH1C、ADH5、ALDH1B1等基因的表达量在OC中下调,GPI、GAPDH、HK2、HKDC1、PCK1等基因在OC中表达上调。

A:GSE12470数据集中的DEGs火山图;B:DEGs与糖酵解相关基因交集韦恩图;C:差异表达糖酵解相关基因PPI网络图;D:MCC算法得到PPI网络中排名前十的蛋白(图中使用颜色标注的蛋白,颜色越深排名越前)。DEGs:差异表达基因。图1 筛选OC中差异表达的糖酵解相关基因及PPI网络构建

图2 20个糖酵解相关DEGs可视化分析结果(aP<0.05,bP<0.01)

2.2 识别、验证OC差异表达的糖酵解相关基因中的特征生物标志物

使用LASSO回归算法,从差异表达的糖酵解相关基因中提取的9个基因被确定为潜在的诊断生物标志物(图3A~B)。RF算法识别了19个基因具有诊断价值(图3C~D)。通过SVM-REF算法,从这些潜在的目标中提取13个基因作为候选生物标志物(图3E~F)。然后将三种算法得到的特征基因韦恩图叠加,得到8个具有诊断性质的生物标志物(ALDH1B1、ALDH2、ALDH3A2、ALDOA、ENO3、GAPDH、GPI、HKDC1,图3G)。为了评估8个生物标志物在OC中的预测效用,我们通过绘制ROC曲线,发现在GSE12470数据集中8个标志物具有显著的鉴别效率(图4A),并且在GSE18520队列中同样也表现出很好的预测性能(图4B)。

A~B:LASSO回归分析;C~D:RF算法;E~F:SVM-RFE算法;G:LASSO、SVM-RFE和RF算法筛选得到的生物标志物交集韦恩图。LASSO:最小化绝对收缩和选择算法;SVM-RFE:支持向量机-递归特征消除;RF:随机森林。图3 基于机器学习鉴定OC中具有诊断性能的糖酵解相关基因

A:8个关键生物标志物在GSE12470数据集中的ROC曲线;B:8个关键生物标志物在GSE18520数据集中的ROC曲线。图4 8个关键生物标志物的ROC分析

综合不同免疫细胞浸润算法,结果显示,8个生物标志物中的大多数与Endothelial cell和NK cell相关,与CD4+T cell存在不同程度的相关性(图5)。

A:EPIC算法;B:MCPCOUNTER算法;C:TIMER算法。蓝色代表正相关,红色代表负相关,颜色越深相关越强。 aP<0.05,bP<0.01。图5 免疫浸润分析

2.3 GSEA富集分析

单基因GSEA富集分析显示,8个关键分子对OC的影响涉及多个信号通路,如ALDH3A2与Proteoglycans in cancer、Diabetic cardiomyopathy、Ribosome等信号通路的激活有关。此外,这些分子大部分与Focal adhesion、Amoebiasis、Ribosome等信号通路存在较显著的相关性(图6)。

2.4 药物敏感性分析

8个关键分子的表达和预期药物反应之间的关系(图7)。其中突出的是,HKDC1、ALDH3A2与药物反应之间存在明显的相关性,值得关注的是,它们主要表现为负相关。如,在接受Arsenic、Dacarbaz、lmexon等治疗的患者中,ALDH3A2的表达与药物敏感性呈显著的负相关。HKDC1的表达与Vinblastine、Paclitaxel、Pipamperon、Dolastain-10等之间也表现为负相关。

3 讨论

近年来,代谢重编程作为肿瘤细胞不同于正常细胞的特征之一,在肿瘤中的作用得到了广泛的关注。因此,研究代谢重编程与肿瘤发展之间的关系正成为肿瘤诊断、预防和治疗的一种新策略。目前,虽然已有许多研究报道了糖酵解与OC的生长、转移、耐药等相关[15-17],但是对OC中与糖酵解相关的生物标志物的研究仍然有限。因此,本研究的目的是探讨OC与糖酵解相关的生物标志物,并进一步分析它们与免疫细胞浸润、信号通路、药物敏感性等的关系,为OC的研究提供新的方向。

我们首先从KEGG数据库中下载了糖酵解相关基因集,筛选了20个OC样本和正常样本之间的DEGs,包括12个上调基因和8个下调基因。有证据[18-23]表明,这20个基因在各种类型的肿瘤中,可以作为致癌基因或抑癌基因发挥作用。由此可见,与糖酵解相关的异常调控基因可能在OC中起重要作用。随后,利用PPI网络及MCC算法鉴定了10个相互作用程度最高的枢纽基因(ALDOA、GPI、ADH1B、ADH1C、ADH1A、ALDH2、ALDH1B1、PGK1、ALDH3A2、ENO3)。通过结合LASSO逻辑回归、SVM-RFE和RF三种机器学习算法对20个DEGs进行筛选,以此鉴定出对于OC诊断具有潜在应用价值的生物标志物。结果得到8个具有诊断价值的特征基因(ALDH1B1、ALDH2、ALDH3A2、ALDOA、ENO3、GAPDH、GPI、HKDC1),并且几乎所有特征基因在两个数据集中的AUC值均>0.7,这表明这些基因可作为OC诊断的潜在生物标志物。值得关注的是,从PPI网络中筛选出的10个枢纽基因与机器学习得到的8个特征基因有6个重合(ALDH1B1、ALDH2、ALDH3A2、ALDOA、ENO3、GPI),这些生物标志物不仅对于OC的诊断具有价值,而且对于OC的发展有着重要调控作用,综合它们在两个队列的鉴别表现,GPI与ENO3的作用和性能显得尤为突出。

磷酸葡萄糖异构酶(glucose phosphate isomerase,GPI)是糖酵解途径第二步的关键酶,广泛分布于人体各组织中,能促进6-磷酸葡萄糖和6-磷酸果糖的相互转换。研究表明,GPI在胃肠道肿瘤、肾癌、肺癌、乳腺癌等多种肿瘤中表达上调[24-26]。此外,GPI不仅与肿瘤的发生和进展联系紧密,还对肿瘤细胞的凋亡、迁移及浸润等有着影响[27-28],尤其是在乳腺癌和胃肠道肿瘤等具有转移性和侵袭性的肿瘤中表现的更加明显[29]。在糖酵解代谢途径中起催化作用的烯醇化酶(enolase,ENO),肌肉特异性烯醇化酶(muscle-specific enolase,ENO3)是ENO的三种同工酶之一,与糖代谢和脂代谢的关系密切[30-31]。研究发现,ENO3在一些肿瘤中异常表达,影响着肿瘤的进展,如在非小细胞肺癌与结直肠癌中表达上调[32-33],而在胰腺癌与肝癌中表达下调[34-35]。然而,关于GPI、ENO3在OC进展中的作用的研究鲜有报道。本研究发现,GPI、ENO3均具有良好的诊断价值(AUC>0.9),并在OC中的表达均上调,这为临床应用GPI、ENO3作为OC诊断标志物的可及性和可行性提供了理论依据。

除了GPI、ENO3外,其他大多数特征基因与癌症的发生发展也密切相关。醛缩酶家族成员参与糖酵解及糖异生等过程,是糖酵解过程中的主要代谢酶。研究[27-36]发现,醛缩酶家族成员在多种恶性肿瘤中异常表达,在肿瘤生长、侵袭转移及耐药等方面发挥重要作用。ALDOA是醛缩酶家族中的重要成员,研究[37-42]发现,ALDOA在乳腺癌、胃癌、前列腺癌、甲状腺癌等多种肿瘤组织中均呈现高表达,并可作为一个独立的预后生物标志物[43]。ALDH3A2属于醛脱氢酶3家族成员A2,在乙醇代谢和脂质过氧化产生的醛的解毒过程中至关重要[44],有研究表明,ALDH3A2可成为胃腺癌的生物标志物[45]。HKDC1是近年发现的第五种己糖激酶[46-47],现已有研究[48-50]表明HKDC1可能在乳腺癌、肺癌、结直肠癌及淋巴瘤中发挥致癌作用。本研究表明,ALDOA、HKDC1在OC中表达上调,ALDH3A2在OC中表达下调,它们的异常表达对于OC具有诊断价值,并在OC的发展进展中发挥重要调控作用。

代谢重编程不仅仅是肿瘤细胞的特征,而各种类型的免疫细胞在增殖、分化和执行效应功能的过程中也会经历代谢重编程[51]。通过靶向代谢途径能调节抗肿瘤免疫功能与提高免疫治疗的疗效和应答率[51-52]。因此,探讨糖酵解相关特征基因与免疫细胞浸润和免疫功能之间的关系至关重要。我们采用TIMER、EPIC、MCPCOUNTER三种算法评估了8个特征基因与OC免疫细胞浸润的关系。结果表明,8个特征基因与Endothelial细胞、NK细胞、CD4+T细胞等多种免疫细胞存在相关性,提示通过靶向糖酵解来调节免疫的可能性,为肿瘤免疫治疗提供了不同的见解。

为了进一步研究得到的生物标志物在OC中的潜在分子机制,我们进行了GSEA研究。GSEA富集分析显示,这些生物标志物的作用机制涉及Focal adhesion、Amoebiasis、Ribosome等多种信号通路,这提示8个特征基因对OC的影响不仅限于对糖代谢的调控,且与多种信号通路密切相关,为下一步的研究提供了参考。

通过使用NCI-60细胞系数据,我们发现这些生物标志物与一些美国食品药品监督管理局批准的化疗药物的耐药性相关,尤其是HKDC1、ALDH3A2与许多药物反应之间表现出广泛的负相关,如Arsenic、Vinblastine、Dacarbaz、Paclitaxel、lmexon等。然而,HKDC1、ALDH3A2与药物敏感性的关系却鲜有报道,本研究结果表明,它们可能是调控药物敏感性的关键因子,可作为克服药物诱导的耐药性或辅助药物敏感性的治疗靶点。

本研究首次采用生物信息学和机器学习算法的综合策略,筛选OC中与糖酵解相关的生物标志物,鉴定出了8个在OC中具有诊断价值的特征基因。经过进一步的生物学研究,表明它们在OC的作用机制涉及免疫、药物反应等多个方面。以上结果提示,糖酵解在OC中起着重要作用,值得进一步探索。由于本研究中的数据量有限,因此,所得结果需要通过更多的数据以及实验进行进一步验证。

综上所述,本研究发现多个糖酵解相关基因在OC中表达异常并具有诊断价值,其中GPI、ENO3在OC中诊断价值更高,且二者可能通过多种信号通路、免疫调节方式参与肿瘤的进展。此类分子的发现,有利于为OC患者筛选出潜在的诊断生物标志物和治疗靶点,为OC基础研究提供新的理论依据。

猜你喜欢

糖酵解标志物生物
非编码RNA在胃癌糖酵解中作用的研究进展
生物多样性
生物多样性
上上生物
第12话 完美生物
糖酵解与动脉粥样硬化进展
放射对口腔鳞癌细胞DNA损伤和糖酵解的影响
18F-FDG PET/CT中病灶糖酵解总量判断局部晚期胰腺癌放射治疗的预后价值
脓毒症早期诊断标志物的回顾及研究进展
冠状动脉疾病的生物学标志物