基于代谢相关基因构建预测宫颈癌预后的模型
2022-04-20张伟健刘婉敏黎金颜
张伟健,刘婉敏,黎金颜
(江门市中心医院妇科,广东 江门 529000)
宫颈癌是女性第四大常见恶性肿瘤,占所有女性癌症发病率的12%[1]。近84 %的宫颈癌发生在发展中国家,对女性健康和经济造成了沉重的负担[2]。宫颈癌的危险因素主要包括:人乳头瘤病毒感染,性伴侣,吸烟、长期服用口服避孕药[3-4]。目前临床上常用的宫颈癌筛查方法包括宫颈涂片和阴道镜检查。这些筛查和治疗测试大大提高了宫颈癌的早诊率。然而,目前尚无特异性生物标志物用于诊断和预测宫颈癌患者的预后。
癌症的发生与代谢密切相关。代谢组学表明,宫颈鳞状细胞癌患者的血浆中醋酸盐和甲酸盐含量较高,肌酸、乳酸、异亮氨酸、亮氨酸、缬氨酸、丙氨酸、谷氨酰胺、组氨酸和酪氨酸含量较低[5]。α/β-葡萄糖的减少以及乳酸的增加表明宫颈癌发生过程中存在典型的 Warburg效应。不仅如此,与正常对照组相比,宫颈癌和癌前病变中关于糖代谢的基因糖原合成酶激酶3β显著下调及丙酮酸激酶和肉碱O-棕榈酰转移酶1上调[6]。代谢物或者代谢基因也许能成为预测宫颈癌预后的分子标志物。
作为生物信息学的重要组成部分,基因表达谱是医学肿瘤学中一种很有前景的工具。本研究通过研究代谢基因在宫颈癌的表达,筛选与预后相关的风险基因,并构建预测模型。
1 资料与方法
1.1数据资料 从癌症基因组图谱 (The cancer genome atlas, TCGA) 数据库下载宫颈癌的临床资料及mRNA测序数据,其中包括3个正常对照组组织,306个宫颈癌组织。
1.2差异基因分析 利用R语言的edgeR包比较正常组织与宫颈癌组的差异基因,筛选条件为:|LogFC|≥3,P≤0.05。并利用GSEA数据库检索944个代谢基因(检索关键词为Metabolic),并筛选出具有差异表达的代谢基因。
1.3预后相关的促癌基因筛选 结合患者的生存状态与生存时间,利用单因素COX回归函数与LASSO回归分析筛选预后相关的风险基因,其中,HR值>1为促癌基因,HR值<1为抑癌基因。
1.4风险预测模型的构建 利用R语言的survival包,计算每一例患者的风险系数,以风险系数的中位值作为cut off值,把患者分为高风险组的患者,计算风险评分公式如下所示:
其中 N 是基因数,Expi 是基因的表达水平,Ci 是 回归相关系数。构建预后模型,利用生存分析比较两组之间的预后情况,利用ROC曲线对模型的预测效能进行评价。
1.5功能富集分析 将低风险、高风险患者的基因表达量导入基因富集分析GSEA软件,进行富集分析,选择 c2.cp.kegg.v6.0.symbols.gmt 作为参考基因集, 把FDR <0.25 且P<0.05 作为筛选值。
2 结果
2.1差异代谢基因的筛选 共筛选出1 973个差异基因,包括1 005个上调的差异基因,968个下调的差异基因(图1),其中差异倍数最显著的5个上调基因为:MAB21L3、TERT、EPGN、UGT1A6、FAM83C;5个下调基因为:TCEAL6、TCF23、AGTR2、DES、CNN1(表1)。其中代谢相关的差异基因有56个,包括29个下调的基因,27个上调的代谢基因。
图1 正常组织和肿瘤组织差异基因的火山图
表1 正常对照组与宫颈癌差异倍数最显著的10个基因
2.2风险代谢基因预测 共下载316个样本的临床数据,删除生存状态不明及观察时间<30 d的临床数据,共获得276个样本的临床数据,结合患者的生存时间及生存状态及代谢基因的表达量,使用单因素COX回归分析及LASSO回归分析,共筛选出13个预后相关的代谢基因,其中4个为抑癌基因,包括LDHC、ITPKA、ALOX12B、PLA2G7;9个促癌基因,包括CA2、HK2、CA9、LIPG、ADH1B、NPR2、ADCY4、PDE2A、CDO1 。
2.3风险预测模型的构建 根据以下风险计算公式,计算每一例患者的复发风险。
风险值=ADH1B00.0003+ALOX12B×(-0.0005)+HK2×2.726338e-05+ITPKA×(-0.0007)+NPR2×0.0002+LIPG×0.0002+PDE2A×0.0004+CDO1×0.0013+CA9×4.526417e-05+LDHC×(-0.004)+ADCY4×0.00061+CA2×8.377197e-06+PLA2G7×(-0.0008)
根据风险组的中位数,将患者分为高低风险组,比较两组患者的预后情况(图2、3)。低风险组患者的预后明显由于高风险组(P=3.012 e-08)。
图2 高低风险组宫颈癌患者的预后分析
图3 高低风险组宫颈癌患者的预后情况
2.4独立预后因素分析及ROC曲线 通过对年龄、病理分级、T分期、N分期、M分期及风险模型进行单因素及多因素分析,发现风险模型是宫颈癌患者的独立预后因素(P<0.001)(图4A、4B)。ROC曲线提示模型的预测效能优异(AUC=0.837)(图4C)。
图4 宫颈癌患者独立预后因素探讨及模型的评估效能
2.5GSEA分析 将高低风险组的基因表达量导入GSEA软件,进行功能富集分析。发现高风险组的基因显著富集在ECM与受体的相互作用、O-聚糖生物合成、黏着斑、肥厚型心肌病、扩张型心肌病、致心律失常/右心室/心肌病/ARVC等(图5)。而低风险组的基因显著富集在原发性免疫缺陷、同种异体移植排斥反应、B细胞受体信号通路、自身免疫性甲状腺疾病、T细胞受体信号通路、用于生产IGA的肠道免疫网络、氧化磷酸化、哮喘、系统性红斑狼疮、花生四烯酸代谢、蛋白酶体(图6)。
图5 高风险组的功能富基分析情况
图6 低风险组的功能富基分析情况
3 讨论
本研究基于TCGA数据库分析了宫颈癌的差异代谢基因,共筛选出13个预后相关的代谢相关基因,其中包含4个抑癌基因(LDHC、ITPKA、ALOX12B、PLA2G7)和9个抑癌基因(CA2、HK2、CA9、LIPG、ADH1B、NPR2、ADCY4、PDE2A、CDO1)。
碳酸酐酶2(Carbonic anhydrase 2,CA2)属于碳酸酐酶家族。碳酸酐酶家族有 16 种酶,可催化二氧化碳和水生成碳酸氢盐。它们与癌症、自身免疫性疾病和病毒感染有关。研究发现 CA2 和 CA12 与结直肠癌的预后有关[7];乳腺癌中的 CA2 表达显著升高。不仅如此,CA2和其他碳酸酐酶可导致通过激活肿瘤中的肥大细胞的自身免疫反应和浆细胞[8],而CA9 被认为是宫颈癌缺氧细胞的内源性标志物[9]。
己糖激酶-2(Hexokinase-2,HK2)能催化己糖磷酸化为 6-磷酸己糖介导糖酵解的初始步骤,还在维持线粒体外膜完整性方面发挥关键作用[10]。HK2 过表达发生在多种癌症中,包括乳腺癌、胃癌、食管癌、肝细胞癌和宫颈癌。有研究显示,在肝细胞癌中,HK-2在55.67% 的临床标本中过表达,并且与患者预后不良密切相关。HK2 也在宫颈癌中高表达,且高 HK2表达与肿瘤的发生率较高以及高病理分级和不良预后 ,HK2通过miR-9-5p/HK2/AKT通路在宫颈癌中发挥促癌作用,可作为宫颈癌的潜在治疗靶点和预后指标[11]。
内皮脂肪酶(Endothelial lipase,LIPG)由 LIPG 基因编码,是甘油三酯脂肪酶家族的成员。LIPG 的主要功能是参与高密度脂蛋白代谢。LIPG 在转基因小鼠中的过度表达显著降低了高密度脂蛋白胆固醇和载脂蛋白A的血清浓度[12]。LIPG与癌症也显著相关,与健康对照者相比,胃癌患者尿液样本中 LIPG 的表达平均降低 9.9 倍[13]。此外,来源于结肠肿瘤上皮的DNA 诱导人结肠直肠腺癌细胞 HT29 中的 LIPG mRNA 表达差异[14]。
4 型腺苷酸环化酶(Adenylate cyclase type 4,ADCY4)响应 G 蛋白信号,催化信号分子 cAMP 的形成。 ADCY4 与钙信号通路相关,细胞内 Ca2+激活可能影响 肺腺癌细胞的致癌作用和侵袭[15]。cGMP 依赖性 3',5'-环状磷酸二酯酶(cGMP-dependent 3',5'-cyclic phosphodiesterase,PDE2A)是对第二信使 cAMP 和 cGMP 具有双重特异性的环核苷酸磷酸二酯酶,它们是许多重要生理过程的关键调节剂。在恶性黑色素瘤细胞的生长和侵袭中起重要作用[16]。但是ADCY4、PDE2A在宫颈癌中的研究较少。
半胱氨酸双加氧酶 1 型(Cysteine dioxygenase type 1,CDO1)启动与丙酮酸和几种硫酸盐化合物(包括硫酸盐、亚牛磺酸和牛磺酸)相关的几个重要代谢途径有关。CDO1启动子区域在多种实体瘤(例如食道癌、支气管癌、膀胱癌、胃癌、胆管癌或结直肠癌)中存在高甲基化。CDO1是结直肠癌生物标志物[17];CDO1 启动子区域与接受蒽环类药物辅助治疗的雌激素受体阳性、淋巴结阳性乳腺癌患者的转移有关[18]。
心房利钠肽受体2(Atrial natriuretic peptide receptor 2,NPR2)基因的杂合突变是最初归类为特发性身材矮小患者身材矮小 的原因,全反式视黄醇脱氢酶 [NAD(+)] ADH1B (All-trans-retinol dehydrogenase [NAD(+)] ADH1B,ADH1B)与NPR2在癌症相关文献较少。
进一步利用代谢基因,将宫颈癌患者分为低、高风险组,发现两组生存率存在显著差异,也可作为独立预后因素,最后分析了两组的GSEA分析,发现高风险患者的基因显著富集在细胞外基质(extracellular matrix,ECM)与受体的相互作用。ECM-受体相互作用通路与肿瘤转移和复发相关,ECM 在癌症中的作用已被证明。ECM在前列腺癌组织中上调[19],并参与胃癌的肿瘤侵袭和转移过程[20]。在结直肠癌中的 ECM 可以促进癌细胞上皮间质转化的发展[21]。胶质母细胞瘤是最致命的成人脑肿瘤。表现为异常新生血管形成和肿瘤细胞弥漫性浸润的病理特征。ECM 和胶质母细胞瘤微环境之间的相互作用在这一进程中很重要[22]。
而低风险患者的基因显著富集与免疫相关的信号通路中,如B细胞受体。B细胞抗原受体(B-cell receptor, BCR)是一种位于 B 淋巴细胞细胞表面的跨膜受体,在B细胞发育和适应性免疫反应中起关键作用,可识别多种抗原。BCR 刺激后的 B 细胞激活是通过信号级联反应介导的,这些级联涉及膜近端激酶的激活,例如脾酪氨酸激酶 (Recombinant Spleen Tyrosine Kinase ,SYK)、Bruton 酪氨酸激酶 (Bruton tyrosine kinase,BTK) 和磷脂酰肌醇-3-激酶(phosphatidylinositol 3 kinase,PI3K),尤其是 PI3Kδ,一种在淋巴细胞中高度表达的 p110异构体。这些激酶已成为激酶抑制剂的靶点,激酶抑制剂在过去几年中已成为B细胞恶性肿瘤患者的突破性靶向疗法,BTK抑制剂和/或PI3Kδ选择性抑制剂对慢性淋巴细胞白血病、套细胞淋巴瘤、滤泡性淋巴瘤、Waldenstrom巨球蛋白血症和其他选择性B细胞恶性肿瘤有效[23]。而对于T细胞,阻断2种特定T细胞调节途径 PD-1 和 CTLA-4 的免疫检查点抑制剂可在某些晚期癌症患者中引起显著反应。
综上所述,本研究基于13个代谢基因构建出了宫颈癌的风险预测模型,并具有良好的预测效能,但仍需要临床进一步验证模型的效能。