APP下载

基于代谢相关基因的胃癌预后模型的构建和验证

2024-03-25杨永张蕾舒鹏

浙江医学 2024年4期
关键词:危组亚型基因

杨永 张蕾 舒鹏

胃癌(gastric cancer,GC)是常见恶性肿瘤,其发病率在消化道恶性肿瘤中排名第一,是全球范围内癌症导致死亡的第四大原因[1]。近年来,随着手术治疗和靶向药物的应用等治疗方法的进步和发展,GC 患者的生存时间得到了一定程度的延长[2],但总体预后仍然不尽如人意,超过一半的晚期GC 患者出现局部复发或远处转移,5 年生存率仅为5%~10%[3]。GC 具有广泛的异质性,不同患者的临床表征和预后各异。测序技术可以从整个基因组水平分析疾病发生和发展的潜在变化,已逐步成为检测疾病发生和发展的重要手段之一。一些研究已经开发出基于基因表达的标志物用于GC 预后预测[4-6]。然而,受限于GC 异质性,大多数标志物的预测效能较低,不能直接应用于临床实践。因此,如何根据不同患者的个体异质性,寻找一种可靠而方便的生物标志物来进行GC 预后评估,是目前临床上急需解决的问题。有研究将GC 划分为具有不同分子和临床特征的4 种亚型,其中上皮间质转化(epithelial-mesenchymal transition,EMT)亚型的预后最差[7]。因此识别恶性程度高的亚型的内在分子机制有助对GC 患者进行风险评估,并制定更精准的定向治疗策略。代谢重编程是癌症的重要特征之一。代谢异常与GC 的发生、增殖、侵袭和转移有关[8]。流行病学研究发现,肥胖人群GC 患病率较高,GC 病理组织中观察到脂质积累[9]。一些研究发现GC 患者存在代谢组异常,且这种异常与GC 的进展和侵袭密切相关[10-11]。因此,基于代谢基因开发GC 的预后标志物在理论上具备可行性。本研究以整合网络分析为主要手段,探讨代谢相关基因调控EMT 亚型的机制,筛选出主调控EMT 亚型的代谢标志基因,构建基于代谢相关基因的GC 预后模型(metabolism-related prognostic signature for GC,MPSGC),并综合分析MPSGC 的内在生物学和临床应用意义,以指导对GC 患者进行精准的预后评估,为患者临床治疗方案的制定提供新的依据。

1 资料和方法

1.1 资料 数据来源于基因综合表达(gene expression omnibus,GEO)数据库的4 个公共队列,包含798例GC 患者的转录谱数据,队列名称为GSE15459(192例)、GSE26901(109 例)、GSE13861(65 例)和GSE26253(432 例)。使用“GEOquery”R 包[12]获取每个队列的转录谱数据及对应的临床信息。应用多阵列对数健壮算法对每个队列的转录谱数据进行背景校正和四分位数归一化处理,探针ID 被转换为基因符号;若有多个探针ID 对应相同的基因符号,则保留平均值最高的探针ID 表示相应的基因。GC 的分子分型信息来源于Tsekrekos 等[9]的研究。以GSE15459 为训练数据集,GSE26901、GSE13861、GSE26253 为验证数据集。收集所有患者临床资料,见表1。

表1 患者临床资料

1.2 整合网络分析 参照Bai 等[13]的研究中获取训练数据集2 752 个代谢相关基因。使用“limma”R 包筛选EMT 亚型和非EMT 亚型间差异表达的代谢相关基因(log2 FC>0.75;Adj-P<0.05)和靶基因(log2 FC >1;Adj-P<0.05)[14]。使用“RTN”R 包整合差异表达基因构建调控网络[15]。使用主调控分析(master regulator analysis,MRA)算法计算各代谢基因调控单元中的EMT 基因的超几何检验P值,筛选得到主调控EMT 亚型的代谢标志基因。

1.3 MPSGC 的构建和验证 基于1.2 筛选的代谢标志基因的表达水平和患者生存信息,使用Cox 比例风险回归,对患者进行风险赋分,根据风险评分构建MPSGC。以风险评分中位数为阈值将患者分为高危组和低危组。绘制Kaplan-Meier 生存曲线比较两组间总体生存期(overall survival,OS)和无复发生存期(relapsefree survival,RFS)差异。

1.4 基因集富集分析(gene set enrichment analysis,GSEA) 使用“fgsea”R包进行基因集富集分析[16]。设定P<0.05 为显著性阈值,置换检验次数设置为1 000,筛选出具有最高归一化富集分数的基因集。

1.5 免疫细胞浸润分析 结合CIBERSORT[17]和MCPCOUNTER 算法[18]表征两组患者肿瘤组织基因表达谱中免疫细胞的丰度。其中CIBERSORT 是一种反卷积算法,可以估算出每个肿瘤组织样本中22 种免疫浸润细胞的相对比例。MCPCOUNTER 基于表达矩阵中的标记基因表达量计算每个样本中CD3+T 细胞、CD8+T细胞、细胞毒性淋巴细胞、自然杀伤细胞、B 淋巴细胞、来源于单核细胞(单核系)的细胞、髓样树突状细胞、中性粒细胞、内皮细胞和成纤维细胞的丰度得分,并比较不同样本间相应细胞类型的丰度。

1.6 统计学处理 使用R 3.6.1 统计软件。使用χ2检验比较数据集间的性别、病理分型、分期、疾病复发和生存状态的分布差异,使用Mann-WhitneyU检验比较EMT 和非EMT 亚型患者基因表达值和数据集间的年龄差异。使用log-rank 检验比较高危组和低危组的生存差异。P<0.05 为差异有统计学意义。

2 结果

2.1 代谢标志基因的筛选和模型构建 基因表达差异分析显示,EMT 亚型和非EMT 亚型间有58 个差异表达的代谢相关基因和1 276 个差异表达的靶基因。MRA 筛选出3 个主调控EMT 亚型的代谢相关标志基因,分别是人脂质磷酸磷酸酶相关蛋白4 型(phospholipid phosphatase related 4,LPPR4)基因,谷氨酰胺-果糖-6-磷酸转氨酶2(glutamine-fructose-6-phosphate transaminase 2,GFPT2)基因和硫酸酯酶1(sulfatase 1,SULF1)基因,见表2。相比非EMT 亚型,EMT 亚型中这3 个基因的表达值均显著升高(均P<0.01),见图1。Cox 比例风险回归分析显示,3 个基因的回归系数分别为0.148,-0.112 和0.373,风险评分=(0.148×LPPR4 基因表达值)-(0.112×GFPT2 基因表达值)+(0.373×SULF1 基因表达值)。根据风险评分中位数将纳入患者划分为不同风险组,高危组EMT 亚型患者比例更高,患者肿瘤-淋巴结-远处转移(tumor-nodemetastasis,TNM)分期多为Ⅲ期和Ⅳ期,见图2(插页)。

图1 EMT 和非EMT 亚型3 个基因表达值比较

图2 根据风险评分划分的风险组

表2 主调控分析筛选出的代谢标志基因

2.2 MPSGC 的构建与验证评估 Kaplan-Meier 曲线显示,在1 个训练数据集和3 个验证数据集中,高危组OS均明显短于低危组,HR分 别 为2.126(95%CI:1.413~3.322)、1.432(95%CI:1.013~1.901)、2.413(95%CI:1.411~4.243)和3.541(95%CI:1.612~7.723),均P<0.05,见图3;高危组RFS 也显著短于低危组,3 个验证集的HR分别为1.523(95%CI:1.133~2.014)、2.142(95%CI:1.232~3.503)和4.832(95%CI:2.102~10.931),均P<0.05,见图4。

图3 训练数据集和验证数据集中两组患者的总生存曲线

图4 验证数据集中两组患者的无复发生存曲线

2.3 GSEA 分析 富集分析结果表明,转化生长因子(transforming growth factor,TGF)-β 信号传导、EMT、血管生成、黏着斑、血管平滑肌收缩、黏多糖生物合成硫酸软骨素等EMT 相关通路在高危组中呈现显著富集,见图5。

图5 EMT 相关通路的基因集富集分析

2.4 免疫细胞浸润分析 CIBERSORT 分析显示高危组中M2 巨噬细胞、M0 巨噬细胞及中性粒细胞的比例显著增加,低危组中幼稚B 细胞和浆细胞的比例较高,见图6A。MCPCOUNTER 分析显示,高危组中癌症相关成纤维细胞(cancer-associated fibroblasts,CAFs)、内皮细胞、单核/巨噬细胞丰度较高,低危组中B 淋巴细胞和自然杀伤细胞丰度较高,见图6B。

3 讨论

GC 表现出高度的异质性,即使是同一分期阶段的患者,临床转归也往往相差甚远。对GC患者进行风险评估和预后预测有助于识别高风险患者和提高个体治疗疗效。近年来高通量测序技术飞速发展,海量大数据成为挖掘癌症新型生物标志物的宝库。大量研究表明,某些特定基因的表达和GC临床密切相关,有不少预后标志物也因此被陆续开发。然而,这些标志物的预测评估效能有限,难以在临床工作中推广普及。

大量证据表明,肿瘤细胞通过代谢重编程,发展出各种异常分解代谢途径,如癌细胞中能量产生主要通过糖酵解途径而非正常的三羧酸循环。这些异常代谢加剧了肿瘤微环境的酸性、缺氧状态,促进了肿瘤细胞的增殖、转移。通过对转录组数据的无监督分类,GC 可被聚类为4种分子亚型,其中EMT亚型预后最差,复发率最高。本研究基于转录组数据和代谢相关基因构建的预后模型,有助于实现对患者的风险分层。

本研究构建的模型由LPPR4、GFPT2 和SULF1 等3个代谢标志基因组成,这些基因在糖类、脂质代谢中发挥重要作用,已被证实与肿瘤的发生、进展和患者预后密切相关。LPPR4 为脂质磷酸磷酸酶相关蛋白家族成员,广泛参与多种生物活性脂质磷酸盐的脱磷酸过程[19],通过Sp1/整合素α/黏着斑激酶(focal adhesion kinase,FAK)信号通路促进GC 的腹膜转移;高表达LPPR4 的GC 患 者总 体 生存 状 态不佳[20]。GFPT2 是 己糖胺生物合成的限速酶,催化6-磷酸葡萄糖胺合成[21],激活NF-κB 通路可上调GFPT2,并促进EMT 进程[22];高表达的GFPT2 与结肠癌的进展和转移、侵袭相关[23]。SULF1 编码硫酸酯酶1,选择性地切除硫酸胰腺肝素蛋白聚糖中的6-O-硫酸酯基团,并因此调节细胞生长、增殖、分化等基本信号通路[24];SULF1 在宫颈癌和GC 中表达升高,增强了宫颈癌细胞增殖和浸润能力[25],与GC 患者的耐药复发相关[26]。本研究使用MPSGC 实现GC 患者的风险分层,高危组患者OS 和RFS 均显著短于低危组。富集分析结果表明,一些促进EMT 的通路在高危组中显著富集。Fristedt 等[27]研究发现浆细胞的浸润有助于延长GC 患者OS,M2 巨噬细胞在GC 中提示预后不良[28],自然杀伤细胞在GC 中发挥重要的免疫监视作用,通过直接杀伤肿瘤细胞或分泌相关细胞因子而发挥有效的抗肿瘤活性[29],而CAFs 广泛参与肿瘤生长转移、微环境改变、抗药性产生等进程[30]。本研究发现高危组中M2 巨噬细胞和CAFs 显著富集,而低危组中浆细胞和自然杀伤细胞丰度更高。这些结果印证模型定义的风险组间存在显著生物学差异。

尽管该模型在训练和验证队列中表现出良好的预测效能,然而其存在的不足和缺陷仍需进一步重视和改进。首先,本研究纳入的队列数据由转录组测序产生,价格高昂,且后续的分析需要复杂的计算过程,限制了其在临床中的推广;其次,尽管研究结果在数个独立队列中进行验证,但作为一项回顾性分析纳入的信息有限,无法涵盖不同区域患者的差异;且肿瘤微环境成分复杂,包含范围广泛,包括肿瘤核心、浸润边缘等,本研究中分析的样本均取自于肿瘤核心区域,无法评估肿瘤整体的代谢状态。后续研究可将纳入多中心、前瞻性队列来深入探究代谢标志基因的在GC 中的生物学功能。

猜你喜欢

危组亚型基因
Frog whisperer
超声心动图用于非瓣膜病性心房颤动患者卒中危险分层
修改基因吉凶未卜
创新基因让招行赢在未来
ING4在结肠和直肠的胃肠间质瘤表达的研究
基因
Ikaros的3种亚型对人卵巢癌SKOV3细胞增殖的影响
ABO亚型Bel06的分子生物学鉴定
HeLa细胞中Zwint-1选择剪接亚型v7的表达鉴定
心肌梗死溶栓试验危险评分对急性心肌梗死患者预后的评估价值