基于多基因构建胰腺癌预后模型及临床价值
2024-04-24高过华永飞江寅王高卿
高过,华永飞,江寅,王高卿
胰腺癌(pancreatic cancer,PC)是发病率和死亡率逐年上升的恶性肿瘤之一[1]。其是一个高度异质性的恶性肿瘤[2],传统的分期如TNM 分期,在预测患者生存差异方面并未表现出很好效果[3]。精准医学为PC患者的治疗提供了许多有价值的参考,也让个体化治疗成为了现实[4-5]。二代测序技术的使用,使利用相关特征对患者进行风险分层成为了可能[6]。本研究通过不同数据集获得了和PC 预后相关的基因,并建立了着丝粒蛋白E(centromere protein E,CENPE)、肌动蛋白结合蛋白(anillin,actin binding protein,ANLN)和细胞骨架相关蛋白2 类似物(cytoskeleton associated protein 2 like,CKAP2L)在内的预后模型,适用于指导患者预后评估和治疗决策,现报道如下。
1 资料与方法
1.1 数据来源 本研究严格遵守根据赫尔辛基宣言,所使用的数据来源于 TCGA(https://portal.gdc.com)、ICGC(https://dcc.icgc.org/releases/current/Projects)和HPA(https://www.proteinatlas.org/)数据库。本研究从ICGC 和TCGA 数据库获取PC 的RNAseq 数据(level3)和相应的临床信息,从GTEx V8 版数据库(https://gtexportal.org/home/datasets )获取正常胰腺组织RNAseq 数据,从HPA 数据库获取相关蛋白在PC 中表达的免疫组化结果。
1.2 筛选和PC 预后相关的基因 基于ICGC 数据库所获取的两个数据集中PC 的RNAseq 数据(level3)和相应的临床信息,通过单因素Cox 回归分析与PC预后相关的基因,两个数据集取交集并结合文献资料最终选择所要研究的目的基因。
1.3 目的基因在PC和正常胰腺组织中的表达水平通过TCGA 数据库进一步验证所筛选出的目的基因在PC 和正常胰腺组织中的表达水平。从TCGA 数据库获取在PC 及癌旁组织中RNAseq 数据(level3),从GTEx 数据库获取正常胰腺组织RNAseq 数据。
1.4 目的基因表达水平对PC 患者预后的影响 基于TCGA 数据库获取的数据,进一步验证目的基因对PC 患者预后的影响。
1.5 构建基因相关的预后模型 基于1.4 中所获取的TCGA 数据集,使用R 包“glmnet”执行Lasso Cox回归以及10 倍交叉验证;采用R 软件survival 包进行多因素Cox 回归分析构建预后模型。
1.6 基因预后模型独立于其他临床因素 为了证明PC患者存在其他临床变量影响预后,本研究进行了单因素和多因素Cox 回归分析,将临床特征和基因预后模型设置为自变量,将总体生存时间(overall survival,OS)设置为因变量。
1.7 构建和验证列线图 为了提高模型的适用性,将具有预后能力的临床变量与基因特征模型相结合,并应用列线图来预测PC 患者的预后。基于单因素和多因素Cox 回归分析选择所有独立预后因素来构建列线图来评估PC 患者1 年OS 的概率。使用R包“timeROC”获得1 年OS 的ROC 曲线和AUC。
1.8 统计方法 采用R V4.0.3 软件进行统计学分析,使用的R 包主要包括survival、survminer、timeROC、glmnet 和rms 等。两组间基因表达水平的比较采用Wilcox检验。P<0.05 表示差异有统计学意义。
2 结果
2.1 PC 差异表达基因 通过ICGC 数据库中的两个数据集筛选与PC 预后相关的差异基因,其中澳大利亚数据集和加拿大数据集分别获取了2 355 和2 828 个差异差异基因,将两个数据集所获差异基因最显著的前30 个基因取交集,最终获得3 个候选目的基因,分别CENPE、ANLN 和CKAP2L,见图1。
图1 差异表达基因
2.2 差异基因在PC 和正常组织中的表达水平 基于TCGA 和GTEx 数据集比较2.1 中所选3 个差异基因的表达水平,结果显示相比正常胰腺组织,CENPE、ANLN 和CKAP2L 在胰腺癌组织中的表达明显升高(均P <0.05),见图2。HPA 数据库的免疫组织化学染色结果也提示CENPE、ANLN 和CKAP2L蛋白表达水平呈强阳性,见图3。
图3 CENPE、ANLN和CKAP2L蛋白在胰腺癌中的表达(IHC染色,×4)
2.3 差异基因表达水平与PC不良预后的相关性 基于TCGA 数据集进一步验证和分析CENPE、ANLN和CKAP2L 的表达对PC 患者OS 的影响,结果显示高表达CENPE、ANLN、CKAP2L 的PC 患者的中位OS 短于低表达患者(均P <0.05),见图4。
2.4 构建预测模型 使用TCGA 数据集生成了基于上述三个基因表达的预测模型,随后计算了三个基因表达风险评分,根据风险评分截断值,89 例患者被分为高风险组,其余90 例患者被分为低风险组。基于三个基因的两组K-M 曲线提示高风险组的预后明显短于低风险组(P <0.05)。预后模型的1 年生存时间的AUC 为0.67,见图5。
图5 以最佳截断点为界,高风险组的总生存率低于低风险组
2.5 构建和验证列线图 采用单因素和多因素Cox回归分析来检测基于三基因的预后模型在TCGA队列中的独立预测能力。单因素Cox 回归分析结果提示:预后模型、年龄、肿瘤分级(分化程度)和放疗具有预后价值,而其他变量与OS 没有显着相关;将上述具有统计学差异的变量纳入到多因素Cox回归分析,显示预后模型和放疗是独立预后因素(均P <0.05),见表1。
表1 单因素和多因素Cox 回归分析
为了使预后模型适用于临床,应用列线图来预测TCGA 队列中患者1 年OS 的概率,列线图中的预测因素包括预后模型和放疗,1 年OS概率校准图提示列线图性能较好,见图6。进一步计算了相应模型预测1 年OS 的AUC 为0.78,见图7。
图6 列线图的构建和验证
图7 列线图模型预测PC 患者1 年OS 的时间依赖性ROC 曲线
3 讨论
PC是最常见的癌症死亡原因之一,长期存活率仍然很低,随着治疗水平的不断提高,虽然在一定程度上改善了PC 患者的预后,但通过危险分层识别高危患者将更有助于提高PC 患者的存活时间。基因的异常表达是肿瘤始发的内在因素,筛选出PC中异常表达的基因对于开发新标记物和构建肿瘤预后模型至关重要。本研究利用不同数据集筛选出与PC预后密切相关的差异表达基因,进而构建了多基因预后模型,并且纳入了相关临床因素形成了具有较好预测能力的列线图。
本研究结果显示CENPE、ANLN 和CKAP2L 与PC 密切相关。CENPE 是着丝粒的核心成分,在有丝分裂过程中将染色体连接到纺锤体微管上,在纺锤体微管捕获和染色体会聚中发挥作用[7-8]。相关研究已发现CENPE与多种肿瘤的恶性表型有关,如肺癌[9]、食管癌[10]、乳腺癌[11]和视网膜母细胞瘤[12]等。紫杉醇和秋水仙碱通过抑制有丝分裂纺锤体可塑性来抑制肿瘤细胞分裂,而CENPE蛋白在有丝分裂过程中起着重要作用,因此,CENPE 很可能成为实体肿瘤治疗的靶点[13]。本研究也发现CENPE 在PC 组织中表达明显升高,且与PC 患者的不良预后相关,与Güven[14]研究结果相符。
既往相关研究已发现[15-16],ANLN 过表达于PC组织和细胞系中,且与肿瘤大小、肿瘤分化程度、TNM分期、淋巴结转移、远处转移和不良预后相关,ANLN 通过调节EZH2/miR-218-5p/LASP1 信号轴促进PC 进展,这提示ANLN 可能是潜在治疗靶点。Olakowski 等[17]也发现ANLN 和HIST1H1C 在PC中高表达,并基于这两个基于构建了预后模型且具有较好性能。本研究通过筛选也发现ANLN 明显与PC 患者的不良预后有关,进一步提示ANLN 在PC 中的关键作用。
CKAP2L 是一种细胞周期相关蛋白,与许多肿瘤的进展密切相关。一项泛癌研究表明,在大多数癌症中,CKAP2L表达和活性显着升高,CKAP2L表达升高导致患者预后不良,并且是大多数肿瘤的独立危险因素;高表达CKAP2L 的患者对免疫治疗更加敏感,可作为预测肿瘤免疫治疗的生物标志物[18]。本研究结果也显示CKAP2L 和PC 患者的不良预后密切相关。杨潞頔[19]对CKAP2L 在PC 中的作用机制进行详细探讨,发现CKAP2L 通过调节MYC 通路促进PC 细胞的恶性表型,且促进了PC 细胞的体内成瘤和肝转移。
基于临床相关因素构建的PC 预后模型已被诸多研究报道,尽管所报道的模型效能较好[20-21],但考虑基因异常在肿瘤中的关键作用,似乎有必要将相关异常基因纳入到模型中从而更能提高其效能。本研究结合上述三基因构建的危险分层和预后模型,可以较准确对患者预后作出预测。Olakowski[17]等基于ANLN 和HIST1H1C 双基因构建的PC 预后模型,列线图模型的曲线下面积在0.5 年时为0.83,在1 年时为0.73,并且列线图模型的C 指数比单独的其他变量高0.66。说明了结合将异常表达的基因和临床相关因素结合构建肿瘤预后模型的重要性。
然而,本研究存在一些局限性。首先,考虑到PC的预后不良,本文构建了1 年OS的预测模型;其次,由于缺乏特定的临床数据,无法对列线图进行外部验证,这意味着列线图应该使用多中心临床试验和前瞻性研究进一步验证。
综上所述,本研究使用相对严格的回归模型方法确定三个基因在PC中具有预后意义,构建了包含预后模型的列线图,以帮助临床医生以个性化方式治疗PC 患者。
致谢 感谢TCGA、ICGC、GTEx 和HPA 数据库提供的平台和资源,同时感谢中南大学湘雅二医院的武强博士在数据处理上提供的指导和帮助。
利益冲突 所有作者声明无利益冲突
作者贡献声明 高过:实验操作、论文撰写;高过、江寅:数据整理、统计学分析;江寅、王高卿、华永飞:研究指导、论文修改、经费支持