基于A-to-I RNA编辑的列线图预测胃腺癌患者的总生存期
2023-12-23包德荣朱鑫杰毛梦晖陈文波赵思哲王琳徐笑飞宋斌斌
包德荣 朱鑫杰 毛梦晖 陈文波 赵思哲 王琳 徐笑飞 宋斌斌*
胃腺癌(STAD)是全球第五大常见癌症和第四大常见癌症死亡原因[1]。在过去10 年中,虽然个体化靶向治疗已在胃腺癌中取得进展[2],但已经落后于某些其他肿瘤类型(如非小细胞肺癌)[3],一些患者从靶向治疗中获益显著,仍有较大一部分患者在接受靶向治疗后效果不显著、副作用大甚至出现不良反应,这突显对胃腺癌预后和新治疗靶点的准确预测模型的迫切需求。因此,确定潜在的胃腺癌治疗靶点和建立准确的预后模型对胃腺癌个性化治疗具有重要意义。RNA 编辑是指一种在RNA由聚合酶生成之后其转录自DNA的核酸序列又发生改变的分子生物学过程[4],其可以改变RNA序列,RNA 编辑比基因表达更具肿瘤特异性[5],且不受分离的RNA 数量和参考基因选择的个体间差异的影响。因此,作为一种生物标志物,RNA 编辑在稳定性和可靠性方面优于基因表达。本研究应用癌症基因组图谱(TCGA)建立预测模型预测STAD 患者总生存期(OS),并根据ATIRE 风险评分和临床病理特征构建预测STAD OS 的列线图。
1 资料与方法
1.1 数据收集 从TCGA 数据库(https://portal.gdc.cancer.gov/)下载STAD 患者肿瘤组织和正常组织的转录组数据和临床信息。TCGA 胃腺癌数据库有32 个为正常样本,375 个为肿瘤样本。用PERL 软件提取临床信息,包括:样品名称、生存时间、生存状态、年龄、性别、分级、分期以及TNM 分期。从Synapse 网站(https://www.synapse.org/#!Synapse:syn2374375/files/)下载TCGA-STAD 样品的RNA 编辑数据,采用PERL软件删除缺失值>30%的数据。然后将RNA 编辑数据和生存数据合并。
1.2 预后模型构建 仅有282 个样本拥有现有的ATIRE 数据被纳入本研究,并以6 ∶4 随机分为训练集(n=170)和验证集(n=112)。通过单因素COX 回归分析初筛STAD 患者预后相关RNA 编辑,再通过套索算法(least absolute shrinkage and selection operator,LASSO)回归对训练集的胃腺癌患者预后相关RNA 编辑进行降维,并应用多元Cox 回归模型筛选出最优的RNA 编辑构建胃腺癌的预后模型,得到模型的公式,并获得每个样本的风险评分(Riskscore)。基于获得Riskscore 的中位数,将训练集患者分为高风险组及低风险组。同时将验证集的样品根据Riskscore 的中位数,将验证集的数据也划分为高低风险两组。应用验证集数据对预测模型进行检验,并采用ROC 曲线及校正曲线显示预测模型在训练集和验证集中预测模型的效能。采用Kaplan-Meier 法对训练集、验证集进行生存分析。
1.3 列线图(Nomogram)构建 采用单因素及多因素Cox 风险回归,将上述获得的Riskscore 与患者的临床特征(年龄、性别、肿瘤分级、分期)进行独立预后分析,获得胃腺癌患者独立预后因子并构建列线图。采用校正曲线、ROC 曲线、决策曲线分析该联合模型的效能及临床实用性。
1.4 差异基因与富集分析 采用高、低风险组间的差异表达基因(DEGs)进行富集分析,包括基因本体论(GO)分析和京都基因与基因组百科全书(KEGG)分析。分析RNA 编辑与基因表达的相关性,Riskscore 与ADAR 基因表达的相关性,肿瘤组织和正常组织中选定ATIRE 位点编辑水平的差异。
1.5 统计学方法 采用R(4.2.1)语言统计软件。差异分析使用Wilcoxon 秩和检验,相关性分析采用Pearson相关。P<0.05 为差异有统计学意义。
2 结果
2.1 基线临床病理特征 TCGA-STAD 病例的临床病理特征见表1。训练集与验证集在年龄、性别、分级、TNM 分期等方面差异无统计学意义(P>0.05)。
表1 TCGA数据集中STAD患者临床资料[n(%)]
2.2 预后模型的构建 通过训练集的单变量CoxpH 分析,共发现5 个ATIRE 位点与STAD OS 相关(P<0.001)。ZNF91|chr19:23542060、RNF149|chr2:101891615、KRIT1|chr7 :91829808、ARSD|chrX :2824214、OSGEPL1|chr2:190612029 这5 个位点作为最优预后位点,并用Lasso 分析法进行ATIRE 风险评分,见图1。利用LASSO 分析得到ATIRE 各位点的系数,得到ATIRE 风险评分:(11.98×ZNF91|chr19:23542060)+(9.77×ARSD|chrX:2824214)+(-14.13×RNF149|chr2:101891615)+(12.54×OSGEPL1|chr2:190612029)+(11.31×KRIT1|chr7:91829808)。5 个ATIRE 站点的风险评分、生存状态和编辑水平分布,ZNF91|chr19:23542060、ARSD|chrX:2824214、OSGEPL1|chr2:190612029、KRIT1|chr7:91829808 在高风险组中高表达,RNF149|chr2:101891615 在高风险组中低表达。高风险组OS 在训练集(P<0.001)、验证集(P=0.0014)和所有患者组(P<0.001)中均明显降低。高低风险组在年龄、性别、分级、分期、TNM 分期差异无统计学意义(P>0.05)。见图2-3。
图1 STAD患者生存相关ATIRE位点的鉴定 A. 曼哈顿图描绘了所有ATIRE位点与STAD生存间的联系,以单变量Cox-PH模型中-Log 10尺度的P值为x轴,以ATIRE位点的染色体位置为y轴。点橙色线表示P=0.001的显著性截断。B. LASSO回归的结果;C. 选择最佳ATIRE位点(λ)和虚线垂直线的交叉验证
图2 ATIRE风险评分与STAD患者预后的关系。训练集(A)和验证集(B)7个ATIRE位点的ATIRE风险评分、生存状态和编辑水平的分布,以及在训练集(C)和验证集(D)中按风险评分分组的生存概率的可视化Kaplan-Meier图
图3 不同临床特征患者ATIRE风险评分的差异,A-G:年龄、性别、分级、分期、T分期、N分期、M分期
2.3 基于ATIRE 列线图的建立及预测性能评价 Cox单变量分析临床特征和风险评分对患者生存率的影响。除性别、年龄、分级外,分期和Riskscore 可影响预后;多变量分析结果表明Riskscore 和分期是独立预后因素,见图4。根据ATIRE 风险评分和临床病理特征,包括年龄、性别、分级、分期、T 分期、N 分期和M 分期建立列线图。校准图显示出在1 年、2 年和3 年观察到OS 率与列线图预测OS 率之间有更好的一致性。ROC曲线和决策曲线显示Risk(AUC=0.802)和Nomogram(AUC=0.800)远大于单一临床病理特征。表明建立的模型比单一临床病理特征具有更高的净效益,能够更准确预测患者OS 率。见图5。
图5 基于ATIRE风险评分和临床病理特征的预后列线图的性能。A:预测STAD患者1、3、5年OS概率的列线图;B:校正曲线显示,在1年、2年和3年观察到的OS率与列线图预测的OS率一致;决策曲线(C)和ROC曲线(D)描述了简单ATIRE风险评分、临床病理特征以及ATIRE风险评分和临床病理特征相结合的不同列线图在预测1年OS率的净效益方面的比较
2.4 富集分析 比较高低风险组中基因的表达水平,并筛选出差异表达基因(DEGs)。2 个组共鉴定出210个DEGs,高风险组中189 个基因上调,21 个基因下调。GO 功能富集分析表明,差异表达基因影响肿瘤发生发展的机制主要涉及细胞黏附及突触相关的通路,如:突触组织、通过质膜黏附分子的细胞-细胞黏附、细胞连接组装、通过质膜黏附分子的嗜同质细胞黏附、突触前、谷氨酸能突触、不对称突触、神经元间突触。KEGG 功能富集分析表明,差异表达基因富含钙信号通路、肌动蛋白细胞骨架的调节、类固醇激素生物合成通路。见图6。
图6 与ATIRE风险评分相关的差异表达基因和相关生物学途径。A. 用火山图显示高危患者与低危患者的差异表达基因。B. 基于TCGA数据的ATIRE相关基因GO途径富集分析;C. 基于TCGA数据的ATIRE相关基因KEGG途径富集分析
2.5 RNA 编辑和基因表达相关性分析 RNA 编辑与KRIT1 存在相关性(P<0.05)。ATIRE 风险评分和ADAR1 在TCGA-STAD 肿瘤组织中的表达存在相关性(P<0.05)。RNF149|chr2:101891615 和ZNF91|chr19:23542060 在肿瘤组织和正常组织间差异有统计学意义(P<0.05)。见图7。
图7 ATIRE位点选择对基因表达的影响。A-E. STAD肿瘤组织中ATIRE位点编辑水平与宿主基因表达的相关性;F. 风险评分与ADAR基因表达的相关性;G-K. STAD肿瘤组织和正常组织中选定ATIRE位点编辑水平的差异
3 讨论
建立胃腺癌预后预测模型不仅可以预测癌症预后结果,还可以对治疗方案进行优化。近年来,胃腺癌预后预测模型虽然有较大进展。因此,探索新的模型,特别是基于新型分子标记的模型,对于提高预测模型的可用性和准确性仍然具有研究价值和现实意义。这个研究成功确定了5 个ATIRE 位点,生成了一个ATIRE 风险评分,用于STAD 预后风险分层,与STAD OS 相关。结合风险评分和临床病理特征的列线图对STAD OS 具有较好的预测性能。
最近,ATIRE 越来越多被用来表征癌症。本文通过Cox-pH 回归和Lasso 算法,确定5 个与OS 相关的ATIRE 位点是LUSC 的最佳预后因素。除OSGEPL1 外,这些位点大多数位于已被认为与胃腺癌发展有关的基因中。ZNF91 基因被鉴定为胃腺癌新的重要突变驱动基因[6]。癌症分泌的外体miR-21-5p 通过靶向KRIT1诱导血管生成和血管通透性[7]。此外,ARSD 表达与乳腺癌细胞中的ERα 状态呈正相关,这与良好的预后相关,ARSD 可能作为预测预后的潜在标志物和作为治疗靶点[8]。RNF149 作为E3 连接酶参与蛋白质泛素化[9],引起蛋白酶体介导的底物蛋白降解[10-11],与鼻咽癌细胞恶性进展有关[12]。这些证据是支持这些ATIRE 位点与STAD 预后间的功能基础。
关于这些位点如何与STAD 生存相关的潜在机制仍然完全未知。据报道,ATIRE 可能导致非同义氨基酸突变、选择性剪接的错误调节、密码子偏好紊乱以及microRNA-mRNA 重定向或RNA 结合蛋白-mRNA 重定向,从而影响基因的表达或功能[13]。此外,在STAD肿瘤组织和正常组织间观察到RNF149|chr2:101891615和ZNF91|chr19:23542060 的编辑水平差异有统计学意义,表明这些位点可能涉及STAD 发生。
GO 分析表明,可能参与GC 的DEGs 主要富含突触、细胞黏附和囊泡的调节,这些均是肿瘤增殖,侵袭和转移的重要参与者[14-15]。外泌体作为小细胞外囊泡(sEVs),可将生物活性分子传递给受体细胞,是重组肿瘤行为、重塑肿瘤微环境和赋予治疗耐药性的重要介质,为胃腺癌的诊断和治疗提供新的靶点[16-17]。KEGG分析表明,可能参与GC 的DEGs 主要富含钙信号通路和肌动蛋白细胞骨架的调节,钙信号通路是促进癌细胞生长,侵袭和代谢的细胞内和细胞间信号传导途径中的关键第二信使[18]。
根据上述ATIRE 风险评分和临床病理特征,包括年龄、性别、分级、分期、T 分期、N 分期和M 分期建立列线图。列线图和Risk 在预测STAD 的OS 方面具有中等精度,在预测OS 率方面显示出比Stage 和Grade更好的总体净效益。在有效性方面,之前发布的基于基因表达的列线图的Harrell C 指数范围为0.55~0.888[19],与之相比,基于ATIRE 列线图展现出相对优越的性能。
总之,本研究首次生成了与STAD 患者的OS 相关的ATIRE 风险评分。结合ATIRE 风险评分和临床病理特征的列线图对STAD OS 具有良好的预测性能。这需要大量前瞻性集合来验证该模型的稳健性,以评估其在临床中的应用价值。