分析鉴定胃食管交界处腺癌发生与进展的关键基因
2021-06-17王雨芊陈亚玫骆盈盈张少森
王雨芊,陈亚玫,杨 洁,林 媛,骆盈盈,张少森,吴 晨*
(1.国家癌症中心 国家肿瘤临床医学研究中心 中国医学科学院北京协和医学院肿瘤医院 分子肿瘤学国家重点实验室病因及癌变研究室 癌发生及预防分子机理北京市重点实验室,北京 100021;2.北京大学北京未来基因诊断高精尖创新中心 生物医学前沿创新中心,北京 100871)
胃癌与食管癌在2020年全球恶性肿瘤发病率中分别排第5和第8位,全球范围内每年有超过130万死亡病例。胃食管交界处腺癌(adenocar-cinoma at the gastroesophageal junction, ACGEJ)是一种位于食管与胃交界处的恶性肿瘤。虽然近40年来胃癌的发病率逐年下降[1],ACGEJ的发病率却仍在惊人地增加[2]。目前,ACGEJ的治疗方式仍以手术为主,术后5年的生存率仅为20%~25%,低于食管癌和胃癌[3-4]。因此,全面了解ACGEJ发生和进展过程中的分子特征,发现与预后相关的分子标志物对改善患者预后十分重要。
恶性肿瘤发生发展中的重要基因会影响一系列关键细胞功能稳态,全面鉴定影响肿瘤演变的关键基因及其通路。能够为建立预警、早诊和指导靶向精准治疗奠定基础[5]。研究人员在本研究中获得了58例ACGEJ患者的转录组测序数据,鉴定出癌与癌旁组织间差异表达的关键基因,分析了差异基因在肿瘤进展中的促进作用和临床潜在价值,将差异基因与患者预后进行了系统的关联分析,鉴定出9个与预后显著相关的关键基因,并结合患者临床信息建立了nomogram生存预测模型。
1 材料与方法
1.1 研究对象及临床资料
研究中样本取自2016年5月至11月于河南省林州肿瘤医院和林州食管癌医院接受手术切除治疗的ACGEJ患者。共获得58例ACGEJ患者的肿瘤组织和癌旁组织样本(距离肿瘤边缘位置5 cm以上),患者均未进行手术前放射治疗及化学治疗。每位患者的病理资料由病案系统查询获得,临床分期依据UICC/AJCC癌分期手册第七版(胃癌)进行判定,患者的总生存时间由电话随访收集。本研究已获得中国医学科学院肿瘤医院伦理委员会的审查批准(批准文号:20/069-2265),并且所有患者均签署知情同意书。
1.2 方法
1.2.1 转录组测序:每个样本的病理信息由2名病理医生评判,并保证测序的肿瘤样本中肿瘤细胞含量>60%,坏死组织<20%,癌旁样本不含肿瘤细胞。研究提取肿瘤与癌旁组织的RNA并于Illumina HiSeq 2000平台上进行双端测序,获得58对ACGEJ肿瘤组织与癌旁组织配对的转录组数据。
1.2.2 差异表达基因的分析:通过HISAT2软件将转录组测序数据匹配到Ensembl GRCh37版本的人类基因组,使用StringTie软件[6]对RNA进行组装,获得具体基因的表达量,并对转录组数据进行对数转换的标准化。
采用R包limma对58对肿瘤与其配对癌旁组织的RNA数据进行差异显著性检验,并采用Benjamini-Hochberg方法进行校正分析,避免假阳性结果的发生,并以|log2fold change (FC)|>1.2且Q<0.05作为显著差异表达基因(differentially expressed genes,DEGs)的判断标准。
1.2.3 通路富集的分析:为计算癌与癌旁组织间通路或者特定基因集的表达活性,将显著差异表达的基因进行了基因集变化分析(gene set variation analysis,GSVA)。具体来说,研究使用R语言的GSVA包进行计算,得到样本间的GSVA 分数,并用R 包limma对GSVA分数进行差异分析,获得在肿瘤与癌旁组织间通路对比分数(t值)。GSVA分析中纳入的通路均来自MSigDB数据库,包括50条Hallmark通路和代表生物学过程的基因本体论(gene ontology,GO)功能基因集。
1.2.4 生存期分析:研究基于LASSO回归对在肿瘤组织与癌旁组织中差异表达的基因进行筛选,得到与ACGEJ患者总生存相关的基因,并构建预后相关基因集。研究使用多因素cox风险回归分析评估预后基因集在ACGEJ中预测总生存期(overall survival,OS)的能力,根据3年受试者操作特性曲线(receiver operating characteristic curve,ROC)转折点进行风险划分,将患者划分成高风险(22例)和低风险(14例)两组,并计算ROC曲线下面积(area under curve,AUC)。通过R包survminer对两组样本的OS进行Kaplan-Meier图可视化和对数秩检验的差异分析。研究综合临床病理信息和预后相关基因集的风险特征,使用R包rms构建预测ACGEJ生存的nomogram[7]。为评估预测模型的预测精度,研究计算了模型的一致性指数(concordance index,c-index),以及使用图形校准法绘制关于患者的模型预测概率与实际生存概率的标准曲线。
2 结果
2.1 临床病理特征及与预后的关系
58例ACGEJ患者年龄为42~80岁,中位年龄65岁;其中,男性44例(75.9%),女性14例(24.1%)。这些患者中包含Ⅰ期患者6例,Ⅱ期患者10例,III期患者42例,无IV期患者。全组患者中已死亡病例15例,目前生存患者21例,失访22例,中位随访时间为45个月(表1)。
表1 ACGEJ临床特征的cox单因素回归分析结果
2.2 ACGEJ中的失调基因
在58例ACGEJ患者肿瘤组织和癌旁组织对照HR.hazard ratio;CI.confidence interval.
中发现558个显著上调表达的基因和179个显著下调表达的基因。按照差异倍数排序,在肿瘤组织中表达上调前5位的关键基因为:CST1、INHBA、CLDN3、SPP1和SFRP4[8-12]。在肿瘤组织中表达下调前5位的关键基因为PGA5、LIPF、PGA4、CBLIF和ATP4B(图1)。
图1 ACGEJ中的差异表达基因Fig 1 Differentially expression genes in ACGEJ
2.3 ACGEJ失调基因显著富集在肿瘤进展的相关通路
与癌旁组织相比,ACGEJ肿瘤组织中蛋白质磷酸化、mTORC1信号、G2M检查点、纺锤体有丝分裂、KRAS相关基因激活等通路具有显著富集。而维持细胞稳态、KRAS相关基因抑制等通路在肿瘤组织中显著下调(图2)。
图2 GSVA通路富集分析Fig 2 GSVA enrichment analysis
2.4 研究建立预测ACGEJ患者预后的生存模型
在LASSO回归分析中,筛选出9个与ACGEJ预后显著相关的差异表达基因:ASF1B、ACTN1、KNL1、SAPCD2、TP53I11、DMBT1、CNFN、ID2和DPT。研究将预后相关基因构建多因素生存预测模型,该模型AUC为0.79。Kaplan-Meier 生存分析显示低风险组的总生存期显著高于高风险组(Log-rank检验P<0.01)(图3)。
图3 预后特征基因集的生存曲线Fig 3 Kaplan-Meier curves of 3-year overall survival for the prognosis gene set
选取肿瘤样本临床病理特征中的年龄、临床分期和预后相关基因的风险情况建立了nomogram生存预测模型(图4)。该nomogram图中每个预测变量的评分相加的总分值,可以预测ACGEJ患者未来3年的生存情况。该模型的c-index为0.81,同时标准曲线图显示该模型的预测值与实际观测值的吻合度较好(图5)。
图4 ACGEJ nomogram 3年生存预测模型Fig 4 Nomogram predicts 3-year overall survival for ACGEJ patients
图5 ACGEJ预测模型calibration图Fig 5 The calibration curves for predicting ACGEJ survival at 3 years
3 讨论
近年来,ACGEJ的发病率在全球持续增高,尤其是在中国地区[13],需要更多为ACGEJ的临床靶向治疗提供理论基础的研究。在本研究中利用转录组数据,深入挖掘了在ACGEJ与癌旁组织中差异表达的基因,并基于这些差异基因构建了一个多基因生存预测模型。通过结合临床特征绘制nomogram,利用这一模型可较好地预测ACGEJ患者的生存状况,说明该模型有潜在的临床价值。
基因表达失调是肿瘤发生中的主要标志,研究分析转录组在肿瘤组织中的改变能够为临床治疗提供更多的机会[14],本研究获得的在肿瘤组织中表达上调前5位的关键基因均被作为胃癌或其他肿瘤的肿瘤标志物进行过相关研究,能够促进肿瘤细胞的增殖、迁移和侵袭,在上皮-间充质转化中发挥作用等。此外,在肿瘤显著下调的基因中,PGA5和PGA4为编码胃蛋白酶原I(PGI)的基因,PGI的降低常作为胃癌筛查的重要指标[15]。据此推测临床上可参考PGI指标辅助ACGEJ筛查与诊断。
本研究对ACGEJ的差异基因进行了系统的功能富集分析,发现一类差异基因显著富集在与细胞增殖相关的通路上,与肿瘤的发生发展密切相关。此外,另一类差异基因富集在上皮间充质转换(EMT)通路上,EMT是肿瘤细胞获得迁移和侵袭能力的重要过程,说明这些差异基因参与了肿瘤的侵袭转移过程。还有一类基因富集在KRAS上调激活通路,KRAS蛋白能够激活多种细胞内信号传导途径,从而诱导细胞增殖、迁移、转化和存活,说明KRAS通路的激活在ACGEJ的发展过程中起到重要作用。
现有的研究对ACGEJ的预后分析多以单因素为主[16],而应用多因素分析构建预测ACGEJ的生存模型报道较少。本研究鉴定出9个基因的表达与ACGEJ患者的预后显著相关,这个预后相关基因集构建的多因素生存预测模型能够较好地对ACGEJ进行生存预测。根据以上9个基因构成预后相关基因集的风险评估值并结合患者临床特征建立的nomogram模型,可以进一步提高预后基因集的生存预测能力,nomogram也可以转换成易于使用的临床检测方法。该模型将为探索ACGEJ的预后标志物和建立新的临床生存预测模型提供参考。