APP下载

基于肿瘤突变负荷构建肝细胞癌风险评分预后模型

2022-01-22王凤松朱刘洋白易张雅敏

天津医科大学学报 2022年1期
关键词:基因突变样本肿瘤

王凤松,朱刘洋,白易,张雅敏

(1.天津医科大学一中心临床学院,天津 300192;2.天津市第一中心医院肝胆外科,天津 300192)

原发性肝癌是世界范围内最常见的消化系统恶性肿瘤之一。肝细胞癌(hepatocellular carcinoma,HCC)是原发性肝癌的主要病理类型,占85%~90%,5年生存率仅为12%,这也与大多数患者确诊时已处于晚期有关[1]。目前,临床医生可以根据病理分期、肿瘤分级、淋巴结转移等临床信息预测HCC患者预后,但预测能力有限[2]。因此,进一步探索新的生物标志物对判断HCC患者预后和选择治疗方案具有重要意义。

近年来,随着针对HCC晚期患者的免疫检查点抑制剂(ICIS)的开发,其治疗策略发生了革命性的变化[3]。肿瘤突变负荷(tumor mutation burden,TMB)和程序性死亡配体-1(PD-L1)的表达已逐渐成为多种肿瘤免疫检查点选择的最佳生物标志物,包括肺癌、结直肠癌、前列腺癌和乳腺癌[4]。本研究从肿瘤基因组图谱(The Cancer Genome Atlas,TCGA)数据库下载多组学数据,探讨TMB水平与HCC预后的关系,并运用生物信息学方法筛选出3个与TMB相关的风险基因,建立风险评分预后模型。作为独立的预后因素,该预后模型为判断肝癌患者的预后和治疗方案的选择提供了一种新的工具,具有潜在临床应用价值。

1 材料与方法

1.1 数据下载与处理从TCGA数据库(https://portal.gdc.cancer.gov/)下载截至2020年12月1日的HCC患者的多组学数据(删除病理类型为非HCC的样本),包括364例HCC组织和49例正常肝组织的mRNA表达数据(Illumina HiSeq RNA-Seq平台)、354例体细胞突变数据和367例患者临床资料。对基因表达数据进行注释(http://asia.ensembl.org/homo_sapiens/info/index),重复的基因计算表达量平均值,所有基因表达量进行log2(基因表达值+1)转换用于后续分析。

1.2 基因突变图谱及肿瘤突变负荷通过“maftools”R包[5]绘制HCC患者基因突变图谱。运用Perl软件确定每个样本的基因突变总数以计算TMB,基因突变包括碱基置换、编码移位、插入和缺失等。根据X-Tile软件(版本3.6.1)[6]产生的最佳截止值,将HCC样本分为高TMB组(n=279)和低TMB组(n=69)。Kapla n-Meier法和Log-rank检验分析TMB水平与HCC患者总体生存率的关系。Wilcoxon秩和检验和卡方检验分析TMB水平与HCC患者临床特征的相关性,包括年龄、性别、体重指数(BMI)、T分期、M分期、N分期、病理分期、肿瘤分级及乙肝病毒感染。

1.3 构建并验证风险评分预后模型将每个样本TMB数据与基因表达数据合并,利用“edgeR”R包[7],分析得到高、低TMB组之间差异表达基因及肝癌组织、癌旁组织之间差异表达基因(|Log2FC|>1,FDR<0.01),两组差异表达基因取交集得到TMB相关差异表达基因。合并基因表达数据和生存数据,将355个肝癌样本随机平均分为训练集和验证集。根据X-Tile软件产生的最佳截止值,在训练集中对交集差异表达基因进行批量生存分析,筛选P<0.01(Log-rank检验)的基因为预后相关差异表达基因以进一步分析。通过LASSO(least absolute shrinkage and selection operator,1 000次重复中出现>950次)及多元回归分析确定模型基因及风险系数。TMB相关的风险评分预后模型构建如下:风险评分=∑(风险系数*基因的表达量)。计算训练集中每个样本的风险评分,由X-Tile软件确定的最佳截止值以分成高、低风险组,绘制风险评分的生存曲线,并通过受试者特征(ROC)曲线及曲线下面积(AUC)评估风险评分预后模型的预测性能。此外,在验证集中验证风险评分预后模型的预测能力。

1.4 独立预后因素分析为评估HCC风险评分预后模型临床预测能力,将风险评分与其他临床特征(年龄、性别、BMI、病理分期、肿瘤分级和乙肝病毒感染)进行单因素和多因素分析。其中,单因素分析中具有统计学意义的变量被纳入多因素分析以确定独立预后因素。

1.5 统计学处理采用R软件(版本3.6.0)及SPSS26.0软件进行统计学分析及绘图。P<0.05为差异有统计学意义。

2 结果

2.1 HCC患者基因突变图谱TCGA数据库354例HCC患者基因突变图谱中,327例(92.7%)具有基因突变(图1A),所有HCC样本基因突变量的中位值为71。其中最常见的基因突变类型是错义突变,但在某些基因中错义突变比例较小,如AXIN1和RB1。单核苷酸多态性(SNP)是最常见的变异类型,C>T、T>C和C>A是最常见的SNP。HCC中最常见的突变基因是TP53(30%)、TTN(24%)、CTNNB1(25%),见图1B。

图1 HCC患者基因突变图谱Fig 1 Gene mutation profiles of patients with HCC

2.2 TMB与预后和临床特征有关计算得到HCC患者TMB,合并TMB数据和临床信息得到348个HCC样本(删除6个生存天数为0及缺乏生存信息的样本)。根据X-tile得到的最佳截止值(TMB=1.895),将所有样本分为两组,其中高TMB组有279个样本,低TMB组有69个样本。Kaplan-Meier分析表明低TMB组的HCC患者总体生存率较高(χ2=6.632,P=0.01),见图2。对TMB水平与临床特征的关系分析显示,较高的TMB水平与高龄(χ2=10.328,P=0.001 7)、男性(χ2=9.384,P=0.002 9)和N0分期(χ2=4.723,P=0.03)有关(图3)。

图2 TMB水平与HCC患者总体生存率之间的关系Fig 2 Relationship between TMB level and overall survival of patients with HCC

图3 TMB水平与HCC患者临床特征的关系Fig 3 Relationship between TMB level and clinical characteristics of patients with HCC

2.3 TMB相关差异表达基因合并HCC患者TMB数据和基因表达数据,高、低TMB组差异表达分析得到690个差异表达基因。其中在高TMB组,282个基因表达上调,408个基因表达下调。对364个HCC组织和49个癌旁组织进行差异表达分析得到8 562个差异表达基因,在HCC组织中有6 943个基因表达上调和1 619个基因表达下调。两组差异表达基因取交集,共有457个与TMB相关的差异表达基因。

2.4 构建并验证风险评分预后模型将基因表达数据和生存数据合并得到355个样本,按照1∶1的比例随机分组,其中训练集有177个样本,验证集有178个样本。在训练集中,457个TMB相关差异表达基因进行批量生存分析显示,62个基因与HCC患者预后显著相关(均P<0.01)。对62个基因进行LASSO分析得到风险基因为FABP6、PFKP和PROK1,多元回归分析得到3个基因的风险系数分别为0.132 08、0.153 83和-0.180 47。风险评分预后模型构建如下:风险评分=(0.13208×FABP6表达量)+(0.153 83×PFKP表达量)+(-0.18047×PROK1表达量)。计算训练集中每个样本的风险评分,根据Xtile软件生成的最佳截止值,高风险组有49个样本,低风险组有128个样本。Kaplan-Meier分析显示低风险组HCC患者总体生存率较高(χ2=66.725,P<0.000 1,图4B),且3个模型基因均与预后显著相关(图4A)。ROC显示,该模型在1年、3年及5年的AUC分别为0.764、0.707、0.716,表现出良好的预后能力(图4C)。

图4 训练集中构建风险评分预后模型Fig 4 Construction of risk score prognostic model in training set

在验证集中,根据已建立的模型计算178个样本的风险评分,其中高风险组有46个样本,低风险组有132个样本。与训练集结果一致,Kaplan-Meier分析显示低风险组HCC患者总体生存率较高(χ2=38.364,P<0.000 1,图5),且3个模型基因均与HCC患者预后相关。验证集中ROC曲线显示,该模型在1年、3年及5年的AUC分别为0.682、0.689、0.724。

图5 验证集中验证风险评分预后模型Fig 5 Construction of risk score prognostic model in validation set

2.5 单因素及多因素分析预后影响因素将风险评分、年龄、性别、BMI、病理分期、肿瘤分级和病毒感染状态纳入单因素分析,其中风险评分(HR=2.252,95%CI:1.520~3.337,P<0.001)、病理分期(HR=1.732,95%CI:1.400~2.143,P<0.001)及病毒状态(HR=0.488,95%CI:0.320~0.743,P<0.001)与HCC预后显著相关。多因素分析结果显示,风险评分(HR=2.016,95%CI:1.356~2.997,P<0.001)及病理分期(HR=1.591,95%CI:1.274~1.987,P<0.001)为独立预后因素(图6)。

图6 风险评分及临床特征对HCC患者预后影响的单因素及多因素分析Fig 6 Univariate and multivariate analysis of the influence of risk score and clinical characteristics on the prognosis of patients with HCC

3 讨论

由于其复杂的分子机制和细胞异质性,HCC是我国致死率较高的恶性肿瘤之一[8]。尽管在免疫治疗及靶向治疗方面取得了巨大进展,晚期HCC患者的预后仍然较差。HCC患者的常见临床信息对判断预后具有一定的意义,但其预测能力有限。因此,发现新的生物标志物对更加准确预测HCC患者预后具有重要临床意义,有助于指导治疗方案的选择。

通过对TCGA数据库中HCC样本分析发现,低TMB的患者预后较好。作为一种新的生物标志物,TMB与免疫抑制剂对非小细胞肺癌和恶性黑色素瘤的治疗效果有关[9]。有研究证实,在非小细胞肺癌和恶性黑色素瘤中,高TMB的患者具有更好的预后,而在肾透明细胞癌、结肠癌和前列腺癌中则相反[10]。有研究表明,高TMB促进了自然杀伤(NK)细胞的激活,NK细胞通过分泌血小板衍生因子和血管内皮细胞生长因子,促进血管生成和肿瘤进展[11-12]。另外,由NK细胞分泌的干扰素-γ增加了肿瘤细胞中HLA-G的表达,并抑制免疫应答,导致HCC患者预后较差,但其具体机制仍然需要进一步研究[13-14]。

本研究通过生物信息学方法筛选出3个风险基因(FABP6、PFKP和PROK1),其中PFKP和FABP6的高表达与HCC患者预后不良有关,而PROK1可能与预后较好有关。PFKP基因编码血小板型磷酸果糖激酶,作为糖酵解的重要调节酶,其异常表达与许多类型的肿瘤有关,包括肺癌、肾透明细胞癌、乳腺癌、胶质母细胞瘤[15-17]。除了促进肿瘤生长和增殖之外,PFKP还通过与癌基因的相互作用在肿瘤转移中发挥着重要作用[18]。FABP6是脂肪酸结合蛋白之一,已被证明在结肠癌中的异常高表达可导致肿瘤的快速进展[19]。Ohata等[20]发现,脂肪酸结合蛋白5可以通过上皮间充质转化,促进HCC的进展和转移,可作为HCC预后生物标志物和治疗靶标。Monnier等[21]发现,在HCC中PROK1具有抑制血管生成的效果,从而抑制肿瘤的增殖和迁移。

黄秀红等[22]通过筛选miRNA构建HCC风险评分模型,预测准确性均优于TNM分期,并可作为独立预测HCC患者预后的模型。杨双燕等[23]基于生物信息学分析发现,细胞周期蛋白B2可作为肝癌潜在预后生物标志物。本研究基于TMB,通过多组学分析识别预后生物标志物,构建了HCC风险评分预后模型,该模型在训练集和验证集中均具有良好的预测能力。此外,该风险评分模型被证明是独立预后因素,对于临床医生判断患者预后和选择适当的治疗方案有很大的帮助,可实现对HCC患者的个性化精准治疗。但是,本研究仍然存在很多不足,TCGA数据库中的HCC样本量较少且多为西方国家人群,因此有必要扩大样本量及纳入国内测序结果,以提高模型的预测能力。其次,本模型缺乏外部验证,需要在外部数据库及临床样本中验证其预测能力。此外,3个风险基因影响HCC预后的具体机制仍需进一步研究,其可能成为HCC治疗的新靶点。

综上所述,本研究利用生物信息学方法分析TCGA数据库中HCC样本多组学数据,发现低TMB水平与HCC预后较好显著相关,并基于TMB构建了HCC风险评分预后模型,该模型具有良好的预后能力,是HCC患者独立预后因素。因此,该模型能作为新的生物标志物判断HCC患者预后,对治疗方案的选择具有一定的参考价值。

猜你喜欢

基因突变样本肿瘤
携带线粒体12S rRNA基因突变的新生儿母系家族史分析
致命肿瘤忽然消失
滚蛋吧!肿瘤君
“饿死”肿瘤的纳米机器人
规划·样本
人大专题询问之“方城样本”
“基因突变和基因重组”复习导航
随机微分方程的样本Lyapunov二次型估计
肿瘤标志物正常不等于没有肿瘤
“官员写作”的四个样本