急性髓系白血病中RUNX1突变基因相关预后模型的构建
2021-07-28张小晴李玉云
李 娟,马 丽,张小晴,童 也,李玉云
急性髓系白血病(acute myeloid leukemia,AML)是一种以未成熟血液细胞分化障碍且浸润其他器官或组织从而抑制骨髓造血功能为特点的造血祖细胞恶性增殖性疾病。目前临床上仍是以传统的蒽环类药物和阿糖胞苷为基础进行治疗。近年来,AML病人的总体生存时间较以往虽然有所提高,但治疗策略却并未发生太大变化。目前,20~30岁AML病人的3年生存率大约只有30%,而对于>60岁的老年病人,5年生存率仅有5%左右[1]。AML病人治愈率低、预后差以及缺乏特异性药物仍是目前临床研究亟待解决的难题,因此,可靠的预后评估对治疗策略至关重要。随着对AML细胞遗传学及基因改变的不断认识,细胞及分子遗传学异常逐渐被认为是影响AML预后的重要因素。常见基因突变如WTI基因突变,IDH1/2基因突变、FLT3和TET2基因突变都已被证实与AML病人的预后不良高度相关[2-5]。此外,在AML中,转录因子RUNX1 被检测到发生突变的概率较大,早在2008就已被WHO作为AML特异性的分子标志进行单独分类[6]。
RUNX1基因是RUNX家族成员之一,位于21号染色体长臂(21q22,12),可与核心结合因子B(CBF)形成异二聚体复合物,并与DNA序列发生相互作用[7]。RUNX1基因作为造血过程中关键的调节因子,参与多种造血基因的表达调节,如粒细胞-巨噬细胞刺激因子[8],是人类白血病中多种染色体易位的常见靶点。RUNX1基因突变见于多种血液系统疾病,如急性髓系白血病、骨髓增生异常综合症等,且RUNX1突变是AML病人预后不良的影响因素,RUNX1突变对AML病人总体生存率的下降具有重要意义[9-10]。本研究从RUNX1突变AML病人和RUNX1未突变AML病人样本中找出差异基因,结合样本对应的临床信息,将全部的差异基因进行Cox回归分析并进一步构建预后基因模型,以期为AML的临床个体化治疗、预后判断及病情监测提供有价值的实验依据。现作报道。
1 材料与方法
1.1 数据获取 从美国国立生物技术信息中心(NBCI)的基因表达汇编(GEO,https://www.ncbi.nlm.nih.gov/geo/)数据库中下载数据集GSE37642以及其对应的平台文件GPL96(Affymetrix Human Genome U133A Array)。基于GPL96平台的GSE37642数据集中共包含422个AML病人的组织样本(骨髓单核细胞),提取样本对应的生存时间、生存状态、是否发生RUNX1突变等临床信息。
1.2 数据处理 将GSE37642的矩阵数据读入R软件中,通过平台文件GPL96将表达矩阵的探针信息转换为基因名。多个探针对应同一个基因名时取表达值最大的探针并对样本表达值做标准化处理(log2对数转换)。此外,将缺少RUNX1突变信息的样本予以剔除,最终得到包含370个AML组织样本的表达矩阵文件(59个RUNX1突变样本,311个未突变样本)。
1.3 差异表达分析 上述得到的表达矩阵文件,按照是否发生RUNX1突变将样本分为2组,并通过Limma软件包从2组样本中筛选差异表达基因。Pvalue<0.05和差异倍数的绝对值(|log2(Fold Change)|)>0.7为差异基因的筛选条件。
1.4 预后基因模型的构建 从标准化的表达矩阵中提取全部差异基因的表达量,并与样本对应的生存时间、生存状态信息合并。将全部的差异基因进行单因素Cox回归分析,并筛选出P<0.05的基因纳入到后续的多因素Cox回归当中。构建的多因素Cox回归模型中,基于双向逐步回归法,对构建模型的基因进一步的筛选,并用得到的基因构建预后基因模型。
1.5 基因模型评估 根据基因模型的公式,计算每个样本的风险评分,并按照中位数将样本分为高风险评分组与低风险评分组。对2组样本做生存分析并通过未来1、3、5年的ROC曲线对模型预测精度予以评估。
2 结果
2.1 差异表达基因 从RUNX1突变组与未突变组中共筛选得到89个差异基因,其中30个基因上调,有BIK、SMYD3、CCNA1、CRIP1等;59个基因下调,有SETBP1、DNTT、PTK2、APP等(见图1)。
2.2 预后基因模型 基于样本对应的生存信息,全部的差异基因通过单因素Cox回归进行筛选,得到38个基因(见图2)。采用38个基因构建多因素Cox回归模型,并通过双向逐步回归法筛选得10个基因(见图3),包括BIK、APP、MLLT3、C10orf10、PLXNC1、FHL1、CST3、TGLL1、HOXA5、KIAAO125。使用该10个基因构建预后基因模型,风险评分公式为:风险评分=-0.100×(BIK)+0.215×(APP)+-0.232×(MLLT3)+0.112×(C10orf10)+0.160×(PLXNC1)+0.113×(FHL1)+ -0.167×(CST3)+ -0.152×(IGLL1)+ 0.164×(HOXA5)+ 0.084×(KIAA0125)。根据风险评分公式,其中BIK、MLLT3、CST3和IGLL1的风险比小于1,表明这些基因可能是AML预后保护因素。而其他6个基因的风险比大于1,提示这些基因可能是AML预后危险因素。预后基因模型的风险曲线(见图4)。
2.3 预后基因模型 基于预后基因模型,对高、低风险评分组进行生存分析,结果表明高风险评分组的总体生存率显著低于低风险评分组(χ2=14.03,P<0.01)(见图5);基于预后基因模型,采用ROC曲线对未来1年、3年和5年的总体生存率进行预测,结果表明,1年的AUC为0.709,3年的AUC为0.769,5年的AUC为0.771,提示构建的模型具有较好的预测能力。
3 讨论
研究[11-12]发现,RUNX家族参与多种肿瘤的发生发展,如RUNX1在造血调控以及血液系统肿瘤的发生发展中起重要作用;RUNX2作为骨细胞的特异性转录因子,可参与骨骼发育与骨肉瘤的形成,RUNX3的缺失会导致实体瘤的形成[13-14]。RUNX1在造血调控以及血液系统疾病的发生发展中亦发挥重要作用,RUNX1能够促进白血病细胞增殖发挥致癌作用[15]。本研究从NBCI的基因表达汇编数据库中收集共包含422个AML病人的组织样本,提取样本对应的生存时间、生存状态、是否发生RUNX1突变等临床信息,将样本分为RUNX1突变组和RUNX1未突变组,并通过Limma软件包从2组样本中筛选出89个差异表达基因,其中30个基因上调,有BIK、SMYD3、CCNA1、CRIP1等;其中59个基因下调,有SETBP1、DNTT、PTK2、APP等。基于样本对应的生存信息,全部的差异基因通过单因素Cox回归进行筛选,得到38个基因被纳入到后续的多因素Cox回归模型当中。基于双向逐步回归法,从38个基因中进一步筛选得到10个基因,包括BIK、APP、MLLT3、C10orf10、PLXNC1、FHL1、CST3、IGLL1、HOXA5、KIAAO125。上述10个基因被用来构建预后基因模型,并基于该模型得到每个病人的风险评分,其中BIK、MLLT3、CST3和IGLL1的风险比小于1,表明这些基因可能是AML预后保护因素。MLLT3是维持人类造血干细胞的一个重要调节因子[16]。而APP、C10orf10、PLXNC1、FHL1、HOXA5和KIAAO125这6个基因的风险比大于1,提示这些基因很有可能是AML预后的危险因素。近年来,APP(淀粉样前体蛋白)的表达增加可促进AML1/eto阳性白血病细胞的增殖和迁移,同时提高了髓外浸润的发生率,与AML病人的预后不良高度相关[17]。FU等[18]研究发现,高表达FHL1的AML病人其总体生存率和化疗反应较对照组更差,而靶向干预FHL1的表达可以有效提高AML病人对阿糖胞苷的药物敏感性。值得注意的是,高、低风险评分组的生存分析结果表明高风险评分组的总体生存率显著低于低风险评分组。此外,通过ROC曲线对病人未来1、3和5年的总体生存率进行预测,结果表明AUC均大于0.7,这反映出我们构建的模型具有较好的预测能力。
本研究通过生物信息学工具筛选差异基因成功构建了预后模型,其中BIK、MLLT3、CST3和IGLL1可能是AML预后保护因素,APP、C10orf10、PLXNC1、FHL1、HOXA5和KIAAO125可能是AML预后的危险因素。鉴于我们的标本量少和部分病人年龄、体能状态原因,我们建立的预后模型可能为AML今后的靶向治疗及预后判断提供新的方向,BIK、MLLT3、CST3等基因可能会成为RUNX1突变型AMl治疗的新靶点。其具体机制仍需扩大病例样本及结合细胞实验后进一步明确。