基于铁死亡相关基因构建葡萄膜黑色素瘤风险预测模型
2024-01-19张富程桑英旗卢奕安
张富程,张 睿,桑英旗,卢奕安,冷 瀛
(1.北华大学附属医院,吉林 吉林 132011;2.普瑞眼科医院有限责任公司,吉林 长春 130021)
葡萄膜黑色素瘤(Uvealmelanoma,UVM)是一种由黑色素细胞衍生的恶性眼内肿瘤[1],每年发病率为每百万人中有5.1例,在成人眼内恶性肿瘤中排名第一。UVM起源于葡萄膜[2],约85%的UVM来自脉络膜[3]。UVM转移率高,最常见的转移部位是肝、肺、软组织和骨[4-5]。目前,UVM的主要治疗方法是眼球摘除、肿瘤切除和放疗,然而预后较差[6-8]。常见的传统临床特征,如年龄、性别、分期、分类等并不能准确预测UVM患者的预后和生存情况。因此,识别新的预后生物标志物对指导UVM的诊断和治疗具有重要意义[9]。如今,随着生物医学和生物信息学技术的快速发展,基于肿瘤基因表达图谱的普遍研究有助于寻找肿瘤的诊断和治疗性生物标志物[10-11],但在UVM方面的研究很少。铁死亡是近年来新发现的一种细胞程序性死亡类型,可诱导细胞内线粒体功能障碍和毒性脂质过氧化,致使肿瘤细胞程序性死亡,在肿瘤细胞死亡中发挥至关重要的作用。因此,本研究通过分析铁死亡基因与UVM患者预后的相关性,探讨铁死亡基因对UVM患者预后的影响。
本研究从TCGA数据库中检索UVM患者的原始数据,通过全面的生物信息学分析,构建UVM患者的铁死亡相关预测模型,进一步根据风险评分将UVM患者分为高风险组和低风险组,并通过该模型预测UVM患者的预后情况,评估UVM患者生存率、转移率,进而针对UVM患者制定个性化的随访、诊疗计划。
1 材料与方法
1.1 TCGA和GEO转录组数据获取
从GDC官网(https:∥portal.gdc.cancer.gov/,2023年8月)下载TCGA数据库UVM转录组数据和与之匹配的临床病理信息,使用“rjson(v0.2.21)”“stringr(v1.5.0)”和“limma(v3.56.2)”包进行数据清洗,除去超过10%样本中不表达的基因,共获得75例UVM样本临床信息和包含17 651个基因的表达矩阵。
使用“GEOquery(v2.68.0)”包下载GEO数据库中的转录组数据及临床病理信息(2023年8月),GSE84976和GSE22138数据集分别含有28和63个样本,应用同样方法进行数据整理。
铁死亡相关基因集从铁死亡数据库(http:∥www.zhounan.org/ferrdb/current/,2023年8月)中下载铁死亡相关基因集,总共获得103个铁死亡相关基因。
1.2 生存分析
去除总体生存时间小于30 d的样本,统计其余样本生存状态、总体生存时间等信息;使用“survival(v3.5-5)”和“survminer(v0.4.9)”包对样本进行Kaplan-Meier生存分析。
1.3 cox回归分析和LASSO分析
对铁死亡相关基因进行单因素cox回归分析,计算风险比(HR),当HR<1时定义为保护性基因,HR>1时定义为风险基因,取P<0.05绘制森林图。对单因素cox获得的基因使用“glmnet(v4.1-7)”包进行LASSO回归分析,进一步筛选出具有优秀预测能力和预后价值的铁死亡相关基因,最后通过多因素cox回归分析确定用于构建UVM患者铁死亡预测模型的核心基因。记录核心基因的表达量(Exp)、风险系数(β),计算风险评分,用来评估UVM患者的风险等级,公式如下:
1.4 构建风险因子关联图方法
利用“survival”“survminer”和“timeROC(v0.4)”包绘制时间依赖性ROC曲线,ROC下区域面积(AUC)>0.60是可接受的预测值;AUC>0.75被认为是优秀的预测值。使用“ggplot2(v3.4.2)”和“tinyarray(v2.3.0)”包将模型基因与患者生存、转移等临床病理特征绘制成风险因子关联图。
1.5 统计学分析
本研究使用R语言(v4.3.2)进行统计学分析。两组比较使用Wilcoxon秩和检验,Kaplan-Meier方法进行生存分析,并采用Log-Rank检验比较生存时间差异;采用单因素和多因素cox回归模型分析预后因素,计算95%置信区间。P<0.05为差异具有统计学意义。
2 结 果
2.1 铁死亡相关基因的获取
下载TCGA数据库75例UVM患者转录组数据和与之匹配的临床信息,初步整理后得到一个含有56 575个基因的表达矩阵,去除超过10%患者样本不表达的基因,剩余17 651个基因,将这些基因与103个铁死亡基因集取交集得到94个铁死亡相关的潜在预后基因(见图1)。
图1 UVM基因和铁死亡基因交集的铁死亡相关基因韦恩图Fig.1 Wayne diagram of ferroptosis related genes obtained by intersection of UVM gene and ferroptosis gene
2.2 铁死亡相关预测模型核心基因筛选
对94个铁死亡相关基因使用单因素cox回归分析,获得29个影响UVM患者生存的铁死亡相关基因(见图2 a),其中CD44(HR=0.24,95%CI:0.11~0.52,P<0.001)、ALOX12(HR=0.45,95CI%:0.30~0.69,P<0.001)为保护性基因,ITGA6(HR=2.79,95%CI:1.60~4.86,P<0.001)、AIFM2(HR=6.86,95%CI:2.96~15.88,P<0.001)为风险基因。对29个基因进一步使用LASSO回归分析(见图2 b)和多因素cox回归分析(图2 c),最终得到核心基因CD44、ALOX12、AIFM2、ITGA6用于构建铁死亡预测模型。
*.P<0.05;**.P<0.01;***.P<0.001。图2 LASSO回归分析和多元cox回归分析确定模型基因Fig.2 LASSO regression analysis and multivariate cox regression analysis to determine model genes
2.3 核心基因生存分析
Kaplan-Meier生存分析显示了4个核心基因高、低表达时对患者总体生存期的影响。AIFM2(P<0.001)和ITGA6(P=0.005 8)基因表达量与UVM患者的总体生存时间呈负相关关系;CD44(P=0.001 9)和ALXO12(P=0.003 6)基因表达量与UVM患者的总体生存时间呈正相关关系(见图3)。
图3 核心基因(CD44、ALOX12、AIFM2、ITGA6)的Kaplan-Meier生存分析Fig.3 Kaplan-Meier survival analysis of core genes (CD44,ALOX12,AIFM2,ITGA6)
2.4 通过筛选出的核心基因构建风险预测模型
使用上述经筛选出的核心基因构建UVM预后预测模型,风险评分是由4个核心基因表达量和多因素cox回归分析计算系数决定的,Riskscore=AIFM2表达量×1.550+ITGA6表达量×0.160+CD44表达量×(-0.700)+ALOX12表达量×(-0.009)。依据最佳截断值将患者分为高、低风险组(见图4 a),其中低风险组包含51例患者,高风险组包含24例患者。Kaplan-Meier生存分析显示高、低风险组总体生存期存在显著差异(P<0.001)(见图4 b),其中高风险组中位生存为21.54个月,低风险组为32.36个月。
图4 风险预测模型的构建Fig.4 Construction of risk prediction model
ROC曲线显示在1 a、3 a、5 a时间点的预测AUC值分别为0.84(95%CI:0.78~0.91,P<0.05)、0.81(95%CI:0.76~0.86,P<0.05)和0.89(95%CI:0.85~0.94,P<0.05),显示该预测模型预测预后具有良好的准确性(见图4 c)。风险因子三联图显示了高、低风险组的样本分布合理,4个关键基因在高、低风险组的表达情况见图4 d。
2.5 核心基因表达分析
本研究通过分析高、低风险组肿瘤样本的4个核心基因的表达,发现高风险组的AIFM2(P<0.001)、ITGA6(P<0.001)表达高于低风险组,CD44(P<0.01)、ALOX12(P<0.001)表达量低于低风险组,表明4个核心基因可以独立区分出高低风险组(见图5)。
图5 4个核心基因在高/低风险组差异表达Fig.5 Differential expression of four core genes in high/low risk groups
2.6 影响UVM预后因素的多元cox回归分析
本研究分别采用单因素及多因素cox回归分析来确定UVM患者的独立预后因素,单因素cox回归分析显示,患者的年龄(HR=1.05,95%CI:1.01~1.09,P<0.05)、TNM分期(HR=2.52,95%CI:1.04~6.07,P<0.05)、风险评分(HR=3.30,95%CI:2.00~5.30,P<0.001)是影响UVM患者预后的因素(见图6 a)。多因素cox回归分析显示,年龄(HR=1.10,95%CI:1.00~1.15,P<0.05)、风险评分(HR=3.50,95%CI:2.10~5.90,P<0.001)均为影响UVM患者预后的独立因素(见图6 b)。
图6 UVM患者风险评分与临床病理特征多元cox分析Fig.6 Multivariate cox analysis of risk scores and clinical pathological characteristics in UVM patients
2.7 铁死亡相关预测模型的验证
采用GEO数据库的GSE84976数据集和GSE22138数据集进行外部验证,根据风险评分将GSE84976数据集28例UVM患者分为高风险组和低风险组,高风险组患者总体生存期(OS)明显高于低风险组(见图7 a),ROC曲线验证结果显示,1 a、3 a、5 a生存率的预测AUC值分别为NA、0.78(95%CI:0.72~0.92,P<0.05)和0.91(95%CI:0.87~0.96,P<0.05)(见图7 b),从风险因子关联图中可以看出分组合理(见图7 c)。同样方法将GSE22138数据集63个UVM患者分为高、低风险组样本作为验证集,高风险组患者无进展生存期(PFS)明显高于低风险组(见图8 a)。ROC曲线验证结果也显示在1 a、3 a、5 a转移率的预测AUC值分别为0.75(95%CI:0.70~0.79,P<0.05)、0.79(95%CI:0.75~0.85,P<0.05)和0.82(95%CI:0.77~0.87,P<0.05),均大于等于0.75(见图8 b)。风险因子关联图显示分组合理(见图8 c),说明该预测模型同时也可以预测UVM患者转移情况。
图7 GSE84976数据集对预测模型进行外部验证Fig.7 External validation of prediction model using GSE84976 dataset
图8 GSE22138数据集对预测模型进行外部验证Fig.8 External validation of prediction model using GSE22138 dataset
3 讨 论
UVM是成人最常见的眼部恶性肿瘤之一,具有遗传模式高度异质性、预后较差、转移率高的特点[12]。在一项为期10 a的随访研究中,492例眼睫状体黑色素瘤中33%发生转移,7 256眼脉络膜黑色素瘤中25%发生转移,285眼虹膜黑色素瘤中7%发生转移[13],一旦转移,患者中位生存期下降(5~7个月),1 a生存期仅13%,早期发现、诊断和治疗对于UVM患者预后意义重大。因此,迫切需要找到一种有效的、可靠的UVM患者预后生物标志物[6]。在本研究中,我们通过全面挖掘TCGA数据库中的UVM基因,并与铁死亡相关基因取交集,应用多元分析筛选出4个核心基因,建立了一个与UVM预后相关的预测模型。依据风险评分将TGCA数据库中收集的75例UVM患者分为高低风险组,使用Kaplan-Meier生存分析、ROC曲线测定AUC值等方法证明了在高和低风险评分方面存在显著的统计学差异,说明该预测模型预测UVM预后的有效性和可行性。随后,本研究应用GEO数据库GSE84976数据集作为验证集,成功验证了该模型对于UVM患者预后生存率的准确性,又通过GEO数据库GSE22138数据集,验证UVM患者转移情况。结果表明,该预测模型能有效预测UVM患者的转移率。因此,本研究认为该模型可用于患者预后生存率、转移率的评估,并对治疗方案的选择具有一定的参考价值。
本研究发现的与铁死亡相关的4个基因AIFM2、ITGA6、CD44、ALOX12在测试集和验证集中显示出了很强的预后预测能力,在预测模型中,AIFM2、ITGA6是不利于UVM预后的基因,AIFM2抑制肿瘤细胞铁死亡,在高危患者群中表达上调[14],ITGA6是胆囊癌潜在的临床预后标志物。有研究[15]表明,ITGA6的表达还是乳腺癌患者生存的独立预后因素,对于UVM患者来说,ITGA6在高危险患者中呈现高表达,而CD44、ALOX12两个基因对UVM预后有保护作用。CD44是一种众所周知的干细胞标记物,在恶性肿瘤中被激活,这可能不是CD44的直接效应,而是由CD44的上游或下游基因所决定。目前还没有研究表明CD44对UVM预后的影响,本研究可能为未来的CD44研究提供有用的信息和理论依据。ALOX12作为花生四烯酸氧化的主要酶之一,是一种必需的多不饱和脂肪酸,最终触发脂质过氧化,而脂质过氧化在铁死亡的执行过程中起着至关重要的作用,从而促进肿瘤细胞铁死亡。
综上所述,本研究的基因构建模型作为预测UVM的远期标志物,在临床实践中更简单、更易推广,是具有良好发展前景的预测工具。因此,本研究结果可有效提高UVM预后和转移预测的准确性和实用性。本研究可能存在一定的局限性,核心基因的体内体外试验还有待进一步研发和完善,因此,这些核心基因在UVM进展和转移中的特异性机制有待被进一步验证。我们将在未来的核心基因体内和体外研究中,利用这4个核心基因作为UVM的潜在治疗靶点,为UVM患者的个体化诊断和治疗提供科学依据。