甲状腺癌风险模型在预测甲状腺癌患者总体生存期中的应用价值
2021-09-15刘妙妙邓豪余赵雅洁
刘 桦,刘妙妙,邓豪余,赵雅洁,李 灿
(中南大学湘雅医院核医学科,长沙 410008)
甲状腺癌是一种常见的内分泌系统恶性肿瘤[1,2],其发病率呈逐年上升的趋势[3,4]。甲状腺癌的不同阶段具有不同的分子特征[5-7],探索甲状腺癌相关因子,用以评估甲状腺癌患者疾病风险程度,对制定个性化和更有效的诊断和治疗策略不可或缺。
随着高通量测序和基因芯片技术的发展,越来越多的研究表明,基于甲状腺癌中差异基因(Differentially Expressed Genes,DEGs)表达水平的特征,在预测甲状腺癌患者预后中具有很大的潜力[8-10]。本研究通过分析来自基因表达综合数据库(Gene Expression Omnibus,GEO)和癌症基因组图谱(The Cancer Genome Atlas,TCGA)中的数据集,筛选甲状腺癌相关DEGs。随后,进行LASSO分析并构建了甲状腺癌相关DEGs组成的风险模型,同时建立甲状腺癌相关Nomogram图预测疾病转归,观察甲状腺癌相关DEGs组成的风险模型与甲状腺癌患者总体生存期的关系,为甲状腺癌患者预后预测提供一个潜在选择。
1 资料与方法
1.1 芯片数据的选择与分析基于GEO数据库中甲状腺癌相关芯片(GSE35570、GSE33630、GSE29265、GSE3467、GSE5364和GSE58545),分析甲状腺癌表达谱,然后筛选甲状腺癌相关DEGs。随后结合Kaplan-Meier生存分析和TCGA数据库分析,筛选与甲状腺癌患者生存期显著相关的DEGs。
1.2 DEGs组成的风险模型分析通过LASSO回归分析甲状腺癌患者生存相关DEG,最终获得甲状腺癌患者生存相关DEG组成的风险模型。
1.3 甲状腺癌DEGs组成的风险模型预测能力分析通过Kaplan-Meier生存分析和单因素多因素Cox风险回归分析,检测甲状腺癌DEGs组成的风险模型得分对甲状腺癌患者预后总体生存期的预测能力。构建一个包含风险模型得分的Nomogram图,检测风险模型得分对甲状腺癌患者预后预测能力。
2 结果
2.1 甲状腺癌DEGs芯片分析基于6套GEO数据库的甲状腺癌芯片,分析甲状腺癌中的DEGs(|logFC|>1,P<0.05),获得了105个交叠的DEGs。随后通过进一步Kaplan-Meier生存分析,发现上述105个交叠的DEGs中有ANK2、CDH3、ENTPD1、GAS1、GHR、GLT8D2等16个DEGs与TCGA数据库中甲状腺癌患者的总体生存期显著相关(P<0.05)。
2.2 甲状腺癌DEGs组成的风险模型分析利用LASSO分析16个生存相关的DEGs,最终获得由ID3、OGDHL、HBB、NRCAM等4个DEGs组成的风险模型[Risk_score= 1.31×Exp(ID3)+0.53×Exp(OGDHL)-0.54×Exp(HBB)-0.75×Exp(NRCAM](图1)。由该模型可以看出,高水平的ID3和OGDHL与甲状腺癌的不良预后相关。
图1 A:由4个DEGs组成的风险模型:利用LASSO分析16个生存相关的DEGs;B:由4个DEGs组成的风险模型
2.3 DEGs组成的风险模型验证图2 Kaplan-Meier生存分析显示,风险得分与甲状腺癌患者预后其总体生存期成负相关,风险得分越高的甲状腺癌患者预后其总体生存期(Overall survival,OS)较差。多因素Cox风险回归分析显示,风险得分与甲状腺癌患者的总体生存期显著相关(P<0.01),结果见图3。
图2 A:风险得分与甲状腺癌患者总体生存期的相关性;B:基于风险得分的甲状腺癌患者分布示意图
图3 甲状腺癌患者生存期相关多因素Cox风险回归分析
2.4 DEGs组成的风险模型预测能力验证构建一个基于甲状腺癌患者年龄、性别、临床分级、风险得分的Nomogram(图4),该Nomogram图显示,风险得分对于甲状腺癌患者的预后具有良好的预测能力(C-index:0.93)。
图4 包含风险得分的Nomogram图
3 讨论
现今,甲状腺癌已经成为内分泌系统中最常见的恶性肿瘤,其发病率高于其它所有癌症[11,12]。早期对甲状腺癌进行风险等级评定,对避免低危患者因不必要的过度治疗带来的副作用和精准预测患者的预后情况都具有重要意义[13,14]。随着高通量测序技术的飞速发展,基于芯片数据分析的生物信息学已被广泛应用于人类疾病致病机制的研究和诊治靶向分子的筛选,例如Li等利用GEO和TCGA数据,综合分析肺鳞癌的转录组和功能网络特征,确定了肺鳞癌的差异基因,为LUSC的治疗靶点和生物标志物提供指导[15]。除此之外,Shen等利用TCGA和GEO数据集,分析筛选了头颈部鳞状细胞癌的潜在生物标志物,同时进行了生存分析,确定了四个最重要的小分子,为头颈部鳞状细胞癌的早期诊断和个体化控制提供更可靠的生物标志物[16]。因此,筛选与甲状腺癌相关的差异基因,并在此基础上构建甲状腺癌风险模型,不仅可以实现对甲状腺癌患者进行风险评分,还可以实现对甲状腺癌患者的预后情况进行有效预测。
本研究基于6套甲状腺癌GEO,筛选获得了105个交叠的DEGs。进一步通过Kaplan-Meier生存分析,发现在上述105个DEGs中,有16个DEGs与TCGA数据库中510例甲状腺癌患者的总体生存期显著相关。随后,基于这16个生存相关的DEGs,利用LASSO分析最终获得了由4个DEGs(HBB、NRCAM、ID3和OGDHL)组成的风险模型。已有研究发现,HBB是常见的β-珠蛋白基因突变,检测该基因可用于筛查β-地中海贫血[17];NRCAM是阿尔茨海默病ADAM10底物选择性激活的标志物[18];ID3被发现可促进肝内胆管癌的干细胞特征和预测化疗反应[19];OGDHL是乳腺癌的潜在风险因子,可作为乳腺癌筛查的标志因子[20],表明这4个基因与人类多种疾病的发生发展具有重要联系。由于甲状腺癌是一种高度异质性的疾病,肿瘤的进展涉及一个复杂的网络,包括多种信号通路。因此,相较于单一的标志物,多个基因的结合的预测模型能更准确地反映甲状腺癌的生物学特性和预后情况。
通过进一步Kaplan-Meier生存分析和单因素多因素Cox风险回归分析发现,风险得分与甲状腺癌患者的OS显著相关,风险得分越高的患者其OS显著较差。最后构建了基于甲状腺癌患者的年龄、性别、临床分级、风险得分的Nomogram图。Nomogram图分析结果显示,由4个DEGs(HBB、NRCAM、ID3和OGDHL)组成的风险模型得分对甲状腺癌患者的预后具有良好的预测能力。
综上,本研究确定了一个4个基因的特征的风险模型,可以有效预测甲状腺癌患者预后情况,为甲状腺癌个体化治疗以及甲状腺癌的筛查、预防、诊断和监测提供新方法。