APP下载

基于TCGA和GEO分析TTK在肺腺癌中的表达及临床意义

2021-07-21胡旭钢唐夏莉刘细帮陈清勇

浙江临床医学 2021年6期
关键词:吸烟史线图腺癌

胡旭钢 唐夏莉 刘细帮 陈清勇

肺癌是目前世界上发病率及死亡率最高的肿瘤类型,肺腺癌(LUAD)是肺癌最常见的组织学类型[1]。近年来,针对肺癌的分子靶向治疗极大地提高了患者的生存率。寻找新的生物标志物,不仅可以更精准地阐述LUAD细胞恶变的分子机制,还可为LUAD的早期诊断、疗效监测、预后评估等提供参考。酪氨酸和苏氨酸蛋白激酶(TTK)是一种双特异性蛋白激酶,能够磷酸化酪氨酸、丝氨酸和苏氨酸,是有丝分裂过程中纺锤体装配检查点的核心调节蛋白[2]。目前研究显示,在结肠癌、肝癌、胆囊癌等多种肿瘤中均存在TTK的过表达,与患者的不良预后相关[3-7]。本研究拟基于公共肿瘤数据库观察TTK在LUAD中的表达模式及预后意义,为TTK的机制研究及临床应用提供一定的理论基础。

1 材料与方法

1.1 数据获取 通过UCSC Xena数据库(https://tcga.xenahubs.net)下载肿瘤基因图谱(TCGA)中标准化的肺腺癌RNASeq3级数据及临床病理资料[8]。最终59例正常肺上皮组织及517例肺腺癌纳入研究,其中494例包含完整随访信息的病例纳入生存分析。从基因表达综合数据库(GEO,https://www.ncbi.nlm.nih.gov/geo)下载肺腺癌GSE31210、GSE68465和GSE75037数据集的原始微阵列mRNA表达数据及临床资料,采用RMA方法进行归一化后进行相关分析[9-11]。GSE31210,共20例正常肺上皮组织和226例肺腺癌组织,临床资料包括患者的年龄、性别、肿瘤分期、吸烟史、EGFRALKKRAS突变情况及生存随访信息。GSE68465,共442例包含完整生存随访信息的肺腺癌患者,纳入生存分析。GSE75037,共83对肺腺癌及对应癌旁组织纳入研究,临床资料包括患者的年龄、性别、肿瘤分期、吸烟史及EGFRKRASSTK11突变情况。肿瘤免疫评估资源(TIMER,https://cistrome.shinyapps.io/timer/)是一个利用RNA-Seq表达谱数据预测肿瘤组织中免疫细胞浸润情况的网站[12-13],通过Diff Exp模块可以快速获得TTK基因在肺腺癌等33种肿瘤组织及对应正常组织中的表达情况。人类蛋白质图谱(HPA,https://www.proteinatlas.org)是利用各种组学技术来绘制蛋白质在正常及肿瘤细胞、组织和器官中表达的网站[14],在线查询可获得TTK蛋白(抗体编号:CAB013229)在正常肺泡上皮细胞及肺腺癌中的免疫组化染色结果。

1.2 基因富集分析 采用GSEA软件(4.0.2版本),以TCGA数据集中肺腺癌标本为分析对象,依据TTK表达的中位值进行分组,以Hallmark基因集作为参考基因集,置换次数为1000次,将同时满足P<0.05和FDR<0.25的基因集认为是显著富集的基因集。

1.3 统计学方法 采用R软件(3.6.1版本)和Graphpad(8.0版本)统计软件。计量资料以()表示,两两组间比较采用t检验,配对数据采用配对t检验,多组间比较采用单因素方差分析。筛选包含生存随访信息的TCGA、GSE31210和GSE68465数据集的标本,纳入随访>30 d的病例进行生存分析。依据TTK表达的中位值,将患者分为TTK低表达组和TTK高表达组。利用R软件的survival和surviminer包绘制Kaplan-Meier曲线,进行log-rank检验;timeROC包绘制ROC曲线,计算AUC值;survival和surviminer包进行单因素及多因素Cox回归分析,采用forestplot包绘制森林图。根据多因素Cox回归结果绘制列线图,并绘制校准曲线和决策曲线来验证列线图模型在预后预测中的作用。以P<0.05为差异有统计学意义。

2 结果

2.1 泛癌组织中TTK的表达 通过TIMER网站的Diff Exp模块,搜索TTK基因在33类肿瘤组织中的表达情况。TTK在包括膀胱尿路上皮癌(BLCA)、乳腺浸润癌(BRCA)、胆管癌(CHOL)、结肠癌(COAD)、食管癌(ESCA)、头颈鳞状细胞癌(HNSC)、肾嫌色细胞癌(KICH)、肾透明细胞癌(KIRC)、肾乳头状细胞癌(KIRP)、肝细胞肝癌(LIHC)、肺腺癌(LUAD)、肺鳞癌(LUSC)、前列腺癌(PRAD)、直肠腺癌(READ)、胃癌(STAD)、甲状腺癌(THCA)及子宫内膜癌(UCEC)等多种肿瘤组织中的表达均显著高于正常组织,见图1A。皮肤黑色素瘤(SKCM)有远处转移的肿瘤患者,TTK的表达明显高于无远处转移的肿瘤患者。结果表明,TTK在泛癌组织中存在高表达,提示可能与恶性肿瘤的发生、演进密切相关。

2.2 LUAD组织中TTK的表达 在TCGA数据集中,与正常肺上皮组织(n=59)比较,LUAD组织(n=517)中TTK mRNA的表达显著升高(t=16.470,P<0.001),见图1B。在GSE31210数据集中,20例正常肺上皮组织与226例LUAD组织比较,TTK mRNA在肿瘤组织中存在显著高表达(t=5.406,P<0.001),见图1C。在GSE75037数据集中,83例LUAD组织及癌旁组织配对比较,TTK mRNA在LUAD组织中过表达(t=18.690,P<0.001),见图1D。HPA数据库中的免疫组化结果提示,TTK蛋白在正常肺上皮组织中弱表达,在LUAD组织中表达明显增加,见图1E。综上,TTK在LUAD组织中的表达显著高于正常肺上皮组织。

图1 肿瘤组织与正常组织TTK表达的比较

2.3 TTK表达与LUAD患者临床病理特征的相关性 TTK的表达与年龄、性别、吸烟史、肿瘤大小、淋巴结转移、TNM分期、驱动基因突变状态、KRAS突变等密切相关(P<0.05),与患者的 ECOG 评分(P=0.052)、远处转移(P=0.087)、MAP2K1突变(P=0.095)、PTPN11突变(P=0.060)可能相关,见图2。观察TCGA、GSE31210和GSE75037三个数据集中的TTK表达与TNM分期、吸烟史及EGFR突变的关系,结果提示TNM分期越晚,TTK表达越高(P<0.05),见图3A;既往吸烟史患者的TTK表达明显升高(P<0.05),见图3B;在GSE31210和GSE75037两个数据集中,与EGFR野生型患者比较,EGFR突变患者的TTK表达显著下调(P<0.05),见图3C。综上,LUAD的恶性程度越高,TTK的表达随之增加,且TTK的表达与患者的基因突变情况密切相关。

图2 TTK表达与LUAD患者临床病理特征的相关性

图3 TTK表达与LUAD患者TNM分期﹑吸烟史及EGFR基因突变的相关性

2.4 TTK表达与患者预后的相关性 在TCGA、GSE31210和GSE68465三个数据集中,通过绘制Kaplan-Meier生存曲线发现,TTK表达越高,患者的总体生存率越低(P<0.001,P=0.001,P=0.004),见图4A;时间依赖的ROC曲线表明,TTK能够准确预测患者的总体生存率,见图4B;1年生存率的曲线下面积分别为0.630、0.685和0.610;3年生存率的曲线下面积分别为0.601、0.661和0.635;5年生存率的曲线下面积分别为0.570、0.724和0.610。多因素Cox回归结果显示,TTK是预测LUAD患者预后的独立预后因子,见图4C。综上,高表达TTK的LUAD患者预后差,且TTK是预测患者预后的一个可重复的独立预后因素。

图4 TTK表达与患者预后的相关性

2.5 列线图模型的构建及验证 基于多因素Cox回归分析的结果,在TCGA数据集中纳入肿瘤大小、淋巴结转移及TTK表达等3个独立预后因素,构建列线图模型,见图5A。校准曲线结果显示,列线图模型能够较准确预测LUAD患者真实的3年生存率,见图5B。决策曲线结果表明,与单因素预测比较,列线图模型能更准确地反应患者预后情况,见图5C。综上,联合TTK、肿瘤大小和淋巴结转移的列线图模型,能更准确地预测LUAD患者的预后。

图5 列线图模型的构建及验证

2.6 TTK的功能基因集富集 TTK高表达的LUAD患者在细胞增殖相关通路如有丝分裂纺锤体形成通路和G2M检查点通路、E2F靶点通路、mTOR信号通路、Myc信号通路、糖酵解通路及DNA损伤修复等信号通路富集,可能参与TTK促进LUAD演进的过程。见图6。

图6 TTK高表达LUAD患者的富集信号通路分析

3 讨论

在肿瘤研究领域,大数据已经成为最新的驱动力,数据驱动型研究逐渐成为肿瘤生物信息学研究的重要模式,高通量测序分析技术所产生的肿瘤生物信息学数据,是肿瘤大数据的主要来源之一[15]。肿瘤生物信息学数据具有质控规范、资源共享、海量样本、超高数据维度等特点,对研究肿瘤发生、演进及治疗具有重要意义[16-17]。在恶性肿瘤的病理诊断、药物筛选、个体化基因型与表型构建、预后预测等方面,基于大数据分析的人工智能和机器学习都已取得了飞速的发展[17-18]。运用大数据挖掘技术探究肿瘤的本质是今后肿瘤研究领域的重要方法。

有丝分裂是一个高度精确有序的过程,纺锤体装配检查点在监督细胞正确分裂过程中发挥重要作用。TTK作为纺锤体装配检查点的核心组分,只有当染色体正确连接时,有丝分裂才能顺利进入后期,否则阻滞与M期[19]。因此,TTK在高增殖指数的细胞中明显升高,如正常睾丸及胎盘组织,以及在恶性肿瘤组织中高表达[20-21]。本研究通过多组学、多中心的数据比较发现,TTK在包括LUAD在内的泛癌组织中存在明显高表达,并与LUAD的恶性表型及不良预后明显相关,联合TTK表达及肿瘤大小、淋巴结转移等临床特征,可以准确的预测患者的总体生存时间,为后续的TTK相关细胞及机制研究提供了良好的基础。

流行病学调查结果提示,约90%肺癌的患者均存在不同程度的烟草暴露,烟草暴露人群的肺癌发病风险较无暴露人群提高了近30倍[22]。本研究发现,在既往有烟草暴露史的LUAD患者中,TTK的表达明显升高,而相比于EGFR突变的患者,EGFR野生型的患者中TTK表达显著增加。这些结果提示TTK可能成为烟草暴露患者,尤其是EGFR野生型患者的有效治疗靶点,与肿瘤的恶性表型及不良预后密切相关,可作为预后监测及药物治疗的新标志物。

猜你喜欢

吸烟史线图腺癌
miRNA在肺腺癌中的作用及机制研究进展
管状腺癌伴有黏液腺癌分化结直肠癌临床病理与免疫组织化学特征
云南地区多结节肺腺癌EGFR突变及其临床意义
十二指肠腺癌88例临床特征及相关预后因素
一些图运算的调和指标与调和多项式的线图∗
慢性阻塞性肺疾病流行病学调查及防控分析
吸烟可能增加发生抑郁的风险
COPD合并活动性肺结核患者的危险因素及临床特征探析
吸烟有害健康,二手烟危害子孙
一类图及其线图的Wiener指数