APP下载

EPHA1在骨肉瘤中的表达及其与预后相关性的生物信息学分析

2021-06-26江长幸苏元港宋德志徐家科陈蔚蔚

世界最新医学信息文摘 2021年35期
关键词:生存率曲线基因

江长幸,苏元港,宋德志,2,徐家科,2,陈蔚蔚

(1.广西再生医学重点实验室,广西医科大学,广西 南宁 530021;2.生物医学科学学院,西澳大利亚大学,澳大利亚 珀斯 6009;3.广西生物医药协同创新中心,广西医科大学,广西 南宁 530021)

0 引言

骨肉瘤(Osteosarcoma,OS),被认为起源于骨形成间充质干细胞,是最常见的原代骨恶性肿瘤,主要累及儿童和青年的长骨干骺端[1-5]。目前的OS治疗方案包括新辅助化疗、广泛的原发肿瘤手术切除和术后辅助化疗。尽管采取了这些强有力的治疗措施,OS患者的生存率在过去的40年里一直在提高,患者的5年生存率从1980年代以前的约20%提高到目前的约70%,但是转移性浸润患者的5年生存率为20%-30%[6-8],且一半的患者仍然不能存活超10年。虽然已有研究发现了一些易导致OS的遗传肿瘤抑制基因,如TP53、RB1、RECQL4、BLM和WRN等[9-11],但相对于其他癌症,OS中肿瘤的异质性较大,具有复杂和不稳定的基因组结构,为肿瘤治疗带来了一些难题[12-16],因此确定可靠的生物标志物,可为骨肉瘤的治疗提供新的可能。

促红细胞生成素产肝细胞激酶受体A1(erythropoietinproducing hepatocyte kinase receptor A1,EPHA1)作为经典的癌基因[17],最初是从促红细胞生成素的肝癌细胞系中分离出来的。EPHA1在人类癌症中的表达水平是可变的,在某些类型的肿瘤中已有报道EPHA1的过度表达,包括卵巢癌和头部鳞状细胞癌和颈部,而在前列腺癌细胞系,乳腺癌细胞系以及皮肤的基底细胞癌和鳞状细胞癌中检测到表达降低[18]。然而,EPHA1在骨肉瘤中的表达和作用尚不清楚,因此,本研究将利用已有的GEO等数据库挖掘 EPHA1 基因的相关信息,探讨其与骨肉瘤发生发展的关系及临床预后的意义。

1 材料与方法

1.1 数据获取

a、在GEPIA2在线数据库(http://gepia2.cancer-pku.cn/#general)中检索EPHA1,分析其在各类肿瘤中的表达情况;b、基因表达综合数据库(GEO,https://www.ncbi.nlm.nih.gov/geo/)在多个领域发挥着重要的作用,里面存有大量转录组、蛋白质组学、甲基化等数据信息,使用“osteosarcoma”在GEO数据库中进行检索,然后在检索的结果中筛选出包含完整生存数据和临床信息,且样本量大于40的微阵列数据集,下载其转录组数据和相应的平台注释文件,最后我们选择了样本量为47的数据集GSE39058,并下载了其平台注释文件GPL14951。

1.2 数据筛选和处理

利用R软件(版本3.6.1,https://www.r-project.org/)读取下载的微阵列数据集,mRNA探针信息由平台文件GPL14951进行注释,删除相应的注释信息,如探针名,保留已经注释的基因名。对于有重复的基因名,用R的“limma“包将其平均化,然后用“normalizeBetweenArrays”函数对组间进行标准化校正,并提取EPHA1的表达量。从原始数据集中提取临床信息文件,包括性别、年龄和肿瘤坏死面积。

1.3 EPHA1在骨肉瘤中的预后情况和效能评估

EPHA1在骨肉瘤中的生存曲线是利用R软件中的“survival”包分析和绘制,以EPHA1表达量的中位数将数据集分为高表达组和低表达组,采用Kaplan-Meier法绘制生存曲线,log-rank检验分析其显著性。利用R的“survivalROC”包绘制受试者特征曲线(ROC),来评估EPHA1预测骨肉瘤患者1年、3年和5年生存率的准确性。

1.4 EPHA1与骨肉瘤临床性状的相关性分析

利用R的“Survival”包进行单因素和多因素Cox回归分析,将EPHA1和临床特征值(年龄、性别和坏死面积)纳入回归模型,其中年龄以15岁作为二分类划分标准,坏死面积以60%作为二分类划分标准,筛选出骨肉瘤中具有独立预后价值的因素。

1.5 EPHA1高低表达组差异基因的鉴定

使用R的“limma”包对已经标准化的数据集进行差异分析,差异的类别是EPHA1高表达组(n=24)和低表达组(n=23),分别使用倍数变化(fold change,FC)和学生t检验对差异基因(DEGs)进行筛选,以|log2FC|>1和P<0.05筛选出满足要求的DEGs,并用R的“heatmap”包绘制出满足条件的DEGs表达聚类热图以及全部DEGs的火山图,用红色表示基因高表达,绿色表示基因低表达。然后用“corrplot“包绘制出满足条件的DEGs的相关性图,红色表示正性相关,绿色表示负性相关。

1.6 DEGs的GO和KEGG富集分析

使用DAVID数据库(https://david.ncifcrf.gov/)对DEGs进行基因本体论(GO)富集和京都基因与基因组百科(KEGG)通路分析,用于探究EPHA1高低表达组间的生物学功能差异,阈 值设定为P<0.05,输入DEGs,选择 种属“Homo sapiens”,然后选择功能注释工具进行GO和KEGG富集分析。

1.7 统计分析

本研究采用R软件(v3.6.1)完成统计分析,生存分析曲线采用Kaplan-Meier法绘制,以log-rank检验进行显著性分析,Cox回归分析用来筛选独立预后因子,相关性分析采用皮尔森相关性分析,采用Wilcoxon秩和检验确定临床病理和EPHA1表达数据的差异,所有分析均P<0.05具有显著差异性。

2 结果

2.1 EPHA1在各类肿瘤中的表达情况

在GEPIA数据库中检索显示,EPHA1在各类肿瘤中表达具有不同程度的差异,不同肿瘤中存在有的高表达,有的低表达的现象。其中EPHA1在食管癌的癌旁组织中表达量最大,差异最为明显(图1)。

图1 EPHA1在各肿瘤中的表达

2.2 EPHA1在骨肉瘤中的生存分析及评价

在GSE39058数据集中,对整体数据集分析后发现,Kaplan-Meier法绘制的生存曲线中EPHA1高表达组的总体生存率显著低于低表达组(P=0.002)(图2A),且与时间相关的ROC曲线显示EPHA1在骨肉瘤患者1年、3年和5年生存率上具有很好的预测能力,ROC曲线下面积分别是0.805、0.738和0.663(图2B)。

图2 AEPHA1在骨肉瘤中生存曲线 B骨肉瘤患者的1、3、5年生存率的ROC曲线

2.3 EPHA1与临床性状的联系

将临床性状特征值以及EPHA1纳入Cox回归模型中,经过单因素和多因素Cox回归分析发现EPHA1在骨肉瘤中具有独立预后价值(HR=12.65,95%CI:2.89~55.31,P<0.001)(表1)。将EPHA1放入每个临床特征值的亚组中,进一步探索EPHA1与骨肉瘤临床性状之间的关系,最后发现EPHA1的表达存在明显的性别差异,男性患者的EPHA1表达显著高于女性患者(P<0.001)(图3)。

表1 EPHA1及临床性状间的Cox回归分析结果

图3 骨肉瘤患者中EPHA1在不同性别中的表达

2.4 EPHA1高低表达组的差异分析

用EPHA1的中位表达量将数据集划分为高低表达组,其中高表达组含有24例样本,低表达组有23例样本,经“limma”包差异分析后,以 |log2FC|>1和P<0.05条件筛选出254个DEGs,其中包括244个上调基因和10个下调基因,DEGs主要以上调为主。热图展示的是符合条件的DEGs表达量聚类情况(图4A),火山图展示的是所有基因的差异情况(图4B),皮尔森相关性图展示了DEGs之间的相关性(图4C),红色代表正相关,绿色代表负相关,大部分DEGs表现出正相关性。

图4 A EPHA1高低表达组的DEGs表达量聚类热图 BEPHA1高低表达组的所有基因的差异火山图 C EPHA1高低表达组DEGs之间的皮尔森相关性图

2.5 DEGs的功能富集分析

为了解EPHA1高低表达组间的DEGs的生物学功能和通路情况,我们使用了DAVID生物信息学工具对DEGs进行GO和KEGG富集分析,GO富集结果显示,生物学功能(BP)主要富集在转录正调控、RNA聚合酶II启动子转录和启动子转录的正调控等,分子功能(MF)主要富集在启动子近端序列特异性DNA结合、转录激活子活性和GTP活性等,此外,在细胞成分(CC)上也有富集,在胞质、细胞外泌体和吞噬小泡上有明显富集(图5A)。而KEGG通路则主要富集在转化生长因子-β(TGF-β)信号通路、吞噬体和肌动蛋白细胞骨架的通路上(图5B)。

图5 EPHA1高低表达组间的DEGs的GO和KEGG富集分析

3 讨论

本研究通过数据挖掘分析EPHA1与骨肉瘤之间的关系,发现EPHA1在骨肉瘤中具有较好生存意义,Kaplan-Meier生存曲线显示,骨肉瘤患者中,EPHA1高表达的患者生存率显著低于EPHA1低表达的患者,提示EPHA1高表达在骨肉瘤患者的预后中是一个危险因素,单因素和多因素Cox回归分析也显示EPHA1在骨肉瘤中是一个独立预后因素。在与临床数据的相关性研究上,我们发现EPHA1在性别的亚组中表现出来了显著差异,男性患者EPHA1的表达明显高于女性患者,但是,这种现象并非是在骨肉瘤中出现。Xiaolin Wang团队研究发现,在肾透明细胞癌中,EPHA1在男性和女性中也具有明显的表达差异[19],因此EPHA1在性别中的差异表达可作为提高骨肉瘤个体化治疗预后的新方向。在GSE39058数据集中,EPHA1的1年、3年和5年ROC曲线提示其在骨肉瘤中具有较好的预测能力,表明EPHA1在骨肉瘤预后分析中具有一定的研究价值。差异分析结果显示,EPHA1高低表达组的大部分DEGs在疾病发生后表达发生上调,少部分的基因出现下调。GO和KEGG富集分析可以为我们进一步探索EPHA1高低表达组间的功能差异提供研究方向,GO富集结果显示DEGs主要富集在转录调控和启动子调控,这可能极大程度地影响到细胞的代谢[20],从而增加或者抑制细胞的增殖[21]。已有大量研究显示,EPHA1的过度表达与多种癌症有关,并参与了癌细胞的增殖、侵袭和迁移过程[18,22,23]。KEGG富集分析结果也显示,DEGs主要富集在转化生长因子-β(TGF-β)信号通路、吞噬体和肌动蛋白细胞骨架等的通路上,而TGF-β信号通路则主要参与细胞生长、细胞分化、细胞转移和细胞凋亡等细胞过程[24,25],也提示了EPHA1在骨肉瘤中,可能通过促进骨肉瘤细胞的增殖和迁移促进其发展,从而降低患者生存率。因此,EPHA1可作为骨肉瘤基因治疗和改善预后以及开发骨肉瘤靶向药物的潜在靶点。

综上所述,EPHA1在骨肉瘤患者肿瘤组织中呈现高表达,且其高表达与骨肉瘤患者预后不良有关,因此EPHA1可作为预测骨肉瘤患者预后不良的分子标记物。

猜你喜欢

生存率曲线基因
未来访谈:出版的第二增长曲线在哪里?
Frog whisperer
幸福曲线
“五年生存率”不等于只能活五年
影响胃癌术后5 年生存率的因素分析
修改基因吉凶未卜
人工智能助力卵巢癌生存率预测
日本首次公布本国居民癌症三年生存率
创新基因让招行赢在未来
基因