基于多数据库分析FAM72A在肝癌中的表达及意义
2020-08-05萧正康马丹丹李中虎张智勇
萧正康,马丹丹,李中虎,张智勇,蔡 逊
原发性肝癌是临床中的常见恶性肿瘤。2018年公布的全球癌症数据显示,在统计的185个国家36种恶性肿瘤中,肝癌新发病例数高达84.1万例,排名第7位;死亡病例数78.1万例,仅次于肺癌与胃癌[1]。肝癌具有早期症状不明显、进展迅速、治疗困难、预后不佳的特点。尽管目前有手术治疗、介入治疗、靶向治疗等多种手段,肝癌的治疗效果及预后仍然欠佳。因此寻找肝癌相关差异基因和新的肿瘤基因治疗靶点显得尤为迫切。
FAM72A(family with sequence similarity 72 member A)又称p17、LMPIP或Ugene,由149个氨基酸组成,是一种神经元蛋白,在生理条件下在其他组织中表达极低。既往研究[2-5]表明FAM72A与非神经组织的肿瘤如结肠癌、乳腺癌、肺癌等多种恶性肿瘤的发生、发展和预后相关。但目前其在肝癌中的表达及功能尚不明确,该研究将结合多个数据库分析FAM72A在肝癌中的表达及意义。
1 材料与方法
1.1 人类蛋白图谱数据库分析利用人类蛋白图谱数据库(human protein atlas,HPA)检索FAM72A在细胞中的表达情况。HPA提供24 000种人类蛋白质的组织和细胞分布信息,利用免疫组化技术检测每一种蛋白质在正常组织、肿瘤组织中的表达分布,并经过专业人员阅读和标引。在HPA中的”tissue”及”cell”选项卡中分别检索“FAM72A”,获得FAM72A在人正常组织中的表达概况和在肿瘤细胞中的定位。
1.2 基因差异表达分析利用GEPIA数据库(gene expression profiling interactive analysis)及Oncomine数据库检索FAM72A在肝癌组织及癌旁组织中的表达差异。GEPIA是由北京大学开发的基于癌症基因图谱(the cancer genome atlas, TCGA)数据库的在线数据分析网站。在GEPIA中检索“FAM72A”基因,在“expression diy”选项卡中选择”boxplot”,然后筛选肿瘤类型“LIHC”获得肝癌组织与正常肝组织中的表达结果。Oncomine整合了高通量基因表达数据库(gene expression omnibus,GEO)、TCGA数据库和GTEx数据库(the genotype-tissue expression)来源的数据。它是目前最大的肿瘤基因芯片数据库和整合数据平台。在Oncomine数据库中筛选“FAM72A”基因,设定条件为“normal vs cancer”,选定肿瘤类型为“liver cancer”,可以获得各个子研究中肝癌组织与正常组织中的表达情况,并进行荟萃分析。
1.3 FAM72A表达量与病理特征的关系LinkedOmics数据库是基于包含TCGA在内的多数据库的在线分析平台,可用于分析基因的mRNA、蛋白表达、目的基因与临床病理特征关系、甲基化等数据。本研究利用LinkedOmics数据库分析TCGA数据库中肝癌患者病理特征与FAM72A表达水平的关系。
1.4 生存分析Kaplan-Meier Plotter数据库分析目的基因相关生存预后。Kaplan-Meier Plotter数据库是一个在线生存分析平台,目前能够评估5.4万个基因在21种恶性肿瘤中的生存预后。在Kaplan-Meier Plotter中选择”mRNA-seq”中的“liver-caner”数据库,检索”FAM72A”基因,选择肿瘤类型“liver hepatocellular carcinoma”,选择按中位数“median”进行分组。分别绘制肝癌中FAM72A高、低表达组患者的生存曲线。
1.5 FAM72A在肝癌组织中的共表达基因cBioPortal数据库(cBio Cancer Genomics Portal)是一个可视化、多维度分析癌症基因组数据网站。整合了miRNA表达、DNA甲基化等多种数据类型。本研究利用其分析TCGA数据库中FAM72A在肝癌组织中的共表达基因(spearman相关系数的>0.3为正相关,>0.8为高度正相关)。
1.6 FAM72A共表达基因的GO富集功能分析及KEGG通路富集分析DAVID数据库(The Database for Annotation, Visualization and Integrated Discovery)整合了生物学数据和分析工具,提供系统综合的生物功能注释信息。将与FAM72A正相关的共表达基因行GO生物途径聚类分析和KEGG通路富集分析。
1.7 FAM72A共表达基因集的调控网络构建String数据库目前收录了5 090个物种,2 460万种蛋白质相互作用的信息。这些联系中有实验证实的,也有数据预测的结果。在STRING数据库中搜索蛋白质名称“FAM72A”,选择物种“Homo sapiens”,获得FAM72A在人类细胞中的蛋白相互作用网络,同时STRING数据库将根据文献报道、数据库收录的数据、分子间共表达相关性等多方面证据预测蛋白分子间是否存在相互作用,并给出综合得分(score),分数越接近1,分子间存在相互作用的可信度越大。分数越接近0说明目前证据不足,可信度越低。使用STRING数据的“Multiple Proteins Search”功能构建人肝癌组织中与FAM72A表达高度正相关(spearman相关系数>0.8)的共表达分子调控网络。
1.8 统计学处理本研究利用相应数据库提供的在线分析平台进行统计学分析,两组间差异的比较采用wilcox检验。多组连续型独立样本的比较采用Kruskal-Wallis检验。等级资料的相关分析采用spearman秩相关检验。生存分析以Kaplan-Meier法绘制患者生存曲线,采用Log-rank检验进行组间比较。P<0.05为差异具有统计学意义。
2 结果
2.1 FAM72A在人体组织中及肿瘤细胞中的整体表达概况HPA数据库显示在统计的43种人体组织中,FAM72A mRNA高表达的组织器官前三位分别为淋巴结(pTPM=19.3)、睾丸(pTPM=15.9)及脾脏(pTPM=12.5),在肝脏(pTPM=1.1)中的表达仅排名第35位(图1)。提示在人正常肝组织中FAM72A低表达。进一步分析FAM72A在多种肿瘤细胞中的表达定位,结果提示FAM72A表达于囊泡、细胞膜及细胞质中(图2)。
图1 FAM72A在人体不同正常组织及器官中的表达
图2 肿瘤细胞中FAM72A的表达定位
2.2 FAM72A在肝细胞癌及正常肝组织中的表达差异通过GEPIA分析TCGA数据库及GTEx数据库中合计369个肝癌样本及160个正常肝组织样本中FAM72A的表达水平,结果显示肝癌组织中的FAM72A表达水平较正常肝组织升高,差异具有统计学意义(Log2FC Cutoff=0.8,P<0.001)。进一步通过Oncomine数据库验证,数据库中有3项子研究符合筛选条件。3项子研究分别为Guichar Liver、Guichar Liver2[6]及TCGA Liver,共包含221个肝癌组织样本及171个正常肝组织样本。对其进行荟萃分析,结果显示FAM72A在肝癌组织中的表达水平高于正常肝组织(P=2.49×10-18)。见图3。
图3 FAM72A在人肝癌组织中的表达与人正常肝组织间的表达差异
2.3 FAM72A的表达与肝癌患者临床病理特征间的联系LinkedOmics分析结果[7]如表1及图4所示,FAM72A表达量与患者年龄(spearman correlation,P=6.792×10-3)、病理分期(Kruskal-Wallis Test,P=1.817×10-2)、T分期(Kruskal-Wallis Test,P=2.153×10-2)、人种(Kruskal-Wallis Test,P=3.379×10-2)相关,与N分期(Wilcox Test,P=5.228×10-1)、M分期(Wilcox Test,P=5.930×10-1)等无关。
表1 FAM72A在人肝癌中的表达量与临床病理特征的关系
图4 FAM72A在人肝癌中的表达量与临床病理特征的关系
2.4 FAM72A表达水平与患者生存预后关系Kaplan-Meier Plotter结果显示在全部364个临床病例中,FAM72A高表达组患者与低表达组患者相比,其预后生存更差,差异具有统计学意义(P=0.000 12)。其中低表达组患者中位生存期为71.0个月,而高表达组患者中位生存期仅为37.8个月(图5)。
图5 FAM72A高表达组患者与低表达组患者的生存曲线
2.5 寻找肝癌组织中FAM72A的共表达的基因cBioportal搜索结果中spearman秩相关系数大于0.3的共表达基因共有1 871个。其中高度正相关的共表达基因(spearman秩相关系数>0.8)有KIF14(rs=0.862)、NEK2(rs=0.856)、CENFP(rs=0.854)、FAM72D(rs=852)、FAM72B(rs=0.850)、NUF2(rs=0.841)、TOP2A(rs=829)、ANLN(rs=0.826)、SOG1(rs=0.820)及CDCA8(rs=0.801)等27个基因。
2.6 利用DAVID进行共表达基因的GO富集功能注释及KEGG通路富集分析结果显示1 871个共表达基因中,有1 833个被收录于DAVID数据库。对其进行GO生物途经聚类分析,共表达基因主要参与DNA转录、DNA转录的调控、细胞分裂、细胞核分裂等过程(FDR<0.05)(图6)。KEGG通路富集分析显示这些基因参与了细胞周期、RNA转运、剪接体、DNA复制、P53信号通路、碱基切除修复等相关通路(FDR<0.05)(图7)。
图6 共表达基因集的GO生物途径聚类分析
图7 共表达基因集的KEGG通路富集分析
2.7 String数据库网站分析人源FAM72A可能存在的蛋白相互作用网络结果显示,在人类细胞中与FAM72A蛋白相互作用的蛋白网络中共有10个蛋白(P=0.0151)。分别为DCLRE1B(score=0.562)、AURKA(score=0.554)、FAM115C(score=0.544)、C1orf74(score=0.479)、NDC80(score=0.469)、CDCA8(score=0.452)、TTK(score=0.439)、ADORA3(score=0.437)、AURKB(score=0.430)、UBALD2(score=0.420);其中FAM72A与DCLRE1B及AURKA的综合得分最高(图8)。进一步建立FAM72A在肝癌中高度相关的共表达分子的调控网络。见图9。
图8 FAM72A在人细胞中存在的蛋白相互作用网络
图9 FAM72A在人肝癌组织中高度正相关的共表达分子调控网络
3 讨论
FAM72A在多种肿瘤中出现表达升高。目前研究[4]表明FAM72A可以与碱基切除修复蛋白UNG2的NH2末端结合,而UNG2的NH2末端已经被证明可以与PPM1D磷酸酯酶相互作用从而抑制碱基切除修复[8],但目前体外实验尚未能证明FAM72A能够直接调控UNG2的酶活性。其在肝癌中的作用尚不明确,需要进一步研究FAM72A在肿瘤中的作用。
本研究通过利用多个数据库分析了FAM72A在肝癌中的表达及意义。首先HPA数据库显示FAM72A在正常肝组织中低表达,其在肿瘤细胞中主要定位于囊泡、细胞膜及细胞质。其次Oncomine数据库及GEPIA分析包含TCGA数据库在内的多项研究数据均显示肝癌中FAM72A的mRNA表达水平升高。利用了LinkeOmics平台分析结果显示FAM72A的表达与肝癌患者的部分病理特征相关。FAM72A表达水平与人种及年龄相关且FAM72A高表达的患者其病理分期更晚。但结果并未提示FAM72A高表达肝癌患者更容易发生远处转移,这可能是由于数据库中远处转移患者病例数较少。为了探究FAM72A表达与肝癌患者的生存预后关系,本研究组通过Kaplan-Meier Plotter绘制了FAM72A高表达组与低表达组的生存曲线。结果显示肝癌患者中FAM72A高表达组的中位生存时间较低表达组缩短。FAM72A高表达提示肝癌患者的预后生存更差。FAM72A有可能作为判断肝癌患者预后的新指标。
为了寻找FAM72蛋白在人细胞中相互作用的蛋白,本研究组利用STRING数据库查找与FAM72A相互作用的蛋白。发现在人细胞中与FAM72A直接相互作用的蛋白有DCLRE1B、AURKA、FAM115C等10个蛋白,其中FAM72A与DCLRE1B与AURKA相关性最高。DCLRE1B(又称APOLLO或SNM1B,目前研究显示其与DNA损伤反应及和维持染色体端粒稳定性上有着重要作用[9-10]。而AURKA则编码的是一种定位在中心体上的丝氨酸/苏氨酸激酶。该蛋白在细胞的有丝分裂中通过参与中心体的复制、分离和成熟等过程,对染色体平均分配到两个子代细胞起着重要的作用[11-12]。有研究[13]表明,过表达AURKA基因可导致染色体不稳定、促进细胞恶性转化。后续还需要更多的研究来探索FAM72A与它们之间的作用方式。
同时本研究组利用了cBioPortal在分析了TCGA数据库中的372个病例及其基因芯片数据,以此寻找在肝癌组织中可能与FAM72A共同作用的共表达基因。最后获得了肝癌中FAM72A的1871个共表达基因。为了进一步了解这些基因在肝癌组织中主要参与了哪些生物途经及通路。本次研究使用DAVID数据库对这些基因进行了聚类分析。数据库显示包含FAM72A在内的这些共表达基因主要参与了DNA转录、DNA转录的调控、细胞分裂、细胞核分裂、RNA聚合酶Ⅱ启动子转录的负调控、DNA复制、DNA修复等重要途径。提示了这些共表达基因在维持正常细胞分裂、DNA复制及转录的过程中共同发挥着重要的作用。通过KEGG通路富集分析,本研究发现了这些基因参与了细胞周期调控、RNA转运、DNA复制、碱基切除修复以及P53信号等通路。进一步提示这些共表达基因参与细胞的增殖、肿瘤发生过程中的多个相关通路。
最后为了研究肝癌组织中FAM72A共表达分子间的相互作用关系。本研究组选取了与FAM72A高度正相关的27个共表达分子,利用STRING数据库构建了它们之间的分子调控网络。数据库推测这些高度相关共表达分子中CDCA8可能与FAM72A间存在直接作用关系。CDCA8又称人类细胞分裂周期相关基因8,其编码的蛋白称为Borealin。目前研究发现它与INCENP和Survivin共同构成了染色体移动复合物(chromosomal passenger complex, CPC)。CDCA8在肿瘤及未分化的人细胞中呈高表达,但在其他正常细胞中低表达或无表达。Borealin在稳定双极纺锤体、矫正动粒结合位点、定位染色体移动复合物到着丝粒方面等起着重要的作用[14]。有学者研究发现CDCA8在肝细胞癌中出现表达上调,且与肿瘤分化程度、肿瘤分期、肿瘤复发等因素相关,而高表达CDCA8的患者预后生存更差[15]。FAM72A与CDCA8的表达高度相关(rs=0.801),但目前尚无实验和文献报道两者间的作用关系。本研究根据STRING数据库结果推测CDCA8可能是FAM72A参与共表达分子网络功能的重要节点。
综上,本研究组综合利用了多个数据库,发现FAM72A在肝癌中高表达且其高表达FAM72A的患者预后及病理分期更差。FAM72A有可能成为判断肝癌患者预后的新标志物。本研究初步探索了FAM72A及其共表达基因在肝癌组织中可能参与的生物途经、通路。构建共表达分子之间的调控网络,为后续研究FAM72A在肝癌中的作用提供了思路和方向。