CENP-A在肝细胞癌中的预后意义和作用机制
2019-05-10李锦忠谌宁王丹龚晓兵
李锦忠, 谌宁, 王丹, 龚晓兵
(暨南大学 附属第一医院 消化科, 广东 广州 510632)
原发性肝癌是男性癌症相关死亡的第2大原因,是女性癌症相关死亡的第6大原因,也是全球最常被诊断出的癌症[1],此外,肝癌(hepatocellular carcinoma,HCC)是最致命的原发癌之一,5年生存率为10%或更低[2].HCC的主要危险因素具有明显的地域性:在亚洲和非洲的大多数高流行率国家,慢性乙型肝炎病毒(hepatitis B virus, HBV)感染和黄曲霉毒素B1(aflatoxin B1,AFB1)暴露是主要的危险因素,但随着AFB1暴露减少,乙型肝炎疫苗接种率增加以及新一代抗病毒药物(如恩替卡韦和替诺福韦)对乙型肝炎病毒抑制的累积影响,HCC发生率将呈现下降趋势.相反,丙型肝炎病毒(hepatitis C virus, HCV)感染,过量饮酒和糖尿病/肥胖/代谢综合征在低流行率地区发挥更重要的作用,特别是西方人群,所以HCC患病率将继续增加[3-4].手术的综合治疗在HCC的治疗中起主导作用,然而,70%~80%的HCC患者在临床确诊时已为晚期,不适合进行手术切除和肝移植等潜在治愈性治疗,只有15%的患者可以从手术切除中获益[5],且肿瘤通常对化疗或放疗有抵抗力[6].为HCC引入的最有效的靶向药物是索拉非尼,作为一种酪氨酸激酶抑制剂(tyrosine kinase inhibitor,TKI),索拉非尼仍然是唯一一种在晚期HCC使用的全身性靶向肿瘤治疗药物,但其疗效非常有限[7],这可能进一步反映了晚期HCC缺乏有效的替代方案.目前关于HCC 发病机制还未得到清晰的阐明,可能与多种基因突变和表观遗传畸变相关.尽管基因突变不易于治疗,但HCC中常出现的表观遗传畸变可能成为新靶点[8].
由着丝粒DNA和相关蛋白组成的动粒在染色体分离和细胞分裂中起关键作用[9].着丝粒蛋白(centromeric protein,CENP)是高度保守的基因,已被广泛研究并显示对着丝粒和相关动粒形成起着关键作用,其中CENP-A可将着丝粒变成DNA和蛋白的复合物,而且确保着丝粒在细胞分裂中完好无损[10].在大多数真核生物中,着丝粒的遗传需要借助CENP-A核小体的运输作用来保留在每个姐妹染色单体上的表观遗传标记,从而确保了人体有几乎完全相同的染色体组[11].因此,CENP-A作为着丝点的标志性蛋白因子,在染色体精确分离过程中发挥着关键作用.据报道,CENP-A在包括结直肠癌、肺腺癌、原发性骨肉瘤、卵巢癌等在内的各种癌中过表达[12-15].Tomonaga等[12]为结直肠癌中CENP-A过表达与非整倍性之间的联系提供了证据.研究显示:沉默CENP-A减少了HCC细胞增殖,阻断了G1期的细胞周期,并增加了细胞凋亡;相反,CENP-A过表达促进HCC细胞生长并减少细胞凋亡[16].虽然CENP-A在HCC生长或存活中具有特异性作用,但其作为HCC生物标志物的临床意义及作用机制尚未确定.
1 材料和方法
1.1 癌症基因组图谱(the cancer genome atlas,TCGA)数据集
为了研究CENP-A在HCC中的表达模式和临床作用,使用UCSC Xena浏览器(https://xenabrowser.net/)获得TCGA-LIHC原发性肝细胞癌(liver hepatocellular carcinoma, LIHC)患者的3级数据[17],为424例原发性HCC患者提供了基因表达数据和临床随访信息,并通过UCSC Xena浏览器在线分析原发性LIHC患者CENP-A的mRNA表达,外显子表达和DNA甲基化.通过GraphPad Prism v7.0产生初始治疗后的OS和RFS的Kaplan-Meier曲线.为了使结果更可靠,通过使用FireBrowse(http://firebrowse.org/)对TCGA生成的数据进行分析,比较一些实体肿瘤和相应正常组织中的CENP-A表达.
1.2 数据挖掘
在Oncomine数据库检索界面输入与本研究相关的筛选条件:①cancer type: liver cancer; ②gene: CENP-A; ③analysis type: cancervsnormal analysis,对已发表的CENP-A表达数据进行了meta分析.
1.3 统计分析
统计分析使用R语言(3.4.1)进行.分析CENP-A的RNA表达及基因改变和临床学意义、预后价值的相关性.构建了用于死亡和复发检测的受试者工作特征曲线(receiver operating characteristic,ROC)曲线,并基于Youden指数确定CENP-A表达的最佳截断值.采用Log-rank检验来评估生存曲线之间的差异.用单变量和多变量Cox回归模型分析预后价值.
1.4 GO功能及KEGG通路的生物信息学分析及蛋白质互作网络
采用R-DESeq软件筛选肝细胞癌RNAseq数据的差异表达基因,设定差异基因的筛选阈值:p-adj<0.000 1和log2fold-chang>2;同时采用heatmap包对差异基因进行聚类分析.应用DAVID(https://david.ncifcrf.gov/)在线工具对差异表达基因进行GO功能注释分析.通过使用用于癌症基因组学的cBioPortal的数据挖掘,本实验鉴定了在肝癌(liver hepatocellular carcinoma,LIHC)(|Pearson r|≥0.5和|Spearman’s r|≥0.5)中与CENP-A共表达的基因.应用Cytoscape(3.6.1)的ClueGO对差异表达基因进行KEGG信号通路分析,初步筛选及鉴定出CENP-A在肝细胞癌中的功能及信号通路.运用STRING(https://string-db.org/)数据库和Cytoscape(3.6.1)软件对差异基因编码的蛋白质进行蛋白互作网络分析,并且显示出包含CENP-A的最小相互作用且信心评分>0.7的结果.
1.5 CENP-A基因的改变
与CENP-A遗传改变相关的潜在机制仍然未知,因此,实验分析了CENP-A的甲基化和拷贝数变异(copy number variation,CNV)状态.通过使用cBioPortal数据库,获得了HCC中CENP-A的表达谱和基因改变(包括甲基化,扩增和拷贝数)之间的关系,并进一步分析CENP-A遗传改变对生存的影响.
2 结果
2.1 CENP-A在LIHC被显著上调
通过使用FireBrowse的数据挖掘,本实验表征了几种类型的实体瘤(包括LIHC)中CENP-A的mRNA表达.结果显示,CENP-A在多种实体肿瘤(包括消化道肿瘤、肺癌、乳腺癌、宫颈癌等)均高表达,其中在LIHC组织中的CENP-A表达量为正常肝组织的2.97倍(图1A).为了进一步比较LIHC中的CENP-A表达,提取TCGA-LIHC中的CENP-AmRNA RNAseq和外显子RNAseq数据用于分析. LIHC中CENP-A的mRNA和exon表达显著高于正常组织(P<0.000 1),且CENP-A对LIHC诊断的敏感性和准确性较高(AUC=0.956,P<0.000 1,图1B、图1C).为了进一步论证该结论,利用 Oncomine 数据库提取信息,分析发现,2007年起共有7 项研究涉及CENP-A在HCC和正常组织中的表达,共包括1 127例样本,meta分析结果显示:与对照组相比,CENP-A在HCC中高表达(P=0.003,图2).
图1A CENP-A的 mRNA在不同类型实体瘤和相应正常组织中的表达
Fig.1A Expression of CENP-A mRNA in different types of solid tumors and corresponding normal tissues
数据来自TCGA-LIHC
图1C 原发性LIHC患者CENP-A的 mRNA表达及诊断
1~7 分别表示7项研究结果,蓝色代表低表达,红色代表高表达,颜色由浅变深(即从正中间% 往两边各自的箭头方向) 代表表达差异越大,红色越深表示CENP-A基因在该芯片中表达越高.
1~7 represent the results of 7 studies respectively, blue represents low expression, red represents high expression.The change in color from light to dark (from % in the middle to the direction of the arrows on each side), indicates a greater difference in expression.
图2 CENP-A的meta分析
Fig.2 Meta analysis of CENP-A
2.2 高CENP-A表达是LIHC中OS和RFS差的独立预后因素
CENP-A表达和原发性LIHC患者人口统计和临床病理参数之间的关联总结(表1).在LIHC患者中,高CENP-A表达组肝癌组织的分化程度更低(P<0.000 1),处于T3- 4期(32/91,41.9%vs.55/252,21.8%,P=0.012)和临床Ⅲ/Ⅳ期(44/105,35.2%vs.43/238,18.1%,P=2.92E-06)的患者多于CENP-A低表达组.此外,高CENP-A表达组与低CENP-A表达组相比有显著较高的死亡率(59/112,52.7%vs.71/255,27.8%,P=4.63E-06)和较高的复发率(52/95,54.7%vs.89/225,39.6%,P=0.012),但CENP-A的表达量与临床阶段没有明显的相关性(图3).在LIHC中,高CENP-A表达与LIHC患者显著较差的OS(P=2.66E-07)和RFS(P=5.5E-05)相关(图4).通过进行单因素分析,可发现LIHC患者原发肿瘤的大小及向周围的进展(T3- 4)、中晚期(Ⅲ/Ⅳ)和高CENP-A表达与显著较短的OS和RFS有关;多变量分析证实,高CENP-A表达是LIHC患者OS(HR:2.266,95%CI:1.542-3.330,P=3.14E-05)和RFS(HR:1.605,95%CI:1.118-2.305,P=0.010)差的独立预后因素(表2).
图3 CENP-A表达与临床分期的关系
Fig.3 Relationship between CENP-A expression and clinical stage
图4 CENP-A表达与LIHC患者OS或RFS的关系
Table 1 Relationship between cenp-a expression and demographic and clinicopathological parameters in TCGA primary LIHC patients
参数nCENP-A表达高(n=112)低(n=255)2P值年龄/岁58±12.7361.41±13.540.11性别119女40790.800.37248男72176组织学分级231G1-25217917.52<0.0001131G3-45774纤维化评分1060-224820.0140.99363-58286961653T2731-26620722.3<0.0001913-44645N249082167-141-313M264089175-0.553103临床分期256Ⅰ/Ⅱ6119521.872.92E-0687Ⅲ/Ⅳ4443生存状态237存活5318420.984.63E-06130死亡5971复发情况179无431366.250.012141有5289
2.3 CENP-A在LIHC中的功能富集和通路富集分析
从TCGA下载的374例HCC癌组织样本和30例癌旁正常组织样本的RNAseq数据,筛选出在HCC中差异表达的基因数目有2 790个,其中表达上调的基因有2 494个,表达下调的基因有296个,这些基因在HCC癌组织和例癌旁正常组织的表达有明显区别,并进一步对差异基因进行聚类分析,得到差异基因的聚类热图和火山图(图5、图6).为了进一步研究CENP-A涉及的可能的信号传导途径,将上述差异表达基因分别进行GO(gene ontology)功能富集,在LIHC中,GO功能富集分析显示:CENP-A主要在细胞核染色体的着丝粒区域干扰细胞的有丝分裂,在分子水平体现为影响同种或不同蛋白间的异源二聚化,进而干扰影响蛋白功能的发挥(表3).
表2 原发性LIHC患者OS/RFS的单因素和多因素分析Table 2 Univariate and multivariate analyses of OS/RFS in patients with primary LIHC
左侧纵轴代表基因名,右侧纵轴代表基因的聚类信息;上横轴代表样本的聚类信息,下横轴代表癌症和正常的样本代码,其颜色表示该基因表达量大小,表达量越大颜色越深,其中红色为上调,绿色为下调,黑色代表基因表达无显著变化.
The left vertical axis represents the gene name and the right vertical axis represents the clustering information of genes. The upper horizontal axis represents clustering information of samples, and the lower horizontal axis represents cancer and normal sample code.The color indicated the gene expression level, and the higher the expression level, the darker the color was. Among them, red, green and black respectively represent that gene expression is up-regulated, down-regulated and has no significant change.
图5 原发性肝癌肿瘤组织与癌旁正常组织间差异基因的层次聚类热图
Fig.5 Hierarchical clustering heat map of differentially expressed genes between primary hepatocellular carcinoma tumor tissues and paracancer normal tissues
lnFC代表取ln后差异表达基因调整倍数(4.0倍),-ln10(FDR)代表校正后的P值(0.000 1),图中的红点表示上调的差异表达基因,绿点代表下调的差异表达基因,黑点代表差异改变不明显的基因.
lnFC represents regulation multiple of gene (4.0 times), -ln10(FDR) represents the correctedPvalue of 0.000 1, and the red point, green point and black point in the figure respectively represent the genes that are up-regulated, down-regulated and have no obvious difference.
图6 原发性肝癌肿瘤组织与癌旁正常组织间差异基因的火山图
Fig.6 Volcanic map of differentially expressed genes between primary hepatocellular carcinoma tumor tissue and adjacent normal tissue
本实验通过cBioPortal鉴定了在LIHC中有285个基因与CENP-A共表达.KEGG(kyoto encyclopedia of genes and genomes)通路结果提示这些基因富集在细胞周期、DNA复制、卵母细胞减数分裂、孕酮介导的卵母细胞成熟、Fanconi贫血途径、同源重组、错配修复、p53信号通路、HTLV-I感染、嘧啶代谢、基础切除修复、核苷酸切除修复及细胞衰老等通路上(图7和S1).
表3 CENP-A在LIHC的GO功能富集分析Table 3 GO functional enrichment analysis of CENP-A in LIHC
图7 CENP-A共表达基因在LIHC中的KEGG通路富集分析
2.4 CENP-A蛋白互作网络分析
STRING数据库用于巩固已知和预测的蛋白质与CENP-A的关联,以最高可信度(high confidence:0.9)为条件筛选与CENP-A相关的HCC差异表达基因,共有42个与CENP-A相互作用的基因(图8).前7位预测功能伙伴如下:BUB1(得分=0.854),AURKA(得分=0.85),AURKB(得分=0.844),KIF2C(得分=0.84),CDK1(得分=0.838),TOP2A(得分=0.83),HJURP(得分=0.712).该网络中基因本体的功能富集分析表明,蛋白网络功能富集在染色体的着丝粒上,通过影响动粒对染色体移动及调节进而干扰有丝分裂的细胞周期(S2).
图8 CENP-A与LIHC差异基因的蛋白互作网络分析
2.5 LIHC患者CENP-A基因改变率高
LIHC中CENP-A表达失调的潜在机制.约9%的LIHC病例中观察到CENP-A基因改变,其中扩增和mRNA表达上调是改变的主要类型(图9).进一步分析基因改变的特点,发现CENP-A的mRNA表达量随着拷贝数的增加而增加,相反,随着DNA甲基化增加而降低(图10).进一步研究HCC患者中CENP-A基因改变与生存之间的关系.存活曲线表明CENP-A改变的LIHC患者的OS(P<0.000 1)明显更差,但对RFS影响不大(P=0.201,图11).
图9 LIHC中CENP-A基因改变情况
图10 CENP-A的表达量与DNA甲基化和拷贝数改变(CNA)的关系
图11 CENP-A基因改变与LIHC患者生存的关系
3 讨论
CENP-A位于动粒内层,为组蛋白H3在着丝粒区的变体,当其出现磷酸化异常,装配错误,则会导致动粒异常,进而引发染色体错分,导致癌症发生[18].研究发现:与正常组织相比,它通常在多种癌组织中上调(包括肝癌)[12-16],从TCGA纳入的424例大样本分析同样显示CENP-A在肝癌组织中的表达明显升高.基因组不稳定性和非整倍性被认为是癌症的特征[19],而动粒的功能障碍是染色体不稳定和非整倍性的一个可能原因,这是由于定向正确的染色体分离缺陷引起的[20].本研究发现在LIHC中CENP-A改变主要体现在基因扩增和mRNA上调,且mRNA表达量与DNA拷贝数呈正相关,而与DNA甲基化呈负相关,且CENP-A改变的LIHC患者的总体生存率(P<0.000 1)明显更差.癌症组织通常具有总体低甲基化的特征,相比之下,肿瘤抑制基因的启动子是高甲基化[21],说明CENP-A基因改变是肝细胞增殖失调和癌变的原因之一.
作为致癌基因,CENP-A上调在某些癌症中也具有预后价值.已发现CENP-A过表达的肺腺癌患者具有显著更短的OS和RFS,也是肺腺癌和骨肉瘤手术切除患者OS和RFS的独立阴性预后因素[13-14].此外,升高的CENP-A表达与卵巢癌进展显著相关,并且在预测患者的OS和RFS方面具有独立的预后价值[15].在本研究中,CENP-A表达影响患者的肿瘤复发,但与转移无明显相关性,通过产生Kaplan-Meier曲线,进一步证实LIHC患者中,高CENP-A表达与较差的OS和RFS有关.另外,单因素和多因素分析显示,高CENP-A表达是LIHC患者OS(HR:2.266,95%CI:1.542-3.330,P=3.14E-05)和RFS(HR:1.605,95%CI:1.118-2.305,P=0.010)差的独立预后因素.
正常情况下,在M期早期,细胞周期相关蛋白复合物周期素依赖性蛋白激酶1/细胞周期蛋白B(CDK1/Cyclin B)可以催化CENP-A的Ser68发生磷酸化,从而不能被着丝粒特异性染色质装配因子(holliday junction recognition protein, HJURP)识别,避免了CENP-A过早地装配对细胞造成的损害.待有丝分裂进入M期末期,姐妹染色单体已经成功分离,此时CDK1/Cyclin B活性降到最低,蛋白磷酸酶PP1α催化CENP-ASer68发生去磷酸化,然后HJURP识别 CENP-A 并将其装配到着丝粒区域,将CENP-A核小体浓度回补到一个较高的水平[22].研究发现RNAi介导的CENP-A消耗在体外和体内抑制HCC细胞生长,阻断G1期的细胞周期进展,并促进细胞凋亡;消耗CENP-A的抗癌作用可能通过调节参与细胞周期控制和凋亡的大量基因来介导,包括CHK2、P21waf1、P27Kip1、SKP2、MDM2、Bcl-2和Bax[16].研究也表明:通过与BUB1、AURKA、AURKB、KIF2C、CDK1、TOP2A、HJURP等多种基因联合作用,CENP-A在DNA复制、错配修复、同源重组、基础切除修复和细胞周期等通路上影响动粒对染色体移动及调节进而干扰有丝分裂的细胞周期.目前已有研究显示:组蛋白去乙酰化酶抑制剂、白屈菜碱可通过作用于CDK1,Cyclin B 和Aurora B间接抑制CENP-A的磷酸化,从而抑制肿瘤的增殖[23-24].所以CENP-A在癌细胞生物学中的实质作用激发其作为HCC治疗的分子靶标治疗的潜在应用.