APP下载

基于GEO芯片数据的肝癌特征基因生物信息学及预后分析

2022-04-11武静桥吴玉姝范真玮姚景丽何敬文骆紫冰张东超金天明

动物医学进展 2022年4期
关键词:细胞周期肝癌癌症

武静桥,吴玉姝,范真玮,姚景丽,何敬文,陈 婷,赵 微,骆紫冰,张东超,金天明

(天津农学院 天津市畜禽病原检测与基因疫苗技术工程中心,天津市西青区 300380)

肝癌的发病机制十分复杂,肝硬化、病毒性肝炎、黄曲霉毒素、激素调节异常均可导致肝癌的发生。肝癌的转移复发率极高且预后情况不理想,使得5年总体生存率低于5%[1]。其中,肝细胞癌占全部肝癌的85%[2],临床早期无明显特征表现,一旦确诊常为中晚期,其发生发展的生物过程极其复杂。临床中可用的靶标有限,因此,研究诊断、治疗及预后的作用机制显得尤其为重要。异常基因的表达常与预后不良显著相关,利用生物信息学可寻找预测肝癌发生、转移和复发的机制,为癌症早期诊断、患者生存检测提供重要意义,且对临床数据的再分析可为患者制定新的诊断和治疗策略。在这项研究中,旨在通过生物信息学分析方法来鉴定与肝细胞癌(Hepatocellular carcinoma,HCC)的发生和发展有关的分子生物标志物,从而为HCC的个体化治疗提供理论参考。

1 材料与方法

1.1 材料

1.1.1 芯片 肝癌芯片GSE144269、GSE101685选自美国国立生物技术信息中心(NCBI)平台下的基因表达综合数据库GEO DataSets(http://www.ncbi.nlm.nih.gov/gds/)。

1.1.2 芯片数据 芯片GSE144269基于GPL24676平台,Illumina NovaSeq 6000 (Homo sapiens)包含70例正常组织,70例肝癌组织的基因表达阵列数据。芯片GSE101685基于GPL570平台,Affymetrix Human Genome U133 Plus 2.0 Array包含8例正常组织,24例肝癌组织的基因表达阵列数据。

1.2 方法

1.2.1 相关性分析及主成分分析 利用Pearson相关系数以及主成分分析(PCA),验证每组中组内数据的相关程度。

1.2.2 差异表达基因筛选 利用Rstudio(4.0.2)中的limma包对下载的芯片数据分别做差异表达基因(DEGs)筛选。以P value<0.01,|logFC|>1.5为标准筛选出DEGs进行后续分析,并利用Rstudio中的Heatmap包绘制热图,利用ggplot2包绘制火山图。

1.2.3 绘制韦恩图筛选共有差异基因 使用Venny 2.1在线软件(https://bioinfogp.cnb.csic.es/tools/venny/)识别2个数据集中共有的上调和下调DEGs。

1.2.4 基因功能富集和通路富集 利用Metascape(http://metascape.org/)数据库对共有的DEGs进行注释、可视化和综合探索,以H.sapiens为背景,对DEGs进行GO功能富集和KEGG通路富集,以寻找DEGs富集的关键通路。

1.2.5 差异表达基因的相互作用分析 将两芯片共同的DEGs输入STRING数据库(http://string-db.org/)构建DEGs的蛋白质相互作用(PPI)网络,设置物种为Homo sapiens,“可信度”为0.96,并应用Cytoscape 3.8.0软件进行可视化分析。使用插件MCODE进行模块分析,以degree cut_off为10,haircut on,node scare cut-off 为0.2,k-core为2及max depth为100筛选重要模块。使用CytoHubba插件对PPI网络进行MCC分析并排序。

1.2.6 表达差异基因的生存分析及预后价值分析 利用 GEPIA (http://gepia.cancerpku.cn/)在线分析工具绘制关键基因在肝癌和癌旁组织的表达情况以及随肝癌分期的变化情况。利用Kalpan Meier-Plotter(http://kmplot.com/analysis/)在线软件,分析关键基因对应肝癌患者的总生存期(OS),根据肝癌患者基因的表达情况及中位值分为高表达和低表达两组,并计算危险比(HR)及其95%置信区间和对应的P值,绘制生存曲线。

2 结果

2.1 相关性分析

利用Pearson相关系数分析组间各数据的相关性,并绘制相关性热图,结果显示,GSE14429肝癌组内和癌旁正常组内相关性均较好,相关性均在0.78以上。但GSE101685芯片中肝癌组织GSM2171027与其他样本相关性较差,肝癌组内其他数据以及癌旁正常组内相关性均在0.78以上。

利用Rstudio中的ggbiplot 包绘制PCA,结果显示:肝癌组和癌旁正常组可以区分开,同一组样本可以聚合在一起。

2.2 数据预处理与差异分析

GSE144269筛选出738个上调基因,1543个下调基因,共2281个差异表达基因;GSE101685筛选出288个上调基因,455个下调基因,共743个差异表达基因。DEG的火山图见图1,分别以P<0.05和P<0.01以及LogFC=1和LogFC=1.5为界,图最左(绿色)为下调基因,图最右(红色)为上调基因。

图1 基因的表达水平及分布火山图Fig.1 Volcanic map of gene expression level and distribution

2.3 共有差异基因

研究中,利用93例HCC样本和78例正常肝样本,将得到的差异基因绘制韦恩图,得到上调基因149个,下调基因304个,共有453个DEGs。

2.4 基因富集分析

运用Metascape对453个DEGs进行GO富集分析,可见生物学过程(BP)上调主要富集在细胞分裂、参与有丝分裂的微管细胞骨架组织、细胞周期G1/S相变、细胞周期的正调控、DNA复制、细胞分裂的调控;下调主要富集在一元羧酸代谢过程、有机酸分解过程、类固醇代谢过程、细胞激素代谢过程、环氧酶P450途径、辅酶代谢过程;细胞组成(MF)主要集中在微管结合、激酶结合、DNA催化活性、酶抑制剂活性、组蛋白激酶活性、染色质结合;下调主要集中在氧化还原酶活性、单加氧酶活性、氧化还原酶活性、维生素结合、酰胺结合;分子功能(CC)上调主要富集在染色体、着似粒区、纺锤体、纺锤体极体、中心体、细胞周期蛋白依赖性蛋白激酶全酶复合物;下调主要富集在血液微粒、膜攻击复合体、含胶原蛋白的细胞外基质、血浆脂蛋白颗粒、胰岛素样生长因子三元复合物。

KEGG通路富集分析发现,上调主要富集在细胞周期、P53信号通路、ECM受体相互作用、DNA复制、范可尼贫血通路。下调主要富集在视黄醇代谢、补体和凝血级联反应、色氨酸代谢、类固醇激素的合成、花生四稀酸代谢、咖啡因代谢、胆汁分泌。

2.5 蛋白质相互作用网络的构建和关键节点分析

利用STRING 数据库和Cytoscape构建DEGs之间的蛋白质相互作用网络,去除游离的蛋白质影响,为453个DEGs PPI相互作用网络。插件MCODE对其中重要的模块分析发现该模块分数为23.571。利用CytoHubba 插件中的MCC算法对网络进行分析,取其中评分最高的前10个基因作为核心基因,分别是:BUB1、AURKB、CDC20、CCNB1、CCNPE、CDCA8、CDK1、CCNB2、BUB1B、KIF2C。利用Metascape对10个关键基因进行KEGG通路富集分析,结果发现,通路仍旧富集在细胞周期、减数分裂等途径中。

2.6 预后价值分析

利用在线工具Kaplan Meier-Plotter对关键模块中的10个DEGs进行预后价值评价。结果显示,除CENPE基因外,其他关键基因均在肝癌组织中呈现显著性高表达(P<0.001)。分期结果显示,关键基因随TNM分期的进展明显降低,总体趋势为分期越高其表达水平越低。

3 讨论

肝细胞癌是一种异质性恶性肿瘤,在全球范围内癌症发病率和死亡率较高。本研究利用生物学信息方法分析GSE144269与GSE101685芯片,筛选肝癌组织与癌旁正常组织间的差异,获得上调149个,下调304个,共453个DEGs。GO和KEGG分析结果显示,DEGS上调基因主要集中在细胞分裂、细胞周期G1/S相变、细胞周期的正调控、DNA复制、细胞分裂的调控等生物过程,反映了肝癌组织中细胞增殖紊乱,细胞凋亡调控异常等情况。已有研究证明,细胞周期失调是癌症的标志[3],因此,靶向细胞周期通路可能是治疗癌症的有效策略。下调主要富集在一元羧酸代谢过程、有机酸分解过程、类固醇代谢过程、环氧酶P450途径、辅酶代谢生物过程,涉及营养、外来物质代谢等途径,推测是由于肝脏功能受损,导致肝功能紊乱,影响细胞内氧化还原造成的。KEGG通路富集结果显示,DEGs显著富集于细胞周期、P53信号通路、DNA复制、范可尼贫血通路、视黄醇代谢、色氨酸代谢等信号通路。色氨酸代谢紊乱与肿瘤发生与转移相关,癌变细胞的细胞周期及DNA复制失调与肿瘤增殖相关,50%的恶性肿瘤中P53信号通路会发生突变,范可尼贫血突变会改变DNA修复过程中的同源重组,从而导致细胞死亡,增加了癌细胞对各种癌症的敏感性。由此可见,通路主要富集在DNA复制与细胞周期通路中。

STRING数据库和Cytoscape软件分析结果显示,关键模块的基因与其他基因存在大量的相互作用,利用插件CytoHubba筛选出10个关键基因,并利用CEPIA进行肝癌与癌旁组织的基因表达量以及肿瘤分期的分析,结果显示,除CENPE基因肿瘤与癌旁组织基因表达差异未达到显著差异外,其他关键基因均在肝癌组织中具显著性差异表达,且关键基因均与TNM分期和预后明显相关。

细胞分裂周期蛋白CDC20是纺锤体装配检查点蛋白(SAC)的关键组成部分,其异常表达与胃癌,胰腺癌、前列腺癌等类型的癌症恶性进展和预后不良有关[4]。敲低CDC20基因可抑制胰腺癌细胞和乳腺癌细胞的迁移[5],因此,开发CDC20的靶标抑制剂是可能研究抑制肿瘤转移新方向。激光激酶B(AURKB)也是一种丝氨酸/苏氨酸激酶,是有丝分裂过程的关键调节酶之一,与AURKA、AURKC共同控制哺乳动物有丝分裂和减数分裂期间染色体的划分和分离,研究显示,AURKB在肝癌中过表达[6],与我们得到的结果一致。

丝氨酸/苏氨酸蛋白激酶BUB1作为BUB家族成员之一,通过参与组装纺锤体组装检查点(SAC)以保证姐妹染色单体正确分离,在有丝分裂期间与着丝粒结合,高表达与细胞周期以及肝癌患者的OS降低有关[7],且已经发现BUB1在胰腺导管腺癌和卵巢癌上调并促进癌症的增殖和转移[8]。纺锤体检测蛋白BUB1B是主要的纺锤体检测点,在多种恶性肿瘤中呈高表达,可能导致染色体的不稳定性,在胃癌、前列腺癌、乳腺癌中高表达并促进癌症进展[9],在结肠癌和肺癌中BUB1B低表达导致癌症转移并降低生存率[10]。BUB1和BUB1B异常高表达可以促进HCC的增殖和转移情况[11],与我们目前的得到的结果一致。已经验证BUB1B激活MTORC1通路,引起下游效应因子BAX的高表达、活化的caspase3高表达以及Bcl2,CDK2,CDK4,CDK6的低表达[12]。

细胞周期蛋白依赖性激酶CDK1是细胞周期的主要调节剂,对真核细胞周期的G1/S和G2/M转换至关重要[13],抑制CDK1的表达可以显着抑制乳腺癌细胞的增殖并诱导细胞凋亡[14]。miR-582-5p通过靶向CDK1和AKT3可抑制HCC的进程[15]。这些数据表明CDK1可以作为预测HCC生存的潜在生物标志物。

B型细胞周期蛋白家族包括CCNB1和CCNB2 且两者大多数共表达在分裂的细胞中,并与CDK1形成复合物启动有丝分裂程序;CCNB1蛋白作为细胞周期调节剂和G2/M期启动子,参与促进细胞增殖、肿瘤生长、癌症复发等过程,在肿瘤侵袭中起关键作用[16];CCNB2的异常表达可能导致G2/M检查点受损,继而导致DNA损伤和突变。Zhang H等证明CCNB1沉默可以通过激活P53信号通路抑制胰腺癌细胞的增殖并促进细胞凋亡[17]。

KIF2C属于驱动蛋白超家族蛋白,在迁移和侵袭过程中参与细胞骨架重塑过程,被认为是乳腺癌、胃癌、结肠直肠癌、神经胶质瘤和非小细胞肺癌中高表达的癌基因[18]。KIF2C在HCC中高表达加剧了HCC的进展[19],突出了我们数据的可信度,强调了KIF2C作为治疗HCC的有希望的治疗靶点的潜力。细胞分裂周期相关蛋白8(CDCA8)涉及蛋白质代谢和有丝分裂过程,参与肿瘤细胞的恶性进展,并导致肝癌,胃癌和肺癌的不良预后[20]。CDCA8的siRNA沉默通过阻断细胞周期进程并诱导细胞死亡,抑制了HCC肿瘤的生长[21],表明靶向CDCA8可能是HCC分子治疗的潜在靶点。

综上所述,肝癌组织中BUB1、AURKB、CDC20、CCNB1、CDCA8、CDK1、CCNB2、BUB1B、KIF2C的上调与肝癌相关,可能是新的生物标志物,并有望成为肝癌的治疗靶标。各种细胞周期蛋白及纺锤体、染色体蛋白的异常激活导致非机体控制的增殖是肝癌的特性之一。因此,深入研究细胞分裂相关基因在肝癌发生发展中的具体机制,对肝癌的治疗具有广阔的前景。在大多数肿瘤中,p53基因通过其相关途径的突变或降解而失活,本研究将在后续研究中利用MEL蜂毒肽以及不依赖P53途径的Apoptin蛋白,在细胞水平及动物模型上抑制肝癌细胞的增殖以达到抑制肝癌的目的,并进一步明确其作用机制,为预防肝癌的发生以及抑制肝癌的恶性进展提供理论依据。

猜你喜欢

细胞周期肝癌癌症
BCAA代谢异常与癌症的相关性研究进展
FBP1在癌症中的研究进展
lncRNA LINC01206调控银屑病角质形成细胞的功能研究
体检发现的结节,离癌症有多远?
XB130在肝癌组织中的表达及其对细胞侵袭、迁移的影响
植物细胞周期如何“刹车”?
隐源性肝癌与病毒性肝癌临床特征比较
癌症“偏爱”那些人?
Numerical study of corner separation in a linear compressor cascade using various turbulence models
microRNA在肝癌诊断、治疗和预后中的作用研究进展