HCC关键基因的筛选及其对患者生存预后的临床意义
2021-07-23闫莉莉
闫莉莉,陆 进
(1.阜阳市人民医院感染科,安徽 阜阳 236000;2.蚌埠医学院人体解剖学教研室,安徽 蚌埠 233030)
肝细胞癌(HCC)是全球范围内发病率和死亡率较高的一种恶性肿瘤,而我国HCC患者的发病率与死亡率居全球前列,且以病毒性肝炎、肝硬化以及酒精肝等原因为主[1-2],其中由HBV感染引起的比例达80%[3-4]。HCC早期诊断困难,治疗效果不佳,复发率高,总体生存预后不良[5]。虽全球各地的研究者对HCC进行了深入研究,但其发生发展的主要机制尚未彻底阐明。故进一步研究其发病机制,对HCC患者进行早期诊断、治疗和判断生存预后具有十分重要的临床意义。而利用基因组学和生物信息学的方法,通过大数据筛选HCC发病过程中的关键基因,可为其在分子水平的研究提供依据。
1 材料与方法
1.1 材料从基因表达汇编(Gene Expression Omnibus,GEO)数据库下载HCC芯片GSE121248(其中癌旁组织37例,肝癌组织70例),进行差异表达分析。
1.2 方法
1.2.1 差异基因分析 采用GEO(https://www.ncbi.nlm.nih.gov/geo/)在线分析工具GEO2R对GSE121248芯片数据进行分析,同时利用SangerBox软件对下载的基因数据进行火山图绘制,并进行DEGs分析,DEGs分析筛选条件为P<0.01且|FC(Fold Change)|≥2。
1.2.2 差异基因的功能和通路富集分析 利用在线分析工具MetaScape[3](http://metascape.org/gp/index.html)对所筛选出的DEGs进行GO功能注释和KEGG通路富集分析,条件设定默认状态。
1.2.3 差异基因的蛋白互作网络分析和关键基因筛选 利用String(https://string-db.org/)在线分析工具对所筛选出的DEGs进行PPI网络分析;利用Cytoscape软件CytoHubba插件的MCC算法,获取连接度最高的前10个Hub基因。
1.2.4 Hub基因对HCC患者的生存预后分析 利用Kaplan-Meier Plotter[4](http://kmplot.com/analysis/)生存分析数据库对筛选出的10个Hub基因对HCC患者的预后进行总体生存(Overall Survival,OS)分析。
1.2.5 Hub基因在HCC中表达程度分析 利用GEPIA[5](Gene Expression Profiling Interactive Analysis,GEPIA;http://gepia.cancer-pku.cn/)数据库对HCC患者总体生存有意义的Hub基因进行基因表达程度分析。
1.2.6 Hub基因在HCC中的突变和共表达分析 利用cBioPortal数据库(http://www.cbioportal.org/)对Hub基因在肝癌组织中的基因突变、共表达关系和基因突变与生存预后关系进行分析。
2 结果
2.1 HCC的DEGs分析从GEO数据库下载的基因芯片GSE121248,对下载数据做火山图绘制(图1)。通过条件筛选共得到186个显著的DEGs,其中表达上调的有38个,表达下调的有148个。
图1 DEGs表达火山图
2.2 HCC DEGs的GO和KEGG富集分析使用MetaScape数据库对DEGs的GO和KEGG富集进行分析表明,DEGs的GO功能主要富集在细胞激素代谢过程、细胞对异生素刺激的反应、单羧酸代谢过程、调节纺锤体微管与动粒的附着、小分子分解代谢过程、核苷酸代谢过程、有机羟基化合物代谢过程、成纤维细胞增殖的正调节、糖胺聚糖结合、有丝分裂细胞周期G2/M转换的正调节等;KEGG主要富集在视黄醇代谢、p53信号通路、细胞因子与细胞因子受体相互作用、癌症中的蛋白多糖、色氨酸代谢、胆汁分泌等通路上(图2)。
图2 GO和KEGG富集分析图
2.3 HCC的DEGs的蛋白互作网络分析和Hub基因筛选利用String在线网络分析数据库对DEGs进行PPI网络分析,得到PPI网络图(图3);利用Cytoscape软件CytoHubba插件的MCC算法进行Hub基因筛选,得到链接度高的前10个Hub基因,并且这些Hub基因的得分相同,排名并列第一,均呈明显高表达(表1、图4)。
图3 PPI网络分析
表1 MCC算法的前10个Hub基因
图4 Hub基因
2.4 Hub基因对HCC患者生存预后分析利用Kaplan-Meier Plotter数据库对筛选出的前10个Hub基因进行在线生存分析,发现10个Hub基因对HCC患者总体生存均有显著的统计学差异意义(P<0.05)。高表达组较低表达组可显著缩短HCC患者总体生存时间(图5)。
图5 Hub基因对HCC患者的生存分析
2.5 Hub基因在肝癌组织中的表达量分析利用GEPIA数据库对HCC患者总体生存有意义的基因进行基因表达量分析,发现10个Hub基因在HCC中较癌旁组织均高表达,且具有明显的统计学意义(P<0.05)(图6)。
图6 Hub基因在HCC中的表达量
2.6 Hub基因在HCC组织中的共表达关系通过数据库分析发现,10个Hub基因在HCC癌组织中均存在一定的基因突变情况(图7)和共表达关系,并且共表达关系具有显著的统计学意义(P<0.05)(表2)。Hub基因的突变对HCC患者的总体生存预后没有显著的统计学差异,但可影响HCC患者的无病生存时间,显著缩短HCC患者的无病生存时间(图8),不利于HCC患者的生存预后。
图7 Hub基因在HCC中的突变情况
图8 Hub基因的突变与HCC患者生存预后的关系
表2 Hub基因的共表达关系
3 讨论
HCC是一种由多种致病因子、环境因素及遗传因素共同参与形成的恶性肿瘤,其发病呈慢性隐匿,形成机制复杂,早期诊断困难,并且一经发现常处于中晚期,临床治疗效果不佳,患者生存预后差[6]。利用基因组学和生物信息学相结合的方式来研究HCC的可能致病基因是目前一种新的研究手段。通过肿瘤大数据分析的方式,从大量的研究数据中提取HCC的DEGs,进一步对DEGs做GO功能注释和KEGG通路富集分析,筛选出致癌的Hub基因,并对Hub基因在HCC癌组织中的表达量、基因突变、共表达关系和对HCC患者的生存预后做进一步分析,预测HCC的可能癌基因,为临床HCC的早期诊断、治疗和判断患者生存预后提供依据。同时,利用这种方式亦可以减少因各地研究水平不一而导致假阳性出现的概率,提高循证医学证据力度。
本研究结果显示,从GEO数据库下载的GSE121248芯片经过GEO2R在线分析工具进行数据分析,共得到186个DEGs,这些DEGs的GO功能主要富集在小分子分解代谢过程、核苷酸代谢过程、糖胺聚糖结合、有丝分裂细胞周期G2/M转换的正调节等,而KEGG主要富集在视黄醇代谢、P53信号通路、癌症中的蛋白多糖等通路上。利用String在线网络分析数据库对DEGs进行PPI网络分析,再利用Cytoscape软件CytoHubba插件的MCC算法进行Hub基因筛选,得到连接度较高的前10个Hub基因,包括,BUB1B、CCNB1、CDK1、CDKN3、DTL、ECT2、HMMR、NEK2、RACGAP1和TOP2A,且这些Hub基因的得分相同,均明显高表达,排名并列第一。国内外亦有一些分析研究报告提出,CDK1、CDKN3、NEK2及RACGAP1等基因在HCC癌细胞的分裂、生长、分化过程起重要作用,可能提示肿瘤的进展及转移[7-12];BUB1B、CCNB1、ECT2、HMMR、RACGAP1和TOP2A等基因可能与HCC的早期复发密切相关并提示预后不良,可能进一步成为预测肿瘤复发及预后的生物标志物[13-15]。而DTL可能参与诱导HCC细胞衰老、凋亡过程,从而成为治疗HCC的靶基因[16]。使用Kaplan-Meier Plotter数据库对筛选的10个Hub基因进行在线生存分析,发现这10个基因对HCC患者总体生存时间有重要影响;而后利用GEPIA数据库对HCC患者总体生存有意义的基因进行基因表达量分析,发现10个Hub基因在HCC中较癌旁组织均高表达,并且这些基因的高表达均显著缩短HCC患者的总体生存时间,不利于HCC患者的总体生存预后,这与国内外有关学者的研究相一致[17-22]。同时,cBioPortal分析发现,这些Hub基因在HCC癌组织中亦均高表达,且Hub基因在HCC癌组织中均有一定的突变发生,而这些基因突变与HCC患者的预后相关,其突变可显著影响HCC患者的无病生存时间,也有学者进行过类似报道[23-24]。此外,Hub基因在肝癌组织中存在共表达关系,说明这些Hub基因可能在HCC的过程中发挥重要的协同作用,共同导致HCC的发生、发展和转移。所以,如对这些Hub基因进行靶向药物的研制,可能使部分HCC患者从中获利。
综上所述,通过大数据分析的方法,筛选出了10个可能是HCC的Hub基因,这些基因的高表达及突变不利于HCC患者的总体生存预后。这一发现为临床HCC的诊断和判断生存预后提供了依据。另外,可进一步对筛选出的Hub基因进行靶向药物的研制,为临床治疗提供新方法、新思路。