APP下载

基于GEO数据库的肝细胞癌差异表达基因分析

2021-10-22贾乔迪李莎莎张红宇黄炎清梁红霞

郑州大学学报(医学版) 2021年5期
关键词:关键通路代表

贾乔迪,李莎莎,张红宇,黄炎清,梁红霞

郑州大学第一附属医院感染与肝病科 郑州 450052

肝细胞癌(hepatocellular carcinoma,HCC)是原发性肝癌的主要组织学亚型,占原发性肝癌的90%[1]。HCC是一种常见的恶性肿瘤,其死亡率在恶性肿瘤中排名第三[2],早期诊断率低,大多数患者发现时已经处于中晚期[3-4]。HCC的主要治疗方法有手术切除、移植、放疗、化疗和射频治疗[5]。由于HCC具有高侵袭性、高转移性、高复发率的特点,其不良预后并未得到根本改变[6]。因此,探讨与HCC预后相关的关键指标和机制,对HCC的诊断和治疗具有重要的临床意义。本研究拟通过生物信息学分析来识别HCC患者与正常人肝脏组织的差异表达基因,以探究HCC发病机制中的关键基因。

1 材料与方法

1.1 HCC患者与正常人数据集的获取本研究从GEO数据库(http://www.ncbi.nlm.nih.gov/geo)获取基因表达数据集。数据集包含来自HCC患者肝脏和(或)正常人肝脏的全基因组表达数据。最终筛选出4个基因表达数据集。

1.2 差异表达基因分析使用GEO2R在线分析工具(https://www.ncbi.nlmnih.gov/geo/geo2r/)对每个数据集进行分析,计算得出校正后的P值和|log2FC|,P<0.05和|log2FC|≥1.0为差异表达基因。使用韦恩图在线工具(http://bioinformatics.psb.ugent.be/webtools/Venn/)识别4个数据集中共同的差异表达基因。

1.3 GO及KEGG通路富集分析用DAVID在线工具(http://david.abcc.ncifcrf.gov)对差异表达基因进行GO分析和KEGG通路富集分析。错误发现率(flase discovery rate,FDR)<0.01被认为具有统计学意义。利用R语言工具代码对GO分析和KEGG通路富集分析进行可视化处理。

1.4 蛋白相互作用网络(PPI)的构建和关键基因的选取PPI的构建和关键基因的鉴定使用STRING数据库(http://www.string-db.org/),利用Cytoscape 3.7.2(http://cytoscape.org/)对PPI进行可视化处理。PPI中的节点代表蛋白质,边代表蛋白质之间的相互作用。Cyhubba是Cytoscape软件的一个插件,用来确定每个节点的度值,排名前十的基因被认为是关键基因。

1.5 生存分析GEPIA数据库(http://gepia.cancer-pku.cn/)用于分析来自癌症基因组图谱(TCGA,https://portal.gdc.cancer.gov/)和GTEx数据库(https://www.gtexportal.org/) 的9 736个肿瘤和8 587个正常样本的RNA测序表达数据。应用GEPIA数据库分析关键基因与HCC预后的关系,以基因表达水平中位数为界,将HCC患者分为高表达组和低表达组,绘制Kaplan-Meier生存曲线。检验水准α=0.05。

1.6 具有预后价值的关键基因的表达分析应用肿瘤相关数据库及数据挖掘平台Oncomine(https://www.oncomine.org/resource/login.html)数据库,分析具有预后价值的关键基因在20种肿瘤中的表达、在不同HCC芯片研究中的表达。设定筛选条件:gene为所筛选出的具有预后价值的基因;analysis type为cancervsnormal analysis;cancer type为hepatocellular carcinoma;data type为mRNA;sample type为clinical specimen。检验水准α=0.05。

2 结果

2.1 差异表达基因分析从GEO数据库筛选出的4个数据集(GSE62232、GSE57957、GSE121248和GSE39791)中共选出2 915个差异表达基因,其中上调基因1 211个,下调基因1 704个,见表1。通过韦恩图在线工具识别出共同的差异表达基因,其中上调基因26个,下调基因124个(图1)。

表1 GEO数据库中4个数据集的统计

A:共同的上调基因;B:共同的下调基因

2.2 差异表达基因的功能注释分析GO分析和KEGG通路富集分析结果见图2。GO分析表明,这些差异表达基因在分子功能、生物过程、细胞组成中分别以“丝氨酸肽链内切酶活性”“氧化还原过程”“细胞外泌体”富集最为明显。KEGG分析中,“代谢通路”和“碳代谢”通路的富集最显著。

上:GO分析气泡图;下:KEGG分析气泡图;横坐标代表每个条目中差异表达基因所占比例,气泡颜色代表FDR值的大小,气泡大小代表每个条目中涉及的差异表达基因数目

2.3 PPI的构建和关键基因的选取PPI由149个节点和348条边组成(图3)。节点为差异表达基因编码的蛋白,红色代表上调基因,绿色代表下调基因;度值代表每个节点所连接的其他节点的个数,度值排名前十的基因为关键基因(表2)。

图3 PPI

表2 关键基因的信息

2.4 关键基因的生存分析Kaplan-Meier生存曲线见图4。结果显示,CYP3A4、TAT与HCC生存有关,且表达水平低者中位生存期更短(图4),FTCD、MBL2、C8A、ALDH8A1、KLKB1、APOA5、PLG和ASS1与HCC生存无关。

图4 关键基因的Kaplan-Meier生存分析

2.5 具有预后价值的关键基因的表达分析结果见图5。

在20种肿瘤中,CYP3A4在7种肿瘤中表达下调(图5A),TAT在3种肿瘤中表达下调(图5B)。CYP3A4、TAT在HCC组中的表达均低于对照组(图5C、D)。在Roessler、Chen、Wurmbach、Mas等基因芯片研究中,CYP3A4在HCC中的表达量均低于对照组(图5E);在Roessler、Wurmbach、Mas等基因芯片研究中,TAT在HCC中的表达量低于对照组(图5F)。

A、B:分别为CYP3A4、TAT在20种肿瘤中的表达(红色代表高表达,蓝色代表低表达);C、D:分别为CYP3A4、TAT在HCC组与对照组中的表达(1代表对照组,2代表HCC组);E、F:Oncomine数据库中HCC组织中CYP3A4、TAT的表达

3 讨论

HCC多见于中晚期,结合社会经济因素,可能不具备肝叶切除、肝移植等手术的适应证,预后不理想[4]。尽管出现了新的诊断和治疗技术,但HCC的发病率和死亡率仍在上升,其发病机制仍不明确[7]。探讨HCC侵袭转移的机制,寻找有效的诊断分子标志物和治疗靶点,已成为HCC的重要研究方向。

本研究共筛选出150个与HCC有关的差异表达基因,其中表达上调26个,下调124个。GO功能富集分析表明,这些差异表达基因在氧化还原过程、细胞外泌体和血红素结合中发挥作用。KEGG分析中,这些差异表达基因在“代谢通路”和“碳代谢”通路的富集最显著。有研究[8-9]表明,大多数类型的细胞均可分泌外泌体,其对细胞间通信、疾病的传播及组织修复具有重要的调节作用;外泌体在肿瘤微环境中的通信功能促进了HCC细胞的发展,有望成为HCC的治疗靶点。本研究结果与文献[8-9]报道一致。

生存分析发现10个关键基因中CYP3A4和TAT与HCC患者的预后有关。CYP3A4基因编码的细胞色素P4503A4是细胞色素P450氧化酶家族成员之一[10],是人肝和肠中主要的P450氧化酶,参与了许多药物的氧化[11]。Fanni等[11]发现CYP3A4与索拉非尼化疗反应有关并可能在HCC的个体化治疗过程中发挥作用。有研究[12]指出CYP3A4基因下调是HCC患者生存和早期复发的独立预测因子。本研究结果显示,CYP3A4在HCC中低表达,且表达水平与HCC的预后有关,与既往研究[13]一致。除了HCC,CYP3A4还与乳腺癌[13]、胃癌[14]、结直肠癌[15]的预后有关。

TAT是一种核基因,编码存在于肝脏中的线粒体蛋白酪氨酸转氨酶,催化L-酪氨酸转化为对羟基苯丙酮酸,这种酶被认为在Ⅱ型酪氨酸血症、肝炎和HCC的恢复中发挥作用[16]。酪氨酸代谢失调常发生于癌症和各种慢性疾病[17]。TAT与HCC[18]和乳腺癌[19]等肿瘤相关。有研究[20]发现,TAT基因缺失和高甲基化导致的失活参与了HCC的发病机制,且TAT基因导入HCC细胞可有效抑制其致瘤性,提示TAT在HCC的发病机制中发挥抑制肿瘤的作用。

综上所述,CYP3A4和TAT基因在HCC组织中低表达,且表达量低者预后差。CYP3A4和TAT有望成为HCC的诊断分子标志物和治疗靶点。

猜你喜欢

关键通路代表
硝酸甘油,用对是关键
诠释代表初心 践行人大使命
四季的代表
小檗碱治疗非酒精性脂肪肝病相关通路的研究进展
高考考好是关键
Wnt/β-catenin信号转导通路在瘢痕疙瘩形成中的作用机制研究
白芍总苷调控Sirt1/Foxo1通路对慢性心力衰竭大鼠的保护作用研究
“代表通道”新观察
这个代表咋这么拗
SphK/S1P信号通路与肾脏炎症研究进展