基于生物信息学的肝母细胞瘤关键生物标志物的筛选与鉴定
2023-06-02汪鹏刚刘登瑞高明太
裴 薇,汪鹏刚,刘登瑞,高明太
(兰州大学第一医院小儿外科,甘肃 兰州 730000)
肝母细胞瘤(hepatoblastoma,HB)是儿童最常见的肝脏恶性肿瘤,约占儿童肝脏原发性恶性肿瘤的50%~60%。该病多在5 岁以内发生,起病隐匿,易发生远处转移[1,2]。有研究表明[3-6],N6-甲基腺苷的高表达与HB 的发病途径密切相关,同时ZFAS1、TUG1、TNFRSF19、TRIB1 和TOP2A 等在参与细胞增殖、凋亡、谷氨酰胺分解、调控信号通路等过程中发挥重要作用。现阶段临床医师主要根据临床表现、影像学和甲胎蛋白(AFP)水平确定HB,但由于患儿的AFP来源众多,其敏感度和特异度均不足,造成早期诊断技术缺乏。高达80%的确诊患儿需通过完整的手术切除和术后放化疗得以生存。手术后的化疗可能对患儿产生长期负面影响,导致部分患儿预后不良。因此,开发新的有效的肝母细胞瘤诊断和治疗方法,发现新的、稳定的生物标志物已成为亟待解决的问题。随着高通量测序技术的发展,越来越多异常表达的mRNA 在HB 中被发现。微阵列技术和生物信息学分析被广泛应用于筛选基因组水平的遗传改变。在独立的微阵列分析中,假阳性率使得其难以获得可靠的结果。本研究拟从Gene Expression Omnibus(GEO)下载mRNA 芯片数据集,在利用GEO数据库中的数据集揭示HB 中可靠的差异表达基因(differentially expressed genes,DEGs),并发现关键基因(hub genes),进行功能富集分析,希望能为该病新的诊断和治疗方法提供候选生物标志物。
1 资料与方法
1.1 资料来源 从GEO(http://www.ncbi.nlm.nih.gov/geo)[7]下载3 个人类肝母细胞瘤基因表达数据集(GSE131329[8]、GSE132219[9]和GSE75271[10]),根据平台中的注释信息将探针转换为相应的基因符号。GSE131329 数据集包含53 例HB 组织样本和14 例非肿瘤样本;GSE132219 包含31 例HB 样本和18例非肿瘤样本;GSE75271 包含5 例HB 样本和5 例非肿瘤样本。
1.2 鉴定DEGs 采用GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r)筛查HB 与非肿瘤样本之间的DEGs。分别去除没有对应基因符号的探针集和有多个探针集的基因,整理3 组数据的DEGs,logFC(fold change)>1 和adj.P<0.01 被认为有统计学意义。利用生物信息学与进化基因组学网站(http://bioinformatics.psb.ugent.be/webtools/Venn/)整合3 组数据中共同表达的DEGs,并绘制Venn 图。
1.3 DEGs 的KEGG 和GO 的富集分析 使用DAVID 在线数据库(DAVID,http://david.ncifcrf.gov,版本6.8)[11]对DEGs 进行生物学分析。在DAVID 在线数据库中使用Functional Annotation Tool 模块,输入共表达DEGs 135 个,进行KEGG 和GO 分析,提取结果并进行处理。P<0.05 被认为有统计学意义。
1.4 PPI 网络构建与模块分析 利用STRING 在线数据库(http://cn.string-db.org,版本11.5)[12]对PPI 网络进行预测,分析蛋白质之间功能的相互作用。在STRING 在线数据库中选择Multiple Proteins 选项,并键入135 个DEGs,得到蛋白质之间功能的相互作用结果。利用STRING 数据库构建DEGs 的PPI网络,合并得分>0.4 的交互作用被认为有统计学意义。使用Cytoscape 软件[13]绘制PPI 网络,PPI 网络中最显著的模块使用MCODE[14]识别。选取标准:MCODE 评分>5,DegreeCutoff=2,Haircut on,Node-ScoreCutoff=0.2,K-Core=2,Max.Depth=100。随后使用DAVID 软件对该模块中的基因进行KEGG 和GO 分析。
1.5 关键基因的选择与分析 选择degree≥10 的DEGs 作为关键基因。生物过程分析利用Cytoscape 的Biological Networks Gene Oncology tool(BiNGO,版本3.0.5)插件[15]对关键基因进行可视化分析。使用UCSC 癌症基因组学浏览器(http://genome-cancer.ucsc.edu)[16],选择Pediatric tumor(Khan)选项,并键入hub gene,对关键基因进行层次聚类。同时在cBioPortal(http://cbioportal.org)[17]上选择Pediatric Pan-Cancer 选项,键入关键基因,使用Comparison/Survival 模块绘制Kaplan-Meier曲线,对关键基因进行总生存期和无病生存期分析。
2 结果
2.1 HB 的DEGs 鉴定 经标准化芯片结果后,在GSE131329 中发现DEGs 472 个,在GSE132219 中发现1143 个,在GSE75271 中发现709 个。3 个数据集中共同包含135 个DEGs,包含上调基因114个,下调基因21 个,见图1。
图1 HB 的DEGs 鉴定
2.2 DEGs 的KEGG 和GO 富集分析 GO 分析结果显示,DEGs 的生物过程(biological processes,BP)显著富集于生长负调节、离子反应、纤维蛋白溶解、补体激活等过程;分子功能(molecular function,MF)主要富集于内肽酶活性、受体结合等;细胞成分(cell component,CC)变化主要富集在细胞外区、膜攻击复合物和胞质囊腔。KEGG 通路分析显示DEGs 主要富集在补体系统、代谢途径等,见图2。
图2 DEGs 的KEGG 和GO 富集分析
2.3 PPI 网络构建及模块分析 根据135 个DEGs 构建的PPI 网络见图3A,使用Cytoscape 获得最显著的模块见图3B;采用DAVID 软件对该模块涉及的基因进行功能分析,结果显示该模块中的基因主要富集于免疫应答、补体激活途径等,见表1。
表1 最显著模块的GO 和KEGG 通路富集分析
图3 PPI 网络构建及模块分析
2.4 关键基因的选择与分析 使用Cytoscape 的分子复合物检测(MCODE)插件筛选出关键基因共7 个,这些关键基因的名称、缩写和功能见表2。关键基因的生物学过程分析见图4A;层次聚类显示,关键基因可以基本区分HB 样本和其他儿童肿瘤样本,见图4B。采用Kaplan-Meier 曲线对关键基因进行总体生存分析,ADHFE1 改变的HB 患者总生存率较差,但其无病生存率较好;另外,MBL2 改变的HB 患者显示出较差的无病生存期,但差异无统计学意义(总生存期及无病生存期P>0.05),见图5A;ABCB11改变与较差的无病生存期显著相关,但与较差的总生存期无关(总生存期P=0.228,无病生存期P=0.0143),见图5B。
表2 关键基因的功能作用
图4 关键基因生物学过程分析(续)
图5 关键基因总体生存分析
图5 关键基因总体生存分析(续)
3 讨论
HB 是儿童最常见的肝脏肿瘤,占儿童肝脏肿瘤的25%以上,并且近50%的HB 具有致命性。由于诊断水平和多学科综合治疗的进步,HB 患者的5 年生存率接近80%[18]。但HB 的病因及分子机制目前仍知之甚少。以往研究表明,N6-甲基腺苷、ZFAS1、TUG1、TNFRSF19、TRIB1 和TOP2A 与HB 的发生、发展密切相关。本研究对3 个mRNA 芯片数据集进行分析,获得肿瘤组织和正常组织之间的DEGs。3 个数据集中鉴定出135 个DEGs,其中下调基因21 个,上调基因114 个。通过GO 和KEGG 富集分析DEGs 之间的交互作用,发现其主要富集于免疫应答正向调节、补体激活、补体和凝血级联过程。既往研究提出过补体激活对肿瘤有促进作用,补体活性可以高效地清除感染,但它们并不能减少恶性肿瘤的生长。肿瘤对补体介导的攻击抵抗源于肿瘤细胞表达的高水平补体调节蛋白,这些调节蛋白可在肿瘤细胞表面发现或由这些细胞分泌进入细胞间质,膜结合和分泌的补体调节因子均能限制补体级联的激活,而肿瘤细胞可被补体片段包裹,从而抑制抗体依赖性细胞毒作用(antibody-dependent cellular cytotoxicity,ADCC)和补体依赖性细胞毒作用(complement-dependent cytotoxicity,CDC),进而保护肿瘤细胞不被自身免疫系统攻击。
本研究共确定了7 个关键基因:ANGPTL3、MT2A、ABCB11、MBL2、IGF1、CFH、ADHFE1。ANGPTL3 是血管生成素样蛋白(ANGPTLs)家族成员之一,是一种主要表达于肝脏的多功能分泌蛋白[19]。ANGPTL3 通过促进血管生成、细胞增殖和迁移来促进肿瘤生长。ANGPTL3 与整合素αvβ3 结合,以整合素αvβ3 依赖的方式诱导内皮细胞黏附和迁移,进一步刺激下游蛋白激酶B(PKB)、丝裂原活化蛋白激酶(MAPK)和黏着斑激酶(FAK)的磷酸化信号级联;ANGPTL3 的c 端FLD 足以诱导内皮细胞黏附和血管生成;此外,ANGPTL3 还通过激活MAPK 信号通路调控癌细胞的增殖和迁移,参与多种肿瘤的发生发展,如ANGPTL3 和ANGPTL4 在肝细胞癌(hepatocellular carcinoma,HCC)患者外周血中的表达明显高于非HCC 的慢性肝炎患者和对照组,其表达及血清水平可作为诊断慢性肝炎和肝细胞癌的非侵入性生物标志物,尤其在鉴别肝细胞癌和慢性肝炎患者中有一定价值[20,21]。本研究中,ANGPTL3 在HB 患儿肿瘤组织和正常儿童组织中的表达水平存在差异,与正常组织相比,ANGPTL3 基因表达上调,推测其在HB 发生过程中激活MAPK 信号通路促进细胞增殖和迁移,并可在肿瘤细胞增殖过程中促进血管生成,为肿瘤组织提供血供。
MT2A 是金属硫蛋白家族一员。金属硫蛋白(MTs)是一组低分子量、高亲和力、富含半胱氨酸的金属离子结合蛋白,它们在多种人类肿瘤中过度表达,还可能参与癌变和细胞凋亡的调节。MT2A在骨肉瘤、乳腺癌和前列腺癌中表达上调,具有致癌作用;MT2A 在胃癌、肝癌和肺癌中表达下调,具有抑癌作用,其表达与不同肿瘤类型、肿瘤分化状态、环境刺激和基因突变等多种因素有关[22-25]。MT2A 可以保护肿瘤细胞不发生凋亡,并促进肿瘤的增殖及转移。虽然在人肝细胞癌中MT2 表达低于正常组织,但其高表达与不良临床结局相关[26],并且MT2A 的异位过表达可以增加肿瘤细胞对奥沙利铂的耐药性[27]。MT2A 在HB 患儿中基因表达上调,与其对化疗药物敏感性的相关性需要进一步通过生物实验验证。
ABCB11 编码胆盐输出泵(bile salt export pump,BSEP),通过转运结合胆汁酸穿过肝细胞小管膜,促进胆汁酸从门脉血转运到胆汁。ABCB11 的双等位基因突变可导致进行性家族性肝内胆汁淤积症2 型(progressive familial intrahepatic cholestasis,PFIC2),其特征是BSEP 缺乏、胆盐胞内滞留和严重的胆汁淤积性疾病。慢性胆汁淤积可通过几种可能的机制导致肝细胞内胆汁酸蓄积,进而导致肝细胞损伤,造成慢性坏死性炎症,为肿瘤的发生发展提供环境[28]。本研究中ABCB11 的改变可造成患儿较差的无病生存期,这可能与慢性坏死性炎症导致的不典型增生结节有关,可以为HB 患儿手术后的治疗提供新思路。
MBL2 基因编码甘露糖结合凝集素(Mannosebinding lectin,MBL),是固有免疫系统的核心组成部分。MBL 与微生物表面的特定碳水化合物结构结合,激活凝集素补体系统和单核细胞的非补体调节作用。MBL2 改变的HB 患儿显示较差的无病生存期,虽然这一结果无统计学意义,但仍从一定程度说明MBL 与慢性炎症和固有免疫通过破坏DNA 影响肿瘤的发生和进展相关。MBL 介导的补体级联反应导致炎症细胞活化,释放炎症因子,如白细胞介素1β、6 和肿瘤坏死因子-α,可加速肿瘤进展,并增加肿瘤的侵袭性。甘露糖结合凝集素也可能通过增强DNA 损伤环境促进肿瘤侵袭。甘露糖结合凝集素通过白细胞介素1β 和肿瘤坏死因子-α 引起一氧化氮合酶诱导型表达增加,而一氧化氮合酶的诱导型表达增加了DNA 损伤活性氮和氧的生成,与癌症的发生和进展相关[29]。
胰岛素样生长因子(IGF)家族是由多肽激素(IGF1 和IGF2)及其表面受体组成的多功能系统。IGF1 作为一种激素可以通过生长激素(GH)依赖途径发挥作用并促进细胞生长和增殖[30]。IGF1 轴与肿瘤的严重程度(分级和大小)以及肿瘤转移和复发具有相关性,同时IGF1 轴对细胞外基质(ECM)成分表达或活性的影响可能促进肿瘤细胞的增殖,并且其在肿瘤组织及患者血清中的过表达与原发性肿瘤的侵袭性呈正相关[31,32]。最新研究表明[33],IGF 家族中IGF2 是HB 的一个可操作的驱动因子,并且在HB 的临床前模型中,与顺铂单药治疗相比,IGF2 抑制剂与顺铂联合治疗诱导了更好的抗肿瘤效果。本研究中,IFG1 在HB 患儿当中也出现表达改变,这可能预示IGF1 也可作为新的治疗靶点,但需要进一步验证。
CFH 是补体激活调控因子(RCA)基因簇的成员,具有预防补体攻击和免疫监视的功能。补体系统是固有免疫系统的基本组成部分之一在血管外组织中,补体蛋白参与细胞间通讯,并参与器官再生、血管生成、上皮-间充质转化和细胞迁移[34]。HB 患儿的CFH 表达异常,考虑为CFH 在肝肿瘤起始细胞中的上调作用,其通过LSF-1 发挥作用,在维持肝脏肿瘤起始细胞的干细胞特性和通过SV40(LSF-1)控制干细胞特性因子过程中起到作用。CFH 在肿瘤细胞表面表达,可以阻止C3b 在其细胞膜上聚集,并增加这些细胞对补体介导的溶解的抵抗力[35,36]。这与GO 和KEGG 富集分析相印证,补体系统在HB 的发生、发展中具有重要意义。虽然目前仍无文献报道明确说明补体系统在HB 中的分子作用机制,但这为HB 今后的研究提供了一定的思路。
ADHFE1 是铁活化醇脱氢酶家族成员,编码一种羟酸-氧代酸转氢酶,参与多种生物学过程[37,38]。一些研究报道关于ADHFE1 在不同类型癌症中的具有不同的作用结果。ADHFE1 在不同癌症类型中的这种矛盾作用可能归因于它在细胞功能中的多重功能(如代谢重编程、DNA 复制和细胞周期控制),其取决于癌症类型和细胞状态。ADHFE1 失调参与了包括能量代谢、DNA 复制和细胞周期调节等通路,提示其在与癌症进展相关的活跃生物学过程中具有潜在作用。ADHFE1 低表达与较差的生存率相关,而在上述HB 患儿数据中,ADHFE1 与较好的无病生存率相关,表明ADHFE1 是一个很有前景的预测患者生存的生物标志物。
由于儿童实体肿瘤数据较少,应用生物信息学分析HB 具有一定的局限性,所以仍需要大量的实验及临床数据验证以上结果。以上7 个关键基因可以作为新的靶点在HB 的诊断及治疗当中应用,但它们的分子机制仍有待生物学实验进行分析。
综上所述,本研究共鉴定出134 个DEGs 和7个hub gene 可能参与HB 发生或进展,其可作为HB 诊断及治疗的生物标志物。然而,这些基因在HB 中的生物学功能仍需进一步研究。