基于生物信息学数据库的肺腺癌组织中HMGB1表达及相关下游通路分析*
2021-05-25任冰洁杨媛媛卞徐宇梁容瑞
任冰洁,杨媛媛,卞徐宇,李 强,2,梁容瑞,陶 敏△
(1.苏州大学附属第一医院肿瘤科,苏州 215006 ;2.江西省肿瘤医院淋巴血液肿瘤科,南昌 330029)
肺癌是一种高发恶性肿瘤,其中非小细胞肺癌(NSCLC)占绝大多数。NSCLC 可分为肺腺癌(LUAD)、肺鳞癌(LUSC)和大细胞癌,其中LUAD是最常见的亚型。LUAD早期无明显症状不易被发现,5年生存率不足30%[1]。肺癌的形成是一个多阶段和多因素参与的复杂过程。
高迁移率族蛋白B1(HMGB1)是高迁移率族蛋白家族的成员,在哺乳动物细胞中广泛表达。HMGB1 具有细胞内活性和分泌活性,细胞内的HMGB1 能与DNA 结合,在转录过程中起关键作用。分泌到细胞外的HMGB1 可与Toll 样受体(TLRs)和晚期糖基化终产物受体(RAGE)结合,激活下游信号通路参与肿瘤的发生、生长、侵袭和转移。有研究发现,HMGB1 过表达可促进肺癌细胞的增殖和转移,并与患者预后不良有关[2]。在肺癌方面,虽然有研究表明HMGB1 与LUAD 的不良预后有关,但HMGB1参与LUAD的发生、发展机制尚未完全阐明。本研究旨在探讨可能参与LUAD 发生发展的HMGB1下游关键节点。
1 方 法
1.1 HMGB1 相关基因分析 UALCAN(http://ualcan.path.uab.edu/index.html)是一个交互式门户网站,用于深入分析TCGA 中的基因表达数据[3]。为了获取LUAD 中与HMGB1 表达相关的基因,本研究从UALCAN数据库TCGA analysis板块下的Correlation 中获取了与HMGB1 表达相关基因的数据。将数据导入Excel 中,设置皮尔逊相关系数(Pearson-CC)≥0.4,筛选相关基因。
1.2 生存分析 利用UALCAN数据库TCGA analysis 板块对UALCAN 数据库筛选出的基因分别做生存分析,筛选具有生存意义的基因[3]。
1.3 蛋白质-蛋白质相互作用分析 STRING(https://string-db.org)数据库是一个在线搜索已知蛋白,以及预测蛋白质互作关系的数据库,包括蛋白质之间直接物理相互作用,及间接功能的相关性[4]。将TCGA 筛选出的基因和HMGB1 基因一起输入STRING 数据库中,建立蛋白质-蛋白质相互作用网络图。
1.4 转录因子和结合位点预测 AnimalTFDB3.0(http://bioinfo.life.hust.edu.cn/AnimalTFDB/)是一个提供动物转录因子(TFs)及其辅助因子信息资源的数据库,包含来自97 个动物基因组的125 135 个转录因子和80 060 个转录辅助因子基因[5]。JASPAR(http://jaspar.genereg.net/)是一个提供转录因子与DNA 结合位点以及结合模式的公共数据库[6]。首先,通过NCBI 的Gene 模块查找目标基因,计算目标基因启动子区域,一般认为基因起点上游2 000 bp及下游100 bp为基因潜在启动子区域。其次,在AnimalTFDB3.0 的Predict TFBS 功能预测栏输入目标基因的启动子序列,在预测结果栏可以得到与目标基因结合的转录因子。最后,挑选潜在的关键转录因子,利用JASPAR 数据库预测转录因子在目标基因启动子区域的结合位点。
1.5 信号通路分析 京都基因与基因组百科全书(kyoto encyclopedia of genes and genomes,KEGG)(https://www.kegg.jp/kegg)是一个综合性的网站,是最为知名和通用的信号通路数据库[7]。通过KEGG中的KEGG GENES 功能来分析相关的信号通路及通路下游转录因子。
2 结果
2.1 LUAD 中与HMGB1 相关的基因 UALCAN[3]数据库分析LUAD 中与HMGB1 表达相关的基因,得到正相关基因528 个,其中皮尔逊相关系数≥0.4的基因有101个,负相关基因2个,其中皮尔逊相关系数≥0.4的基因为0个。筛选出的101个皮尔逊相关系数≥0.4的正相关基因见表1。
2.2 生存分析和蛋白质-蛋白质相互作用 UALCAN数据库分析显示,33个基因与LUAD的生存预后有关[3],LUAD 组织中细胞周期蛋白依赖激酶1(CDK1)、H2A 组蛋白家族成员Z(H2AFZ)表达量明显高于正常肺组织,且CDK1、H2AFZ 低/中表达组患者生存时间明显长于CDK1 和H2AFZ 高表达组(均P<0.05),见图1。STRING数据库分析显示,CDK1和H2AFZ基因与HMGB1存在相互作用[4],见图2。
表1 LUAD中与HMGB1相关的基因
图1 LUAD组织CDK1和H2AFZ的表达及生存曲线
图2 蛋白质-蛋白质相互作用
2.3 CDK1 的转录因子和结合位点预测 首先通过NCBI 数据库查找CDK1 基因的启动子序列。然后利用AnimalTFDB3.0数据库预测CDK1基因的转录因子[5],获得572 个转录因子。其中SOX2 和SP1是CDK1 的转录因子[8-9]。因此选择SOX2 和SP1 进行结合位点的预测。最后利用JASPAR数据库预测SOX2 和SP1 转录因子在CDK1 启动子区域的结合位点[6],见图3。
2.4 H2AFZ 的转录因子和结合位点预测 首先通过NCBI 数据库查找H2AFZ 基因的启动子序列。然后利用AnimalTFDB3.0 数据库预测H2AFZ 基因的转录因子[5],获得598 个转录因子。SOX2 和SP1是H2AFZ 的转录因子[10-11],因此,选择SOX2 和SP1进行结合位点的预测。最后利用JASPAR数据库预测SOX2 和SP1 转录因子在H2AFZ 启动子区域的结合位点[6],见图4。
2.5 SOX2的上游调节基因 有研究表明,HMGB1可以通过PI3K/Akt 和ERK 信号通路促进癌细胞增殖[12]。为了分析Akt和ERK是否对SOX2有调节作用,本研究利用KEGG 数据库查找相应的信号通路[7]。如图5 所示,当Akt 或ERK 被上游信号激活后,转移到细胞核中来促进SOX2的转录。
图3 SOX2-motif和SP1-motif在CDK1启动子区域结合位点
图4 SOX2-motif和SP1-motif在H2AFZ启动子区域结合位点
图5 Akt和ERK相关信号通路图
3 讨论
肺癌是世界上最常见和最致命的癌症之一。随着诊疗水平的不断提高,肺癌患者的生存期大大延长。然而,肺癌患者的5年复发率却很高,复发患者的治疗选择有限[13]。肺癌的发生和发展是一个复杂的过程,HMGB1 可能参与了肺癌发展的多个阶段。研究表明,HMGB1可能参与了肺癌的发展,且LUAD患者的生存呈负相关关系[14]。
HMGB1 是一种高度保守的蛋白质,与多种恶性肿瘤的进展有关。晚期糖基化终产物受体(RAGE)和Toll样受体家族(如TLR-2、TLR-4、TLR-9)是HMGB1 的重要受体。越来越多的研究表明,HMGB1与RAGE或TLRs结合导致细胞活化,从而延长炎症、增殖和凋亡的持续时间[15]。HMGB1 结合RAGE 或TLRs 可以激活细胞内信号通路PI3K/Akt 和丝裂原活化蛋白激酶(MAPK、ERK1/2)来调节NCSLC 的活化和增殖[16]。本研究分析LUAD 中与HMGB1 表达相关的基因,筛选出101 个高度正相关的基因。利用UALCAN 数据库分析这101 个高度正相关基因的表达与LUAD 之间的生存相关性。结果显示,33 个基因与LUAD 的生存预后有关。通过STRING数据库建立HMGB1与这33个基因的蛋白质-蛋白质相互作用网络图,发现CDK1和H2AFZ与HMGB1之间存在相互作用。
CDK1 基因编码的蛋白质是Ser/Thr 蛋白激酶家族的成员。该蛋白是高度保守的蛋白激酶复合物M 期启动因子(MPF)的催化亚基,在真核细胞周期的G1/S和G2/M中起关键作用。在癌症中经常观察到CDK1活性的失调。通过整合来自不同数据库(TCGA 和GEO)的基因表达数据,鉴定了CDK1 在LUAD 中的表达上调。据报道,CDK1 上调与LUAD 的不良预后有关[17]。H2AFZ 是组蛋白H2A的变体,在酵母及哺乳动物细胞具体保守序列。H2AFZ在基因转录、DNA复制、细胞周期进程和基因组稳定性维持过程中发挥着重要的作用。有研究表明,H2AFZ 的过表达是肝细胞癌、乳腺癌预后不良的一个指标[18]。本研究通过分析TCGA数据库中的基因表达数据,发现H2AFZ在LUAD中表达上调,且高表达与LUAD的不良预后有关。
PI3K/Akt 已被证明在细胞周期的调节中发挥作用。PI3K/Akt 可以激活细胞周期蛋白D,抑制CDK 抑制剂p21 活性,从而促进G1/S 期转变。另外,PI3K/Akt 失活将导致G1 期阻滞[19]。总的来说,PI3K/Akt可以通过抑制P21的活性来促进CDK1的表达,参与细胞周期的调节[20]。另外,ERK 信号通路可以上调CDK1,增加G2/M期细胞比例[21]。有研究表明,Akt 是SOX2 表达的上游调节因子,抑制Akt 通路可以降低食管鳞状细胞中SOX2 的表达[22]。Chen 等[23]证实,澳洲茄边碱可以抑制Akt 信号传导,降低SP1和p65的表达,从而抑制人肺癌细胞的生长。ERK 通路也是HMGB1 的重要下游通路,有研究表明FGFR1可以通过MAPK信号通路调节SOX2 的表达,FGFR1-ERK1/2-SOX2 轴可促进FGFR1扩增肺癌细胞的增殖和转移[24]。SP1是ERK的下游信号分子已通过实验验证[25]。本组利用生物学信息技术预测CDK1和H2AFZ的转录因子,预测到的转录因子包括SOX2 和SP1。SOX2 和SP1 转录因子已被证明可以调节CDK1 和H2AFZ 的转录[8-11]。
本研究表明,HMGB1 可能是通过PI3K/Akt 或ERK 信号通路促进SOX2 或SP1 表达进而调节CDK1或H2AFZ基因,参与LUAD的进展。