基于GEO 数据库探索miRNA 靶基因通过泛素化参与食管鳞状细胞癌
2022-06-15陈婉玉徐浒东黄晓蕾何佳璐
靳 步,袁 颖,陈婉玉,徐浒东,黄晓蕾,何佳璐,于 红
上海市第一人民医院嘉定分院,上海市嘉定区江桥医院病理科,上海 201803
食管癌(esophageal cancer,EC)是最具侵袭性的恶性肿瘤之一,全球每年约有60万例癌症病例,它是第七大最常见癌症和第六大最致命癌症[1]。根据国际癌症研究机构(International Agency on Cancer Research,IARC)的估计,2012年,世界范围内有45.58万例新病例和40.02万例死亡病例[2]。食管癌的发病率因地理区域的不同而有很大差异,多发生于发展中国家,中国的食管癌患者约占全球食管癌患者总数的一半[3]。传统上,EC分为鳞状细胞癌(esophageal squamous cell carcinoma, ESCC) 和 腺 癌 (esophageal adeno carcinoma,EAC)。在中国,90%的病例是ESCC[2]。ESCC的早期诊断和治疗的临床方法仍然有限,大多数患者被诊断为晚期,2种组织学类型的生存率都很低。全球5年生存率为15%~25%[4]。因此,迫切需要了解ESCC的分子机制。
miRNA是一类小型非编码RNA,介导基因转录后调控,在生理和病理过程中起着不可替代的作用。它们结合到目标mRNA的3’非翻译区(3’UTR)促进mRNA降解和/或抑制翻译。在过去的10年中,在包括ESCC在内的许多癌症中,miRNA通过调控癌基因或抑癌因子的表达,在肿瘤细胞的生长和分化中发挥着重要作用[5]。
本研究通过GEO 数据库选取2 个ESCC 患者血清miRNA芯片数据集,根据筛选出的差异表达miRNAs(differentially expressed miRNAs,DEMs)预测了相应的靶基因,并对靶基因进行基因本体(Gene Ontology,GO) 分析、京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)分析和蛋白质相互作用分析(protein-protein interaction,PPI),鉴定出5个枢纽(Hub)基因,结果显示Hub基因或通过泛素化参与ESCC的疾病过程。
1 资料与方法
1.1 数据来源
本研究分析的基因表达数据集来源于GEO 数据库(https://www.ncbi.nlm.nih.gov/geo/)。从数据库中检索到2 365 篇有关人类食管癌的文献。我们选择了2 个miRNA 表达谱(GSE122497,GSE164174)。GSE122497包含5 531个样本的血清miRNA 谱,其中包括566 个ESCC 样本和4 965 个非癌对照样本。GSE164174 包含2 940 个样本的血清miRNA 谱,其中包括1 423 个胃癌,1 417 个非癌对照,50 个ESCC和50个结直肠癌,本研究仅纳入ESCC组和非癌对照组。表达谱均基于Toray Industries GPL21263 平台(3D-Gene Human miRNA V21_1.0.0)。Hub 基因组织间表达差异数据来源于GEPIA 网站公开数据(http://gepia.cancer-pku.cn)。所有的数据都可以在网上免费获得,而且这项研究没有涉及任何在人类或动物身上进行的实验。
1.2 数据处理与DEMs的筛选
采用GEO2R在线分析工具(https://www.ncbi.nlm.nih.gov/geo/geo2r/)与韦恩图在线工具(bioinformatics.psb.ugent.be/webtools/Venn/)筛选差异基因并可视化。打开GSE122497数据集网页(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE122497),点击网页下方“Analyze with GEO2R”,点击“Define groups”,在空白框中输入“ESCC”和“Control”作为ESCC组和正常组,点击选择下方样本数据,再点击上方分组名称即可将数据纳入分组。点击网页下方“Analyze”,下载表格,得到ESCC患者与健康受试者血清中miRNA谱之间的差值,计算调整后的P值和|logFC|。调整后的P<0.01,|logFC|≥2的miRNA视为差异表达miRNA。
以相同方法对GSE164174 数据集进行统计分析,将数据集的DEMs分别复制到新的文本文档中,并上传到韦恩图在线工具网站,点击“Submit”得到数据集相交的DEMs和韦恩图图像。
1.3 预测DEMs的靶基因
通过在线软件TargetScan(http://www.targetscan.org/vert_71/) 和 DIANA Tools (http://diana. imis.athena-innovation. gr/DianaTools/index. php? r=site/page&view=software)预测靶基因并取2 个网站的交集。由于TargetScan 不能批量复制DEMs,所以打开TargetScan 后,将每个DEM 分别逐一粘贴至搜索框中,将靶基因结果逐一复制至Excel 表格中,预测结果的交集获得DEMs 的靶基因。打开DIANA Tools后,点击microT-CDS 模块,批量复制DEMs 后点击“Submit”下载表格。将2 个在线软件预测得到的靶基因利用韦恩图在线网站取交集。
1.4 靶基因的GO 和KEGG 通路分析及GSEA验证
GO 分析是大规模基因功能富集研究的常用方法,可分为生物过程(biological process,BP)、分子功 能 (molecular function, MF) 和 细 胞 成 分(cellular component,CC)。KEGG 是一个广泛使用的数据库,它存储了大量关于基因组、生物途径、疾病、化学物质和药物的数据。本研究使用DAVID 工具(https://david.ncifcrf.gov/)对靶基因进行GO 注释分析和KEGG 通路富集分析。使用miEAA 在线工具(https://ccb-compute2.cs.uni-saarland.de/mieaa2/) 对KEGG 分析进行验证:点击网页“Run miEAA”,选择GSEA 模式,输入DEMs 后选择KEGG 选项,点击“Submit”得到表格结果。
1.5 PPI 网络构建、 Hub 基因鉴定及GeneMANIA Cytoscape验证
利用交互基因检索工具(STRING) 数据库(http://string-db.org/)对PPI 信息进行分析。为了评估潜在的PPI 关系,我们将之前鉴定的靶基因映射到STRING 数据库中。打开STRING 选择Multiple proteins,输入DEMs,种属选择“Homo sapiens”,点击SEARCH,利用Cytoscape 中的CytoHubba 插件计算每个蛋白节点的程度。连接度越高的节点对维持整个网络的稳定性越重要,我们选择连接度最高的前5 名的基因作为Hub 基因。在Cytoscape 软件中安装CytoHubba 插件,选择待分析的网络后点击Calculate和TOP10筛选连接度前10名的基因。
验 证 使 用 GeneMANIA Cytoscape (http://genemania.org/)在线工具,选择人类种属后,输入Hub 基因得到基因-基因功能交互网络。生成的网络包括与原始列表最相关的基因以及来自Gene Ontology的功能注释。
2 结果
2.1 DEMs
以P<0.01 和|logFC|≥2 为标准,从GSE122497 中共鉴定出894 个DEMs,其中上调的miRNA 有33 个,下调的miRNA 有861 个。在miRNA 芯片GSE164174中,共鉴定出150 个差异表达的miRNA,其中27 个上调,123 个下调。通过比较ESCC 患者和正常患者的血清样本来鉴别所有的DEMs,然后进行韦恩分析,得到DEMs 的交集。结果显示,共有108 个DEMs,其中15 个显著上调(图1A),93个显著下调(图1B)。
图1 韦恩图显示2个GEO数据集的DEMsFig1 Venn diagram showing DEMs of two GEO datasets
2.2 靶基因
TargetScan 预测10 674 个靶基因。microT-CDS 预测了515 001 个靶基因,最终以miTG 评分大于0.99的条件确定了1 764 个靶基因。将2 个软件的预测结果进行交集,得到1 354个靶基因(图2)。
图2 韦恩图显示同时被TargetScan 及microT-CDS 预测到的靶基因Fig2 Target genes predicted by both TargetScan and microT-CDS
2.3 靶基因功能富集分析及验证
利用DAVID 进行GO 功能和目的基因KEGG 通路富集分析,使用miEAA 在线工具进行GSEA 验证。GO 分析结果表明,在BP term 中靶基因主要富集在转录、转录调控、RNA聚合酶启动子转录的正调控、RNA聚合酶启动子转录的负调控、转录的正调控等生物过程。分子功能分析表明,靶基因在蛋白结合、金属离子结合、DNA 结合、锌离子结合、转录因子活性、序列特异性DNA结合等方面显著富集。在细胞组分中,靶基因富集于细胞核、细胞质、核质、突触等部位(图3A)。此外,KEGG 通路分析结果显示,靶基因主要富集于肿瘤通路、MAPK信号通路、干细胞多能性调控信号通路等(图3B)。GSEA验证结果显示靶基因富集与KEGG分析结果相似(图3C)。
图3 靶基因功能富集分析Fig 3 Functional enrichmeWnt analysis of target genes
2.4 靶基因PPI网络分析及验证
利用STRING 工具预测靶基因之间的蛋白质相互作用。PPI 网络共有1 326 个节点,2 300 条边,平均节点连接度为3.47(图4A)。根据PPI 网络节点的连接程度,筛选出前10 位的基因(图4B)。结果表明,SMAD 特异性E3 泛素蛋白连接酶2(SMAD specific E3 ubiquitin protein ligase 2,SMURF2)是连接度最高的基因,其次是β-转导重复蛋白E3 泛素蛋白连接酶(β-transducin repeat containing E3 ubiquitin protein ligase,BTRC)、SMAD 特异性E3 泛素蛋白连接酶1(SMAD specific E3 ubiquitin protein ligase 1,SMURF 1)、泛素结合酶E2 D1(ubiquitin conjugating enzyme E2 D1,UBE2D1)、E3 泛素连接酶枯灵素2(cullin 2,CUL2)、E3 泛 素 连 接 酶 枯 灵 素3 (cullin 3,CUL3)、含7 的F-盒和WD 重复结构域(f-box and WD40 repeat domain containing 7)、细胞分化周期蛋白27 (CDC27)、 BTB 结 构 域7 (BTB domain containing 7,KBTBD7)和含锚蛋白重复序列和细胞因子信号抑制物盒蛋白质家族7 (human ankyrin repeat and SOCS box containing protein family 7,ASB7)。我们选择前5 位的基因SMURF2、BTRC、SMURF 1、UBE2D1、CUL2作为Hub 基因(图4B),以往的研究结果显示,这些基因均与蛋白质的泛素化有关[6-9]。GEPIA 网站显示了它们在ESCC 组织中与正常组织中的表达差异(图4C)。我们使用GeneMANIA Cytoscape分析了与Hub基因有关的基因相互作用关系(其中不包含Hub 基因),结果显示SMAD 家 族 成 员2 (SMAD family member 2,SMAD2)、酪氨酸3/色氨酸5 单加氧酶激活蛋白ζ(recombinant tyrosine 3/tryptophan 5 monooxygenase activation protein zeta,YWHAz)、叉头框蛋白O3(forkhead box O3,FOXO3)、磷脂酰肌醇-3-激酶催化亚基α(Phosphatidylinositol 3-kinase,PIK3CA)等与Hub基因有关的基因之间相互作用密切。
图4 靶基因PPI网络分析Fig.4 PPI network constructed with the target genes
3 讨论
本研究基于公开数据库的miRNA 表达谱,得到DEMs 的靶基因,筛选ESCC 潜在的新基因和机制。这些基因与转录调控、RNA 聚合酶II 启动子转录调控、转录的正调控等生物学过程有关,并且在癌症通路、MAPK通路、调节干细胞多能性等信号通路中显著富集。PPI 网络显示了这些靶基因的相互作用关系,在PPI 网络中我们鉴定了5 个Hub 基因:SMURF2、BTRC、SMURF1、UBE2D1、CUL2。这些基因均与蛋白质的泛素化有关。
蛋白质泛素化是一种主要的翻译后修饰,控制着广泛的生物学功能,在生理条件下和疾病中维持细胞内稳态。它通过蛋白酶体标记蛋白质降解,改变其定位,影响其活性,促进或干扰蛋白质相互作用,调节肿瘤促进和抑制途径[10,11]。泛素化主要由3 种酶介导:泛素激活酶(E1)、泛素结合酶(E2)和泛素连接酶(E3)。据推测,人类基因组中有630 多个E3,40 多个E2,只有2 个E1。E3 能严格控制蛋白的不稳定性、定位和功能,从而调节大量的生物学过程,这激发了对这些酶作为癌症药物靶点的深入研究[12]。
SMURF1 和SMURF2 是2 个关系密切的C2-WWHECT结构域E3泛素连接酶,属于HECT E3型NEDD4亚家族。SMURF 1和SMURF 2最初被鉴定为骨形态发生蛋白(bone morphogenetic protein,BMP)/转化生长因子β (transforming growth factor β,TGF-β)信号通路的负调控因子,负责调控SMAD蛋白的稳定性。TGFβ信号通路抑制肿瘤增殖,其在调控细胞增殖、凋亡、分化、迁移以及癌症的发生和发展等诸多生物学过程中具有重要作用[13,14]。一系列研究表明SMURF1是一种潜在的肿瘤促进因子。在癌细胞中,p53通过RING finger E3 泛素蛋白连接酶与鼠双微体基因(murine double minute,MDM2)结合发生泛素化并随后被泛素-蛋白酶体系统降解,因此,MDM2在不同类型的肿瘤中均过表达,并与p53蛋白水平呈负相关,导致患者生存率下降和预后不良[15]。基因组杂交分析表明SMURF1是胰腺癌和胃癌的潜在致癌因子。在胃癌和透明细胞肾癌患者中,SMURF1水平与生存率呈负相关[6]。在胰腺、胃、前列腺和卵巢等多种癌细胞模型中,下调SMURF1可降低肿瘤的发生[16]。在食管癌中,激活的SMAD2缺乏与ESCC 患者的肿瘤进展有关,SMURF2 能够诱导SMAD2泛素化和降解并抵抗TGF-β诱导的生长抑制作用,以此促进ESCC的肿瘤发展[17]。SMURF 2在食管癌组织(特别是在食管癌细胞增殖活性较高的肿瘤前部)中表达水平高于正常食管上皮,且与浸润深度、淋巴结转移及预后不良有关[17]。
BTRC是f-box和WD40重复蛋白家族的成员,与上皮间质转化(epithelial-mesenchymal transition,EMT)相关蛋白降解有关[18]。越来越多的证据表明,BTRC通过其f-box结构域与skp1和cullin1相互作用,形成一个SCF复合物,使磷酸化的IκBα (p-IκBα)泛素化,从而触发NF-κB向细胞核的易位和靶基因的激活[19]。机制研究表明,跨膜四超家族成员15(tetraspanin 15,TSPAN15)可与BTRC相互作用,提高BTRC对p-IκBα的泛素活性,促进p-IκBα的降解和NF-κ B核转位的激活,从而促进食管鳞状细胞癌的转移[20]。
UBE2D1 是E2 泛素结合酶的成员,属于UBE2D家族,在一些癌变过程中发挥着重要作用。UBE2D1也是一个依赖于p53的重要治疗靶点。与SMURF1一样,外源性UBE2D1 可与MDM2 相互作用,在体外以E2 的形式触发p53 的泛素化。此前的研究报道表明,在非小细胞肺癌、骨肉瘤、肝癌及肝癌的癌前病变[21]中,UBE2D1 均上调。在胃癌中,UBE2D1 的沉默抑制胃癌细胞迁移。在结直肠癌中,UBE2D1过表 达Aurora 激 酶A 参 与Wnt 和Ras-MAPK 信 号 通 路,UBE2D1 沉默降低SMAD 家族成员4(SMAD family member 4,SMAD4)的泛素化水平,从而在腺瘤向癌的发展过程中发挥作用,导致结直肠癌恶化[22],但是其在食管癌中的作用机制尚不明确。
CUL2是cullin家族成员。cullin家族蛋白是NEDD8的底物,是cullin-RING连接酶(CRL)的支架成分,它是E3连接酶中最大的家族,可催化约20%的细胞蛋白的泛素化,这些蛋白注定要被蛋白酶体系统降解。几乎所有的真核生物过程都是由CRL催化的蛋白泛素化调控的,cullin-RING复合物和几个调节伴侣蛋白之间的相互作用协调了一系列生物学过程,包括转录、信号转导、细胞分裂和分化,而CRL失调是许多疾病的基础,并且至少可以作为癌症的潜在靶点。CUL2修饰细胞周期进展中的蛋白质,在无反应的腺癌和鳞状细胞癌患者中CUL2表达下调,CUL2下调也与患者生存显著相 关[23]。BZLF1 (BamHI Z fragment leftward open reading frame 1)蛋白直接作为Elongin B/C-CUL2/5-SOCS-box蛋白(ECS)E3连接酶复合物的接头组件,针对磷酸化的p53进行降解。
泛素化网络成分的异常表达和突变与癌症有关。癌细胞可能利用这些成分的组合去调控表达来支持致癌信号通路。泛素化作用的功能和最终效果主要取决于效应底物的性质和泛素化介导效应的类型。在我们鉴 定 的5 个Hub 基 因 中,SMURF1和UBE2D1在ESCC 中的作用还未被阐明。随着泛素化底物和受体检测技术的进步,进一步研究在ESCC 中这些基因对泛素化的作用,能够更好地揭示ESCC 的疾病发生发展的分子机制,为抗癌新药的研究提供新靶点。
利益冲突声明/Conflict of Interests
作者声明无利益冲突。
The authors declare no conflict of interest.
作者贡献/Authors'Contributions
靳步、于红、袁颖、陈婉玉参与了实验设计;靳步、于红、徐浒东、黄晓蕾、何佳璐参与了论文的写作和修改。所有作者均阅读并同意了最终稿件的提交。
The study was designed by JIN Bu, YU Hong, YUAN Ying and CHEN Wanyu. The manuscript was drafted and revised by JIN Bu,YU Hong, XU Hudong, HUANG Xiaolei and HE Jalu. All the authors have read the last version of paper and consented for submission.
·Received:2021-09-03
·Accepted:2022-04-06
·Published online:2022-04-28