利用GEO数据库分析子宫内膜异位症潜在致病基因
2020-08-24张思阳王彬彬
张思阳 潘 虹 王彬彬*
1.北京协和医学院研究生院(100730);2.国家卫生健康委科学技术研究所
子宫内膜异位症被定义为子宫腔以外的部位存在子宫内膜组织[1]。基于双胞胎研究表明,子宫内膜异位症是一种可遗传的激素依赖性妇科疾病,且基因对子宫内膜异位症表型表现影响巨大[2-3]。这种慢性炎症性疾病影响6%~10%育龄妇女[4],30%~50%伴有盆腔疼痛并与不孕有关[5-6]。Brosens I等研究表明,局部雌激素的生成维持子宫内膜异位种植,子宫内膜异位症作为一种慢性炎症性疾病,可破坏整个生殖道孕酮协同反应,导致出现“孕酮抵抗”[7]。诸多研究致力寻找子宫内膜异位症的生物标记物,但其在月经周期不同阶段具有不同的基因表达特征[8]。因此,寻找月经周期不同阶段均适用的生物学标记物充满了方法学困难。GEO数据库(http://www.ncbi.nlm.nih.gov/geo)是 由美国国立生物技术信息中心创建并维护的基因表达数据库,GEO序列将样本组成有意义的数据集,每个数据集依靠一个公共属性构成一个实验。序列号具有“GSE”前缀[9]。KEGG(http://www.kegg.jp/或http://www.genome.jp/kegg/)是了解高级功能和生物系统(如细胞、生物和生态系统),从分子水平信息,尤其是大型分子数据集生成的基因组测序和其他高通量实验技术的实用程序数据库资源[10]。GO,KEGG,PPI网络目前已被广泛应用于各类癌症的潜在致病基因及候选生物标志物的筛选及预后分析,包括胃癌[11],口腔鳞癌[12]等。2016年Kori M等首次从医学网络角度进行研究,为包括子宫内膜异位症在内的累及卵巢的疾病提供了可能的潜在治疗靶点和(或)后续实验和临床研究中作为医学预后生物标记物的特征谱[13]。然而至今为止,鲜有文章聚焦于月经周期不同阶段,探究月经周期不同阶段子宫内膜异位症患者共享的潜在致病基因,从而从遗传背景探究具有月经周期不同阶段普适性的子宫内膜异位症的标志物,本文对此进行研究。
1 资料和方法
1.1 差异表达基因(DEGs)
以组合关键词“endometriosis,Homo”在NCBI基因芯片公共数据库GEO检索芯片库(www.ncbi.nlm.nih.gov/geo/),下 载 微 阵 列 芯 片 系 列GSE7305,GSE25628,分析时剔除GSE25628系列中健康对照组在位子宫内膜组织组别数据,仅保留患者的在位子宫内膜及异位子宫内膜组别的数据。使用GSE25628及GSE7305中“Ectopic endometrium”及“Euctopic endometrium”的组织。GSE7305:所有子宫内膜异位症样本都是卵巢样本,卵巢子宫内膜异位症病灶与同一患者子宫内膜在位组织于手术时同时获得;GSE25628:在位或异位子宫内膜组织的临床样本均取自因不孕、盆腔疼痛症状或附件肿块接受手术的子宫内膜异位症患者。深度浸润性子宫内膜异位症的诊断依据腹腔镜手术。8名患者的异位子宫内膜和对应匹配的患者在位子宫内膜手术时获得。GSE25628中包含处于增殖期的子宫内膜异位症患者的8例在位子宫内膜及8例异位子宫内膜组织,GSE7305共有10例在位子宫内膜及10例异位子宫内膜(卵泡期/增殖期2例、黄体期/分泌期8例)。使用GEO数据库基于R语言GEOquery和limma程序包的在线分析工具GEO2R(http:/www.ncbi.nlm.nih.gov/geo/geo2r/)以P<0.05,|log FC|>1.5为条件进行筛选,分别对两个数据集的子宫内膜异位症患者的在位组织与异位组织进行差异表达基因分析。对上述2个系列的数据集的差异表达基因取交集进行后续分析。
1.2 差异表达基因的功能富集分析
使用R语言的Clusterprofiler包对两个数据集共有的DEGs进行基因本体论分析及KEGG通路的富集分析。
1.3 DEGs的PPI网络分析及热点模块筛选
利用STRING 11.0数据库(https://string-db.org/)分析两数据集共有的DEGs蛋白相互作用。设置有效结合分数>0.4。通过Cytoscape_3.7.1对结果建立模型,并使用MCODE插件进行热点模块筛选。Degree Cutoff设置为2,Node Score Cutoff设置为0.2,K-core设置为0.2,Max deepth设置为100。使用使用BiNGO插件对热点模块中的基因簇进行GO富集分析。
2 结果
2.1 差异表达基因的筛选
经GEO2R分析,GSE25628共有160个上调的DEGs,18个下调的DEGs;GSE7305共有452个上调的DEGs,393个下调的DEGs。两个数据集共享的在位组织与异位组织的差异表达基因共96个,在两个不同的数据集中发现共有14个DEGs同时下调,82个DEGs同时上调(图1见插页)。
2.2 差异表达基因GO富集分析
对共有的差异基因进行GO分析,包含3个模块,生物学功能(BP),细胞组成(CC)及分子功能(MF)。BP,CC,MFP 3个模块P值最小的前10项富集通路的结果见图2(见插页)。
2.3 差异表达基因KEGG信号通路分析
KEGG结果显示,8项信号通路具有统计学意义(P<0.05)(图3见插页)。
2.4 差异表达基因PPI网络分析
利用STRING 11.0进行差异表达基因PPI网络分析。在去除分离和部分连接的节点后,通过Cytoscape构建了一个复杂的DEGs网络,显示出显著相互作用的重要基因(图4见插页)。
2.5 Cytoscape MCODE分析热点模块
使用MCODE插件对网络进行分析,共得到了3个符合条件的热点模块,共涉及22个基因(表1)。
2.6 使用BiNGO对热点模块的基因进行GO分析
将MCODE分析后的热点模块基因进行GO分析,结果显示P值由小到大,排名前5的模块依次为肌肉收缩、肌肉系统过程、细胞外基质组织、补体激活、急性炎症反应中血浆蛋白的激活(表2)。
表1 Cytoscape MCODE分析热点模块
表2 MCODE热点模块基因GO分析最具统计学差异前五项
3 讨论
CLU(Clusterin)自首次发现和鉴定以来,研究人员一直致力于揭示其在哺乳动物中的生物学作用。尽管人们普遍认为CLU在几乎所有的基本生物学现象和包括癌症在内的许多人类疾病中都扮演着重要的角色,但至今CLU被定义为一种“神秘的”蛋白质。CLU基因是一个在进化过程中非常保守的基因,位于人类8号染色体(8p21-p12)上,在许多器官组织受损中表达[14]。其过度表达应被认为是对多种组织损伤的非特异性细胞反应[15]。
CLU基因至少产生3种蛋白质形式,具有不同的亚细胞定位和不同的生物学功能。这些蛋白质形式产生的分子机制尚不清楚。最著名的是糖基化成熟型CLU(sCLU),不同部位分泌量存在很大差异。激素和生长因子是CLU基因表达最重要的调控因子[16]。诸多研究表明CLU与卵巢癌、结肠癌等发生有联系,且癌灶组织中CLU水平升高与疾病的不良结局有关[17]。在多种癌症治疗中具有较高的调节作用[18],研究表明靶向s-CLU可能提高卵巢癌患者的生存率[19],CLU通过与m RNA sCLU的外显子1结合阻断其翻译,而过度表达sCLU的肾癌细胞对凋亡的抵抗力增强[20]。靶向sCLU的寡核苷酸增加了前列腺癌细胞对辐射的敏感性[21]。靶向sCLU的寡核苷酸增加了对化疗药物的敏感性[22]。然而CLU基因是否与子宫内膜异位症的发生及进展有关的研究却十分有限。
最新研究表明在人类子宫内膜上皮细胞的顶端区域检测到CLU和巨蛋白,大部分是分泌细胞[23-24]。免疫组织化学分析显示,在人类子宫内膜中CLU优先定位于腺体中[25]。研究者通过免疫组织化学和ELISA鉴定出CLU不仅在分泌后期存在蛋白表达,在增殖期宫颈粘液中CLU也同样表达[26]。
Fuzio等研究发现CLU的表达在月经周期间没有差异[27]。然而,最新的研究表明CLU的表达受孕激素水平影响且与子宫内膜异位症患者的生育能力相关。晚期分泌期组织重组的孕激素水平下降可能在子宫上皮细胞中诱导CLU表达[28]。Simone Ferrero等一项涉及52例子宫内膜异位症患者的腹膜液分析,包括26例生育能力正常及26例不孕患者,发现不孕妇女腹膜液中CLU蛋白水平明显高于生育能力正常者[29]。
CLU是补体调节因子[30],研究表明CLU参与补体激活,而补体途径在子宫内膜异位症和子宫内膜异位症相关卵巢癌中常发生改变[31];2018年Palomino WA等发现异位子宫内膜在分泌中期表现出补体调节蛋白表达异常[32]。除此之外,研究者指出补体系统激活调节机制的损害可能是子宫内膜异位症及相关不孕症发病的重要因素[33]。
本研究结果表明,CLU是子宫内膜异位症发生进展过程中增殖期及分泌期共享的枢纽基因之一,可能介导调控补体级联通路参与作用于子宫内膜异位症的发生发展。CLU可能作为潜在的子宫内膜异位症的生物标志物,为增殖期及分泌期共享。不过这一初步结论仍需后续扩大样本量,分析月经周期不同阶段子宫内膜异位在位组织,及健康对照子宫内膜组织进行验证。更多聚焦于CLU与补体激活及子宫内膜异位症发生进展的细胞功能实验,从而探究孕激素与CLU表达关系,及CLU参与子宫内膜异位症发生进展的潜在分子机制。