基于生物信息学分析多囊卵巢综合征中影响卵巢生长发育的关键差异基因
2024-04-24沈蓓蕾李聚学
沈蓓蕾,李 娜,李聚学,刘 煜*
(南京医科大学 1.附属逸夫医院 内分泌科;2.生物化学与分子生物学系,江苏 南京211166)
多囊卵巢综合征(PCOS)是女性最常见的内分泌紊乱疾病之一,约占育龄期女性的5%~10%[1]。PCOS患者表现出生殖异常和内分泌代谢异常。生殖异常包括高雄激素血症、排卵障碍和生育能力下降等。代谢异常包括肥胖、胰岛素抵抗、肝脂肪变性和血脂异常等,且这些代谢异常增加罹患2型糖尿病和心血管疾病的风险[2]。近年来,随着分子、结构和化学生物学方法的进步,如高通量测序技术、表观基因组分析、微阵列基因表达分析、代谢组学、基因转录调控、蛋白组学等方法在疾病病因分析、诊断和治疗中的应用也越来越广泛[3-5]。有研究者应用RNA测序和全基因组DNA甲基化分析方法对PCOS小鼠子代的卵巢组织进行检测,发现DNA为低甲基化水平,同时还获得了一些与胰岛素分泌调节、脂质代谢和炎症反应相关的关键基因,如胰岛素降解酶(insulin degrading enzyme,Ide)、鞘磷脂合酶 2(sphingomyelin synthase 2,Sgms2)、前列腺素-内过氧化物合酶 2(prostaglandin-endoperoxide synthase 2,Ptgs2)等,为PCOS的遗传学研究及诊断提供新思路[6]。此外,应用代谢组学技术检测PCOS患者的血液、尿液及卵泡液样本发现PCOS患者体内与脂质、氨基酸以及柠檬酸循环等能量代谢有关的代谢物处于紊乱状态[7]。而最新的一项蛋白组学研究也显示,参与炎症、免疫和代谢生物学过程的一些蛋白质在PCOS患者卵泡液中上调[8]。这些组学结果都为PCOS的研究提供了新的靶点。然而,PCOS的病因非常复杂,其发病机制仍在进一步探索中[9]。因此,应用生物信息学技术以期快速有效地筛选PCOS关键候选基因,有可能为后期的机制研究提供新的方向。
GEO(Gene Expression Omnibus)数据库是一个国际公共存储库[10],用于存储微阵列、二代测序和其他形式的高通量功能基因组数据,该数据库由国家生物技术信息中心 (National Center of Biotechnology Information,NCBI) 建立和维护[11]。近年来,测序技术的高速发展,已经在临床疾病领域取得了重大进展,运用范围从临床分子诊断到分子分类,从患者分层到预后预测,以及发现新的药物靶点来进行应答预测[12]。
比较毒理基因组学数据库(CTD)是一个公开可用的数据库,整合大量化学物质、基因、功能表型和疾病之间相互作用,为研究疾病的潜在机制提供了便利[13]。
本研究采用生物信息学方法从GEO数据库中搜索有关多囊卵巢综合征的基因表达谱,选取两个数据集的差异基因交集并验证了与卵巢功能相关的关键基因,相比单个数据集结果更可靠,为探索PCOS的发病机制提供新的靶点。
1 资料和方法
1.1 资料和材料
从NCBI的GEO数据库检索与PCOS及卵巢相关的数据集,选取了两个数据集(GSE171431和GSE59456),其中GSE171431来自Affymetrix的GPL20258,GSE59456来自Affymetrix的GPL1355(表1)。脱氢表雄酮(DHEA)(美国Sigma-Aldrich公司);芝麻油(国药集团化学试有限公司);睾酮(testosterone,T)、促黄体生成素(luteinizing hormone,LH)、雌二醇(estradiol,E2)酶联免疫吸附(enzyme-linked immunosorbent assay,ELISA)试剂盒(武汉伊莱瑞特生物科技有限公司);RNA提取试剂Trizol(TaKaRa)、逆转录和PCR试剂盒(南京诺唯赞公司);苏木素-伊红(hematoxylin and eosin,HE)染色试剂盒(南京凯基生物公司);瑞士-吉姆萨染色试剂盒(Biosharp生物有限公司)。
表1 数据集基本信息
1.2 方法
1.2.1筛选差异基因 使用R语言limma包对上述两个数据集进行分析,以P<0.05且|log2FC|>1为阈值鉴定PCOS组和对照组卵巢组织中的差异表达基因(differentially expressed gene,DEG)。
1.2.2差异基因的韦恩图绘制 用ggvenn包对两个基因表达谱的差异基因取交集从而得到共同差异基因。
1.2.3差异基因的聚类热图和火山图绘制 本研究使用ggplot2包和pheatmap包绘制差异基因的表达热图,为了直观展示PCOS组和对照组卵巢之间差异基因的表达情况,用ggplot2包和ggrepel包绘制火山图。
1.2.4差异基因的GO和KEGG富集分析 GO数据库把基因的功能分成了三个部分,分别是细胞组分(cellular component,CC)、分子功能(molecular function,MF)和生物过程(biological process,BP)。KEGG数据库拥有多个子数据库,包含基因组,生化反应,生化物质,疾病与药物,以及最常用的通路信息。利用clusterProfiler包和org.Mm.eg.db包对共有差异基因进行GO注释富集分析和KEGG通路富集分析,然后采用ggplot2绘制富集图。
1.2.5实验动物分组和PCOS模型的建立 从南京医科大学实验动物中心购入9只SPF级3周龄的健康雌性C57BL/6小鼠,动物实验过程由南京医科大学动物实验中心和伦理委员会批准。所有小鼠置于SPF级环境中饲养,光照/黑暗12 h交替,自由饮水和饮食。将小鼠随机分为两组,分别为对照组4只和PCOS组5只。对照组:95%乙醇和芝麻油,连续皮下注射21 d;PCOS组:DHEA粉末溶于95%乙醇和芝麻油,按照小鼠每100 g体重6 mg DHEA进行给药,连续皮下注射21 d。
1.2.6PCOS组小鼠的纳入标准 连续皮下注射DHEA后若小鼠出现发情周期紊乱,卵巢组织形态学显示卵巢多囊化改变,血清雄激素水平升高则认为PCOS小鼠模型构建成功。这与临床的鹿特丹诊断标准相似。
1.2.7动情周期的监测 从皮下注射第13天开始,每天使用移液枪吸取20 μl PBS冲洗小鼠阴道收集阴道上皮细胞,持续10 d。将小鼠阴道内液体滴在载玻片上并推开,涂片自然干燥后用甲醇固定3 min,最后用瑞士-吉姆萨染色试剂盒进行染色。在光学显微镜下根据阴道细胞(包含核上皮细胞、角化上皮细胞和白细胞)占比及形态判断小鼠的动情周期阶段。
1.2.8卵巢组织HE染色 小鼠卵巢组织用4%多聚甲醛固定,然后进行石蜡包埋、切片、HE染色及封片,最后在镜下观察卵巢形态并统计卵泡和黄体数目。
1.2.9血清性激素水平检测 使用ELISA试剂盒检测小鼠血清T、LH和E2水平,根据试剂盒说明书操作,最后用酶标仪在450 nm波长处检测各孔的光密度值。根据标准曲线计算样品的激素水平。
1.2.10实时定量聚合酶链反应(real-time quantitative polymerase chain reaction RT-qPCR)检测差异基因mRNA水平 小鼠卵巢组织提取RNA后进行逆转录,用SYBR Green Realtime PCR试剂盒检测差异基因 mRNA水平,最后使用2-ΔΔCt法计算检测基因mRNA的相对表达水平,相关引物序列见表2。
表2 引物序列
1.2.11CTD分析 将基因名称输入CTD,找到与基因最相关的疾病,并利用Excel绘制雷达图。
1.3 统计学方法
2 结果
2.1 差异基因的筛选
在GEO数据库选取了两个数据集,分别为GSE171431和GSE59456。根据P<0.05且|log2FC|>1为差异表达阈值,从数据集GSE17143筛选出151个DEG,其中101个为下调基因,56个为上调基因;从数据集GSE59456筛选出721个DEG,其中385个为下调基因,336个为上调基因,对两个数据集的DEG进行热图绘制和火山图分析(图1A~D)。之后对两个数据集的DEG取交集并绘制韦恩图(图1E),最后获得24个下调基因和3个上调基因(表3)。
A~B.差异基因热图(红色代表上调;蓝色代表下调);C~D.差异基因火山图(红色表示上调基因;蓝色表示下调基因;灰色表示无差异基因);E.两个数据集共同差异基因韦恩图
表3 共同差异基因
2.2 差异基因的功能和通路富集分析
使用R语言对共有的27个DEG进行GO和KEGG富集分析,GO功能富集分析的二级条目包含BP、CC和MF。BP富集分析表明大量DEG参与类固醇代谢过程、类固醇生物合成过程和胆固醇代谢过程;CC富集分析提示DEG主要涉及过氧物酶体、线粒体嵴和细胞器外膜;对于MF分析,DEG主要集中在氧化还原酶活性、单氧酶活动和酰胺结合(图2A)。此外,KEGG聚类分析结果显示差异基因富集在类固醇生物合成、卵巢类固醇生成、皮质醇的合成和分泌、PPAR信号通路、胆固醇和脂肪酸代谢、催乳素信号通路和过氧物酶体(图2B)。
A.GO富集分析图;B.KEGG富集分析图
2.3 PCOS小鼠模型的建立
皮下连续注射DHEA构建PCOS小鼠模型,采用阴道涂片监测两组小鼠动情周期,结果表明DHEA注射组小鼠的动情周期发生明显紊乱,基本停滞在发情期和发情后期(图3A~B)。卵巢HE结果显示,与对照组相比,DHEA注射组小鼠卵巢组织中病理性囊状卵泡数目增加,颗粒层减少,黄体数目减少,说明DHEA注射组小鼠卵巢组织发生排卵障碍(图3C)。此外,用ELISA检测了两组小鼠血清性激素水平,发现DHEA注射组小鼠血清T、LH和E2水平明显升高(P<0.05,图3D~F)。根据对上述结果的分析,本研究DHEA注射组小鼠具备了PCOS小鼠特征,PCOS小鼠模型构建成功率为80%。
A.两组小鼠阴道涂片(瑞士-吉姆萨染色,×100);B.两组小鼠动情周期(P:动情前期;E:动情期;M:动情后期;D:动情间期);C.两组小鼠卵巢组织形态学及黄体和囊状卵泡统计(HE,×100);(“*”表示黄体,“#”表示囊状卵泡);D~F.两组小鼠血清性激素水平[T(D)、LH(E)、E2(F)]
2.4 差异基因的验证
依据差异倍数和卵巢功能相关(例如排卵、细胞凋亡、卵泡生长和黄体形成等)筛选出4个差异基因进行验证。与对照组相比,PCOS组小鼠卵巢组织中Sfrp4、Sema3d、Fkbp5和Prss3 mRNA表达明显下调(P<0.05,图4A~D)。
A.两组小鼠卵巢Sfrp4 mRNA水平;B.两组小鼠卵巢Sema3d mRNA水平;C.两组小鼠卵巢Fkbp5 mRNA水平;D.两组小鼠卵巢Prss35 mRNA水平
2.5 CTD分析
运用CTD数据库查找与关键基因相关的疾病,发现这4个差异基因与卵巢疾病、性发育障碍、青春期性早熟和青春期延迟有关(图5A-D)。
A~D.与基因Sfrp4、Sema3d、Fkbp5及Prss35相关的疾病
3 讨论
排卵功能障碍通常由内分泌紊乱引起,是育龄妇女生育能力低下的常见原因,其中PCOS是最常见的原因[14]。可以通过适当的药物和生活方式来干预PCOS的发展,但目前其病因未充分明确,治疗的选择仍然有限[15]。因此,探索PCOS的发病机制并找到合适的治疗靶点具有重要的意义。
随着高通量测序的快速发展,基因表达谱的生物信息学分析已广泛应用于研究分子机制和识别潜在治疗靶点[16]。在本次研究中,选取了两个数据集并对两个数据集的差异基因取交集,最终获得27个差异基因。之前有研究者用生物信息学分析了我国PCOS患者的颗粒细胞全转录组图谱,筛选出的基因主要与胆固醇和甾醇分解代谢、氧化还原酶活性和细胞脂质生物合成相关,发现Idh1、Dhcr7、Scrab1下调[17]。此外,还有研究运用人卵巢基因芯片鉴定出PCOS患者卵巢的差异基因[18],但是其筛选出的差异基因与本研究的结果不一致,导致这些结果的原因可能是物种、实验和分析方式不同。本研究在进行蛋白互作网络分析及核心基因计算分析时发现筛选的基因大多富集在胆固醇和性腺类固醇生物合成通路上,且相关基因公认与PCOS发病机制相关,从中选取了除此之外的差异倍数较大且与卵巢功能相关的基因进行实验验证,其验证结果与数据集结论一致并以此来确定与PCOS相关的潜在关键基因分别为Sfrp4、Sema3d、Fkbp5、Prss35。
Sfrp4作为Sfrp家族中分子量最大的糖蛋白,是Wnt配体的拮抗剂,抑制典型 Wnt 信号通路,而雄激素与受体结合激活Wnt 信号通路。Sfrp4还参与细胞增殖和分化,具有凋亡和抗血管生成特性,因此被确定为多种癌症(如乳腺癌、前列腺癌、胶质瘤和卵巢癌)中的肿瘤抑制因子[19-20]。哺乳动物在卵泡发育过程中会选择优势卵泡进行排卵,其余卵泡则经历生理性闭锁的退行性过程,而颗粒细胞凋亡在这一过程中发挥重要的作用。有研究表明Sfrp4定位于成熟卵泡的颗粒层,促进黄体细胞凋亡,而在PCOS患者卵丘细胞和颗粒细胞中Sfrp4表达下调,因此,PCOS组雄激素水平升高和Sfrp4下调可能影响这些细胞正常凋亡导致排卵异常[21-24]。
Sema3d也称为coll-2或Sema-Z2,位于染色体7q21.11上,有17个外显子和16个内含子,近期研究表明其介导多种肿瘤的发生和发展[25]。有研究表明高水平Sema3d能够抑制与细胞生长、分化和凋亡有关的MAPK/ERK信号通路,当该通路在PCOS患者颗粒细胞中被激活时,PCOS患者的卵巢组织则产生大量的生长卵泡从而使成熟卵泡缺乏[25-26]。而雄激素受体信号通路中的非基因组信号转导主要发生在细胞质,其激活后与 PI3K/Akt、Src、Ras 和 PKC 等多种信号分子相互作用,并激活 MAPK/ERK等通路引起细胞增殖[27]。因此,PCOS组卵巢Sema3d减少可能通过激活雄激素受体信号转导中的MAPK/ERK通路而导致PCOS的发生。
抑郁和焦虑在PCOS患者中是常见的精神健康问题,而Fkbp5编码的FK-506结合蛋白5是应激反应的重要调节因子,其在很多内分泌代谢疾病中发挥重要作用。Fkbp5能够通过调节AKT2信号传导维持葡萄糖稳态。此外,在应激条件下,绵羊卵巢组织中黄体生成素/促卵泡激素信号相关基因Fkbp5表达下调从而影响卵巢发育。另有研究表明PCOS患者的Fkbp5 DNA甲基化减少且伴有肠道菌群失调,以上研究表明Fkbp5可能参与PCOS的发生发展[28-30]。
Prss35属于丝氨酸蛋白酶的胰蛋白酶类,这种蛋白酶在卵巢中高表达,表明Prss35参与卵巢功能。有研究表明人卵母细胞中Prss35 mRNA水平与其受精潜力有关[31]。Prss35还在排卵过程中受到动态调节,它在排卵前卵泡的颗粒细胞中被高度诱导表达,表明它在排卵期间卵泡壁的破坏中起作用;其在黄体消退期间也表达,但在功能性黄体中不表达,表明主要参与组织重塑和降解[32]。这些说明Prss35表达下调可能导致排卵障碍引起PCOS。但是目前还缺乏文献具体报道Prss35涉及PCOS的致病环节及通路。
综上所述,本研究基于GEO数据库分析得到PCOS动物模型卵巢组织的差异基因,并用PCOS小鼠模型验证了与卵巢功能相关的4个基因,这些基因在卵泡生长、排卵和代谢途径中发挥一定作用,CTD分析显示这些基因跟卵巢生殖疾病密切相关,可能有利于发现新的PCOS发病的分子机制。本文章也存在一些不足,首先,研究是基于GEO数据库,其来源以及分析可能存在一定偏倚。其次,筛选出的基因未在PCOS患者和健康志愿者血清中以及其他PCOS动物模型中进行验证。因此,还需要深入的研究进一步探索差异基因在PCOS中发挥作用的具体机制。