APP下载

基于GEO数据库整合miRNA-mRNA表达谱筛选卵巢癌的关键基因分子及生物信息分析

2021-10-16朱晓丹张玲华杨兴坤

现代检验医学杂志 2021年5期
关键词:差异基因靶标卵巢癌

李 超,朱晓丹,张玲华,杨兴坤

(佛山市妇幼保健院,广东佛山 528000)

卵巢癌是妇产科恶性肿瘤死亡的主要原因之一,最新数据显示2018年全球有295 414 例新发患者[1]。卵巢癌的总体五年生存率低于45%,主要是由于诊断较晚已发生远处转移。目前临床实验室采用的CA125 等标志物缺乏特异性,超声检查尤其易漏诊早期病例[2-4]。因此卵巢癌新型标志物的再挖掘,疾病关键基因的再鉴定是其预防控制需要重点解决的难题。

近年来表达谱的广泛应用积累了海量的基因组学数据,这有赖被深入挖掘和解读。而生物信息学能够从整体层面揭示复杂疾病的分子靶标,属于肿瘤等研究领域较为革新的技术手段。检索国内外近三年的相关研究,已有表达谱芯片与生物信息学联合挖掘卵巢癌关键基因的多篇文章发表[5-8]。然而绝大多数课题组选取的均为同一类型的芯片数据集,存在准确度不高而产生假阳性的问题,故可能难以获得可靠结果。miRNA 是一种非编码RNA,主要通过碱基配对与mRNA 内的互补序列结合,导致mRNA 沉默而负向调控下游基因的表达,广泛参与细胞发育、分化和细胞周期[9]。多项研究发现几乎所有类型的肿瘤均可发生miRNA 失调,从而影响靶标基因的表达[10-11]。因此本研究采用卵巢癌miRNAmRNA 表达谱数据集进行联合分析,在国内还尚属首次研究,具有较好的科学性和创新性。本文通过整合生物信息学手段,构建分子蛋白调控网络并鉴定卵巢癌致病关键分子及其涉及的生物学功能,将为阐明卵巢癌的发生发展调控机制提供一些科学精准的理论依据。

1 材料与方法

1.1 资料来源 GEO (https://www.ncbi.nlm.nih.gov/geo/) 是一个公共的功能基因组学数据库,由美国国立生物技术信息中心维护,收录了全球大量的高通量基因表达数据。本研究从中检索卵巢癌的表达谱芯片,限定实验类型为肿瘤组织对比正常组织。最终确定了GSE119055 和 GSE66957 两个符合条件的数据集。前者为miRNA 表达谱,包含了3 个正常组织和6 个肿瘤组织。后者为mRNA 表达谱,包含了12 个正常组织和57 个肿瘤组织。本研究资料来源于公开数据库,无需医学伦理学再审查。

1.2 方法与统计学分析

1.2.1 差异基因 :针对入选的mRNA 数据集,根据其平台注释文件,将探针ID 转换为对应的基因名称;采用R 语言的“limma”包分析挑选差异基因[12],定义命令包中的参数adj.P.Val<0.05 且logFC 绝对值>1.5 的基因为具有统计学意义的差异表达基因。利用R 包“org.Hs.eg.db”转换基因名称为对应的基因ID[13],以便后续进行富集分析。miRNA 数据集采用同样方法和参数标准进行处理。

1.2.2 靶标预测:采用FunRich 软件进行筛选的差异miRNA 的下游靶标预测,将预测的基因列表结果与mRNA 数据集筛选到的差异基因取交集,得到共有差异基因用于后续的调控网络、关键基因鉴定和功能富集等过程分析[14]。

1.2.3 调控网络:根据miRNA 负向调控靶基因的原理,纳入调控网络的miRNA 与靶基因表达变化要求负相关,筛选出表达情况符合条件的miRNA-靶基因组合来构建调控网络。该构建鉴定过程采用cytoscape3.7.1 软件进行可视化,直观剖析该调控网络。

1.2.4 关键基因:String (https://string-db.org/) 数据库是用于研究基因编码蛋白之间的相互作用网络,用于挖掘核心的调控关键基因。通过string 进行共有差异基因的分子蛋白互作网络分析。接着采用cytoscape3.7.1 版本中的“cytohubba”模块进行关键基因的识别[15],数据导入来源为string 数据库获得的网络结果文件,选择MCC 算法,得到排名前10的关键基因。

1.2.5 功能注释:利用R 包“clusterProfiler”进行共有差异基因的GO (Gene Ontology) 富集和KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书) 通路功能注释[13]。GO 富集分为三大类,分别是:分子生物学功能(Molecular Function,MF)、 生物学过程(Biological Process,BP)和细胞学组分(Cellular Components,CC)。KEGG 是一个整合了基因组、化学和系统功能信息的综合数据库,被广泛用于基因通路的富集注释。设置命令包中的筛选参数pvalueCutoff =0.05 为具有生物统计学意义。

2 结果

2.1 差异基因 GSE119055 数据集共鉴定出31 个差异表达的miRNA,其中28 个为下调的miRNA,3 个为上调的miRNA。GSE66957 数据集共鉴定出3 844个差异表达的基因,其中1 995 个为下调的基因,1 849 个为上调的基因。差异表达分子分布图见图1。

图1 差异表达分子的火山图分布情况

2.2 共有差异基因与调控网络 根据筛选的差异miRNA 和mRNA 列表集,结合FunRich 软件预测得到的差异miRNA 的靶基因,取重叠的交集基因得到共有差异基因文件。将结果文件导入cytoscape 软件可视化分析,结果如图2A 所示。其中miR-29c-3p,miR-1271-5p 和 miR-133b处于网络调控的中枢地位,调控的靶基因数量最多。

图2 关键网络基因的筛选与鉴定图

2.3 关键基因鉴定 通过string 数据库和“cytohubba”模块鉴定共有差异基因中的关键基因结果见表1,均为过表达差异基因。根据最新的MCC 算法筛选前10 位关键基因,分别为COL1A1,COL3A1,COL4A1,COL10A1,COL9A1,COL4A5,SST,ADRA2C,ADCY6 和TGFBI。值得注意的是,COL1A1,COL3A1 和COL4A1 得分最高,处于网络的关键核心位置,见图2B。

表1 处于分子蛋白互作网络中枢的前10 位关键基因功能情况

2.4 功能富集注释 采用“clusterProfiler”包的GO富集分析和KEGG 通路注释结果见图3。富集分析表明共有差异基因主要涉及细胞外组织、胚胎器官发育、突触后特化、胶原三聚体和DNA 结合转录激活等过程。KEGG 通路分析表明这些差异基因主要参与蛋白质的消化吸收和松弛素信号通路行为。

图3 差异表达基因的功能富集分析图

3 讨论

卵巢癌在我国的死亡率居女性恶性肿瘤之首,但相关致病分子机制尚未完全阐明。需要指出,乳腺癌易感基因(breast Cancer susceptibility gene,BRCA)是早已被明确鉴定的卵巢癌关键基因之一,但卵巢癌BRCA 变异频率介于3%~27%,我国卵巢癌患者BRCA 变异率为28.45%。BRCA 基因检测为卵巢癌预防、诊断和治疗提供了精准建议。但仍需要鉴定新型关键分子进行联合筛查剩余大部分病例以此提高诊断率,这正是本研究的出发点。

综合目前的研究[11,16-17],除了致病基因外,miRNA 等非编码RNA 表达失调也能够广泛介导各种类型的恶性肿瘤。本研究为了提高预测准确度,整合了卵巢癌miRNA-mRNA 表达谱来鉴定共有差异表达基因。根据miRNA 与靶mRNA 互补结合,负向调控基因的原理,我们构建了miRNA-基因调控网络并鉴定出3 个具有中枢地位的抑癌关键miRNA:miR-29c-3p,miR-1271-5p 和miR-133b。同时通过cytoscape 可视化网络中的共有差异基因,预测筛选出10 个关键基因,即COL1A1,COL3A1,COL4A1,COL10A1,COL9A1,COL4A5,SST,ADRA2C,ADCY6 和 TGFBI。查询NCBI 数据库发现这10 个基因绝大多数都参与了某些肿瘤发生。我们通过R 包注释了共有差异基因涉及的生物过程,发现11.3%(18/160)的共有差异基因跟DNA 转录激活功能相关(见图3A)。很明显可以合理推论出这些差异miRNA 和差异基因的异常表达很可能介导了卵巢癌的发生和发展。针对挖掘到的充当抑癌角色的三个关键miRNA:miR-29c-3p,miR-1271-5p 和miR-133b,乃是本文最重要的发现之一。检索miRbase 和genecards 等权威数据库发现miR-29c-3p 和miR-1271-5p 的分子功能均包括细胞群增殖负调控、细胞迁移负调控和基因表达负调控;而miR-133b 通过与mRNA 3’-UTR 结合,参与转录后基因沉默。这些专业数据库得到的证据反映了本研究生物信息挖掘的科学性,也揭示了本文挖掘到的关键标志物调控卵巢癌的致病分子机制。同时结合近年来发表的经实验验证类的相关研究发现,HU Zhenhua 等[18]人通过体外裸鼠移植模型证实过表达的miR-29c-3p 通过下调FOXP1/ATG14 通路抑制自噬,表明miR-29c-3p 是卵巢癌的新型靶标。WANG Lin 等[19]人通过qRTPCR 验证证实miR-1271-5p 在卵巢癌组表达显著降低;DU 等[20]人利用miR-1271-5p 模拟物和抑制剂进行过表达和敲除实验,并通过双重荧光素酶活性分析证明了miR-1271-5p 直接靶向SPIN1 抑制乳腺癌的增殖和发展。LIU Xiaoqin 等[21]人发现miR-133b 通过靶向表皮生长因子受体介导Akt 和Erk1/2失活抑制卵巢癌细胞的增殖和侵袭。这些涉及到三个关键miRNA 分子的研究结论都与我们研究中揭示的关键miRNA 表达情况和靶标预测结果相符。

综上所述,结合已发表的研究,显示出本研究通过整合miRNA-mRNA 数据集挖掘卵巢癌疾病关键分子的可靠性。当然这些潜在关键分子需要更深入的体外实验鉴定其所涉及的相互作用靶标和调控通路。虽然如此,表达谱的生物信息学预测还是提供了很好的方法,缩小了体外实验研究的范围,节省了宝贵的资源。未来,我们相信研究人员利用计算生物学实施肿瘤大数据战略,或许能够一次性揭示众多复杂多样的肿瘤发生的关键分子。

猜你喜欢

差异基因靶标卵巢癌
纳米载体可缓解农药对靶标作物的负作用
靶标龙伯球一体化反射器电磁和气动特性融合设计
miR-181a在卵巢癌细胞中对顺铂的耐药作用
导致卵巢癌的危险因素有哪些
“百灵”一号超音速大机动靶标
卵巢癌高危人群需要预防性切除卵巢吗
靶标评改,让习作评改有序更有效
基于高通量测序的药用植物“凤丹”根皮的转录组分析
基于高通量测序的药用植物“凤丹”根皮的转录组分析
紫檀芪处理对酿酒酵母基因组表达变化的影响