基于生物信息学筛选并验证上皮性卵巢癌差异microRNA及下游mRNA*
2022-06-07陈江静刘美琳韦丽婷黄玲玲
韦 怡,甘 翔,陈江静,刘美琳,韦丽婷,黄玲玲△
(1.广西医科大学第一附属医院 南宁,530021;2.桂林医学院科学实验中心 桂林,541000;3.广西疾病蛋白质组学研究重点实验室 桂林,541000)
卵巢恶性肿瘤是女性生殖器常见的三大恶性肿瘤之一,分为多种类型,其中以上皮细胞来源的上皮性卵巢癌(epithelial ovarian cancer,EOC)最为常见,约占所有卵巢肿瘤的90%[1]。卵巢恶性肿瘤早期常无明显症状,单独使用糖类抗原125(CA125)、阴道超声进行筛查时易漏诊[2-3]。病变发现时多已至晚期[4],晚期卵巢癌(ovarian cancer,OC)5 年生存率,国际妇产科学联合会(FIGO)Ⅲ期仅为34%,Ⅳ期仅为15%[5]。因此了解EOC 发生发展的分子机制并制定有效的诊疗策略极为重要。
近年来,关于微小RNA(microRNA)功能与疾病的关系的研究是一个热点。microRNA是一类含有约22个核苷酸的小内源性非编码RNA分子[6],通过与信使RNA(mRNA)分子中的互补序列的碱基配对,在RNA沉默和转录后基因表达调控中起着关键作用。有研究表明,microRNA 是基因表达和细胞周期调控机制的关键因子,对维持OC 细胞的分化状态起重要作用[7]。本研究主要运用GEO(gene expression omnibus database)多个芯片的数据进行分析以提高样本量,同时借助GEPIA2(gene expression profiling interactive analysis)在线网站中TCGA(the cancer genome atlas)和GTEx(genotype-tissue expression)的数据对预测mRNA 进行筛选,提高数据可靠性。通过对EOC microRNA-mRNA 的分析及验证,寻找提示EOC的潜在的生物标志物。
1 材料与方法
1.1 数据收集及处理 在GEO DataSets(https://www.ncbi.nlm.nih.gov/,2022-02-12)中,以“microRNA and ovarian cancer”为关键词进行搜索,剔除细胞系或EOC 患者血清样本或以正常输卵管作为对照组的EOC 数据集,筛选出包含正常卵巢组织和EOC组织样本的数据集,分为对照组和EOC组。利用sva包进行归一化处理,limma包进行数据差异分析,满足|log2FC|>1 且adj.P.Val<0.05 为差异microRNAs。
1.2 差异microRNAs 下游靶基因的预测 使用在线网站miRNet 2.0(https://www.mirnet.ca/,2022-02-14)、TargetScanHuman 8.0(http://www.targetscan.org/vert_80/,2022-02-14)、miRDB(http://mirdb.org/,2022-02-14)进行差异microRNA 下游靶基因的预测。并且使用Venny 2.1(https://bioinfogp.cnb.csic.es/tools/venny/index.html,2022-02-14)取3个网站预测的下游靶基因的交集,以提高数据的可靠性。
1.3 GO 功能富集和KEGG 通路分析 通过WEBbased GEne SeT AnaLysis Toolkit 在线网站(http://www.webgestalt.org/,2022-02-15)对共同靶基因进行KEGG(Kyoto Encyclopedia of Genes and Genomes,2022-02-15)通路和GO(Gene Ontology,2022-02-15)功能富集分析。GO功能富集包括分子功能(MF)、生物过程(BP)和细胞组成(CC)3 个部分。
1.4 蛋白质-蛋白质相互作用(PPI)网络分析
用String 11.0(https://string-db.org/cgi/input.pl,2022-02-15)在线数据库建立PPI 网络分析,以直观了解它们之间的相互作用。
1.5 筛选差异mRNA 通过GEPIA2(http://gepia2.cancer-pku.cn/#index,2022-02-16)的差异表达分析功能对EOC及正常卵巢的数据进行差异分析,使用ANOVA 的方法进行计算,并下载最终结果。将满足P<0.01 且|log2FC|>1条件的定义为差异mRNA。将通过3个网站预测得到的下游靶基因与筛选得到的差异mRNA取交集,最终纳入与其上游microRNA表达负相关的关键靶基因。
1.6 分析关键靶基因 利用在线GEPIA2对关键靶基因进行生存分析,用Overall Survival的方法,以中位数作为界值分为高表达和低表达,以Logrank P<0.05 认为差异有统计学意义。同时,利用该数据库中病理分期图的功能,对关键靶基因进行分析,以P<0.05为差异有统计学意义。
1.7 组织标本来源及实时荧光定量聚合酶链式反应(RT-qPCR)本研究共包括36 例EOC 患者和24例卵巢正常的患者(对照组)的卵巢组织。60 例卵巢组织皆通过卵巢切除术获得,其中对照组的卵巢组织取自子宫肌瘤或子宫内膜癌切除术。所有样本均为2020 年6 月至2022 年1 月自广西医科大学第一附属医院收取。该项目经广西医科大学伦理委员会批准。患者术前未接受治疗,术后进行苏木精-伊红(HE)染色且病理检查诊断为EOC或正常卵巢组织。所有样本均根据FIGO进行分类。
TRIzol 试剂用于从卵巢组织中提取总RNA。根据说明书使用PrimeScript RT reagent Kit with gDNA Eraser(Takara)试剂盒进行互补DNA(cDNA)合成。并使用RT-qPCR 方法检测关键mRNA在EOC和正常组织中的表达。扩增条件如下:程序在95 °C 下启动10 min,然后通过RT-qPCR 系统进行40 个周期的95 °C 反应15 s 和60 °C 下反应1 min。根据试剂盒All-in-One™RT-qPCR Detection Kit 2.0 的说明书对microRNA进行逆转录及RT-qPCR 扩增,扩增条件如下:程序在95°C 下预变性10 min,然后在95 ℃反应15 s,58°C下进行20 s,72 ℃反应40 s条件下反应40个循环。mRNA和microRNA水平使用2−ΔCT[8]进行计算,前者以β-actin作为内参,后者以U6作为内参。
1.8 统计学方法 采用SPSS 17.0 软件对数据进行统计分析,计量资料以中位数(四分位数间距)[M(P25~P75)]表示,两组间比较采用秩和检验,用GraphPad Prism 8 进行数据可视化分析。曲线下面积(AUC)、灵敏度、特异度、约登指数等用受试者工作特征曲线(ROC 曲线)分析求得,用SPSS 17.0 生成可视化图像。以P<0.05 为差异有统计学意义。
2 结果
2.1 microRNAs 数据集筛选 在GEO 数据库中筛选出GSE119055、GSE83693、GSE53829 3个符合条件的microRNA表达数据集。其中GSE119055包括3例正常卵巢组织,6例EOC组织;GSE83693包括4例正常卵巢组织,16 例EOC 组织;GSE53829 包括14 例正常卵巢组织及6 例卵巢癌交界组织,39 例EOC 组织。并将上述样本分为EOC 组与对照组进行分析。
2.2 筛选差异microRNAs并获取其下游靶基因
分别通过sva 包及limma 包对数据进行归一化分析和差异分析后,筛选得到8 个差异microRNAs(包括2 个上调microRNA、6 个下调microRNA,见表1、图1)。并用miRNet、miRDB、TargetScanHuman 8.0 这3 个在线网站获取差异microRNAs 的交集靶基因共226个。
表1 EOC 的3 个芯片通过sva 包及limma 包分析后得到的差异microRNAs
图1 差异分析做火山图(红色为上调microRNA,绿色为下调microRNA)
2.3 GO 功能富集和KEGG 通路分析 使用WEBbased GEne SeT AnaLysis Toolkit 在线网站对226 个共同差异基因进行GO 功能的富集分析,发现富集到的BP 变化主要有:biological regulation 和metabolic process 等。富集到的CC 变化主要有:nucleus、membrane和membrane-enclosed lumen等。富集到的MF 变化主要有:protein binding 和ion binding等(图2A)。
KEGG 通路分析显示主要富集于phosphatidylinositol signaling system,neurotrophin signaling pathway,long-term potentiation等生物途径(图2B)。
2.4 PPI网络的构建 从String获得的PPI网络,共有226个节点,363条线,其中60个节点是独立存在的,余166个节点存在相互作用线(图2C)。
图2 差异microRNA靶基因的富集分析及PPI网络构建
2.5 差异表达关键mRNA 的鉴定 从GEPIA2 获得7 638 个差异mRNAs(舍去没有匹配上Gene Symbol 号的mRNA,最终获得5 004 个下调,2 611个上调)。将筛选得到的差异mRNAs 与上述预测得到的差异microRNAs的靶基因取交集后,得到28个下调mRNAs,15个上调mRNAs,见表2。
表2 差异表达关键基因一览表
2.6 关键基因的分析 利用GEPIA2中424例EOC组织的数据,对43个关键基因的总生存期进行生存分析。发现高表达MLLT6、TIAM2的EOC患者较低表达患者的生存率低(Log rank P<0.05),提示高表达MLLT6、TIAM2的EOC 患者的预后较差,见图3A。
通过对不同病理分期患者的基因表达量进行分 析,发 现MLLT6、MSI1、PKMYT1、PLAGL2、ZNF514、SLC6A9、PIP4K2B、OCRL、MFSD6、GLCCI1、FBXW7与EOC 患者疾病分期相关,其表达量随疾病进展而降低(均P<0.05),见图3B。
图3 基于GEPIA2行差异microRNA靶基因的生存分析及与疾病分期的关系分析
2.7 RT-qPCR验证EOC组及对照组中MLLT6、hsamiR-450b-5p的表达水平 在进行RT-qPCR验证之前,先通过HE染色确定标本的病理类型(此过程在广西医科大学第一附属医院病理科进行),见图4A。
基于上述生物信息学分析,发现MLLT6在EOC中的生存分析及病理分期均有意义(P<0.05),后续对MLLT6及其上游microRNA进行实验验证。
根据RT-qPCR,本课题组发现MLLT6在EOC组织中较正常卵巢组织的表达量[中位数为0.006 997,四分位数间距为(0.002 933~0.011 810)]下调(Z=-2.602,P<0.05),其上游hsa-miR-450b-5p 在EOC 组织中的表达量[中位数为0.000 280,四分位数间距为(0.000 143~0.000 457)]上调(Z=-3.071,P<0.05),见图4B。根据RT-qPCR 的数据进行ROC 分析发现,MLLT6和hsa-miR-450b-5p 的ROC 分析差异均有统计学意义(P<0.05),图4C、见表3。
表3 MLLT6、hsa-miR-450b-5p的ROC分析结果
图4 RT-qPCR检测36例EOC患者和24例非OC患者的卵巢组织的MLLT6、hsa-miR-450b-5p表达及ROC分析
3 讨论
妇科肿瘤发生于女性生殖系统,与其他实体脏器肿瘤不同的是妇科肿瘤不仅危及患者生命,也涉及子代。因此,研究有助于EOC早期诊断及治疗的生物标志物极为重要。研究发现microRNA可以作为EOC 早期检查工具,可以作为预后的标志物,也可以作为治疗靶点[9]。
本研究从GEO数据库中筛选得到3个数据集,通过分析后获得2个上调microRNAs和6个下调的microRNAs。这8个差异microRNAs在EOC中的研究仍然缺乏,值得进一步研究。
通过对差异microRNA 的226 个靶基因进行功能富集分析,本课题组发现大部分基因与磷脂酰肌醇信号系统,神经营养因子信号通路,细胞衰老,雌激素信号通路等有关。其中,后两个信号通路在EOC中的作用已被报道[10-11]。本研究的生物信息学分析结果与之前的研究结果是一致的。通过PPI网络,发现60 个蛋白独立存在,其余166 个蛋白存在相互作用线,提示它们可能通过多蛋白复合物在EOC中执行重要的生物功能。
本研究发现TIAM2与EOC 患者的生存相关,MSI1、PKMYT1、PLAGL2、ZNF514、SLC6A9、PIP4K2B、OCRL、MFSD6、GLCCI1、FBXW7与EOC疾病分期相关。其中,与正常卵巢组织相比,MSI1、PKMYT1、PLAGL2、MFSD6、SLC6A9在EOC 组织中表达上调,而其余6 个基因在EOC 组织中表达下调。有研究发现MSI1在包括EOC在内的多种肿瘤组织中高度表达,且过表达MSI1 可促进肿瘤细胞的增殖和侵袭[12]。PKMYT1在EOC组织中的表达上调,高水平的PKMYT1预示EOC 患者的预后较差,且他们认为PKMYT1通过负性调节SIRT3 加速EOC的恶性进展[13]。研究发现PLAGL2在包括EOC在内多种恶性肿瘤中发挥致癌作用[14]。据报道,FBXW7是一种肿瘤抑制基因,可以抑制EOC 细胞的侵袭、迁移和血管生成[15]。上述研究结果与本研究相一致。而关于ZNF514、GLCCI1等基因在EOC中的作用尚未被报道,值得进一步研究。
本研究还发现MLLT6的表达水平不仅与EOC患者的生存相关,随着疾病进展其表达水平也随之下降。进一步对MLLT6与其上游hsa-miR-450b-5p进行RT-qPCR 的验证,发现与预期结果一致,提示hsa-miR-450b-5p可能通过靶向MLLT6促进EOC的发生发展。随后通过ROC曲线分析,发现hsa-miR-450b-5p和MLLT6可能为提示EOC的标志物。它们在EOC中的研究仍然缺乏,值得进一步研究。
综上,本课题组认为MLLT6、hsa-miR-450b-5p在EOC中发挥重要作用,hsa-miR-450b-5p可能通过靶向MLLT6影响EOC的发生发展。MLLT6可能与EOC 的预后相关。同时,由于MLLT6的mRNA 表达水平随着疾病进展而变化,提示MLLT6可能与EOC 疾病的发生发展有关。它们可能为EOC 的诊断相关标志物,两者联合诊断效能较佳。但仍需扩大样本量深入研究。hsa-miR-450b-5p/MLLT6在EOC中的作用尚需进一步研究。