基于内源性竞争性网络的Ⅰ型、Ⅱ型子宫内膜癌关键长非编码RNA和微小RNA分析
2021-06-07王丽华
袁 霜, 王丽华
(上海交通大学医学院附属国际和平妇幼保健院上海市胚胎源性疾病重点实验室,上海 200030)
子宫内膜癌(endometrial carcinoma,EC)发生于子宫内膜,是常见的妇科肿瘤之一。统计资料显示,2018年全球约有38万名女性患EC,约有9万人死于EC[1]。EC通常基于其对雌激素的依赖性分为2种类型:Ⅰ型和Ⅱ型。Ⅰ型EC对雌激素的依赖性增加,而且预后良好,占EC的70%~80%。相比之下,Ⅱ型EC通常预后较差,经手术治疗后,5年内复发率仍有10%~15%,预后差且生存期短[2]。因此,EC分型相关的潜在分子标志物的鉴定对于临床决策至关重要。
在非编码RNA中,目前最受关注的是微小RNA(microRNA,miRNA)和长非编码RNA(long noncoding RNA,lncRNA)。有研究表明,miRNA通过反应元件(microRNA response element,MRE)促进降解并抑制靶标mRNA的翻译[4],lncRNA可以参与mRNA的转录和转录后调控[5]。miRNA和lncRNA在癌症的发生和发展中相互作用,影响肿瘤转归,并表现出一定的诊断和预后价值。2011年,SALMENA等[16]率先提出了内源性竞争性RNA(competitive endogenous RNA,ceRNA)的假设,认为在转录后水平上存在一个复杂的调控网络,并且所有类型的RNA转录本都可作为天然海绵通过共享至少1个MRE限制miRNA的功能。先前的研究已经证实,lncRNA-miRNA-mRNA调控网络在EC的发生和发展中具有至关重要的作用[7]。为此,本研究拟探讨lncRNA、miRNA和ceRNA网络在EC分型中的作用。
1 材料和方法
1.1 数据收集和差异基因筛选
从TCGA数据库(https://portal.gdc.cancer.gov/)获得lncRNA、mRNA(407份Ⅰ型EC组织和136份Ⅱ型EC组织)和miRNA(407名Ⅰ型EC组织和131份Ⅱ型EC组织)表达谱以及临床数据。从GEO数据集GSE17025(79例Ⅰ型EC和12例Ⅱ型EC)和GSE25405(20例Ⅰ型EC和21例Ⅱ型EC)中下载lncRNA、mRNA和miRNA相关数据。
1.2 差异基因筛选
为了分析Ⅰ型与Ⅱ型EC之间差异性表达的mRNA、lncRNA和miRNA,本研究通过R包GDCRNATools v1.2.0对原始数据进行标准化,过滤掉低表达基因(超过一半的样本中log2CPM<1),阈值设置为|log2倍数变化(log2fold change,log2FC)|>1.0,错误发现率(false discovery rate,FDR)作为校正、P<0.05[8]。
1.3 ceRNA网络建设
为了鉴定Ⅰ型和Ⅱ型EC差异性表达的lncRNA、mRNA和miRNA构成的ceRNA网络,本研究使用StarBase数据库[9]、miRcode数据库[10]和miRTarBase数据库[11]鉴定了相互作用的miRNA-mRNA对;使用StarBase数据库[9]、miRcode数据库[10]和spongeScan数据库[12]鉴定了相互作用的miRNA-lncRNA对。此外,还使用R包GDCRNATools对ceRNA网络中相互作用的lncRNA和mRNA进行超几何分布检验以测试其是否显著共享许多miRNA,继而检测共享miRNA对lncRNA和mRNA的调控相似性来验证其是否介导lncRNA和mRNA之间的相互作用。剩下的mRNA-lncRNA对通过Pearson相关分析进一步筛选。最后,使用Cytoscape v 3.7.0对ceRNA进行可视化。使用GDCRNA工具包的3个标准来确定lncRNA-mRNA之间竞争性内源性的相互作用:(1)lncRNA和mRNA必须共享大量miRNA;(2)lncRNA和mRNA的表达水平必须正相关;(3)miRNA在调节lncRNA和mRNA的表达中应发挥相似的作用。
1.4 ceRNA网络的功能富集分析
为了深入探究ceRNA网络的生物学功能和代谢途径,通过clusterProfiler包对ceRNA网络中的差异表达mRNA进行了基因本体论(Gene Ontology,GO)和京都基因与基因组数据库(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析[13]。富集显著性的阈值为P<0.05。
1.5 关键ceRNA的鉴定和预后分析
采用Kaplan-Meier生存分析(http://kmplot.com/analysis/)用于评估ceRNA网络中关键基因的表达水平与患者总体生存率之间的关系。网站根据基因表达值自动将EC患者分为高表达组和低表达组,从而评估差异表达基因与EC患者预后之间的关系。
1.6 统计学方法
采用SPSS 25.0软件进行统计分析。呈正态分布的数据以±s表示,2个组间比较采用t检验。采用超几何分布检验评估lncRNA和mRNA是否显著共享许多miRNA。采用Pearson相关分析评估mRNA与lncRNA的相关性。采用Kaplan-Meier生存分析和对数秩检验对不同ceRNA水平EC患者的总体生存时间(overall survival,OS)进行比较。计数资料以率表示,组间比较采用χ2检验。以P<0.05为差异有统计学意义。
2 结果
2.1 鉴定差异表达的lncRNA、miRNA和mRNA
TCGA的标准化数据标注为蛋白质编码RNA、lncRNA、假基因、免疫球蛋白和其他非编码RNA。根据阈值|log2FC|>1且P<0.05,在TCGA数据库中鉴定出953个Ⅰ型EC与Ⅱ型EC有差异性表达的基因,其中lncRNA 59个(26个上调、33个下调)、miRNA 51个(22个上调、29个下调)、mRNA 843个(413个上调、430个下调)。见图1。
图1 差异基因的分布和火山图
2.2 ceRNA网络的构建和功能分析
筛选出2个lncRNA、19个miRNA和11个mRNA并构建了19对lncRNA-miRNA和45对miRNA-mRNA一起参与ceRNA网络,见图2。其中,具有丰富连接的lncRNA分别为LINC00667(有11个节点,与11个miRNA相互作用)和H19(有8个节点,与8个miRNA相互作用)。
图2 由lncRNA-miRNA-mRNA构成的ceRNA网络
采用GO和KEGG富集分析进一步预测差异基因功能。GO分析由生物过程(biological process,BP)、分子功能(molecular function,MF)和细胞成分(cellular component,CC)组成。BP分析结果表明,大多数差异表达的mRNA参与 “轴突生成、糖蛋白代谢、糖蛋白生物合成、轴突导向和神经元凸起导向”,见图3(a)。MF富集的前5个术语是“金属离子跨膜转运活性、DNA结合转录激活因子活性、RNA聚合酶Ⅱ特异性、门控通道活性、G蛋白偶联受体结合”,见图3(b)。最显著富集的CC条目是细胞顶端,见图3(c)。在KEGG富集分析中,差异表达的mRNA丰富了283条KEGG通路,包括人乳头瘤病毒感染、轴突导向、Hippo信号通路、蛋白质消化吸收和谷氨酸能突触等,见图3(d)。
图3 差异基因的功能富集分析
2.3 关键ceRNA的生存分析
根据ceRNA网络的分析结果,筛选出2个lncRNA、19个miRNA和11个mRNA进行了EC患者生存分析。Kaplan-Meier 生存曲线分析结果显示,2个lncRNA(LINC00667和H19)均与EC患者生存率相关,其表达越高,生存率越低。在11个mRNA中,除FKBP1B外,其他mRNA(TMCC3、HOXA3、HOXA5、PXDN、WNT10A、Nr6A1、KIrrEL1、MAP7D2、WNK3和PLXNA4)均与预后密切相关,见图4。19个miRNA中的10个miRNA与EC患者总生存时间密切相关,见图5。
图4 lncRNA、mRNA高表达和低表达的EC患者的生存曲线Kaplan-Meier生存曲线
图5 miRNA高表达和低表达的EC患者的生存曲线
根据差异基因的表达方式和ceRNA网络,共获得了2对(LINC00667-hsa-miR-181a/hsamiR-181d-Nr6A1和LINC00667-hsa-miR-34a/hsa-miR-34c/hsa-miR-449a/hsa-miR-449b-TMCC3),并且这些差异基因均和EC的预后密切相关(r=0.200,P<0.05;r=0.266,P<0.05)。见图6。
图6 配对的lncRNA和mRNA的相关性
2.4 核心ceRNA的验证
采用GEO2R分析2个GEO数据集GSE17025(79例Ⅰ型EC和12例Ⅱ型EC)和GSE25405(20例Ⅰ型EC和21例Ⅱ型EC),以验证ceRNA网络的有效性。结果显示,仅LINC00667-TMCC3对的表达与TCGA数据库中的表达一致,关于lncRNA和mRNA共享的miRNA表达中,hsa-miR-34a在GSE25405数据集中的表达差异无统计学意义(P>0.05),其他miRNA(miR-34c、miR-449a、miR-449b)的表达均与TCGA数据库中的表达一致。见表1。
表1 验证GSE17025和GSE25405中选定的lncRNA、mRNA、miRNA
2.5 核心ceRNA与EC临床病理特征之间的关系
对TCGA数据库中EC患者的临床资料[病理分型、年龄、分化程度和国际妇产科联盟(the International Federation of Gynecology and Obstetrics,FIGO)分期]进行整理,剔除临床资料不完整的病例。LINC00667、TMCC3、miR-34c和miR-449a相对表达量的中位数分别为2.27、3.94、3.47和4.00。以>中位数为高表达,≤中位数为低表达。结果显示,LINC00667高表达与EC的病理分型、分化程度和FIGO分期有关(P<0.05),与年龄无关(P>0.05)。TMCC3高表达与EC的病理分型、年龄和分化程度有关(P<0.05),与FIGO分期无关(P>0.05)。miR-34c、miR-449a低表达与EC的病理分型、分化和FIGO分期有关(P<0.05),与年龄无关(P>0.05)。见表2、表3。
表2 LINC00667和TMCC3的表达与EC临床病理特征的关系 例(%)
表3 miR-34c和miR-449a的表达与EC临床病理特征的关系 例(%)
续表3
3 讨论
EC是女性常见的恶性肿瘤之一,术后确定肿瘤组织学类型对EC患者的生存和预后至关重要。Ⅰ型EC以子宫内膜样腺癌为主,预后良好,5年生存率较高。Ⅱ型EC以浆液性和透明细胞癌为主,是高度恶性肿瘤,通常在晚期才被确诊,预后较差,且具有较高的复发风险[2]。目前,ceRNA网络在EC分型中的确切作用尚未明确。因此,全面研究ceRNA网络对EC分型的影响至关重要。本研究首先从TCGA数据库中鉴定了Ⅰ型EC与Ⅱ型EC表达有差异的lncRNA、miRNA和mRNA,以提供lncRNA-miRNA-mRNA调控网络,并对差异表达的基因进行了功能富集分析、相关性分析和生存分析。本研究确定了1组与EC相关的ceRNA(LINC00667-miR-34c/miR-449a/miR-449b-TMCC3),可用于阐明该疾病的潜在调控机制,为EC的分型和预后评估提供依据。
有研究结果显示,lncRNA在EC中表达失调,并且其失调与肿瘤分级、FIGO分期、肌层浸润深度、淋巴结转移及患者生存率有关,被认为是新兴的生物标志物和EC治疗的潜在靶点[14]。本研究找到了1个关键的lncRNA——LINC00667。CHEN等[15]的研究结果显示,LINC00667是卵巢癌复发的独立危险因素,且GO和KEGG富集分析表明,其参与了卵巢癌的多种发生机制。但目前尚无LINC00667与EC相关的报道。本研究结果显示,与Ⅰ型EC相比,LINC00667在Ⅱ型EC中表达上调,与EC的病理分型、分化程度和FIGO分期有关,且表达越高,患者的5年生存率越低。提示LINC00667高表达与EC预后不良相关,因此LINC00667或可作为EC新的分子分型和预后生物标志物。
miRNA是体内高度保守的调节性单链小RNA,不直接编码蛋白质,但可以促进mRNA的降解并抑制蛋白质翻译,进而介导基因的转录后调控[4]。本研究发现了3个关键miRNA:hsa-miR-34c、hsa-miR-449a和hsa-miR-449b。miR-34c在EC细胞中的表达显著降低,与顺铂联合应用可通过抑制白细胞介素6受体的表达来抑制人EC细胞系Ishikawa的增殖[16]。此外,在EC中,miR-34c还可作为p53蛋白的直接靶点,通过抑制E2F3蛋白的表达,抑制细胞周期阻滞相关蛋白,从而导致细胞周期阻滞在G1期,部分诱导细胞增殖抑制和凋亡[17]。本研究结果表明,miR-34c在Ⅱ型EC中表达下调,与EC的病理分型、分化和FIGO分期有关。由此可见,miR-34c低表达可能促进了EC细胞恶性增殖,抑制凋亡,这一结果与Ⅱ型EC恶性程度较Ⅰ型EC更高的事实相一致。因此,miR-34c在EC的早期诊断、分子分型和分子治疗中具有潜在的应用价值。有研究结果显示,与Ⅱ型EC组织相比,Ⅰ型EC组织中miR-449a和miR-449b水平分别升高347倍和461倍,与本研究结果一致,这提示miR-449a和miR-449b可作为EC新的分子分型标志物[18]。另外,miR-449a和miR-449b低表达与EC的5年生存率、病理分型、分化程度和FIGO分期有关,因此两者或许也可作为判断EC预后的指标。有研究发现,miR-449a在晚期EC中下调,并且可以通过下调非受体酪氨酸激酶c来抑制EC细胞中蛋白激酶B(protein kinase B,PKB;又称AKT)/细胞外调节蛋白激酶1/2(extracellular regulated protein kinase 1 and 2,ERK1/2)途径的激活,从而抑制肿瘤转移[19]。这表明在EC中,miR-499a可能发挥抑癌作用。但miR-449b在EC中的具体调控机制尚不清楚,需要进一步深入研究。
跨膜卷曲螺旋结构域(transmembrane-coiled coil domain,TMCC)家族具有相同的结构基序(2个跨膜结构域和2个卷曲螺旋结构域),由TMCC1、TMCC2和TMCC3组成。目前研究大多聚焦于TMCC1的功能,关于TMCC3蛋白的研究较少。TMCC3蛋白通过跨膜结构域定位于内质网中。免疫沉淀和质谱研究结果表明TMCC3蛋白与14-3-3蛋白相关,14-3-3蛋白可能影响TMCC3的功能[20]。本研究发现,TMCC3在Ⅱ型EC中表达上调,与EC的病理分型、年龄和分化程度有关,这提示TMCC3可能与肿瘤的发生、发展相关,这一发现或许能为TMCC3在EC分型和预后预测中的作用提供新的解释。
综上所述,本研究发现了一些与EC分型相关的lncRNA、miRNA、mRNA,并筛选出了1组关键的ceRNA——LINC00667-miR-34c/miR-449a/miR-449b-TMCC3,与EC的预后密切相关。但这些结论仅基于当前的分析工具和数据库,作为ceRNA网络中挑选出的关键基因,LINC00667和TMCC3在EC中的具体作用机制尚未被阐明,在未来的研究中将收集更多的临床样本加以验证,并使用体外和体内实验进一步探索这些ceRNA的功能。