位于可变内含子区域MicroRNA的特征分析
2020-04-13马名阳安雯雯景芙蓉周学
马名阳 安雯雯 景芙蓉 周学
【摘 要】MicroRNA(简称miRNA)是一类长度为22nt的编码小分子RNA,在基因表达调控中发挥重要作用。miRNA在基因组中存在位置偏好性,一部分miRNA位于基因间区,而另一些miRNA基因位于蛋白质编码基因的内含子中,少数位于外显子中,称之为基因内miRNA。可变剪接(也称选择性剪接,alternative splicing,AS)是指对同一基因的mRNA前体的不同剪接方式,即一种基因能产生多种mRNA。研究发现,miRNA与基因的选择性剪接密切相关,有些miRNA位于基因的可变剪接区域。论文利用生物信息学方法对位于可变剪接区域miRNA特征进行分析。
【Abstract】MicroRNAs (miRNAs) are endogenous noncoding RNAs with about 22 nucleotides in length, and play important role in gene expression regulation. MiRNAs have a favorable position in the genome. Some miRNAs are located in intergenic regions, while others are located in introns of protein-coding genes, and a few are located in exons, which are called intracellular miRNAs. Alternative splicing (alternative splicing, AS) refers to different splicing of the precursor mRNA of the same gene, that is one gene can produce multiple mRNAs. MiRNAs have been found to be closely related to the selective splicing of genes, with some miRNAs located in the variable splicing region of genes. This paper analyzes the characteristics of miRNA located in the variable splicing region by bioinformatics method.
【关键词】MicroRNA;可变剪接;特征;生物信息学
【Keywords】 MicroRNA; alternative splicing; characteristic; bioinformatics
【中图分类号】Q-33 【文献标志码】A 【文章编号】1673-1069(2020)01-0156-02
1 引言
选择性剪接是指对同一基因的mRNA前体的不同剪接方式,即一种基因能产生多种mRNA。基因的选择性剪接主要包括以下几种形式:①外显子跳跃(exon skipping);②选择性5或3可变剪接(alternative 5 or 3 splicing);③互斥外顯子(mutually exclusion exons);④内含子保留(intron retention);⑤选择性起始(alternative initiation);⑥选择性终止(alternative termination)等。选择性剪接增加了蛋白质的多样性和基因表达的复杂程度,对基因表达的精细调控、细胞分化与组织发育、凋亡等方面都起着重要的作用[1],并且与生物进化也息息相关[2],在复杂的生命现象中发挥着重要作用。越来越多的研究发现选择性剪接还与人类健康与疾病关系密切[3]。
MicroRNA(简称miRNA)是一类长度为21~25nt,主要通过作用在靶标基因mRNA的3端非编码区(3UTR)抑制蛋白质翻译或降解mRNA,从而发挥重要的调控功能[4]。研究表明,miRNA参与生命过程中一系列重要的进程,在控制发育过程、细胞增殖和凋亡、器官发育、心血管发育、免疫细胞形成等过程中都起着重要的作用。miRNA在基因组中分布存在位置偏好性,部分miRNA基因分布于基因组中的基因间区(intergenic region),而另一些miRNA基因位于蛋白质编码基因的内含子中,少数位于外显子中,称之为基因内miRNA(intragenic miRNA)。迄今为止,已有不少研究成果显示,miRNA与基因的选择性剪接密切相关。
2 材料与方法
2.1 数据收集
miRNA序列及位置信息从miRBase数据库(Release 19)下载获得。基因可变剪接位置信息通过检索Ensembl和UCSC数据库获得。
2.2 可变剪接区序列特征分析
利用在线Oligo Calc程序对含有miRNA的内含子或外显子的GC含量进行预测和统计,同时计算miRNA序列的GC含量作为比较。利用CpGi130和CpGProD程序对内含子/外显子序中CpG岛进行预测。从UCSC数据库Table browser程序获取序列SNP信息,miRNA上分布的SNP位点利用miRNASNP程序预测。
2.3 可变剪接区剪接调控功能元件预测
利用FAS-ESS web serve、ESEfinder等软件对可变剪接区域参与的剪接调控的功能元件及作用的剪接因子进行预测。
2.4 可变内含子miRNA作用靶基因预测及功能分析
可变内含子miRNA作用靶基因数据从miRTarBase数据库下载获得。同时利用DAVID数据库提供的基因功能注释工具对预测的靶基因的功能和参与调控通路进行分析。
3 结果与分析
3.1 可变内含子区域miRNA的鉴定
根据miRBase数据库提供的注释信息,统计miRNA的位置信息,总计获得了1171个miRNA位于基因内。根据Ensembl和UCSC数据库提供的基因发生可变剪接位置信息与miRNA位置信息利用程序进行比对,鉴定位于可变剪接区域的miRNA。为了预测的可靠性,同时通过文献调研及将miRNA前体序列与基因不同转录本进行比对,进一步确定位于可变剪接区域的miRNA。最终获得433个miRNA位于基因的可变剪接区域,涉及366个host基因。其中人21个miRNA位于16个宿主基因的可变内含子区域,其中包括1个miRNA簇mir-17/20a/18a/19a/19b-1,位于基因C13orf25上。
3.2 位于可变剪接区域miRNA及可变剪接基因特征分析
对内含子miRNA的宿主基因序列特征进行分析,人16个宿主基因含有转录本的数目为2~58,含有miRNA的转录本数目为2~29,其中DDR1基因有58个转录本。对miRNA在宿主基因不同转录本上分布特征分析,人转录本的外显子数目2~38,内含子平均长度为1087bp,絕大多数miRNA位于基因第1个外显子中,外显子的平均长度875bp,分析过程中发现hsa-mir-4721位于TUFM基因转录本的3UTR区域。
3.3 可变剪接区域序列GC含量、CpG岛及SNP分布特征分析
利用在线Oligo Calc程序对miRNA及miRNA所在的内含子或外显子的GC含量进行分析,结果显示,人miRNA所在内含子或外显子的GC含量分布在36%~78%,平均GC含量为58%,miRNA前体序列GC含量分布在38%~81%,平均GC含量为58%。同时,对内含子/外显子中CpG岛进行预测,结果在人18个转录本内含子/外显子中总计预测到30个CpG岛,序列平均长度为928bp。
通过对人miRNA所在的内含子或外显子中分布SNP位点分析,人21个miRNA中有12个miRNA所在的15个转录本对应的内含子/外显子中分布有58个SNP位点,SNP位点分布的数目为1~11。
3.4 可变剪接区域参与的剪接调控的功能元件及剪接因子的作用位点预测
可变剪接位点的选择受到结合到非剪接位点RNA元件的剪接因子的多重调节,参与可变剪接调节的RNA元件包括ESE、ISE、ESS、ISS,剪接因子包括SR和hnRNP家族蛋白等多种因子。利用ESEfinder等软件对miRNA所在的可变剪接区域参与的剪接调控的功能元件及作用的剪接因子进行预测。结果人miRNA所在的内含子/外显子中都预测出五种剪接因子的结合位点,五种剪接因子分别为SRSF1、SRSF1 (IgM-BRCA1)、SRSF2、SRSF5、SRSF6,结合位点序列分别为“CACACGA”“CACACGA”“GTCCCCTG”“CCACACG”“TACGTC”等。
3.5 可变内含子miRNA靶标基因预测及功能分析
miRNA主要通过与靶mRNA之间的互补配对切割信使RNA或抑制翻译这两种转录后调控机制,实现下调靶基因表达。论文从miRTarBase数据库下载实验验证的人miRNA作用的靶基因。总计获得了9615个miRNA-target作用的关系,进一步分析发现人miRNA作用的靶标数量为1~1825,作用在每个靶基因上miRNA数目为1~30。分析发现宿主基因与内含子miRNA及靶基因间存在复杂的调控关系,例如,PTBP1是hsa-mir-4745的宿主基因,同时是hsa-miR-17作用的靶基因;REXO1基因能同时被宿主基因hsa-mir-1909作用,hsa-mir-1909同时也能作用在hsa-mir-589的宿主基因FBXL18。为了更好地理解miRNA作用的靶基因的功能,利用DAVID数据库提供的基因功能注释工具对预测的靶基因的功能和参与调控通路进行分析,结果表明,靶基因参与的生物进程中包括参与转录调节、调节细胞凋亡、调节细胞增殖、参与蛋白质的泛素化等。通过KEGG通路分析发现,miRNA靶基因参与了46个通路,包括:VEGF信号通路、Wnt信号通路、B细胞受体调控通路等。
4 结论
本文通过生物信息学方法对位于可变剪接区域miRNA的特征进行分析,研究结果对发现可变剪接与可变剪接区miRNA的内在联系,以及对深入揭示miRNA与可变剪接在癌症基因表达调控中的作用机制具有重要的科学意义。
【参考文献】
【1】Black DL.Mechanisms of alternative pre-messenger RNA splicing[J].Annu Rev Biochem,2003(72):291-336.
【2】Blencowe BJ.Alternative splicing: new insights from global analyses[J].Cell 2006,126(1):37-47.
【3】Tollervey JR,Wang Z,Hortobagyi T,et al.Analysis of alternative splicing associated with aging and neurodegeneration in the human brain[J].Genome Res 2011,21(10):1572-1582.
【4】Bartel DP.MicroRNAs:target recognition and regulatory functions[J].Cell 2009,136(2):215-233.