非编码RNA生物学预测软件的开发与应用研究进展
2021-12-03刘洪飞廖明帜蓝贤勇
刘洪飞,廖明帜,蓝贤勇*
(1. 西北农林科技大学 动物科技学院,陕西 杨凌 712100;2. 西北农林科技大学 生命科学学院,陕西 杨凌 712100)
自从核糖体RNA(ribonucleotide RNA,rRNA)、转运RNA(transfer RNA,tRNA)以及丰富多样的非编码RNA被发现以来,人们越来越意识到非编码RNA(non-coding RNA,ncRNA)在生命活动中的作用。现如今,科学家发现的非编码RNA已有十几种之多,包括持家非编码RNA(转运RNA、核糖体RNA、核小RNA(small nuclear RNA,snRNA)和核仁小RNA(small nucleolar RNA,snoRNA)等,以及具有调控功能的非编码RNA(微RNA(microRNA,miRNA)、长链非编码RNA(long non-coding RNA,lncRNA)、环状RNA(circular RNA,circRNA)、小分子干扰RNA(small interfering RNA,siRNA)和Piwi互作RNA(Piwi-interacting RNA,piRNA)等)[1-2],尤其是具有调控功能的ncRNA在许多疾病以及癌症中起着重要作用,因而研究其生物形成过程以及功能调控机制等方面具有重要意义。
高通量技术的发展促进了对转录组的认识,尤其是针对不同类型ncRNA而设计的RNA-seq通过结合后续相应的鉴定软件可以对其ncRNA进行鉴定、差异表达分析以及常见的功能富集分析。RNA-seq不仅可以对ncRNA进行鉴定,而且能够挖掘其中的关键突变位点[3]。针对从RNA-seq后续分析的结果中鉴定ncRNA甚至是预测新的ncRNA分子,现已经有许多ncRNA的鉴定软件。鉴于对功能调节性ncRNA研究较多,因而本文主要针对miRNA、lncRNA、circRNA以及piRNA的生物学预测软件进行综述。
1 非编码RNA的生物合成
1.1 微RNA(microRNA,miRNA)
miRNA是一类不具有编码潜力、长度为21~23 nt、可以与靶mRNA分子的3'-UTR结合的小分子ncRNA。miRNA的合成过程包括2个阶段,分别为细胞核中的转录阶段以及细胞质中的转录后加工阶段(图1A)。最终,成熟的miRNA双链可以被由Ago2和Dicer等构成的RNA诱导的沉默复合物(RNA-induced silencing complex, RISC)所识别,进而在RISC中的解旋酶的作用下形成仅有21~23 nt的miRNA单链分子[4]。
目前的研究发现存在一类非经典miRNA,它们是由snoRNA、tRNA等基因转录加工形成[5],这些非经典的miRNA在转录加工后,通过不同于经典miRNA的转运机制出核。在细胞质中,对于snoRNA来源的miRNA来说,与经典的miRNA一样加载在RISC复合物中发挥作用;而tRNA来源的miRNA则需要进一步被切割成不同片段,进而构成RISC复合物。
1.2 长链非编码RNA(long non-coding RNA,lncRNA)
在非编码RNA中,有一类长度超过200 nt的RNA分子,被称为长链非编码RNA。非编码RNA的来源包括基因间转录本、增强子RNA、正义/反义转录本等。Kopp等[6]研究发现一些lncRNA与mRNA非常相似,同样具有5'帽子结构和polyA尾巴,区别是不具有开放读码框(open reading frame,ORF)。在lncRNA的形成过程中,lncRNA的转录由RNA聚合酶Ⅱ/Ⅲ所引导,并且大多数lncRNA和mRNA一样具有polyA尾巴(图1B)。然而,某些lncRNA有着不同的加工修饰途径,其加工过程与tRNA形成过程较为相似,其初始转录本的3'端同样会经过RNase P的切割,形成一段类似于tRNA的mascRNA (MALAT1-associated small cytoplasmic RNA)[7](图1B)。
1.3 环状RNA(circular RNA,circRNA)
circRNA是一类共价闭合的、经过反向剪接机制形成的环状非编码RNA分子。
在真核生物中,circRNA的形成存在3类机制[8](图1C):一类是通过依赖于剪接体的套索环化,如外显子型circRNA(exonic circular RNA,EcircRNA)以及内含子型circRNA(circular intronic RNA,CiRNA);第二类是顺式作用元件促进circRNA的形成,例如某些富含ALU序列的hnRNA可通过环化位点与线性剪接位点的竞争作用而形成不包含内含子的circRNA或者包含有内含子的外显子-内含子型circRNA(Exon-intron circRNA,EIcircRNA);第三类则是RNA结合蛋白(RNA binding protein, RBP)调控circRNA的形成,RBP可以通过结合到外显子侧翼的内含子上,促进或者抑制外显子的并排,继而影响circRNA的形成。近年的研究表明,在古细菌和动物体内还存在一类由tRNA经可变剪接所产生的tRNA内含子型circRNA(tRNA intronic circRNA,tricRNA),它的形成需要凸出螺旋凸出(bulge-helix-bugle, BHB)基序和许多反式作用因子,包括RtcB连接酶和tRNA剪接内切酶(tRNA splicing endonuclease, TSEN)复合物[9]。
1.4 Piwi互作RNA(Piwi-interacting RNA,piRNA)
piRNA为一类源于dsRNA、通过不依赖于Dicer酶机制而形成、长度为23~32 nt,与PIWI类的AGO蛋白互作的单链非编码RNA[10]。
piRNA的生物合成过程可以分为2个阶段(图1D):细胞核中前体piRNA的转录与转运阶段和细胞质中的前体piRNA加工与装载PIWI蛋白阶段[11]。piRNA大多是来源于有多个拷贝的转座元件,少部分则是由200 kb的piRNA基因簇所产生的[11]。此外,一些单个转座子和蛋白编码基因的3'UTR区域也可以产生piRNAs[12]。
piRNA基因簇来源的piRNA由RNA聚合酶II转录起始,该区域富含H3K9me3水平, 可与RDC复合物(Rhino (Rhi)、Deadlock (Del)和Cutoff蛋白)结合,进而促进piRNA的表达。转录形成的piRNA前体通过核孔转运出核后,会被加工修饰为成熟的piRNA分子。在这一过程中,piRNA会经过5'修剪和3'修剪,其中5'修剪是由核酸酶Zuc酶来完成。此外,在卵丘细胞中,还存在一种沉默子依赖的修剪机制,这种机制又被称为“乒乓”机制[12]。
2 非编码RNA的特征与生物学功能
2.1 miRNA
大多数动物的miRNAs均可通过与靶mRNA分子的3'UTR区域结合以抑制其稳定性或翻译能力,进而阻止其翻译[13]。miRNAs与mRNA的3'UTR结合的部分被称为种子序列。当RISC复合物能够与mRNA的结合位点严格互补配对时,可以发挥其内切酶的活性,对其特定位点进行切割,进而促使其被降解。
尽管对miRNA的大部分研究表明miRNA位于细胞质中,然而仍有一部分位于细胞核中,可通过形成RISC复合物或者与特定RBP结合作用于初级转录产物的3'UTR以及CDS序列或内含子区域[14],进而发挥基因沉默的作用。
2.2 lncRNA
lncRNA最重要的生物学功能之一就是可以与特定蛋白相结合,进而发挥相应的作用。有些支架蛋白或RBP在与作为骨架的lncRNA结合后,促使大分子复合物的形成和激活,能够进一步激活下游通路或直接发挥作用[15]。一部分lncRNA可通过与蛋白结合顺式地作用于某些基因的转录起始位点,进而调节基因转录。lncRNA也可以直接与DNA序列结合,从而形成RNA-DNA三股螺旋复合物,使得染色质构象处于开放状态,促进基因的转录[16]。其他lncRNA则具有辅助抑制因子的功能,可与特定转录因子结合,阻碍其与DNA的结合,而抑制RNA聚合酶的活性。此外,lncRNA在染色质结构重建和三维结构中也起着重要作用,可通过与染色质修饰复合物或增强子元件结合,促进激活子活性[17]。此外,反义lncRNA与相重叠的蛋白编码基因可以相互抑制其基因的表达[18]。近年来,有研究表明lncRNA也是一种重要的内源性竞争抑制ncRNA,可作为miRNA的抑制因子,调节其miRNA对靶基因的负向调控作用[19]。到目前为止,已经有大量的lncRNA-miRNA-mRNA作用通路被揭示并研究了其在各种疾病或者发育进程中的作用。尽管大多数lncRNA不具有编码能力,仍然有研究或预测分析发现有少部分lncRNA具有编码能力,可以翻译形成小分子量的蛋白质[20]。
2.3 circRNA
circRNA可在转录水平、转录后调控以及mRNA分子的翻译调节甚至是直接作用于某些蛋白而发挥功能。在转录水平上,circRNA直接与U1 snRNP和RNA聚合酶Ⅱ共同结合到靶基因的启动子区域从而激活下游基因的转录或调节mRNA分子的剪接。circRNA研究最为广泛的分子机制就是可以作为miRNA的分子海绵发挥其竞争性抑制的作用,进而上调miRNA的靶基因的表达。CLIP'seq也证明许多RBP会与circRNA结合,起到一种蛋白结合骨架的作用来调节mRNA分子的稳定性[21],促进靶mRNA的翻译能力。
由于大多数的circRNA不具有5'帽子和polyA结构,因而被普遍认为其不具有编码能力。然而有研究表明,少部分circRNA含有内在核糖体进入序列(internal ribosome entry site,IRES)[22],因而具有一定的编码能力,能够翻译出一些小分子多肽。因此,有人进一步对一些人工合成的含有ORF的circRNA在体外无细胞翻译系统进行研究,发现其确实可以翻译出多肽[23]。
2.4 piRNA
piRNA与PIWI等蛋白构成的RISC复合物在转录以及转录后调节过程中起着重要的调节作用。其调节机制包括3种,一种为piRNA/PIWI复合物介导的转录基因沉默机制,第二种为转录后基因沉默机制,第三种为与相关蛋白互作的调节机制。
piRNA所形成的沉默复合物进入到细胞核中后,可以与靶基因的新生转录物互补配对,进而招募沉默因子[24],最终促进其异染色质的形成。另外,有些piRNA复合物还会诱导启动子区域的CpG岛的甲基化,降低目标基因的转录活性[25]。
piRNA普遍通过piRNA-RNA互作来发挥转录后沉默作用,其结合的RNA分子有mRNA、假基因的转录本以及lncRNA。此外,有些沉默复合物可以通过miRNA类似的机制抑制mRNA的翻译能力;那些能够与lncRNA结合的piRNA沉默复合物则可间接地通过lncRNA介导的竞争抑制作用促进其miRNA的靶向抑制作用。对于含有PIWI结构域和RNase H内切酶活性的piRNA复合物来说,它们能够选择性地对转座子基因的RNA进行切割,从而抑制其功能[26]。此外,piRNA沉默复合物还会调节某些特定的蛋白的活性来发挥基因沉默的作用[27]。
3 相关生物学预测软件的研究现状
3.1 miRNA
miRNA预测软件的鉴定方法主要包括4种类型[28]:基于同源性的方法、基于靶点的预测方法、基于评分的方法和机器学习(表1)。
基于同源性的方法是最早miRNA预测方法之一,该方法的一般策略是利用序列比对结合对二级结构(如茎环结构)的预测来鉴定[28]。该方法只能针对已知的miRNA及其相似的分子进行预测,难以预测新的miRNA。由于miRNA前体序列较长,且其中的loop区域保守性不如互补配对区域,因而针对整个miRNA前体序列的同源预测的相似度会较低。
基于靶点的方法可以通过种子序列的保守性,对初步预测得到的miRNA做进一步的筛选[29]。基于该方法的软件通常同样需要利用已知miRNA的靶基因的序列信息来预测miRNA,同时结合一些辅助数据库进一步提高其预测的准确度。此外,该方法若与k-mer序列搜索相结合,则能获得更多miRNA候选分子[30]。
基因组评分方法则是利用了现有的比较基因组的方法,通过对相似物种的保守miRNA进行预测,能够发现在某一物种内同源性不高的新的miRNA分子。该方法是对多个物种的保守miRNA进行比较以得到它们之间保守的结构和序列特征来进行预测[31]。其他的如miRDeep、miRDeep2则很少依赖于序列的同源性或相似度,而是更多通过其miRNA的结构特征对miRNA进行评分预测[28]。
机器学习相比于其他方法,最大的不同之处是其模型的训练不仅需要已知的miRNA(阳性集),还需要非miRNA分子(阴性集)。基于机器学习方法的预测软件根据不同的算法,可以分为3大类[32],包括支持向量机(Support Vector Machine,SVM)、贝叶斯和随机森林,其中支持向量机算法是应用最广的一类。例如Xue等[33]开发的Triplet'SVM分类器在测试集中的准确度和敏感度分别达到了93.3%和88%。Ding等[34]基于miRNA前体的多个loop区特征信息开发的MiRenSVM能够达到96.5%和93.05%的特异性和敏感度。
另外,近年来也有一些通过将机器学习算法与之前的同源方法进行组合的软件。其中,miRDetect就是一种融合了随机森林算法与基于同源的方法用于鉴定植物新miRNA前体的软件。该预测模型的准确率达到93.35%,相比于其他软件,在预测miRNA方面具有较好的综合性能[35]。
3.2 lncRNA
lncRNA预测软件主要有2种方法,一种是直接预测其是否含有ORF元件或同源预测的方法,另一种是基于机器学习的方法。
在RNA-seq数据分析后的转录本进行注释分析时,对其较长的转录本进行编码能力的预测,就可以初步地对lncRNA进行鉴定。对其编码能力的预测,最重要的就是鉴定其中是否存在ORF。然而,有一部分存在模糊ORF的lncRNA就难以通过这些初步筛选软件所预测到。此外,针对已知lncRNA序列的同源性和保守性,通过利用序列比对算法(如HMMER、Profile-HMM)(表1)则可以根据其保守序列或基序(如CGIs、Alu元件和T-UCRs)预测新的lncRNA候选分子[36]。
我在北大接触和认识很多有成就的人,我发现他们都有一个共同的特点,那就是他们对人都很友好,很会与人相处,与环境相适,没有什么对抗和冲突。
此外,许多预测软件普遍采用机器学习的算法(表1),例如CPAT[37]、PLEK[38]、CPC2[39]等。其中CPAT是采用了较为简单的线性回归算法,而其他软件则是利用了支持向量机或者随机森林的方法。另外,将lncRNA高级结构特征信息(假节和发夹结构)考虑在内的折叠算法[40](表1),通过利用这些已知的能够与蛋白结合的折叠信息,已经有数以千计的高度保守的lncRNA在小鼠中被鉴定出来。
3.3 circRNA
现有的从RNA-seq数据中鉴定circRNAs的算法主要包括2种(表1),一种为基于测序读段(reads)比对的方法,另一种则为基于k-mers或/和德布莱英图(de bruijn graph,DBG)的方法。
基于reads比对的软件均是依赖于通过鉴定跨越反向剪接位点但不能够匹配到线性转录本的reads,继而基于不同的构建策略得到反向剪接接头(back-splicing junction,BSJ)用于鉴定circRNA。现有的特异性鉴定circRNAs的算法有以下几种:circRNA_finder、find_circ[41]、CIRCexplorer[42]、CIRI[43]和 MapSplice[44]等。有研究人员对5种软件的敏感度、准确度进行了分析,发现CIRI算法敏感度较高,但是其准确度过低,其假阳性比率超过68%,而CIRCexplorer和MapSplice则具有较低的假阳性比率,但鉴定的circRNAs相对较少[45],且需要耗费更长的时间。Find_circ, circRNA_finder和 CIRI由于可以从头预测circRNAs,因而不需要相关的注释文件,适用于缺乏注释信息的物种。此外,CIRI2在CIRI的基础上,增加了多线程方面的改进,使用了基于多种子序列的适应性最大似然估计法去鉴定BSJ位点,能够有效地降低假阳性的几率,其敏感度、特异性以及内存使用率方面都有提升[46]。另有研究表明,CIRI、CIRCexplorer和KNIFE与其他方法相比,在精度和灵敏度之间实现了较好的平衡性能[47]。
现有的鉴定circRNAs的算法主要都是基于reads比对的原理,因而比较耗费时间。因此,有研究开发了基于k-mers而不是对比基因组的软件CircMarker。CircMarker利用转录组注释文件创建用于circRNA检测的k-mer表[48]。之后,根据reads的全长区域所有的k-mers与k-mers表进行比对,进而依次对circRNA进行鉴定和对环化类型的筛选。在这之后,他们进一步结合了k-mers和DBG算法,开发了更优的circDBG[49]。与现有的方法相比,CircDBG能够找到更可靠的低偏差circRNA,具有更高的运算效率,在精度和灵敏度的平衡方面表现得更好[49]。
另外Szabo等[50]先进行从头预测,得到可能的BSJ位点,之后根据匹配到BSJ位点处的核苷酸数、Bowtie2匹配分数和质量这3个特征针对某一个read进行是否为circRNA来源进行鉴定判断,构建了逻辑回归模型。之后,通过该模型以及对P值的校正来确定其circRNA及其可信度。最终,通过多种细胞系的RNA-seq数据分析表明,该模型对circRNAs分子的鉴定在敏感度和特异性方面均有显著提高。
3.4 piRNA
现有的对piRNA进行预测的软件大多数是基于机器学习算法的(表1)。其piRNA预测软件主要通过以下几个特征进行鉴定:piRNA序列、基因组位置、5'或/和3'端的序列和结构基序、基因簇位置以及与靶序列的互作信息。其中proTRAC和piClust均是针对piRNA基因簇进行预测。proTRAC由于不准确的定量而难以进行后续的差异表达分析。而PLIFER拥有较好的平衡性能,不仅能够精确地鉴定piRNA基因簇,而且对内存的利用效率很高[51]。该软件首先将已知的piRNA和比对后得到的假定piRNA作为输入,寻找到这些piRNA的峰值区域,并从峰值区域向上游100 kb内取不同长度的滑动窗口,通过对其中不同区域的reads数量进行统计分析,以一定的评分准则对可能的piRNA基因簇进行预测[51]。其相比于proTRAC,虽然报道的基因簇的总数要少,然而reads数量却要高40%。piRNApredictor则是基于k-mer序列的框架,利用Fisher线性判别分析(linear discriminant analysis,LDA)的机器学习算法对piRNA进行预测,其准确度为90%,而敏感度相对较低,只有60%[52]。另外,基于转座子和piRNA互作的预测软件Piano不仅结合了piRNA的结构和序列信息,而且使用了SVM算法,在准确度上达到95.3%,敏感度上也超过了95%[53]。同时,该软件能够应用于不同物种,在预测人类、小鼠和大鼠的piRNA的整体准确度上能够达到90.6%[53]。在一些非模式动物的预测中,其也取得了比较好的预测结果。利用SVM的另外一种工具Pibomd同样也是基于piRNA的结构基序进行预测的[54]。该软件相较于较早的基于k-mer序列的软件,在预测准确度(Accuracy,ACC)上高出10%。
4 未来研究方向与展望
非编码RNA在表观遗传调控中起着重要的作用,是研究基因调控网络中的重要一环。同时,研究已经证明许多ncRNA在许多生命活动过程以及疾病中都扮演着不同的角色。因而,对非编码RNA的研究是解析遗传过程、探究生命奥秘过程中不可缺少的一部分。
为了研究非编码RNA的结构和功能,进行大量的RNA-seq不可避免。然而如何从大量的数据中筛选出有潜在功能的非编码RNA逐渐成为一个至关重要的问题。开发出一种更为广泛、全面的具有更高准确率和敏感度的预测软件或许是解决这一问题的答案。
除了研究较为明晰的持家非编码RNA以外,具有更多复杂功能的调节性ncRNA更为人们所关注。所有针对ncRNA的预测软件均是根据其固有的特有属性和特征,具有针对性地开发出来的。其所利用的方法主要分为两大类:一类是基于本身序列的同源性、保守性以及多维结构特征,根据现有的数据库的已知信息,通过某种统计模型所预测出来的;另一类则是基于机器学习的算法进行预测。机器学习算法与传统的算法相比较,能够具有更好的综合性能,应对不同物种来源的数据。尽管相较于其他类型的ncRNA,预测piRNA的软件相对研究较少并且缺乏特征信息,然而通过机器学习算法或许能够更为准确地预测piRNA。