APP下载

真核生物环形RNA编码蛋白的研究进展

2020-05-16宋晓峰

生物信息学 2020年1期
关键词:密码子元件位点

王 琮,赵 健,宋晓峰

(南京航空航天大学 自动化学院,南京 210006)

环形RNA是一类特殊的呈封闭环状结构的RNA分子,其没有5’端帽子结构和3’端PolyA 尾巴,由前体RNA(pre-mRNA)通过反向剪接形成。近来研究发现环形RNA也可以编码蛋白,且估计大约10%的环形RNA具有蛋白编码能力。尽管仅有少数编码蛋白的环形RNA被发现,但这些环形RNA编码的小肽在多个生物过程中发挥着重要的作用,且与疾病密切关联。目前尚有大量的环形RNA等待着人们去发现,因此本文对环形RNA编码蛋白的相关研究进行了综述,并对目前现有的可用于编码蛋白环形RNA识别的相关生物信息学工具和方法进行了总结。环形RNA通过编码蛋白这一机制,发挥了与疾病相关的一些作用。因此对于环形RNA编码蛋白的研究具有重要的意义。

1 环形RNA编码蛋白潜能的发现

1976年人们首次在病毒中观察到环形RNA的存在[1]。1979年研究人员在电子显微镜下观察到真核细胞中的环形RNA[2]。随着二代测序技术的快速发展和生物信息学工具的开发,环形RNA被检测到广泛存在于真核生物中。在人类和小鼠脑组织分别检测到65 731和15 849个环形RNA[3]。2015年,Wang等人通过将内部核糖体进入位点(Internal Ribosome Entry Site,IRES)人工插入环形RNA的实验方法,发现这类人工构建的环形RNA可以翻译[4],这引起了研究者们的注意。

一直以来,环形RNA被认为不能编码蛋白质,是一类新的非编码RNA,通过竞争性结合microRNA调控基因表达。然而,人工构建的可编码蛋白环形RNA的出现使得人们开始怀疑是否存在内源性的可编码蛋白环形RNA。2015年Chen等人对人类环形RNA的编码能力进行了分析,发现相当多的环形RNA转录本具有蛋白质编码潜能,并通过质谱数据从中鉴定出21个编码蛋白的环形RNA。在2017年,Ivano等人通过northern blot、质谱技术等方法验证了环形RNA(circ-ZNF609)能够编码蛋白质,从而调控肌细胞增殖,并且验证了该环形RNA的非翻译区(Un-translated region,UTR)存在IRES结构[5]。Yang等人通过抗体检测、质谱结果发现了Circ-FBXW7能够编码与恶性胶质瘤发病机制相关的蛋白FBXW7-185aa[6]。Zhang等人验证了circ-SHPRH能够编码新型蛋白质SHPRH-146aa,该蛋白能够抑制神经胶质瘤的发生[7]。2018年Zhang等人还验证了circ-PINT能够编码新型蛋白PINT87aa,抑制多种癌基因转录延伸[8]。2019年Liang等人发现了circβ-catenin能够编码全新蛋白β-Catenin-370aa,调控Wnt/β连环蛋白信号通路[9]。Heesch等人在心脏组织中发现40种环形RNA能被翻译,其中6个在质谱检测中得到验证[10]。

综合以上已经发表的验证环形RNA编码蛋白的文章,验证的过程大致如下:预测环形RNA的开放阅读框(Open reading frame,ORF),包括了跨越接头位置(Junction site)的情况,具有开放阅读框的环形RNA则有编码蛋白质的潜在能力;根据生物信息学的方法预测环形RNA中是否包含内部核糖体进入位点(Internal ribosome entry site,IRES)结构,如果有,进一步通过双顺反子实验验证IRES结构的活性;如果预测的开放阅读框跨越反向剪接位点,预测其可能编码的蛋白质序列,通过质谱检测(MS)技术验证是否有环形RNA翻译形成的特定小肽片段,如果有则证实该环形RNA编码蛋白质。

2 环形RNA编码蛋白相关调控机制

在基因组中,mRNA编码区的起始密码子必然在终止密码子之前。然而,对于环形RNA,因其闭环结构,其编码区的起始密码子在基因组中的位置可能在终止密码子之后,且编码区的长度可能大于环形RNA自身。此外,因闭环结构,环形RNA不含5’端帽子结构,因此无法依赖帽子结构招募核糖体起始翻译蛋白,而只能通过非帽依赖的内部翻译起始机制编码蛋白。IRES元件作为一段RNA内部序列,可直接招募核糖体结合,从RNA内部起始翻译蛋白,因此IRES元件可视为环形RNA编码蛋白的前提条件之一。m6A甲基化作为RNA中丰度最高的转录后修饰,其所在的短序列可作为IRES元件驱动环形RNA翻译蛋白,由此m6A甲基化也可视作环形RNA编码蛋白的标志。因此,以下将从编码区域的识别及翻译起始驱动方面介绍环形RNA编码蛋白的相关调控机制。

2.1 环形RNA中编码蛋白区域的识别机制

环形RNA编码蛋白的先决条件是必须要有一定长度的开放阅读框(ORF)。开放阅读框是指从起始密码子(AUG)开始,结束于终止密码子(UAA,UAG,UGA)的一段连续碱基序列。由于密码子的读写起始位置不同,RNA序列可能按三种开放阅读框阅读和翻译。核糖体从起始密码子开始翻译,沿着RNA序列合成多肽链并不断延伸,遇到终止密码子翻译终止。然而,对于环形RNA这一呈现环状的特殊RNA,情况有所不同。不同于线性mRNA,环形RNA的开放阅读框可能跨越反向剪接位点(Junction site),开放阅读框可能绕环形RNA一圈或者两圈,长度甚至大于环形RNA本身。因此具有开放阅读框的环形RNA才可能编码蛋白质。

2.2 内部核糖体进入位点(IRES)介导的环形RNA内部翻译起始机制

RNA的翻译起始可分为帽依赖翻译和非帽依赖翻译两种方式,其中帽依赖翻译主要依靠5’端的帽子结构招募起始因子复合物和核糖体亚基,在起始因子的辅助下,将RNA与40 S核糖体亚基结合,驱动翻译起始。而在非帽依赖翻译机制中,IRES介导的内部翻译起始占了很大一部分,其在反式作用因子的作用下直接招募40 S核糖体亚基与RNA结合,进而启动翻译过程。因此,尽管环形RNA是一个闭环结构,没有5’帽子结构,但环形RNA可以通过内部的IRES元件起始蛋白质翻译过程。

编码蛋白质的环形RNA内部大多都含有IRES元件,并且实验表明IRES确实驱动了环形RNA的翻译起始[5-9]。IRES实验验证的主要手段是通过双顺反子实验,通常使用荧光素酶质粒作为载体,在其5’UTR区插入待测序列,如果下游荧光素酶表达提升,则证明待测序列具有IRES活性。IRES元件不仅在5’非翻译区(5’Un-translated region,UTR)有分布,在CDS区及3’UTR区同样存在IRES元件[11]。并且,研究发现大约10%的人类mRNA的5’UTR区含有IRES元件。环形RNA大多来源于mRNA的外显子,因此有足够理由相信相当一部分的环形RNA含有IRES元件。一般来说,具有IRES元件结构的环形RNA,我们更相信其具有编码蛋白质的能力,因为IRES元件能够招募核糖体亚基与其结合从而启动翻译。

2.3 m6A(N6)甲基化修饰驱动的环形RNA翻译机制

N6甲基化修饰促进环形RNA的翻译起始。N6甲基化修饰,即腺苷酸6号N发生甲基化修饰事件,又称m6A。m6A是真核细胞中最广泛的一种RNA甲基化修饰[12-13]。该修饰最可能出现的共有基序(Consensus motif)是“RRm6ACH”,其中R是A或G,H是A,C或U[14-15]。m6A在3’非编码区(UTR)通过与YTHDF1蛋白结合,提高翻译效率[16]。然而,在5’UTR区,m6A通过YTHDF2相关作用机制,促进非帽依赖翻译起始[17-18]。YTHDF3还能与核糖体蛋白相互作用促进mRNA的翻译[19]。

线性mRNA由核糖体扫描起始翻译,然而环形RNA的翻译起始机制完全不同。真核生物常规蛋白翻译起始由eIF4复合物开始,其中eIF4E结合5’帽子结构,eIF4G提供翻译起始复合物组装所需支架,募集核糖体后起始翻译过程。研究人员通过一系列实验表明eIF4G2与eIF3A结合位点与m6A修饰位点重合较高[20]。Yang等人通过circRNA-m6A-seq(m6A抗体免疫共沉淀反应深度测序)的实验手段证实内源性环形RNA中含有大量的m6A修饰位点,经过序列特征分析表明,m6A修饰经常出现在eIF4G2结合位点上游,说明了两者可能存在协同调控翻译活动的作用。基于m6A抗体测序组和全部环形RNA数量推理分析,大约有13%环形RNA存在m6A修饰事件。因此,具有m6A修饰的环形RNA更有可能具有翻译能力,能够编码蛋白质。

3 环形RNA编码蛋白的相关生物信息学预测工具

3.1 编码蛋白环形RNA的预测流程

预测编码蛋白环形RNA的流程大致如下:(1)首先预测环形RNA的开放阅读框,具有开放阅读框的环形RNA则有编码蛋白质的潜在能力;(2)对开放阅读框的序列保守性进行计算;(3)通过一些现有工具计算编码得分;(4)根据生物信息学的方法和工具预测环形RNA中是否包含IRES结构;(5)接着进行m6A修饰的预测;(6)结合ribo-seq数据,过滤rRNA读段,去除匹配上线性RNA的部分,若环形RNA接头部分匹配上ribo-seq数据,更有理由相信环形RNA进行了翻译;(7)如果预测的开放阅读框跨越反向剪接位点,预测其可能编码的氨基酸序列,通过质谱检测(MS)技术验证是否有环形RNA翻译形成的特定小肽片段,如果有则证实该环形RNA确实能够编码小肽。流程图见图1。

图1 编码蛋白环形RNA预测流程图Fig.1 Flow chart pipeline for predicting protein-coding circRNAs

3.2 开放阅读框预测工具

ORF预测软件主要有ORFfinder,ORF Investigator,ORF Predictor和ORFik。ORFfinder是一个图形分析工具,可以查找用户输入序列中大于一定长度的所有开放阅读框,或者在已有数据库中存在的序列,并通过BLAST服务器在数据库中检索氨基酸序列。ORF Investigator是基于perl语言编写的程序,能够有效地找到相应氨基酸序列的ORF并将它们转换成它们的单字母氨基酸代码,并在序列中提供它们的位置,还能在序列间进行全局比对,检测单核苷酸多态性。ORF Predictor使用两种不同ORF定义的组合,它搜索从起始密码子开始到终止密码子结束的延伸。作为另外的标准,它在5’非翻译区(UTR)中搜索终止密码子。ORFik是Bioconductor中的R包,用于寻找开放阅读框架并使用新一代测序技术来证明ORF的合理性。然而,环形RNA呈闭合环状结构,开放阅读框能够跨越接头位置,绕环一周以上,所以这些工具都不太适合环形RNA开放阅读框的预测,需要自编程序实现。

3.3 IRES预测工具及相关数据库

目前预测IRES元件的工具主要有IRSS[21]、VIPS[22],IRESpred[23]和IRESfinder[24]。其中,IRSS和VIPS通过与已知IRES的二级结构进行相似度比对,得出待测序列为IRES元件的置信度。IRESpred通过支持向量机模型,构建了病毒和细胞IRES元件的35种特征,其中27种特征基于待测序列5’UTR区与小亚基核糖体蛋白结合的可能性,其他特征基于UTR区的序列和结构特征。IRESfinder通过文献验证[11]的583个IRES元件进行机器学习训练,经过10次交叉验证,ROC曲线分析的AUC值达到了0.825。其中,VIPS与已知病毒IRES二级结构进行比对,但当时已知病毒IRES只有4个,且运行时间较长,IRESfinder基于序列特征预测存在IRES元件的可能性,较适用于环形RNA中IRES的预测。

目前收录IRES元件的数据库主要有IRESdb[25],IRESite[26]和Rfam[27]。IRESdb构建于2002年,提供了30个来自病毒的 IRES和50个来自真核细胞IRES相关mRNA信息。IRESite构建于2005年,数据库收录了125个IRES序列信息,来自43个病毒和70个真核mRNA。Rfam收集了IRES_RhPV,IRES_cyp24a1两个族类的IRES,提供了来源病毒和参考文献的相关信息。上述IRES数据库收录信息都比较久远,目前已验证的IRES元件已远超上述几个数据库。

3.4 m6A预测工具及相关数据库

现有基于序列预测m6A修饰位点的软件主要有SRAMP(Sequence-based RNA adenosine methylation site predictor)[28]。SRAMP联合三种随机森林分类器(基于位置分类器、基于K最邻近算法分类器、基于核苷酸对分类器)给出综合打分。输入可以是基因组序列或是核心DNA序列(cDNA),分别对应两种模式。SRAMP在交叉验证和独立验证方面都具有优势,训练集正样本来自两篇验证哺乳动物单核苷酸分辨率的m6A位点的文章[29-30],负样本来自相同基序(DRACH)在同个数据集中的随机选取,因为m6A修饰并不是随机的[31]。SRAMP还做成了网页服务器的形式提供给用户使用。对于环形RNA中m6A修饰位点的预测,基于序列预测的工具SRAMP能够胜任。

目前收录m6A修饰位点的数据库主要有RMbase[32]和m6Avar[33]。RMbase通过m6A-CLIP的实验技术,收集了来自12个不同物种大约1 373 000个m6A修饰位点信息。m6Avar通过7组miCLIP,2组PA-m6A-Seq实验,244个MeRIP-Seq实验以及工具预测的渠道收集了三类m6A修饰位点数据,共414 241个m6A相关变异位点,基因类型包括了lincRNA,miRNA,piRNA等。

3.5 转录本蛋白编码预测工具

目前常用转录本编码蛋白预测工具主要有CPC[34],CPAT[35]和CNCI[36]。工具主要分为两类,基于序列比对(Alignment-based)和不需要基于序列比对(Alignment-free)。其中CPC基于序列比对,可以识别保守性较好的蛋白编码基因,CPAT和CNCI不需要序列比对,主要用于物种间保守性较差的转录本。

2007年,Kong等人开发了评估转录本编码蛋白潜能的工具CPC[34]。CPC基于支持向量机分类器,通过提取具有重要生物学意义的六种序列特征。将输入序列分为编码序列或非编码序列并给出对应得分。训练集上通过十倍交叉验证,在大量数据集上展示出CPC具有很高的准确度(95.77%)。CPC提取的序列特征前三项关于预测的开放阅读框(ORF),由framefinder计算所得(包括The Log-odds score,Coverage of the predicted orf,Integrity of the predicted orf)。后三项特征通过假定ORF编码的蛋白与UniProt数据库经过blast比对结果所得(包括Number of hits,hit score,frame score)。CPC训练集正样本来自EMBL的121 914个编码区(CDS)序列,负样本来自Rfam和RNADB共34 766个非编码序列。

不同于CPC的是,CPAT不需要基于序列比对(Alignment-free),而是通过编码和非编码转录本的序列特征来进行区分[35]。CPAT运用逻辑回归分类器,基于四种序列特征来区分编码与非编码转录本,分别是:(1)开放阅读框长度(Open reading frame size);(2)开放阅读框覆盖度(Open reading frame coverage);(3)Fickett统计,基于碱基组成和密码子分布(Fickett TESTCODE statistic);(4)六聚体频率(Hexamer usage bias)。以上四种特征,都能较好区分编码与非编码转录本。正样本来自RefSeq数据库的10 000个编码蛋白转录本,负样本来自GENCODE数据库的10 000个随机选取的非编码RNA。通过十次交叉验证AUC曲线达到0.992 7。

而CNCI基于碱基三联子的构成来区分编码与非编码转录本,其利用人类和小鼠转录本构建支持向量机模型,用于对脊椎动物进行分类[36]。训练集正样本来自RefSeq数据库,负样本来自GENCODE。测试集数据物种包含了小鼠等脊椎动物和植物。对于人类编码和非编码转录本,经过十次交叉验证所得准确率达到97.3%。

针对环形RNA编码蛋白的预测,需要先将环形RNA序列预处理,保证ORF的完整性,避免跨越接头位置的ORF被分割,才能将环形RNA序列输入上述三种转录本编码蛋白预测工具进行分析。

3.6 编码蛋白环形RNA预测工具及相关数据库

随着二代测序技术的快速发展,大量的环形RNA被发现,构建一个编码蛋白的环形RNA的数据库非常有必要。2016年Chen等人构建了首个人类环形RNA数据库circRNAdb,并对环形RNA的蛋白质编码潜能进行了分析[37]。研究者主要通过开放阅读框预测,IRES元件预测,以及蛋白质谱数据比对等几个方面,从32 914个人类环形RNA数据中,筛选出6 608个具有编码蛋白潜能的环形RNA,其中21个得到了质谱数据的验证。Yang等人和Zhang等人通过circRNAdb提供的参考信息,实验验证了Circ-FBXW7和circ-SHPRH能够编码蛋白质,ORF与数据库中预测的信息一致,IRES的验证也与数据库中的信息有很大重叠。由此可见,circRNAdb对于验证环形RNA编码蛋白质具有很大的参考意义。

目前环形RNA编码蛋白潜能预测工具主要有CircPro和CircCode。2017年,Meng等人开发了首个基于RNA-seq及Ribo-seq数据识别编码蛋白环形RNA的工具CircPro[38]。研究者首先使用转录组测序数据(RNA-seq)作为输入,结合.GTF基因注释文件,基因组文件,调用环形RNA检测工具CIRI2预测测序数据中的环形RNA[39]。其次,提取CIRI2所得结果的环形RNA序列,并经过拼接后调用CPC(Coding potential calculator)预测环形RNA编码能力得分。最后,使用翻译组测序数据(Ribo-seq)作为输入,寻找比对不上线性RNA的reads,将其与环形RNA反向剪接位点(Junction sites)的reads做比对,若能比对上,则能为该环形RNA的翻译潜能提供支持。CircPro总共会输出4个文件,其主要内容分别为:(a) 预测的环形RNA序列;(b) 每个circRNA的编码潜能得分(CPC预测);(c)每个circRNA的RNA-seq reads支持数和Ribo-seq reads支持数;(d)编码蛋白质的circRNAs。

2019年,Sun等人开发了环形RNA翻译的预测软件CircCode,这是一种基于机器学习的方法[40]。工作流程如下:首先应用Ribo-seq测序数据,保留比对不上基因组的reads,将其映射到环形RNA的接头位置,若能映射上则保留作为可翻译的候选环形RNA(该过程与CircPro最后一步类似)。接着通过机器学习工具BASiNET预测跨越街头部分的ribo-seq reads是否可以翻译,确定可以翻译的环形RNA。最后预测环形RNA的ORF及其可能编码的多肽。

CircPro与CircCode中基于ribo-seq数据分析的方法相似,有较高可信度,不同之处在于CircCode基于机器学习再预测这些比对上反向剪接位点的ribo-seq reads是否可翻译,而CircPro将比对上的reads都作为环形RNA可编码蛋白的一个证据。此外,CircCode使用FragGeneScan预测环形RNA开放阅读框,而CircPro通过CPC预测环形RNA编码蛋白潜能。

4 总结与展望

一直以来,环形RNA被划分为非编码RNA。然而,近来研究发现,相当一部分的环形RNA具有编码蛋白质的潜能。目前,由于编码蛋白环形RNA的特征尚不明确,相关生物信息学预测及分析方法极为欠缺,严重阻碍了真核生物环形RNA编码蛋白的相关研究。现有RNA编码潜能的预测工具大都是基于线性RNA(mRNA和lncRNA)开发而成,而环形RNA中与mRNA的重叠部分,及其非线性的环状结构,都严重降低了现有工具对环形RNA编码潜能的预测能力。

环形RNA内的IRES及m6A修饰位点已被证实可介导其非帽依赖翻译起始过程,因此IRES及m6A修饰位点识别将有助于提高编码蛋白环形RNA的识别能力。此外,随着越来越多的编码蛋白环形RNA被发现,以及环形RNA编码蛋白机制的深入研究,相信会有更多更有效的编码蛋白环形RNA相关生物信息学工具及数据库出现,反过来进一步促进编码蛋白环形RNA的发现及对其编码起始机制的深入研究。

猜你喜欢

密码子元件位点
镍基单晶高温合金多组元置换的第一性原理研究
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
密码子与反密码子的本质与拓展
二项式通项公式在遗传学计算中的运用*
10种藏药材ccmFN基因片段密码子偏好性分析
QFN元件的返工指南
在新兴产业看小元件如何发挥大作用
宝马i3高电压元件介绍(上)
嗜酸热古菌病毒STSV2密码子偏嗜性及其对dUTPase外源表达的影响
Cu4簇合物“元件组装”合成及其结构与电催化作用