APP下载

基于RNA—Seq数据识别外显子跳跃事件的方法研究综述

2016-05-03白杨王亚东

智能计算机与应用 2016年2期

白杨 王亚东

摘 要:随着高通量生物测序技术的产生及快速发展,从转录组高通量测序数据(RNA-Seq数据)中准确地识别选择性剪接事件成为了当前生物信息学研究的一个热点课题。识别选择性剪接事件对研究基因的功能、蛋白质结构的多样性、细胞的分化、物种的进化、以及疾病的产生机制具有重要的意义。在人类基因组中最主要的选择性剪接事件是外显子跳跃事件(>40%)。本文综述了基于RNA-Seq数据识别外显子跳跃事件的识别方法,并对常用的识别方法进行了总结分析。

关键词:选择性剪接;RNA-Seq;外显子跳跃事件

中图分类号:TP391文献标识号:A文章编号:2095-2163(2016)01-

Areview of alternative splicing event detection from RNA-Seq data

BAI Yang, WANG Yadong

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: With the rapid development of next-generation sequencing technology, alternative splicing (AS) event detection from whole transcriptome shotgun sequencing (RNA-Seq) data is a popular research topic in biology. Identification AS events can help biologists to study to gene function, protein structure, cellular diversity, species evolution, and human disease. Exon skipping (ES) event is a major AS events in human genome (>40%).This paper reviews the methods onES events detection from RNA-Seq data, and provides an overview that could serve as an entry point for users who need to decide on a suitable tool for ES event detection.

Keywords: alternative splicing; RNA-Seq; exon skipping event

0 引言

随着高通量测序技术在分子生物学、遗传学、临床医学等研究领域中的广泛应用,特别是转录组高通量测序技术(RNA-Seq)在基因表达以及转录组表达上的全面运用,使得对应的高通量的RNA-Seq数据越来越丰富。转录组高通量测序技术的发展,将从事选择性剪接事件识别的研究者从低通量的生物学实验中解放出来,进而转到使用高通量的RNA-Seq数据来识别选择性剪接事件。有别于传统的实验方法只能研究某一个基因的选择性剪接情况,高通量的RNA-Seq数据是在全基因组范围内研究各个基因的选择性剪接情况,因而具有定量准确、可重复性高、检测范围广、可靠性高等特点,使其更具有代表性和统计学意义。由此,利用已有的RNA-Seq数据,快速、高效、准确地通过计算手段识别选择性剪接事件则已成为目前选择性剪接识别研究的热点问题。

选择性剪接的模式主要有5种[1-4],包括:外显子跳跃(Exon skipping)、选择性5端(Alternative 5splice site)、选择性3端(Alternative 3splice site)、外显子互斥包含(Mutually

1 当前基于RNA-Seq数据识别外显子跳跃事件的研究现状

为了更好地评估PSI的值,Kakaradov等人提出了三种方法去自动评估PSI的值,包括:朴素模型、高斯模型和自动混合模型[7]。模型中,考虑到了测序短片段映射到外显子与外显子连接区域存在的位置偏移信息。与MISO方法运行时间相比较,Kakaradov提出的三个方法运行时间都较少。

通过提取现在数据库中注释的外显子区域、外显子连接信息、外显子边界信息、内含子区域和基因间的区域等特征,Griffith等人提出了ALEXA-Seq的方法[8]。该方法用于在不同条件下,比较特征与包含此特征的基因间差异性。实现过程中,提出了三种计算模型,其中, 和 分别代表不同的条件, 和 表示第 个特征的表达量, 和 表示第 个基因的表达量。

与ALEXA-Seq相似,SpliceSeq[9]也是使用SI算法,采用Fisher检验去识别外显子跳跃这一剪接事件。此外,SpliceSeq还提供了一种可视化的方法,方便用户直观地查看外显子跳跃这一剪接事件。

SOLAS方法[10],利用映射到外显子内部区域的测序短片段数作为特征,使用Z-score计算两种不同条件下差异表达的外显子。

Anders提出了DEXSeq的方法[11]。DEXSeq首先假设测序短片段在参考基因组片段上的分布服从否定二项分布,并利用此特性,构建了一个线性回归模型。该线性模型使用了可以发生跳跃的外显子的表达量和包含该外显子的基因的表达量。通过识别离群点(在两种条件下,差异表达的外显子),来识别外显子跳跃事件。

Wang等人提出了DEGSeq方法[12]用于从RNA-Seq数据中识别不同表达的外显子或者基因。与DEXSeq方法类似,DEGSeq也是使用了可以发生跳跃的外显子的表达量和包含该外显子的基因的表达量,通过识别离群点(不同条件下差异表达的外显子)来识别外显子剪接事件。但与DEXSeq的模型不同,DEGSeq的模式是基于测序短片段在参考基因组上的分布服从均一分布这一假设的。

MATS[13]使用了贝叶斯方法,用多变量均一分布作为先验知识,使用了映射到外显子内部区域的测序短片段和支持连接两个外显子的测序短片段,来识别外显子跳跃事件。上述实现中, 表示支持外显子保留的、连接该外显子与上游外显子的测序短片段数, 表示支持外显子保留的、连接该外显子与下游外显子的测序短片段数, 表示支持跳跃该外显子的、连接该外显子上游与下游外显子的测序短片段数。

Pervouchine等人提出了一个改进的计算 的方法[14]。由于支持连接不同外显子的测序短片段可能存在多种情况,所以Pervouchine使用公式14来评估 :

代表连接选择性外显子的上游外显子和选择性外显子的测序短片段, 代表连接选择性外显子的下游外显子和选择性外显子的测序短片段, 代表连接选择性外显子的上游外显子和选择性外显子的下游外显子的测序短片段, 代表支持跨越从5'剪接位点 到3'剪接位点 之间内含子的测序短片段, 代表剪接到3'剪接位点 的、连接两个外显子的测序短片段, 代表从5'剪接位点 开始剪接的、连接两个外显子的测序短片段。

JuncBASE方法[15]仅使用了连接两个外显子的测序短片段,在两种不同条件下使用Fisher检验,去识别外显子跳跃事件。

JETTA[16]使用SeqMap[17]和rSeq[18]方法获得基因、外显子、连接两个外显子的测序短片段表达值来评估在两种不同条件下所有外显子保留率,从而识别外显子跳跃事件。

AS detector[19]整合了两种计算方法的比较结果来识别外显子跳跃事件:一是在两种条件下比较连接不同外显子的、支持外显子保留的测序短片段和连接不同外显子的、支持该外显子剪接的测序短片段的不同;二是在两种条件下比较该选择性外显子的表达量和包含该外显子的基因的表达量的不同。AS detector分别用Fisher检验对上述两种比较进行统计显著的分析,计算出每一种比较的p-value,再通过使用weighted arithmetic equation方法[20]对这两个p-value进行校正,最终得到一个修正的p-value。对于修正后p-value值小于0.05的外显子即为AS detector方法识别的外显子跳跃事件。

2现有识别方法存在的问题

基于RNA-Seq数据识别外显子跳跃事件的方法,都是使用映射到与外显子跳跃事件相关位置的测序短片段作为特征,去构建计算方法和模型。

与外显子跳跃事件相关位置的测序短片段主要包括:映射到选择性外显子内部区域的测序短片段( );映射到支持外显子保留区域的、连接选择性外显子和其上游外显子的测序短片段( );映射到支持外显子保留区域的、连接选择性外显子和其下游外显子的测序短片段( );映射到支持外显子保留区域的测序短片段( );映射到支持外显子跳跃区域的、连接选择性外显子的上游外显子和选择性外显子的下游外显子的测序短片段( );映射到选择性外显子上游和下游外显子内部区域的测序短片段( );映射到包含此选择性外显子的基因区域的测序短片段( )。

SOLAS方法只使用了映射到选择性外显子内部区域的测序短片段;DEXSeq、DEGSeq、Splicing Index(SI)、Alexa-Seq使用了映射到选择性外显子内部区域的测序短片段和映射到包含该选择性外显子的基因区域的测序短片段;JuncBASE、Kakaradov methods、Pervouchines method只使用了支持外显子跳跃和保留的、映射到连接两个外显子区域的测序短片段;PSI、MATS使用了映射到支持选择性外显子保留和剪接区域的测序短片段;MISO使用了映射到支持选择性外显子保留和跳跃区域的测序短片段、以及选择性外显子的上游和下游外显子内部区域的测序短片段;JETTA和AS detector使用了映射到选择性外显子内部区域的测序短片段、映射到包含该选择性外显子的基因区域的测序短片段和映射到支持外显子跳跃和保留的、映射到连接两个外显子区域的测序短片段。现有外显子跳跃事件识别方法及其用到的测序短片段特征,如表1所示。从表中可以看出,现有的方法都是利用了与外显子跳跃事件相关的部分信息去构建计算模型和方法。例如,SOLAS的方法没有使用支持外显子跳跃和保留的、映射到连接两个外显子区域的测序短片段、以及映射到包含该选择性外显子的基因的测序短片段信息。DEXSeq、DEGSeq、Splicing Index(SI)、Alexa-Seq没有使用支持外显子跳跃和保留的、映射到连接两个外显子区域的测序短片段信息。JuncBASE、Kakaradov's methods、Pervouchines method没有使用映射到选择性外显子内部区域的测序短片段、以及映射到包含该选择性外显子的基因的测序短片段信息。PSI、MATS、MISO没有使用映射到包含该选择性外显子的基因的测序短片段信息。JETTA、AS detector没有将选择性外显子剪接事件看成一个整体,没有使用映射到支持选择性外显子保留区域的测序短片段信息。

当前研究方法都是使用了与外显子跳跃事件相关的部分信息去构建计算模型和方法,而信息的过载和丢失会导致识别出具有假阳性和假阴性的结果,因此距离基于RNA-Seq数据准确地识别外显子跳跃事件的目标还有很大差距。

3 今后的研究

针对当前研究存在的问题,今后如何提高识别外显子跳跃事件的准确性;如何学习每一种与外显子跳跃事件相关的特征对准确识别外显子跳跃事件的影响;如何针对单端和双端测序数据的特性来构建识别方法使其可以同时应用到单端和双端的转录组测序数据上;针对具有多个生物学重复数据的情况,如何选取恰当的计算模型和统计方法来构建识别方法;针对多个生物学重复数据来自不同测序批次的情况,如何选取恰当的计算模型和统计方法来构建识别方法;如何利用已经被生物学实验验证过的外显子跳跃事件的信息来构建识别方法;如何结合现有的生物数据库信息来构建识别方法;如何验证识别结果的准确性;如何通过识别结果指导生物学家去做生物实验;这些问题都是今后基于RNA-Seq数据识别外显子跳跃事件研究的热点问题。

4 结束语

基于RNA-Seq数据识别外显子跳跃事件是一个新兴的研究方向,尽管目前该领域的研究已经取得了一定的进展,但现有研究仍然存在着一些问题。准确地识别外显子跳跃事件还需要许多熟悉生物科学和计算机科学的专家共同努力。随着大量与癌症相关的转录组被测序,以及精准医疗的出现,使得从癌症RNA-Seq数据中识别外显子跳跃越来越重要。希望有更好的计算模型和方法能够应用到该领域,从而使得基于RNA-Seq数据识别外显子跳跃事件的精准度越来越高。

参考文献:

[1] PAN Q, SHAI O, LEE L J, et al. Deep surveying of alternative splicing complexity in the human transcriptome by high-throughput sequencing [J]. Nature Genetics, 2008, 40(12):1413-1415.

[2] BLACK D L. Mechanisms of alternative pre-messenger RNA splicing [J]. Annual Review of Biochemistry, 2003, 72(1):291-336.

[3] MATLIN A J, CLARK F C W. Understanding alternative splicing: towards a cellular code [J]. Nature Reviews Molecular Cell Biology, 2005, 6(5):386-398.

[4] SAMMETH M, FOISSAC S, GUIGó R. A general definition and nomenclature for alternative splicing events[J]. Plos Computational Biology, 2008, 4(8):e1000147.

[5] WANG E T, SANDBERG R, LUO S, et al. Alternative isoform regulation in human tissue transcriptomes [J]. Nature,2008, 456(7221):470-476.

[6] KATZ Y, WANG E T, AIROLDI E M, et al. Analysis and design of RNA sequencing experiments foridentifying isoform regulation [J]. Nature Methods, 2010, 7(12):1009-1015.

[7] KAKARADOV B, YUAN X H, LEE L J, et al. Challenges in estimating percent inclusion of alternatively spliced junctions from RNA-seq data [J]. BMC Bioinformatics, 2012, 13 suppl 6(8):72-79.

[8] GRIFFITH M, GRIFFITH O L, MWENIFUMBO J, et al. Alternative expression analysis by RNA sequencing [J]. Nature Methods, 2010, 7(10):843-847.

[9] RYAN M C, CLELAND J, KIM R, et al. SpliceSeq: a resource for analysis and visualization of RNA-Seq data on alternative splicing and its functional impacts.[J]. Bioinformatics, 2012, 28(18):2385-2387