APP下载

pre-mRNA剪接调控因子的检测与估计研究现状分析

2013-08-15邢婧

生物技术世界 2013年10期
关键词:内含子邻域外显子

邢婧

(湖北经济学院统计学院 湖北武汉 430205)

耗时13年的人类基因工程的完成是生命科学发展的一个里程碑,标志着生命科学走向后基因组时代。事实上,基因表达的复杂性要远超过人们的想象。已知可增加蛋白质种类和数量的方式有DNA重组、RNA编辑和pre-mRNA的选择性剪接等,其中pre-mRNA的选择性剪接是产生如此众多蛋白质的主要机制。以下简介premRNA剪接调控因子的检测与估计研究现状分析

1 目前关于pre-mRNA剪切调控因子的检测与估计的方法分类

(1)利用调控因子在外显子与内含子分布的不同以及在不同类型的剪接位点邻域分布的不同进行估计。W.G.Fairbrother等首先提出了RESCUE方法,该方法利用以下两个性质估计ESE:(a)ESE在外显子分布高于在内含子的分布;(b)ESE在强的剪接位点邻域的分布密度低于弱的剪接位点邻域的分布密度。

(2)利用调控因子在真外显子与伪外显子分布密度的不同以及在外显子和非转录区分布密度的不同。X.H.F.Zhang等利用两个具有代表性的统计属性来识别ESE和ESS。这两种属性是:(a)ESE以及ESS在组成性剪接的非编码的外显子内部分布对比在未剪接的伪外显子中的分布;(b)ESE以及ESS在组成性剪接的非编码的外显子内部分布对比无内含子的5’未翻译区域的分布。

(3)利用近邻ESE或ESS分布强度来检测新的ESE以及ESS。M.B.Stadler等提出了一种基于近邻方法的ESE以及ESS识别模型,通过对输入序列邻域已知的ESE或ESS分布强度进行测定并对输入序列进行打分,正分表示该序列周围有较多已知的ESE,负分表示该序列周围有较多已知的ESS。

(4)基于支持向量机的分类估计。B.Mersch等通过已有的生物信息应用启发式规则构造了两类数据集,一类是中立集,一类是基于模体的数据集,分别用局部改进的支持向量机和基于组合级联核函数的支持向量机对两类数据集进行检测和估计,具有较高的ESE识别率。

(5)利用直系同源不同生物进化较为保守的外显子或与外显子邻近的内含子区域的序列频率分布差异估计。

(6)利用序列在包含内含子的基因与不包含内含子的基因的分布差别进行估计。

2 pre-mRNA的选择性剪接调控因子的估计存在的主要问题

(1)主要针对一种调控因子进行估计。目前大部分算法设计均仅针对单一的一种调控因子进行估计,较少利用多种调控因子分布的相关特征,难以做到针对多种调控因子进行系统的同时估计。

(2)主要针对固定长度的一种调控因子进行估计。已有大多数算法在估计调控因子时往往固定调控因子的长度在6-10范围内,仅仅针对其中一种长度的调控因子进行估计,较少考虑多种长度情形下的估计。

(3)必须依靠确定的阈值来进行估计。目前大部分算法均是基于调控因子在不同区域的分布差异设立某个确定的阈值,将超过临界阈值的固定长度的序列作为调控因子的估计结果。然而固定的阈值设定可能漏掉一些真正的调控因子或者得到一些错误的估计。

3 改进策略建议

将不同长度、不同类型、不同特征的pre-mRNA剪接调控因子在pre-mRNA上的分布特征以及相关特征进行综合考虑,利用隐Markov模型建立不同类型的pre-mRNA剪接调控因子与其观测特征之间概率估计的内在联系。可弥补了目前对于pre-mRNA剪接调控因子估计方法单调、检测长度单一以及检测种类单一等不足,通过引入隐Markov模型对pre-mRNA剪接调控因子进行系统的综合的考虑,有利于提高估计的准确率,发现新的调控因子。

[1]B.Modrek and C.Lee,A genomic view of alternative splicing,Nature Genetics,2002,30:13-19.

[2]S.M.Berget,Exon recognition in vertebrate splicing, J Biol Chem,1996,270:2411-2414.

[3]A.Churbanov,I.Vorechovsk and C.Hicks,Computational prediction of splicing regulatory elements shared by Tetrapoda organisms,BMC genomics,2009,10:508.

[4]A.P.Dempster,N.M.Laird and D.B.Rubin,Maximum likelihood from incomplete data via the EM algorithm,J R Stat Soc B,1977,39:1-38.

[5]J.C.Rajapakse and L.S.Ho,Markov encoding for detecting signals in genomic sequences,IEEE/ACM Trans Comput Biol Bioinform,2005,2(2):131-142.

猜你喜欢

内含子邻域外显子
外显子跳跃模式中组蛋白修饰的组合模式分析
线粒体核糖体蛋白基因中内含子序列间匹配特性分析
外显子组测序助力产前诊断胎儿骨骼发育不良
稀疏图平方图的染色数上界
不同方向内含子对重组CHO细胞中神经生长因子表达的影响
更 正
外显子组测序助力产前诊断胎儿骨骼发育不良
内含子的特异性识别与选择性剪切*
基于邻域竞赛的多目标优化算法
关于-型邻域空间