含内含子的核糖体蛋白基因转录起始位点情况分析
2013-07-31丁雪梅
丁雪梅
(曲靖师范学院 数学与信息科学学院,云南 曲靖 655011)
含内含子的核糖体蛋白基因转录起始位点情况分析
丁雪梅
(曲靖师范学院 数学与信息科学学院,云南 曲靖 655011)
选取69个含内含子的核糖体蛋白基因,抽取其中每个基因转录起始位点附近长度为100个碱基的序列,发现转录起始位点为碱基A的占92.8%,给出由位点状态转移到位点后与位点相邻状态的一步转移概率矩阵P以及由位点前与位点相邻状态转移到位点状态的一步转移概率矩阵 .含内含子的核糖体蛋白基因中富含碱基A,T的序列可能有利于基因的转录.
内含子;核糖体蛋白基因;转录起始位点
1 引言
合成基因的RNA(核糖核酸)拷贝的过程就是转录(transcription),转录起始(initiation of transcription)是指在基因上游负责将基因拷贝成RNA的蛋白复合物的组装过程,位点(locus)是染色体上遗传标记或DNA标记的位置,转录起始位点(TSS)是研究真核生物转录调控的一个重要方面.我们对含内含子的核糖体蛋白基因转录起始位点情况进行分析.
2 方法
2.1 选取样本
我们从酵母内含子数据库(YIDB,http://www. imb-jcna.de/RNA.html)中选出含内含子的核糖体蛋白基因,共计69个基因.为了探寻转录起始位点,人们已做了多次实验,每个核糖体蛋白基因至少给出了一个可能的转录起始位点,选取其中每个基因实验结果为出现次数最多的转录起始位点附近长度为100个碱基的序列,该位点位于这100个碱基序列的第51个位置,若每个基因实验出现次数最多的转录起始位点不止一个,只取其中的一个位点,抽取情况见表1.表1中sample表示样本,gene表示基因,experiment number表示实验次数,TSS(frequency)表示实验中核糖体蛋白基因上游(upstrean)的转录起始位点(转录起始位点出现的次数).
表1 含内含子的核糖体蛋白基因及转录起始位点
表1 含内含子的核糖体蛋白基因及转录起始位点
2.2 一步转移概率矩阵
我们选取的69个基因中,转录起始位点出现碱基A的有64个基因,转录起始位点出现碱基T的有3个基因,转录起始位点出现碱基C的有2个基因.为了叙述方便,我们给出碱基“前”与“后”的定义,如有序列5'-ATG-3',碱基T前面是碱基A,碱基T后面是碱基G.表2给出了抽取出的69个基因序列样本中转录起始位点及位点前后与位点相邻的碱基分布情况.表2中site before site表示位点前与位点相邻碱基,TSS表示转录起始位点,site after site表示位点后与位点相邻碱基,sample number表示样本个数.
表2 转录起始位点及位点前后与位点相邻的碱基分布情况
若Xm表示位点的状态,Xm-1表示位点前与位点相邻的状态,xm+1表示位点后与位点相邻的状态,引入转移概率
Pij表示在位点处于状态i的条件下,位点后与位点相邻的状态为j的转移概率,例如
类似地,可以计算PAG,PTA,PTT,PTG,PCA,由它们组成的一步转移概率矩阵P为
矩阵P反映了由位点的状态i经一步转移到位点后与位点相邻的状态j的概率.引入转移概率
P'ij表示在位点前与位点相邻的状态为i的条件下,位点的状态为j的转移概率,例如
类似地,可以计算P'TA,P'TT,P'GA,P'GT,P'GC,由它们组成的一步转移概率矩阵P'为
矩阵P'反映了由位点前与位点相邻的状态i经一步转移到位点的状态j的概率.
3 总结
我们选取了69个含内含子的核糖体蛋白基因,抽取其中每个基因转录起始位点附近长度为100个碱基的序列,发现转录起始位点为碱基A的占了92.8%,给出了由位点状态转移到位点后与位点相邻状态的一步转移概率矩阵P,以及由位点前与位点相邻状态转移到位点状态的一步转移概率矩阵P'.这可能预示着含内含子的核糖体蛋白基因中富含碱基A,T的序列有利于基因的转录.
〔1〕张新生,王梓坤.生命信息遗传中的若干数学问题[J].科学通报,2000,45(2):113~119.
〔2〕[英]T.A.布朗.基因组[M].北京:科学出版社,2004.
〔3〕盛骤,谢式千,潘承毅.概率论与数理统计(第三版)[M].北京:高等教育出版社,2004.
〔4〕复旦大学.概率论[M].北京:高等教育出版社,1995.
〔5〕张静,石秀凡.酵母基因中转录正调控内含子序列特征的统计分析[J].生物化学与生物物理进展,2003,30(2):231~238.
Q 503;Q 522
A
1673-260X(2013)02-0005-03