线粒体核糖体蛋白基因中内含子序列间匹配特性分析
2021-06-01李瑞芳杨萨如拉程永霞赵瑞峰
冯 雪, 李瑞芳, 杨萨如拉, 程永霞, 赵瑞峰
(内蒙古师范大学 物理与电子信息学院,内蒙古 呼和浩特 010022)
内含子是真核生物基因组的重要组成部分[1-2],在真核生物体内普遍存在。内含子作为一类特殊的非编码序列,与基因表达、细胞骨架构建和动态变化密切相关[3-4]。例如,内含子可以通过剪接来提高mRNA稳定性、促进mRNA的输出、增强mRNA的翻译,进而提高基因的表达[5]。许多研究表明内含子中存在基因表达的重要调控元件[6]。且内含子不仅参与基因的转录调控、前体mRNA的加工(主要是选择性剪接),也参与多种非编码RNA的功能活动[7-8]。
内含子的突变与许多疾病的产生、发展都有着重要的联系。例如,内含子的保留也会出现在如白血病、乳腺癌等许多肿瘤细胞中[9],且内含子的突变能够诱导很多疾病[10-11],重型血友病患者中最常见的突变类型就是凝血因子VIII基因中的内含子22倒位突变[10]。同一基因中的内含子之间存在具有某种生物学功能的相互作用,内含子可以通过配对驱动环化的形式形成circRNA[12-15],也能通过与mRNA的序列匹配来控制结合蛋白因子在mRNA上的结合[16]。并且mRNA的序列功能区和内含子的匹配有着特殊的存在形式,其中序列功能区包括翻译终止位点、翻译起始位点及外显子连接处[17-18]。所以,内含子之间的相互匹配特性分析有着重要的生物学意义。
核糖体蛋白基因在进化时具有高度保守性[19],所以本文选用线粒体核糖体蛋白基因序列作为研究样本。将所有基因序列整合,研究其内含子序列,并采用Smith-Waterman局域比对方法,得到最佳匹配区域。分析其内含子序列之间的相互匹配特征,希望揭示的这些特性能为进一步研究内含子的功能提供基础数据。
1 材料与方法
1.1 材料选取
本文以核糖体蛋白质基因数据库(RPG:Ribosomal Protein Gene Database)中收录的所有物种的线粒体核糖体蛋白基因序列为样本,获取并整合所有基因序列数据,从411条线粒体核糖体蛋白基因中统计得到1 499条内含子序列。具体信息见表1。
1.2 统计方法
1.2.1 比对方法 考虑到内含子序列之间最基本的相互作用体现在碱基互补上,为分析第一内含子与其它内含子的匹配特征,首先对每个蛋白基因中的非第一内含子进行反向互补,然后采用Smith-Waterman局域比对方法,将得到的反向互补序列与相应第一内含子序列进行局域相似性比对,得到最佳匹配片段[20]。
1.2.2 长度、GC含量及配对率频率函数 序列的长度和GC含量体现了序列的基本特性,对每个物种的每个线粒体核糖体蛋白基因中的第一内含子和最佳匹配片段,依据公式(1)至公式(5)计算了第一内含子长度分布频率(FL)、最佳匹配片段长度分布频率(FLm)、第一内含子GC含量分布频率(FGC)、最佳匹配片段GC含量分布频率(FGCm),以及最佳匹配片段配对率频率(Fmat)。每种频率值的计算方法如下:
(1)
(2)
(3)
(4)
(5)
其中:FL是第一内含子长度频率函数;NL是长度为L的第一内含子个数,由于五个物种所有基因中的第一内含子长度最短为43 bp,所以统计长度频率从L=43开始计算;FLm是最佳匹配片段长度频率函数;NLm是长度为L的最佳匹配片段的个数,考虑到长的最佳匹配片段更有可能具有某种生物学意义,因此在统计最佳匹配片段时,去掉了太短的片段,从长度为6 bp的片段开始计数;FGC是第一内含子GC含量频率函数;NGCi是GC含量为i的内含子个数;FGCm是最佳匹配片段GC含量的频率函数;NGCmi是GC含量为i的最佳匹配片段个数;Fmat为最佳匹配片段配对率频率函数;Nmati为GC含量为i的最佳匹配片段个数。
1.2.3 匹配频率的分布 由于基因组内的所有第一内含子序列长度各不相同,为了方便对比,对基因组内的所有第一内含子序列进行标准化处理,由此得到最佳匹配片段在序列标准化长度为100 bp的第一内含子的相对位置分布。具体计算方法如公式(6)和公式(7)[20]:
(6)
其中:nij为序列每个位点的相对位置函数;Li为第i条第一内含子的长度;l为最佳匹配片段在序列标准化的长度(l=100 bp);Nij为第i条内含子序列的第j个碱基位点。
对每条第一内含子位点上定义赋值函数,计算方法如公式(7)[20]:
(7)
其中:fi j为基因组第i条序列中第j位点的赋值函数(j=1,2,…,99,100);nia和nib分别为最佳匹配片段起始碱基相对位点和终止碱基相对位点(i=1,2,…,n)。fi j对最佳匹配区域内的位点赋值为1,对最佳匹配区域外的位点赋值为0,由此得到内含子序列的位点数据。由此,定义表示内含子各位点参与匹配频率的参量——相对频率函数,具体计算方法如公式(8)[20]:
(8)
其中:Fr为标准化后的相对频率函数;Ni a和Ni b分别为最佳匹配片段起始碱基位点和终止碱基位点(i=1,2,…,n),m为最佳匹配片段总个数。
2 结果与分析
2.1 第一内含子序列的特征分析
统计线粒体核糖体蛋白基因序列中所有的第一内含子。由公式(1)和公式(3)计算出其长度、GC含量及相应的频率函数。由于第一内含子长度的分布范围非常广泛,个别内含子长度达到50 000 bp,统计发现大部分内含子的长度在0~1 400 bp。为了体现大部分第一内含子长度分布特征,图1(a)只体现了0~1 400 bp长度范围内内含子的分布规律。
由1图可知,线粒体核糖体蛋白基因第一内含子的长度主要分布在0~200 bp之间,在40 bp处出现峰值。Halligan以80 bp为界限将内含子分为短内含子和长内含子[18],说明虽然样本基因中包含人类和家鼠的基因序列(有较多长内含子),但统计结果发现第一内含子主要分布在较短的长度范围内。而GC含量分布接近于正态分布,在GC含量为0.40处出现最高频率。
2.2 最佳匹配片段特征分析
对每个线粒体核糖体蛋白基因中的非第一内含子进行反向互补,采用Smith-Waterman局域比对方法,将同一基因中的第一内含子与得到的反向互补序列进行局域相似性比对,得到最佳匹配片段。在此基础上,依据公式(2)、公式(4)和公式(5)计算出最佳匹配片段的长度、GC含量和配对率频率函数,结果如图2所示。
图2可看出,最佳匹配片段的长度范围分布在0~100 bp之间,长度为22 bp左右的最佳匹配片段的占最大比重,且在长度为100 bp也有较高的比重。对于最佳匹配片段配对率,分布在40%到100%之间。配对率在 60%处出现峰值,也有部分达到100%。最佳匹配片段GC含量分布在0.1和0.9之间,且在0.2和0.5处出现两个峰值。
图2 线粒体核糖核蛋白基因最佳匹配片段分布图Fig.2 The distribution of the optimal matched segment of mitochondrial ribosomal protein genes
2.3 最佳匹配片段在第一内含子序列相对位置分布图
由于不同基因序列第一内含子的长度相差很大,为方便对比,根据公式(6)把第一内含子序列长度标准化到100 bp,并根据公式(7)和(8)中计算第一内含子序列各位点的相对位置和相对频率。此外,考虑到GC含量可能对内含子之间的相互匹配起到关键作用,把第一内含子最佳匹配片段按照GC含量的不同分成三组,分别为高GC含量组(CGC>50%),中GC含量组(30% 图3 线粒体核糖体蛋白基因最佳匹配片段在第一内含子序列的相对位置分布图Fig.3 Distributions of relative position of matching segments in the first intron sequence of mitochondrial ribosomal protein genes 由图3可看出,线粒体核糖体蛋白基因内含子间最佳匹配片段在第一内含子序列的相对位置分布中出现了多个峰值。分析不同GC含量的3组最佳匹配片段的相对位置分布。发现低GC片段分布连续,没有明显的极大值,中GC片段在10 bp,37 bp,45 bp,58 bp,93 bp左右出现极大值,高GC片段在10 bp,26 bp,87 bp,96 bp左右出现极大值。表明了不同GC含量组的最佳匹配片段在第一内含子中的相对位置的分布具有明显差异。这意味着片段的GC含量在内含子之间相互作用中可能起着关键性的作用。 线粒体核糖体蛋白基因第一内含子的长度主要分布在0~200 bp之间,在40 bp处出现峰值。说明线粒体核糖体蛋白基因序列中第一内含子主要分布在较短的长度范围内。Castillo-Davis等人对内含子偏短的现象进行了解释:也许短内含子是高表达基因的一个原始特征,所以自然选择的精炼作用阻止它们变长。在进化过程中,由于积极选择压力导致高表达基因的内含子长度逐渐变短[21-22],这也解释了线粒体核糖核蛋白基因序列中虽然有高等生物人类和家鼠的基因序列,但还主要分布在较短的长度范围内。而GC含量分布接近于正态分布,在0.40处出现最高频率。而这些GC含量的不同有可能在基因调控表达以及发生突变时发挥重要的作用。 对第一内含子与其它内含子最佳匹配片段特征结果分析发现,最佳匹配片段的长度范围分布在0~100 bp之间,在长度为22 bp左右的最佳匹配片段的占最大比重,且在长度为100 bp也有较高的比重。而最佳匹配片段配对率的分析结果表明,最佳匹配片段配对率分布在40%到100%之间,在60%处出现峰值,也有部分达到100%。目前已发现的微小RNA分子包括微小RNA(microRNA,miRNA)和小干扰RNA(siRNA),它们也是真核生物中两种主要的非编码RNA(non-coding RNA),在真核生物中发挥重要作用[23]。微小RNA是近年来在多种真核生物及病毒中发现的一类长度为19~26 bp、且具有基因表达调控作用的单链或双链RNA分子[24]。siRNA通过与靶mRNA[25]的完美互补,引导mRNA沉默。并通过不同程度的互补来抑制靶mRNA的转录和表达[26]。有研究发现,miRNA与靶mRNA的匹配率范围在65%~95%之间[27],这些研究结果与本文的统计结果的对比暗示着内含子与内含子相互匹配的部分最佳匹配片段可能与siRNA或miRNA一样,是一类具有特殊生物学功能的非编码RNA。 分析GC含量不同的3组最佳匹配片段的相对位置分布,发现低GC片段分布连续,没有明显的极大值,中GC片段在37 bp,58 bp,93 bp左右出现极大值,高GC片段在10 bp,26 bp,87 bp,96 bp左右出现极大值。表明了不同GC含量组的最佳匹配片段在第一内含子中的相对位置的分布是有明显差异的。这表明最佳匹配片段GC含量会影响最佳匹配片段的位置分布,所以,片段GC含量在内含子序列之间相互作用中很可能起着关键性的作用。 内含子之间通过碱基互补配对,部分可能反向剪接环化形成circRNA,说明内含子的序列特征和内含子序列之间的相互作用可能在circRNA的形成,调控元件的协作和竞争等过程中起到很关键的作用。另外,内含子繁多的种类增加了生物生命活动调控的复杂性。所以对内含子的生物功能的深入探讨是非常有意义的研究工作。随着研究的进一步深入,会有内含子的更多生物学功能被掲示出来。3 讨论