圆臀大黾蝽线粒体基因组密码子偏好性与COI基因适应性进化研究
2020-05-18赵婉清张敏刘佳高志忠伊文博柳大军
赵婉清 张敏 刘佳 高志忠 伊文博 柳大军
摘 要:利用CodonW、MEGA、EasyCodeML、CAIcal等软件及在线程序分析密码子偏好性相关参数(GC含量、ENC值、CAI值和CBI值),以明确圆臀大黾蝽线粒体蛋白编码基因的密码子使用偏好性和COI基因的适应性进化。通过中性绘图和ENC-plot分析了密码子偏好性的形成原因,采用位点模型研究COI基因的选择压力。结果表明,多数最优密码子以U结尾,RSCU值较高的密码子大部分都以A/U结尾;中性绘图和ENC-plot分析表明密码子偏好性主要受选择压力的影响;选择压力分析表明COI基因受到较强的纯化选择的作用,没有发现正选择位点。
关键词:圆臀大黾蝽;线粒体;密码子偏好性;COI;选择压力
中图分类号 S432.44;Q78文献标识码 A文章编号 1007-7731(2020)08-0010-05
Abstract: This study aims to clarify the codon usage bias in mitochondrial protein-coding genes of Aquarius paludum and the adaptive evolution of COI gene. CodonW, MEGA, EasyCodeML and CAIcal were used to analyze the relative parameters of codon usage bias (GC content, ENC, CAI and CBI). Neutrality plots and ENC-plot were used to analyze the reason of codon usage bias. Site model was used to analyze the selection pressures of COI gene. The results showed that most optimal codons end with U, and most codons with higher RSCU values end with A/U. Selection pressure was major influence factor on codon usage in mitochondrial genome of Aquarius paludum. The selective pressure analysis indicated that the COI gene was subjected to strong purification selection and no positive selection sites were found.
Key words: Aquarius paludum; Mitogenome; Codon usage bias; COI; Selection pressure
密码子识别是DNA序列成为功能性片段的必要过程。依据中心法则,遗传信息经过转录从DNA传递到mRNA上,然后再经过翻译过程传递给蛋白质[1]。mRNA中每个三联体密码子都与tRNA上的1个三联体反密码子相对应,除终止密码子不编码任何氨基酸,其余61个密码子编码构成蛋白质的20种氨基酸时就出现了冗余现象,即密码子的简并性[2]。研究表明,同义密码子的使用并不是完全随机,物种在长期进化的过程中会有适应性改变,从而偏好使用某些密码子,最优先被使用的密码子常出现在高表达基因中[3-4]。物种对密码子的偏好性提高了蛋白质翻译过程的时效性和准确性,对同义密码子使用偏好性的分析有助于深入了解物种的基因功能。
生物体在进化的过程中,基因的改变有2种情况:一种是密码子发生改变,但是其编码的氨基酸不发生改变;另一种是密码子改变引起了编码氨基酸的改变。前者称之为同义替换(dS),后者称之为非同义替换(dN)[5]。蛋白编码基因为保持结构和功能的稳定性,非同义替换数目小于同义替换数目(dN/dS<1),受到净化选择(负选择)的作用。但是在保守的蛋白编码基因中也存在受到正选择压力的位点,这些位点在物种进化和适应环境中起着重要的作用[6]。随着线粒体基因组序列的广泛报道,关于线粒体基因适应性进化的研究也越来越多,某些蛋白编码基因的正选择压力影响物种对环境改变的适应能力和机体功能的提高[7-8]。
线粒体COI基因是构建系统发育关系、快速鉴定、检测分化速率的常用线粒体基因[9]。COI基因作为核心酶,在电子传递链中具有重要的功能。其次,该基因虽然比较保守,但是它的进化速率仍然要比核基因快很多[10]。大量研究表明,昆蟲的COI基因受到较强的净化选择压力,但是在适应不同环境的前提下,物种面临的生存压力不同,COI基因作出的适应性进化选择也不相同[11]。本研究通过对圆臀大黾蝽线粒体基因组蛋白编码基因的密码子使用情况进行分析,了解该物种使用偏好性较高的密码子,确定最优密码,探究影响其密码子使用模式的因素,并比较异翅亚目昆虫COI基因的适应性进化,以期为昆虫线粒体基因的适应性进化提供新的研究思路。
1 材料与方法
1.1 序列获取 本研究所采用的序列均来源于NCBI数据库(https//www ncbi.Nlm.nih.gov/),圆臀大黾蝽(Aquarius paludum)线粒体蛋白编码基因序列用于密码子偏好性分析,另下载20条异翅亚目COI基因序列用于适应性进化分析,详细信息见表1。
1.2 密码子偏好性的分析方法 Codon W软件和CAIcal在线程序用于统计有效密码子数(Effective Number of Codons,ENC)、密码子适应指数(Codon Adaptation Index,CAI)、密码子偏好指数(Codon Bias Index,CBI)以及序列总GC含量(GC)、密码子各位点GC含量(GC1,GC2,GC3)、密码子第3位同义密码子GC含量(GC3s)。序列的相对同义密码子使用度(Relative Synonymous Codon Usage,RSCU)运用MEGA 7.0进行统计。最优密码子的筛选采用高表达优越密码子方法,按照ENC值大小分别选取有序数据集前后10%组成高、低表达数据集,根据2个数据集的△RSCU值来确定最优密码子。
对密码子偏好性影响因素的分析采用中性绘图分析和ENC-plot分析进行研究,分别以GC3和GC3s为横坐标,GC12和ENC为纵坐标作图。通过分析横纵坐标2因素的相关性,分析该物种密码子偏好性的成因。ENC-plot分析中所采用的的标准曲线方程为ENC=2+GC3S+29/[GC3S2+(1-GC3S)2]。
1.3 选择压力分析 用ω来表示基因受到何种选择作用的压力(ω=dN/dS),本研究基于EasyCodeML软件分析COI基因的选择压力。位点模型(Site Model)假设系统发育树的不同分支所受选择压力相同,但不同的氨基酸位点经历的选择压力不同。分别选取3组位点特异模型进行比较:M0(单一比率)与M3(离散),M1a(近中性)与M2a(正选择),M7(beta)与M8(beta & ω)。
2 结果与分析
2.1 碱基组成及相关参数 圆臀大黾蝽线粒体基因组共有13个蛋白编码基因,对这些序列的碱基组成进行了统计,结果如表2所示。从表2可以看出,序列的GC含量均低于50%,含量最高为COIII(31.30%),最低为ATP8(11.54%),说明圆臀大黾蝽线粒体基因组序列的AT含量远高于GC的含量。密码子3个位点的GC含量存在差异,除COII、CytB、ND1和ND4的密码子第1位点的GC含量高于第2位点的GC含量,其余基因密码子3个位点GC含量由大到小排列均为GC2>GC1>GC3,说明密码子第3位碱基更偏好使用A或U结尾。
ENC值、CAI值和CBI值的计算结果如表2所示。由表2可知,当ENC值越接近于20,密码子的偏好性越强,ENC值越接近于61,则偏好性越弱。本研究中ENC值的范围为21.96~36.77,平均值31.99,说明圆臀大黾蝽线粒体基因密码子使用具有一定的偏好性。CAI值取值范围为0.06~0.15(平均值0.10),CBI值的范围为-0.36~-0.17(平均值-0.27),这2项指标从基因表达水平和高表达密码子方面同样说明了圆臀大黾蝽线粒体基因密码子使用的偏好性。
2.2 同义密码子相对使用度及最优密码子 同义密码子相对使用度统计结果见表3。由表3可知,圆臀大黾蝽线粒体蛋白编码基因的密码子,共有30个密码子的RSCU值大于1(下划线标示)。其中,密码子第3位以A或U结尾的有28个,如UUA(RSCU=2.83)、UCA(RSCU=2.15)、UAU(RSCU=1.59)等,以C结尾的有1个,以G结尾的有1个。在RSCU值小于1的密码子中,91%的密码子以G或C结尾。由于RSCU值表示密码子实际使用的频率与不考虑偏好性时理论情况下的使用频率间的比值,RSCU值大于1的密码子则为编码该氨基酸时偏好使用的密码子,RSCU值小于1则表示该密码子编码氨基酸时具有较弱的使用偏好性。
根据各基因的ENC值排序,筛选出由COIII、ND1组成的高表达组和ND6、ATP8组成的低表达组。由表4可知,通过计算2个基因组的RSCU值,找出△RSCU大于0.08且在高表达组中RSCU值大于1的密码子,最终确定了UUG、AUU、GUU、UCU、CCU、ACU、GCU、UAU、CAU、AAU、GAU、UGU、CGU和GGU共14个最优密码子(*表示)。其中有13个最优密码子以U结尾,1个以G结尾,表明U结尾的密码子是圆臀大黾蝽线粒体蛋白编码基因优先偏好使用的密码子。
2.3 中性绘图和ENC-plot分析 中性绘图是通过判断物种GC12含量与GC3的相关性,确定该物种线粒体基因受到选择压力还是突变压力,结果如图1所示。由图1可知,GC12含量的变化范围在14.42%~39.26%(平均值27.84%),GC3含量的变化范围在5.77%~26.54%(平均值13.53%)。各基因所代表的点均未落在标准曲线上,回归曲线虽倾斜但斜率很小,说明GC12与GC3低度相关,只有极其微弱的突变作用影响密码子的偏好使用。
ENC-plot结果见图2。由图2可知,GC3s含量的变化范围在6.40%~22.67%之间(平均值12.93%),ENC值的变化范围在21.96~36.77之间(平均值31.99)。图中标准曲线表示密码子的使用只受到突变压力的作用,而各基因所代表的点均分布在标准曲线的左下方,说明突变作用在圓臀大黾蝽线粒体蛋白编码基因密码子使用偏好性中影响弱,选择作用为主要的影响因素。
2.4 选择压力 除圆臀大黾蝽的COI基因序列外,本研究另选取异翅亚目20条COI基因序列,经比对后得到长度为1542bp的矩阵。其中保守位点595个,变异位点947个,单突变位点69个,简约性位点877个。分析6个不同模型得到相关参数,结果见表5。由表5可知,在位点模型中,M3、M2a和M8模型的ω可以为大于1的数值。M0模型预测的ω值0.034,远小于1,说明所选取COI基因序列整体上受到净化选择的作用。LRT检验结果显示,M0与M3的模型比较下,p值小于0.01,说明M3模型比M0模型更适合;M1a与M2a模型比较下,p值大于0.99接近于1,说明这2种模型都没有优于对方;M7与M8模型比较的结果与M1a与M2a类似。M1a模型的ω值等于1,但是在6个模型中均未检测到正选择位点。
3 结论与讨论
作为联系基因和蛋白质的纽带,密码子在遗传信息发挥生物功能中具有重要的生物学意义。圆臀大黾蝽线粒体基因组包含13个蛋白编码基因,其在进化过程中形成了一套适应自身基因组的密码子使用特征[12]。本研究中,圆臀大黾蝽线粒体蛋白编码基因的平均GC含量为23.07%,ENC值为31.99,CAI值为0.10,均说明该物种偏好使用A/U结尾的密码子,且偏好性相对较弱。RSCU分析和最优密码子统计结果进一步显示,圆臀大黾蝽更偏好使用以U结尾的密码子,最优密码子中使用频率最高的是编码丝氨酸的密码子UCU。
由于密码子的简并性,第3位碱基的改变一般不改变其编码的氨基酸,所以分析密码子第3位的碱基组成对研究密码子使用偏好性的成因有重要作用。圆臀大黾蝽线粒体蛋白编码基因的GC3远小于GC1和GC2,说明第3位偏好使用A/U碱基,这与蛋白编码基因整体的GC含量和RSCU结果一致。同时,与密码子第3位相关的中性绘图分析和ENC-plot分析结果显示,影响圆臀大黽蝽线粒体基因密码子使用偏好性的主要因素为选择压力,受突变因素的影响较弱,这一结果与多数昆虫线粒体基因组密码子偏好性分析相一致[13]。
COI基因是线粒体基因中最常使用的分子标记,也是研究物种进化和系统发育时优先选择的基因。本研究选择异翅亚目21条COI基因序列,比较不同物种中该基因的选择压力。通过进行位点模型分析,证明异翅亚目昆虫线粒体COI基因主要受到了纯化选择的作用,没有检测到正选择位点。COI基因的进化速率虽然比核基因快2~9倍,但是在进化过程中具有高度的保守性。本研究为研究昆虫对环境的适应性进化提供了理论依据,但是要深入了解线粒体蛋白编码基因的适应性进化还需要进一步研究。
参考文献
[1]谢平.遗传密码子的起源——从能量转化到信息化[J].生物多样性,2017,25(01):94-106.
[2]Sciarrino A,Sorba P. Codon–anticodon interaction and the genetic code evolution[J].Biosystems,2013,111(3):175-180.
[3]张志东,陈爱华,吴杨平,等.5种文蛤属贝类线粒体基因密码子偏好性分析[J].海洋渔业,2019,41(05):589-595.
[4]任桂萍,董璎莹,党云琨.密码子中的密码: 密码子偏好性与基因表达的精细调控[J].中国科学:生命科学,2019,49(07):839-847.
[5]Yang Z,Wong WS,Nielsen R. Bayes empirical bayes inference of amino acid sites under positive selection[J].Molecular Biology and Evolution,2005,22(4): 1107-1118.
[6]Anisimova M,and Kosiol C. Investigating protein-coding sequence evolution with probabilistic codon substitution models[J].Molecular Biology and Evolution,2009,26(2):255-271.
[7]周华兴.广义拟水龟属线粒体基因组系统发生学及龟类动物线粒体ND5基因适应性进化研究[D].芜湖:安徽师范大学,2016.
[8]孙铮.昆虫基因组密码子使用及进化分析[D].泰安:山东农业大学,2009.
[9]呼晓庆,杨兆富.基于线粒体COⅠ、Cytb和COⅡ基因的中国草地螟不同地理种群遗传分化分析[J].昆虫学报,2019,62(06):720-733.
[10]陈星,沈永义,张亚平.线粒体DNA在分子进化研究中的应用[J].动物学研究,2012,33(06):566-573.
[11]Fitzpatrick DA,Creevey CJ,McInerney JO. Evidence of positive darwinian selection in putative Meningococcal vaccine antigens[J].Journal of Molecular Evolution,2005 (61):90-98.
[12]张玉波,周中艳,王廷慧,等.30种半翅目昆虫线粒体COⅠ基因密码子偏好性聚类分析[J].江苏农业科学,2018,46(14):15-18.
[13]王鹏飞,高欢欢,苏玲,等.2种果蝇(Drosophila melanogaster与D. sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析[J].安徽农业科学,2018,46(01):96-101.
(责编:张 丽)