菜蝽线粒体基因组密码子偏好性分析
2020-07-14赵婉清柳大军伊文博高志忠张虎芳
赵婉清,张 敏,柳大军,雷 慧,伊文博,刘 佳,高志忠,张虎芳
(忻州师范学院生物系,山西忻州034000)
菜蝽(Eurydema dominulus)属半翅目(Hemiptera)异翅亚目(Heteroptera)蝽科(Pentatomidae)菜蝽属(Eurydema),主要为害油菜、甘兰、萝卜等十字花科蔬菜,2005 年在我国新疆察哈尔右翼中旗暴发成灾,是一种重要的农业害虫[1]。该种广泛分布于古北区,在我国从北到南各地均有发生,是菜蝽属内分布最广泛的物种[2]。菜蝽体色鲜艳,不同分布地的个体之间有色斑变异,存在多种表型[3]。
线粒体存在于所有真核生物中,是细胞进行能量交换和新陈代谢的场所。线粒体基因组因其具有母系遗传、结构稳定、进化速率适中等特点,逐渐成为现代系统发育和分子进化研究的重要分子标记[4]。近年来,随着新一代测序技术的发展,越来越多的昆虫线粒体基因组被测得,为进一步研究昆虫不同类群间的进化关系提供了基因组水平的证据[5]。昆虫线粒体基因组通常为闭合环状双链DNA 分子,长度为15~18 kb,包含37 个编码基因和一段控制区。其中,22 个转运RNA 基因(Transfer RNA/tRNAs)和2 个核糖体RNA 基因(Ribosomal RNA/rRNAs)与翻译过程有关;13 个蛋白编码基因(Protein-coding genes/PCGs)与细胞的呼吸有关[6-8]。
基因编码蛋白质的过程中,三联体密码子是mRNA 翻译形成特定氨基酸的关键。64(43)种密码子远多于20 种氨基酸,这就出现了不同密码子编码同一种氨基酸的现象,将这些密码子称为同义密码子[9]。理想状态下,即未受到选择压力或者突变的影响,同义密码子的使用频率是相同的。但是已有研究表明,同义密码子的使用存在不均衡现象,部分密码子使用频率较高,这种性质被称为密码子的偏好性[10]。目前,昆虫线粒体基因组的研究多基于系统发育方面,对密码子偏好性的研究相对较少,尤其针对同一物种密码子偏好性的比较分析尚未见报道。
本研究通过对菜蝽线粒体基因组13 个蛋白编码基因的密码子偏好程度进行分析,以确定高频密码子,并利用统计方法探讨偏好性的影响因素,以期为蝽科线粒体蛋白编码基因的进化机制提供一些理论依据;同时,菜蝽作为重要的农业害虫,分子水平的研究将为该种的防治提供一定的理论基础。
1 材料和方法
1.1 序列信息
菜蝽线粒体基因组序列下载自NCBI 网站GenBank 数据库(https://www.ncbi.nlm.nih.gov/nuccore/NC_044762.1),将13 个蛋白编码基因序列提取出来,保存为fasta 格式用于后续密码子偏好性分析。
1.2 数据分析
1.2.1 密码子碱基组成分析 运用Codon W 1.4 分别计算13 条蛋白编码基因DNA 序列的总GC 含量(GC)、密码子第3 位上同义密码子GC 的含量(GC3s)、密码子偏好指数(Codon Bias Index,CBI)、密码子适应指数(Codon Adaptation Index,CAI)、有效密码子数(Effective Number of Codons,ENC)等参数,密码子第1、2、3 位GC 含量(GC1、GC2、GC3)采用在线分析软件CAIcal(http://genomes.urv.es/CAIcal)进行统计。GC12 表示密码子第1、2 位GC 含量(GC1和GC2)的平均值。
1.2.2 同义密码子使用偏好性分析 序列的同义密码子相对使用频率(Relative Synonymous Codon Usage,RSCU)在软件MEGA 7.0 中统计;最优密码子采用ΔRSCU 法进行确定,即按照有效密码子数(ENC)的大小进行排列,分别从排列好的数列前后两端各取10%作为高、低表达基因样库,再计算2 组数据的RSCU 差值(ΔRSCU),若ΔRSCU>0.08 且在高表达基因库中的RSCU 值>1,则确定该密码子为最优密码子。
1.2.3 相关性分析 采用ENC 绘图分析和中性绘图分析密码子使用偏好性的原因,其中,ENC 绘图分析即以密码子第3 位同义密码子的GC 含量(GC3s)为横坐标、以有效密码子数(ENC)为纵坐标,通过分析二者的相关性来评估密码子使用偏好性;中性绘图分析即以密码子第3 位GC 含量(GC3)为横坐标、以密码子第1、2 位GC 含量的平均值(GC12)为纵坐标,通过分析二者的相关性来评估选择压力对密码子偏好性成因的影响。
2 结果与分析
2.1 密码子各位点GC 含量分析
基于13 条线粒体基因组蛋白编码基因序列各位点的GC 含量分析结果如表1 所示,3 个位点的GC 含量分别为GC1 平均值28.57%,波动范围为13.21%~40.09%;GC2 平均值31.11%,波动范围为22.64%~39.49%;GC3 平均值12.04%,波动范围为8.92%~15.97%,3 个位点的GC 含量平均为23.93%,波动范围为16.35%~30.03%。蛋白编码基因序列的AU 含量远高于50%,且第3 位上的AU 含量最高,表明线粒体密码子以A/U 结尾的频率高于GC。
表1 菜蝽线粒体基因组蛋白编码基因密码子碱基组成和使用参数
有效密码子数(ENC)用于评估某个基因的密码子使用频率与同义密码子平均使用频率的偏差,其取值一般在20~61,数值大小反映密码子偏好性的强弱,当ENC 为20 时,表明同义密码子完全偏移;当ENC 为61 时,表明同义密码子完全无偏好性。菜蝽线粒体基因组的ENC 平均值为34.18,波动范围为31.09~39.21,表明菜蝽线粒体基因在密码子的使用上具有一定的偏好性。密码子的偏好性指数(CBI)反映一个基因中高表达优越密码子的组分情况,与ENC 有很好的相关性。密码子的适应指数(CAI)用于评估基因表达水平,取值一般在0~1,数值越大说明基因表达水平越高,即密码子的使用偏好性越显著。菜蝽线粒体基因组的CBI 平均值为-0.25,波动范围为-0.17~-0.31;CAI 平均值为0.11,波动范围为0.07~0.13,这也表明菜蝽线粒体基因组密码子的使用具有一定程度的偏好性。
2.2 相对同义密码子使用分析
经数据分析计算得到菜蝽线粒体蛋白编码基因相对同义密码子使用度如表2 所示,UUU、UUA、AUU、AUA 等以A 或者U 结尾的碱基的同义密码子出现频率较高,其RSCU 值均大于1,属于菜蝽线粒体基因组偏好使用的密码子;相反,UUC、UUG、CUC、CUG 等以C 或者G 结尾的同义密码子出现频率较低,其RSCU 值均小于1,属于使用频率较低的密码子。UAA 和UAG 均为菜蝽线粒体基因组密码子的终止密码子,其中,UAA 为偏好使用密码子,其相对使用频率(RSCU)为1.26,UAG 的相对使用频率(RSCU)为0.74。
表2 菜蝽线粒体蛋白编码基因相对同义密码子使用度
2.3 最优密码子的确定
按照13 条序列的ENC 值大小排列后,从两端各取10%即2 条序列组成高、低表达样本库,分析结果如表3 所示,共有12 个最优密码子,分别为异亮氨酸(Ile)AUU、缬氨酸(Val)GUU、丝氨酸(Ser)UCU、AGU 以及脯氨酸(Pro)CCA、苏氨酸(Thr)ACU、丙氨酸(Ala)GCU、组氨酸(His)CAC、天冬氨酸(Asp)GAU、色氨酸(Trp)UGA、精氨酸(Arg)CGA、甘氨酸(Gly)GGU。
表3 菜蝽线粒体蛋白编码基因最优密码子确定
2.4 中性绘图分析结果
为分析菜蝽线粒体蛋白编码基因所受到的突变与选择压力的影响,进行了中性绘图分析,在中性绘图分析中,若GC12 与GC3 间显著相关,则说明密码子3 个位点的碱基组成没有差异,密码子的使用受到突变因素的影响;若GC12 与GC3 间相关性不显著,说明密码子第1、2 位和第3 位碱基组成有偏好性,密码子使用偏好性是受到选择压力的影响。
从图1 可以看出,线性回归方程显示,菜蝽线粒体基因组密码子GC12 含量与GC3 含量呈正相关,但不显著(R2=0.034 5),表明密码子使用偏好性的形成主要受到选择压力作用的影响。
2.5 ENC 绘图分析结果
根据ENC 绘图分析进一步确定选择压力是密码子偏好性的主要影响因素,若点位于标准曲线上,则表示该点所对应基因的密码子使用偏好性不受自然选择压力的影响。从图2 可以看出,所有的点均分布在标准曲线附近,且相对集中,ENC 取值为31.09~39.21,同义密码子第3 位GC(GC3s)含量为0.084~0.165;除较少的一部分点分布于标准曲线外部,其余的点均分布在标准曲线左下侧。由此可知,本研究中菜蝽线粒体基因组密码子使用偏好性主要受选择压力的影响。
3 结论与讨论
碱基组成和基因组的进化存在密不可分的关系。本研究结果表明,菜蝽线粒体蛋白编码基因的GC 含量平均值为23.93%(16.35%~30.03%),明显低于AT 含量,且密码子各位点的含量也稍有差异(GC2>GC1>GC3),相关研究表明,该现象与昆虫线粒体基因组在进化进程中具有的AT 偏倚性相关[11]。本研究筛选出AUU、GUU、UCU、AGU、CCA、ACU、GCU、CAC、GAU、UGA、CGA、GGU 共12 个密码子为菜蝽线粒体蛋白编码基因的最优密码子,其中,有8 个密码子以U 结尾,说明菜蝽线粒体蛋白编码基因更偏爱以U 结尾的密码子。菜蝽线粒体蛋白编码基因的ENC 平均值为34.18,波动范围在31.09~39.21,按照ENC 值小于35 密码子偏好性较强、大于35 则较弱的标准[12],该种线粒体基因组密码子使用虽然具有一定的偏好性,但是较弱。
本研究的中性绘图分析结果表明,GC12 和GC3 间相关性不显著,拟合方程为正值且斜率较小;同时,GC3 含量远小于GC1 和GC2,进一步说明密码子第3 位的碱基组成与前2 位的相似度较低,受到突变因素的影响较弱。ENC 绘图分析结果也说明了这一论点,图中没有点位于标准曲线上且所有点均集中分布于标准曲线左侧范围,实际ENC值与理论ENC 值差异较大。本研究的相关性分析证明,菜蝽线粒体密码子使用偏好性受到选择压力的影响作用更大[13-14]。
越来越多的的研究表明,基因密码子使用偏好性是生物进化的重要特征[15],造成该特征的影响因素并不是单一的,除选择压力作用外,基因突变、tRNA丰度、基因长度、表达水平等都会造成密码子的使用偏好[16-19],其中,突变和选择压力是普遍认为的主导因素[20]。本研究通过多种方法结合分析证明,选择压力是造成菜蝽线粒体蛋白编码基因密码子使用的主要原因,但具体影响机制还需进一步研究。