APP下载

灭字脊虎天牛线粒体基因组密码子使用偏好性分析

2023-08-23付兴飞李亚麒程金焕李贵平李亚男黄家雄胡发广

江西农业学报 2023年6期
关键词:同义密码子碱基

付兴飞,李亚麒,程金焕,李贵平,李亚男,黄家雄,杨 旸,胡发广

(云南省农业科学院 热带亚热带经济作物研究所,云南 保山 678000)

全球绝大多数生物20类标准氨基酸仅有64个密码子编码,除蛋氨酸Met和色氨酸Trp外,每种氨基酸对应2~6个密码子,这种编码同一种氨基酸的不同密码子称为同义密码子[1-2],而同义密码子间使用频率不同的现象,被称为密码子偏好性[3]。在自然界中,密码子偏好性非常普遍,且受多种因素影响,其中突变压力和自然选择被认为是密码子偏好性形成的关键因素,但在不同物种间有所差异,如在籽粒苋(Amaranthus hypochondriacus)中突变压力是主导因素,而在杧果(Mangifera indica)中自然选择是主导因子[4-5]。密码子偏好性研究在揭示物种进化关系、提高外源基因表达、基因组特征以及生态适应性等方面具有重要意义。

昆虫线粒体基因是独立于细胞核染色体外的一组基因组,大小在15~18 kp,是一种外环为重链、内环为轻链的环形双链DNA结构,其线粒体基因组含13个保守蛋白质编码基因PGGs、22个tRNA、2个rRNA基因及一段控制区[6]。由于线粒体基因组通过母系遗传,其具有进化速率快、基因排序保守等特点,在系统发育和种群遗传等方面的应用也逐渐广泛[7]。何积翠等[8]在线粒体基因的使用模式上开展了大量研究,有效揭示了形成密码子偏好性的原因,也为进一步了解系统发育和种群进化等提供了理论依据,但研究对象主要集中于农作物及水生生物。在昆虫方面,赵婉清等[9]通过对猎蝽科11亚科30属代表物种的线粒体基因组同义密码子相对使用频率RSCU进行对比,发现以A/U结尾的密码子的使用频率高于G/C结尾的,与昆虫线粒体基因组的高AT特性保持一致。

灭字脊虎天牛(Xylotrechus quadripes)又称咖啡灭字虎天牛,隶属于鞘翅目(Coleoptera)天牛科(Cermbycidae),是危害亚洲咖啡产区小粒咖啡的重大型蛀干害虫,因其以幼虫在2年生及以上咖啡主干内蛀食为害,导致咖啡植株受害部以上生长不良或死亡,造成咖啡减产,对海拔1200 m以下咖啡园构成了巨大的威胁[10]。线粒体作为主要ATP生产中心,在发育和代谢中具有重要作用,并且由于其母系遗传,还可以为具有高表达水平和生物遏制的转基因开辟策略[2]。然而,关于灭字脊虎天牛线粒体基因组密码子偏好性的分析至今尚未开展。因此,本研究以灭字脊虎天牛线粒体基因组序列为研究对象,利用Codon W 1.4.2、Excel 2020、Origin 2022及PASW Statistics 20.0等软件探究灭字脊虎天牛线粒体基因组密码子偏好性,揭示影响密码子使用模式及其偏好性的形成因素,以期为了解灭字脊虎天牛线粒体的基因组特性和进化方向提供科学依据。

1 材料与方法

1.1 数据来源

在NCBI数据库中以灭字脊虎天牛的拉丁名(Xylotrechus quadripes)为关键词进行检索,下载相关的线粒体基因组序列及其编码区(Coding DNA sequence,CDS),下载的基因组序列全长为24859 bp,共选取16条长度大于300 bp,且以ATG为开始,TAG、TAA、TGA结尾,内部不存在终止密码子的非重复基因序列用于数据分析[11]。

1.2 分析方法

1.2.1 密码子组成分析 使用Codon W 1.4.2软件对16条非重复基因序列的有效密码子使用个数(Effective number of codon,ENC)、同义密码子使用度(Relative synonymous codon Usage,RSCU)、最优密码子频率(Frequency of optimal codon,Fop)、密码子适应指数(Codon adaption index,CAI)、第3位密码子各碱基含量(T3s、A3s、G3s、C3s)、总GC含量以及密码子第1~3位上碱基GC含量(GC、GC1、GC2、GC3)及同义密码子第3位碱基的GC含量(GC3s),GC12(GC1、GC2的平均值)、芳香族氨基酸比例(Aromo)、基因编码序列长度(L)进行计算,并使用PASW Statistics 20.0软件对灭字脊虎天牛线粒体基因组偏好性相关参数进行相关性分析,揭示彼此之间的关系。

1.2.2 中性绘图分析 以GC3为X轴,CC12为Y轴绘制16条非重复基因序列的二维散点图,根据散点在对角线上的分布情况,初步判断密码子偏好性的形成因素。当散点沿对角线分布,回归系数接近1时,表明两者的差异基本一致,密码子不同位置上的碱基构成无差异,该基因主要受到突变动力的影响,受自然选择的影响较小;若散点没有沿对角线分布,回归系数接近0,则表明两者的差异较大,该基因受到自然选择的影响[12]。

1.2.3 ENC-plot绘图分析 ENC-plot绘图分析可以辨析密码子偏好性,ENC值(20~61)越接近20,密码子受突变动力的影响越大;越接近61,则受自然选择的影响越大[13]。以灭字脊虎天牛线粒体基因组各CDS序列中GC3为X轴,有效密码子数为Y轴绘制散点图,并根据式(1)计算ENC值,在散点图中形成ENC值的期望线。

1.2.4 PR2-plot绘图分析 PR2-plot绘图分析可以揭示密码子第3位上4种碱基(A、T、G、C)间的组成偏差对密码子偏好性是否产生影响。以G3/(G3+C3)和A3/(A3+T3)分别为X轴和Y轴进行绘图,图的中心点表示碱基A=T、G=C(密码子无偏向性和突变),从中心点发出的矢量表示该碱基偏移的程度和方向[14]。

1.2.5 最优密码子分析 以ENC为标准,对所有参试基因按降序进行排序,分别选取两级10%的基因建立高低偏好性库,并计算ΔRSCU(高低两组相减的RSCU值)。以ΔRSCU≥0.08的密码子为高表达密码子,同时为高频和高表达的为最优密码子[5]。

2 结果与分析

2.1 密码子碱基组成

由表1可知:灭字脊虎天牛线粒体基因组中密码子上的GC含量存在差异,全部CDS密码子GC含量为38.18%~47.56%,平均含量为42.66%;平均含量排序为GC3>GC1>GC2,不同位置上GC含量不均衡;密码子第3位核苷酸碱基含量排序为A3s>T3s>G3s>C3s;ENC值的范围在50.08~57.26,平均值为54.51,接近61;CAI值范围在0.175~0.216,平均值为0.190;Fop在0.365~0.468,平均值为0.400,均接近0。综上表明,灭字脊虎天牛线粒体基因组密码子的偏好性较弱,倾向于以A/T结尾的密码子。

表1 灭字脊虎天牛线粒体基因组密码子偏好性相关参数

由表2可知,GC与GC2、GC3呈极显著正相关,GC2与GC3呈极显著正相关,但GC2、GC3与GC1无显著相关关系,这表明密码子的第2、3位碱基组成较为相似,与第1位碱基的组成差异较大,存在明显位置效应;ENC与GC2、CAI与GC12均呈极显著正相关,但ENC、CAI与GC1、GC3无明显的相关关系,这表明第2位碱基对密码子偏好性影响更显著;密码子适应指数CAI 与GC、G3s、ENC、Fop 呈显著正相关,Fop与GC、GC2、GC3、C3s、CAI、GC12呈显著正相关,与A3s和T3s呈显著负相关,这表明基因的表达水平和密码子使用偏好性程度均会受到核苷酸组成的影响。

表2 灭字脊虎天牛线粒体基因组密码子偏好性参数相关分析

2.2 中性绘图分析

可以通过中性绘图分析揭示GC3与GC12的相互关系,由此反映灭字脊虎天牛线粒体基因组密码子使用模式中自然选择和突变压力之间的均衡性。由图1可知,该基因组中GC3含量分布范围介于39%~47%,GC12含量分布范围介于37.52%~42.98%。GC3与GC12之间无显著相关性(R=0.229,P=0.393)。这表明密码子第3个位置上的碱基组成不同,GC含量水平高度保守,密码子偏好性更多地受自然选择的影响。

图1 灭字脊虎天牛线粒体基因组中性绘图分析

2.3 ENC-plot绘图分析

由图2可知,全部基因处于期望曲线之下,实际ENC值与预期ENC值具有一定距离。对ENC比值频率进行分析,在4个区间范围内的16个基因与期望值差异较大(表3)。综上表明,灭字脊虎天牛密码子使用偏好性受多种因素的影响(如突变压力),但自然选择仍是关键因子。

图2 灭字脊虎天牛线粒体基因组ENC-pot绘图分析

表3 灭字脊虎天牛线粒体基因组有效密码子数比值频数分析

2.4 PR2-plot绘图分析

通过PR2-plot绘图探究4个密码子编码的氨基酸家族中第3位上嘌呤和嘧啶分布情况(图3)。结果表明,第一、二、三、四象限分别有1、6、6、3个基因,主要分布在第二和第三象限内,碱基T的使用频率高于A的,碱基C的使用频率高于G的。这表明自然选择是影响灭字脊虎天牛线粒体基因组密码子偏好性的关键因素,同时也可能有其他因素的参与。

图3 灭字脊虎天牛线粒体基因组密码子奇偶偏好性分析

2.5 同义密码子相对使用度分析

同义密码子相对使用频率分析结果表明(表4),RSCU值小于1.00的有UUU、CUU、CUC等33个密码子,使用偏好性较弱,出现频率低;RSCU值等于1的有AUG、GCA、UGG等3个密码子,无使用偏好性;RSCU值大于1的有UUC、UUA、CUC等28个密码子,使用偏好性强,其中,AGA、AGG这2个密码子的RSCU值超过1.6,使用偏好性较强。在28个高频密码子中,以A/U结尾19个,其中U结尾10个;以G/C结尾9个,其中C结尾5个。这表明灭子脊虎天牛线粒体基因组密码子倾向于以A/U结尾,更倾向于以U结尾。

表4 灭字脊虎天牛线粒体基因同义密码子相对使用度

2.6 最优密码子确定

由表5可知,ΔRSCU≥0.08的高表达密码子有28个,其中以A结尾8个,U结尾10个,G结尾5个,C结尾5个。最优密码子共17个,分别为AUA、CUG、UUG、UUC、GUU、CCA、CCU、UCU、AGU、GAU、CAA、CAU、UAA、AGA、AGG、GGA、ACU,其中以A结尾6个,以U结尾7个,以G结尾3个,以C结尾1个。

表5 灭字脊虎天牛线粒体基因组最优密码子

3 讨论与小结

第3位碱基作为同义密码子的主要区别[8]。本研究的结果显示:GC3(49.14%)与GC2(35.53%)具有显著相关性,与GC1(47.14%)无显著相关性;同义密码子相对使用频率分析中,RSCU>1.0的密码子共有28个,其中以A/U结尾的密码子有19个;通过高频(RSCU)和高表达(ΔRSCU≥0.08)密码子共同确定最优密码子,本研究最终筛选出最优密码子17个,分别为AUA、CUG、UUG、UUC、GUU、CCA、CCU、UCU、AGU、GAU、CAA、CAU、UAA、AGA、AGG、GGA、ACU,其中最优密码子主要以A(6个)和U(7个)结尾,均表明灭字脊虎天牛线粒体基因组密码子偏好使用A/U结尾。该结果与赵婉清等[9]的研究结果一致,其研究发现猎蝽科11亚科30属代表物种的线粒体基因组A/U结尾的密码子使用频率高于G/C结尾的。而这种线粒体基因组密码子使用规律在水生动物或节肢动物中也具有相似性,例如:瓜螺(Melo melo)、横脊新猎蝽(Neocentrocnemis stali)、海南杆蝓猎蝽(Ischnobaenella hainana)、圆臀大黾蝽(Aquarius paludum)等[8-9,15]。ENC值、CAI值、Fop均可以揭示密码子偏好性的强弱,也是判断密码子偏好性受自然选择和突变动力影响的关键指标[13];CAI值和Fop值越靠近0,说明密码子偏好性越弱[16-17]。本研究的调查结果表明,灭字脊虎天牛线粒体基因组ENC平均值为54.5,与61更近,CAI和Fop的平均值分别为0.190和0.400,均接近0,这3个指标均显示了灭字脊虎天牛线粒体基因组密码子偏好性较弱。

密码子偏好性受突变压力、自然选择、碱基组成、tRNA、关联突变和链不对称等多种因子的影响[18-20],但对于绝大多数物种而言自然选择和突变压力是影响密码子偏好性的关键因子[2]。本研究结果表明,ENC与GC3和GC3s间无显著相关性,说明碱基组成并不是灭字脊虎天牛线粒体基因组密码子偏好性的主要影响因子。此外,原晓龙等[14]对云南蓝果树(Nyssa yunnanensis)叶绿体基因组密码子偏好性分析中发现,基因长度对密码子偏好性也有影响。本研究通过基因长度与其他指标的相关性分析表明,基因长度与其他指标间无显著相关性,说明了基因长度对灭字脊虎天牛线粒体基因组密码子偏好性几乎没有影响。通过ENC绘图、中性绘图、PR2奇偶偏移分析表明,灭字脊虎天牛线粒体基因组密码子偏好性的形成受自然选择和突变动力等因素共同影响,但自然选择仍是主导因素。

本研究首次针对灭字脊虎天牛线粒体基因组密码子偏好性进行系统性研究,但缺少对虎天牛属其余物种的比较分析,因此,也未能确定灭字脊虎天牛与其他虎天牛属物种的密码子偏好性是否具有一致性,下一步可对虎天牛属的其他物种进行密码子偏好性研究,进一步揭示虎天牛属物种线粒体基因组密码子偏好性的原因,最终确定导致同属间不同物种密码子偏好性差异的因素是否相同,以期为明确虎天牛属系统发生关系奠定科学基础。

灭字脊虎天牛线粒体基因组密码子偏好性较弱,偏好以A/U结尾的密码子,自然选择是导致灭字脊虎天牛线粒体基因组密码子偏好性的关键因子。通过高频和高表达密码子确定灭字脊虎天牛线粒体基因组最优密码子16个,最优密码子多以A/U结尾。本研究结果可以为了解灭字脊虎天牛线粒体基因组特性和进化方向等提供参考依据。

猜你喜欢

同义密码子碱基
Dale Carnegie
应用思维进阶构建模型 例谈培养学生创造性思维
密码子与反密码子的本质与拓展
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来4名新成员
生命“字母表”迎来4名新成员
西夏文《同义》重复字研究
10种藏药材ccmFN基因片段密码子偏好性分析
西夏文《同义》考释三则
嗜酸热古菌病毒STSV2密码子偏嗜性及其对dUTPase外源表达的影响