APP下载

橄榄叶绿体基因组密码子偏好性特征

2022-11-01赖瑞联覃振师陈义挺沈朝贵田奇琳吴如健

关键词:密码子叶绿体橄榄

赖瑞联, 陈 瑾, 冯 新, 覃振师, 陈义挺, 沈朝贵, 田奇琳, 吴如健

(1.福建省农业科学院果树研究所,福建 福州 350013;2.广西农业科学院广西南亚热带农业科学研究所,广西 崇左532415;3.闽南师范大学生物科学与技术学院,福建 漳州 363000)

密码子是生物体遗传信息的基本单元,自然界中的20种氨基酸除酪氨酸和甲硫氨酸外,其余氨基酸均对应多个密码子,称为同义密码子.同义密码子在生物体中的使用并不是随机和均等的,这种使用频率的差异便形成了密码子偏好性.在生物体中,同义密码子的选择并不会改变蛋白质的种类和特征,但会影响蛋白质的翻译效率,在长期的物种进化过程中,形成的最优密码子往往集中在高表达基因或多态性位点中,从而维持选择的有效性[1-2].在密码子偏好性特征的形成机理研究中,比较公认的是中性理论和选择—突变—漂移假说,即密码子偏好性是对非同义密码子的突变—漂移以及对最优密码子选择压力综合作用的结果.因此,目前广泛认为,突变压力和自然选择是密码子偏好性形成的最主要的影响因素[3].不同生物体密码子偏好性模式不同,通常近缘物种的偏好模式较为一致,开展密码子偏好性研究有利于进一步揭示物种的起源和进化规律[4-6].

叶绿体是高等植物或藻类特有的能量转换系统,叶绿体基因组是存在于叶绿体中,呈双链环状,能够进行基因转录和翻译的相对独立的遗传信息载体.由于植物中的叶绿体基因组往往具有高保守性和低进化速率等特征,其常常被用于物种进化规律和遗传鉴定等方面的研究.其中,叶绿体基因组密码子编码规律的研究可为揭示植物的分子特征提供重要的参考依据[7].

橄榄(Canariumalbum)是我国热带和亚热带地区的特色果树,其果实兼具药食两用,具有很好的开发利用前景.通常认为,中国是橄榄种质资源起源和遗传多样性分布中心,然而,目前橄榄的相关研究工作主要集中在种质资源、栽培技术、药理活性、保鲜加工和果实品质等方面[8].橄榄遗传背景的研究较少,其密码子偏好性的研究仅在基因个体或转录本中有少数报道[9-10].鉴于此,本研究在前期组装的橄榄叶绿体基因组的基础上,进一步对其密码子偏好性及其影响因素进行研究,同时确定橄榄叶绿体基因组最优密码子,旨在为橄榄叶绿体基因组的进化遗传学和叶绿体基因工程研究提供参考.

1 材料与方法

1.1 基因序列的获取

在前期工作中,本项目组采用BGISEQ-500测序平台完成了橄榄叶绿体基因组的测序,组装获得了163 140 bp基因组序列(附件图Ⅰ,扫OSID码可见),包含83个蛋白编码基因,GenBank登录号为MN217684[11].在基因筛选时,首先剔除重复序列,随后选择以ATG作为起始密码子,TAA、TAG和TGA为终止密码子,且编码区总长度超过300 bp的叶绿体基因序列用于密码子偏好性分析,最终获得54个符合条件的蛋白编码基因.筛选结果如表1所示.

1.2 橄榄叶绿体基因组密码子偏好性分析

1.2.1 密码子偏好性参数分析 采用CodonW程序和EMBOSS在线软件(http://bioinformatics.nl/emboss-explorer/)分析橄榄叶绿体基因组密码子的偏好性参数,包括有效密码子数(effective number of codons, ENc)、密码子第1、2、3位上的GC含量(GC1s、GC2s、GC3s)、总GC含量(GC)、同义密码子相对使用度(relative synonymous codon usage, RSCU)、密码子出现次数(codon number, CN)、密码子适应指数(codon adaptation index, CAI)、密码子偏好指数(codon bias index, CBI)和最优密码子使用频率(frequency of optimal codons, FOP).同时,采用统计学软件SPSS 19.0进行各参数间的相关性和显著性分析.

1.2.2 中性绘图分析 密码子第1、2位上的碱基通常会发生非同义突变,改变编码蛋白,影响基因的功能,而第3位上的碱基通常会发生同义突变.中性绘图分析通过比较GC12(密码子第1、2位上的平均GC含量)与GC3s的相关性,衡量密码子偏好性形成的影响因素.通常认为,GC12与GC3s之间存在显著相关性,且回归系数近似1.0时,密码子不同位点上的碱基组成没有差异,密码子偏好性的形成主要受突变压力的影响;反之,密码子不同位点上的碱基组成存在差异,密码子偏好性的形成主要受自然选择的影响.

1.2.3 ENc对应分析 ENc是衡量密码子偏好性程度的重要指标,取值20~61,值越小说明密码子偏好性越强,反之则偏好性越弱.根据Wright[12]提出的理论,通过GC3s可以计算获得ENc的理论值.ENc对应分析的是ENc与GC3s之间的关系,以GC3s为横坐标,若ENc分布在标准曲线附近,则说明密码子偏好性受突变压力的影响;若ENc分布在标准曲线下方较远的位置,则说明密码子偏好性主要受自然选择的影响.

1.2.4 偏倚分析 偏倚用于衡量密码子第3位上的AT与GC之间的突变是否平衡.以A3/(A3+T3)为纵坐标,G3/(G3+C3)为横坐标,由中心点(A=T、C=G)发出的矢量反映该碱基的偏移程度和方向.若基因集中分布在中心位置附近,则说明4种碱基使用的频率相对一致,密码子偏好性主要受突变压力的影响;若基因偏离中心,位置较远,说明可能还存在其他影响因素.

1.2.5 RSCU对应性分析 采用CodonW程序计算各基因的RSCU,基于各叶绿体基因的功能分类将RSCU分布到一个59维的向量空间,进行各指标间的对应性分析.

1.2.6 最优密码子分析 以CAI作为参考标准,参照Liu[13]的方法将54个基因的CAI由高到低排序,筛选前10%和后10%的基因分别作为高、低表达的基因,分析不同基因组间各密码子RSCU的差异,同时采用统计学软件SPSS 19.0分析组间的差异显著性.若高表达基因的RSCU大于低表达基因,且存在差异显著性,则将该密码子确定为基因组的最优密码子.

2 结果与分析

2.1 橄榄叶绿体基因组密码子的偏好性

橄榄叶绿体基因组密码子偏好性参数如表2所示.首先,以54个基因作为一个整体进行分析时,基因组整体的ENc、CAI和CBI分别为50.360、0.186和0.167.不同基因之间的ENc差异较大,取值36.797~58.462,ENc均大于35.0,且CAI和CBI远小于1.0,说明无论是基因组还是基因个体,密码子偏好性均较弱,但所有基因的ENc均小于61.0,说明所有基因均存在一定程度的密码子偏好性.从碱基组成上看,GC、GC1s、GC2s和GC3s分别为0.385、0.466、0.383和0.305,其中,GC1s、GC2s、GC3s和GC在不同基因个体间的取值分别为0.344~0.585、0.283~0.612、0.219~0.480和0.320~0.488,说明GC在密码子不同位置上的含量并不均匀.从整体上看,基因组更偏向使用A和T,并以A或T结尾的密码子.

表2 橄榄叶绿体基因密码子的偏好性参数Table 2 Parameters of codon usage preference in C.album chloroplast genome

橄榄叶绿体基因组密码子偏好性参数间的相关性如表3所示.从碱基组成上看,GC与GC1s、GC2s、GC3s之间存在极显著正相关,GC1s与GC2s之间也存在显著相关,GC3s与GC1s、GC2s之间的相关性则不显著,说明密码子第1位与第2位的碱基组成较相似,但与第3位之间存在较大差异,但任意位置上的碱基组成均会影响密码子GC含量;ENc只与GC3s存在极显著相关,表明密码子第3位上的碱基组成会影响ENc;CN与所有指标之间的相关性都不显著,说明密码子出现次数对整体偏好性没有影响;GC1s、GC均与CAI、CBI、FOP之间存在显著或极显著相关,GC3s与FOP之间也存在显著相关,说明GC1s和GC会影响CAI和CBI,而GC1s、GC3s和GC均会影响FOP.此外,CAI、CBI、FOP两两之间的相关性均达到极显著水平,说明3个指标间均会互相影响.

表3 橄榄叶绿体基因密码子偏好性参数间的相关系数1)Table 3 Correlation analysis on parameters of codon usage preference for C.album chloroplast genome

2.2 橄榄叶绿体基因组密码子中性绘图分析

橄榄叶绿体基因组密码子中性绘图分析结果(图1)显示,GC3s和GC12分别为0.219~0.480和0.344~0.568,所有基因在平面图上的分布范围较为分散,许多基因分布在回归曲线[y=0.268x+0.356(R2=0.054)]的两侧,此外,也有部分基因的分布位置距离回归曲线较远.表明基因组密码子偏好性在受到突变压力影响的同时,可能还受到其他作用力的共同影响.

2.3 橄榄叶绿体基因组密码子ENc对应分析

橄榄叶绿体基因组密码子ENc对应分析结果(图2)显示:大部分基因均匀分布在ENc理论值曲线附近,表明这些基因ENc的实际值与理论值较为相近;此外,也有部分基因分布在ENc理论值下方较远的位置,说明ENc的实际值与理论值之间仍然存在一定的差异.进一步分析发现,ENc比值频率[(ENc理论值-ENc实际值)/ENc理论值)]为-0.085~0.320.其中,多数基因分布在-0.1~0.1(表4),占所有基因的74.07%,说明大部分基因ENc的实际值与理论值相差较小,即基因组密码子偏好性与第3位上碱基组成的差异相关.由此可见,基因组密码子偏好性受突变压力的影响,同时可能还受自然选择的影响.

2.4 橄榄叶绿体基因组密码子偏倚分析

橄榄叶绿体基因组密码子偏倚分析结果(图3)显示,所有基因G3/(G3+C3)、A3/(A3+T3)平均取值的分布位置为(0.479、0.514),说明在总体上,基因组密码子中A与T的比例接近,G与C的比例接近.然而,从图4也可以看出,很多基因并非聚集在平面图中心,而是分布在距离中心点较远的位置.其中,处于平面图上半部分基因的A的使用频率高于T,处于左半图基因的C的使用频率高于G,反之亦然.研究认为,当密码子使用偏好只受突变压力的影响时,不同碱基的使用频率相似[14].由此可见,基因组密码子的偏好性除了受突变压力的影响,还受自然选择等其他作用力的影响.

2.5 橄榄叶绿体基因组密码子RSCU对应性分析

以RSCU大于1.0为标准,获得橄榄叶绿体基因组中偏好性较强的密码子有30个,然而这些密码子的RSCU均小于2.0,说明基因组中不存在极强偏好性的密码子,可能也是造成基因组整体密码子偏好性较弱的原因.进一步基于基因功能,将54个基因分为4类(光合系统基因、遗传系统基因、其他基因、未知功能基因),基于RSCU将各基因分布到一个59维的向量空间,第1向量轴(第1轴)、第2向量轴(第2轴)的分布结果(图4)显示,4个类型的基因在平面分布上相对分散.其中,第1向量轴显示有9.71%的差异,第2、3、4向量轴分别存在9.09%、7.90%和6.98%的差异,前4个向量轴累计差异为33.68%.关联分析发现,除GC3s(R=0.269,P<0.05)外,各基因在第1轴上的坐标值与ENc(R=0.266)、GC(R=0.046)、CAI(R=-0.325)、CBI(R=-0.216)、CN(R=0.058)之间的相关性并不显著(P>0.05),进一步说明基因组密码子的偏好性不仅受单一因素的影响,可能还受突变压力、自然选择和其他因素的共同影响.

2.6 橄榄叶绿体基因组最优密码子

以CAI作为橄榄叶绿体高、低表达基因的衡量标准,分析高、低表达基因之间的RSCU差异.结果(表5)显示,高、低表达基因之间的RSCU普遍相似,可能与基因组密码子偏好性普遍较弱有关.在进行差异显著性分析后发现,高表达基因CGT、CGC、TTG、CCT、GGT、CAC、TAC中的RSCU显著高于低表达基因,其中,CGT、CCT、GGT在0.01水平上存在极显著差异,且RSCU均大于1.0,可作为最优密码子.值得注意的是,这些密码子均以A或T结尾,与基因组整体密码子偏好性一致.此外,低表达基因中AGA、AGG、GGA、ATA、TAT的RSCU显著高于高表达基因,可能是造成这些基因低表达的原因之一.

表5 橄榄叶绿体基因组高、低表达基因的RSCU比较1)Table 5 Comparison of RSCU in C.album chloroplast genome with high and low levels of expressions

2.7 橄榄叶绿体基因密码子偏好性聚类分析

基于RSCU对橄榄叶绿体基因进行归类.结果(图5)显示,54个基因整体上可以分为3个大类,分别包含26、13和15个基因.然而基于密码子偏好性的聚类并非按基因功能或类别进行划分,不同家族成员之间的聚类结果相互交叉,说明基因个体间的密码子偏好性存在特殊的进化方式,与基因本身功能或所属类别无明显相关.

同一基因在不同密码子中的RSCU值转换为Z-score值后以热图展示,颜色越红,基因RSCU值越高;颜色越绿,基因RSCU值越低.图5 橄榄叶绿体基因密码子偏好性聚类结果Fig.5 Cluster analysis on preferred codons of C.album chloroplast genome

3 讨论

密码子使用偏好性会影响生物体mRNA稳定性、mRNA转录、蛋白质翻译准确性以及蛋白折叠等,从而精细调控基因表达[15],其中,ENc、GC和GC3s是密码子偏好性研究中最常用的指标.叶绿体基因组作为植物中相对独立的遗传系统,往往具有高度保守性,开展叶绿体基因组密码子偏好性研究对于揭示植物的分子特征具有重要意义.本研究中,橄榄叶绿体基因组的ENc为50.36,远远大于35.0,说明其密码子偏好性较弱;而从密码子组成上看,GC和GC3s分别为0.385和0.305,说明基因组偏好使用A和T,并以A或T结尾的密码子,符合双子叶植物密码子偏好性规律[16].在剑麻(Agavehybrid)[17]、秋茄(Kandeliaobovata)[18]、灰毛浆果楝(Cipadessacinerascens)[19]和翠雀(Delphiniumgrandiflorum)[20]等其他双子叶植物的研究中也发现,其叶绿体基因组密码子偏好以A或T结尾,与本研究结果一致.

RSCU指在编码同一氨基酸时,某一特定密码子在所有同义密码子中出现的相对概率,能够直观反映密码子偏好性.基于对RSCU的分析发现,橄榄叶绿体基因组不存在偏好性极强的密码子,这可能也是导致整体密码子偏好性较弱的直接因素.在橄榄叶绿体基因组编码氨基酸的过程中,对所有类型的密码子均有使用,与橄榄单基因密码子编码特征不同[10].在最优密码子选择时,橄榄叶绿体基因组偏好使用以A或T结尾的密码子,与基因组整体碱基选择偏好一致,而与核基因最优密码子的偏好规律存在一定的差异[9].研究表明,与核基因组相比,叶绿体基因组较小,结果相对稳定,序列高度保守,遗传重组率低[21],可能是造成橄榄叶绿体基因组和核基因组密码子偏好性差异的重要原因.从橄榄叶绿体基因个体上看,这种进化方式与基因本身功能或归属类别无明显相关性,在枯草芽孢杆菌(Bacillussubtilis)中也曾发现不同基因间的密码子偏好性不完全一致[22].表明橄榄叶绿体基因组与核基因组密码子偏好性规律存在相似性和差异性,而基因个体之间的密码子偏好性进化方式也相对独立.进一步分析发现,橄榄叶绿体基因组中4个NCG型密码子的RSCU均远小于1.0.有研究认为,密码子CG中的C在甲基化过程中容易脱去氨基变成T,G也容易发生变异,物种中高NCG容易发生DNA甲基化导致突变[23].因此,橄榄叶绿体基因组中的NCG型密码子偏好性维持在较低水平,可能与该物种本身甲基化程度有关.

密码子偏好性是研究植物基因组进化规律的一项重要的参考依据.目前广泛认为,突变压力和自然选择是导致物种密码子偏好性差异形成的最重要的作用力,然而不同物种中密码子偏好性形成的主导影响因素不一样.已有的叶绿体基因组密码子偏好性的相关研究认为:刺榆(Hemipteleadavidii)和大戟科(Euphorbiaceae)植物主要受自然选择压力的影响[24-25];凉粉草(Mesonachinensis)同时受自然选择和突变压力的共同作用[26];紫菜(Porphyraumbilicalis)和沙枣(Elaeagnusangustifolia)除了受自然选择、突变压力的作用,可能还受碱基组成等其他因素的影响[27-28].本研究结果表明,橄榄叶绿体基因组密码子偏好性不是单一因素影响的结果,可能受突变压力、自然选择和其他因素的共同作用.综合前人[15,29-30]及本试验的研究结果认为,在突变压力、自然选择和其他作用力的共同影响下,橄榄叶绿体基因组密码子的部分碱基逐步由GC向AT方向突变,从而形成特定的偏好性特征.随着生物技术的不断发展,越来越多的果树基因组被组装完成,在基因组测序的基础上,系统结合细胞核基因组和细胞器基因组深入研究密码子使用规律,进而揭示橄榄的起源和进化也是后续研究的重要方向.

猜你喜欢

密码子叶绿体橄榄
橄榄林中的乡村酒店
密码子与反密码子的本质与拓展
10种藏药材ccmFN基因片段密码子偏好性分析
冬清肺火用橄榄
橄榄情
南方红豆杉叶绿体非编码序列PCR体系优化及引物筛选
榨橄榄器
嗜酸热古菌病毒STSV2密码子偏嗜性及其对dUTPase外源表达的影响
茶树叶绿体DNA的PCR-RFLP反应体系优化
烟草叶绿体密码子的偏好性及聚类分析