伊犁郁金香叶绿体基因组密码子偏好性分析
2024-03-19刘伟强秦斗文史国民徐庭亮巨秀婷
刘伟强,秦斗文,史国民,徐庭亮,巨秀婷*
(1.青海大学 农牧学院, 青海 西宁 810016; 2.青海省园林植物与观赏园艺重点实验室/青海大学高原花卉研究中心, 青海 西宁 810016)
伊犁郁金香(Tulipa iliensisRegel)属于我国野生的郁金香种质资源之一,生境以山前平原和低山坡地居多,主要分布在我国新疆地区的部分草场,面积达数十万亩[1],此外在中亚地区也有分布[2]。伊犁郁金香是百合科郁金香属的多年生草本植物,外花被片背面绿紫红色或黄绿色,内花被片黄色[3],花期3 ~ 5 月,具有良好的观赏、饲用等价值,被评价为优良性状突出的野生郁金香之一[4],良好的生态适应性也为其优良性状的开发提供更多可能。前人基于伊犁郁金香已开展了种子萌发特性[5-6]、引种栽培[7-8]、遗传多样性[9]等多方面的研究。
叶绿体是地球上植物细胞内光合作用的主要场所,也是可以独立遗传复制的重要细胞器[10]。植物叶绿体基因组的数目、顺序相对保守且具有相对稳定的结构,所含遗传信息丰富[11],常被用于群体进化、种质资源鉴定及群体遗传学研究,在植物的进化过程中具有十分重要的作用[12]。在大多数植物漫长的进化过程中,密码子独特的使用方式和使用偏好性会逐步形成,即使是同种植物的不同基因之间,密码子的偏好也会存在一定的差异。如酸枣[Ziziphus jujubavar.spinosa(Bunge) Hu ex H. F.Chow]叶绿体基因组密码子使用偏性的影响因素中,来自外界的选择压力起主要作用[13];而金银花大毛花(Lonicera japonicaThunb.)[14]、无刺龙舌兰(Yucca treculeanaCarrière)[15]在选择压力和突变的共同作用下出现使用偏性。通过对叶绿体基因组中的密码子选择行为的分析,可以帮助研究者更好地认识叶绿体中的功能基因的表达规律和进化方式,进而加深对植物进化关系的认识[16]。
为更准确地将野生种质资源的优良园艺性状应用到郁金香的分子辅助育种过程中[17],叶绿体工程育种作为一种新型技术为植物导入外源基因提供新的途径。根据最优密码子来设计外源基因表达载体,可以起到优化外源基因在叶绿体基因组中表达的作用[18],为郁金香分子育种提供优良的遗传基因奠定基础。本研究通过对伊犁郁金香叶绿体基因组的密码子组成、偏性特征及影响因素、最优密码子进行分析,为野生郁金香资源开发、优良性状的遗传改良、外源基因表达及叶绿体工程育种等提供技术支撑和理论依据。
1 材料与方法
1.1 材料来源
从课题组前期测序得到的伊犁郁金香叶绿体基因组(NCBI 登录号:MT316023)中根据各基因的注释结果,剔除了序列长度小于300 bp、重复基因和内部存在终止密码子的序列,获得53条可以编码蛋白的基因序列(Coding DNA sequence,CDS)用于密码子各项参数分析。
1.2 分析方法
1.2.1 密码子偏好性相关参数分析
利用CodonW1.4.2 软件分析伊犁郁金香叶绿体基因组筛选到的53 条序列的密码子的偏好性参数,得到各CDS 的有效密码子(Effective number of codon, ENC)、相对同义密码子的相对使用度(Relative synonymous codon usage, RSCU)。通过EMBOSS:cusp 在线工具(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)计算出伊犁郁金香叶绿体基因组不同基因的GC总含量(GCall)以及各密码子第1位(GC1)、第2 位(GC2)、第3 位(GC3)的GC 含量[19]。利用SPSS 22.0 对以上各参数进行相关性分析。
1.2.2 密码子碱基组成的差异性分析
中性绘图分析以GC3为横坐标,GC12(GC1和GC2的均值)为纵坐标,利用R 语言绘制散点图,完成GC3与GC12相关性分析[20]。
1.2.3 碱基组成对密码子偏好性影响分析
GC3和ENC 值分别作横坐标和纵坐标,绘制散点图进行ENC-plot 分析,通过构建标准曲线[21],结合散点与标准曲线的距离,判断伊犁郁金香密码子偏好性的主要影响因素。若散点距标准曲线较近说明受突变影响,反之则受自然选择的影响。为了能够精确散点与标准曲线的距离,根据公式ENC 比值[(预期ENC 值-实际ENC 值)/预期ENC 值]计算ENC 比值频率,对密码子偏好性的影响因素进行精确分析。
1.2.4 碱基奇偶偏好分析
计算密码子第3 位上的A、T、C、G 的含量,以A3/(A3+ T3)为纵坐标,G3/(G3+ C3)为横坐标进行PR2-plot分析,以无偏倚的点为中心点绘制散点图。根据图中散点分布的位置判断第3位碱基的偏倚方向来分析密码子偏好性的影响因素[22]。
1.2.5 最优密码子确定
对53 条伊犁郁金香的CDS 序列进行ENC 值排序,从高低两端各选出10%的基因,构建高低表达库筛选高表达密码子。利用高表达RSCU和低表达RSCU 的差值,计算ΔRSCU。将ΔRSCU ≥ 0.08 的密码子定为高表达优越密码子,RSCU值 > 1的密码子定为高频密码子,同时满足高频率密码子和高表达优越密码子确定为最优密码子[23]。
2 结果与分析
2.1 密码子偏好性相关参数分析
根据伊犁郁金香叶绿体基因组密码子组成分析和ENC 值计算(表1),发现不同基因的GC含量有差异。GC1、GC2、GC3的平均含量分别为46.66%、39.39% 和27.15%,总体的GC 含量GCall为37.73%,其中GC3的平均含量最低,说明GC3偏好以A/U 结尾。为明确伊犁郁金香叶绿体基因组密码子使用偏性程度,根据53 条CDS 序列的ENC 值的范围,发现ycf3基因的ENC 值最大为62.28,rps18基因的ENC 值最小为38.33,表明不同基因密码子的偏性程度具有差异。ENC 值的理论取值范围为20 ~ 61,当ENC 值越接近20 说明其偏性越强,ENC 值越接近61 则越弱[24],一般以ENC 值35 作为区分密码子使用偏好性强弱的标志[25]。伊犁郁金香叶绿体基因组中所有基因的ENC 值均分布于38.33 ~ 62.28 之间,大于标准值35,表明伊犁郁金香叶绿体基因组的密码子使用偏好性较弱。
表1 伊犁郁金香叶绿体基因组GC含量以及ENC值Tab. 1 The GC content and ENC value of chloroplast genome of T. iliensis
对伊犁郁金香叶绿体基因组的GC1、GC2、GC3、GCall及ENC 值进行相关性分析(表2),发现GCall与GC1、GC2和GC3之间均呈极显著正相关(P< 0.01),GC1和GC2呈极显著正相关(P< 0.01),而GC3与GC2无显著相关性(P> 0.05),说明密码子第1 位和第2 位的碱基组成具有一定的相似性,但是与第3位有差异。ENC 与GC1、GC2相关性不显著(P>0.05),但与GC3的相关性系数为0.539,达到极显著相关水平(P< 0.01),说明GC3会影响密码子的使用偏性。
表2 伊犁郁金香叶绿体基因组各相关参数的相关性分析Tab. 2 Correlation analysis of parameters related to each gene in the chloroplast genome of T. iliensis
对伊犁郁金香叶绿体基因组的RSCU进行分析(表3),发现53个序列中RSCU > 1的密码子共有31个,其中16 个以U 结尾,13 个以A 结尾,1 个以G 结尾,1 个以C 结尾,表明伊犁郁金香叶绿体基因组密码子更趋向于A/U结尾。
表3 伊犁郁金香叶绿体基因组相对同义密码子使用度Tab. 3 Relative synonymous codon usage of chloroplast genome of T. iliensis
2.2 密码子碱基组成的差异性分析
中性绘图分析是通过分析不同的碱基组成来判断密码子偏好性的主要影响因素,主要通过GC12和GC3的相关程度进行评价。若GC12和GC3相关性显著,则突变为偏好性的主要影响因素,若相关性不显著,则选择压力为其偏好性的主要影响因素[26]。根据伊犁郁金香密码子的中性绘图分析(图1),图中每一个散点代表一个基因,GC3的取值范围在0.19 ~ 0.36之间,GC12的取值范围在0.30 ~ 0.55之间,并得到GC12与GC3的相关系数为0.309,回归系数为0.417。表明GC1、GC2、GC3的碱基组成之间存在差异,相关性并不显著。因此,自然选择是影响其偏好性的主要因素。
图1 中性绘图分析Fig. 1 Analysis of neutrality plot
2.3 碱基组成对密码子偏好性影响分析
ENC-plot 分析(图2)结果表明,伊犁郁金香叶绿体基因组的部分基因围绕标准曲线周围分布,大部分基因分布在标准曲线下方且离标准曲线的距离较远,说明伊犁郁金香叶绿体基因组密码子的偏好性主要受到自然选择的影响。
图2 ENC-plot分析Fig.2 Analysis of ENC-plot
根据标准曲线公式计算发现,部分基因距标准曲线较近,实际ENC 值与预期ENC 值接近,部分基因位于标准曲线下方较远位置,实际ENC 值与预期ENC值存在一定的偏距。ENC比值频数表(表4)可以更直观的比较实际ENC 值与预期ENC 值的差异,发现ENC 比值为-0.05 ~ 0.05 的有23 个,占比为43%;分布在-0.05 ~ 0.05以外的基因有30个,占比为57%,大部分基因离预期ENC 值较远,表明自然选择是伊犁郁金香叶绿体基因组密码子偏好性的主要影响因素。
表4 ENC比值频数分布Tab. 4 Distribution of ENC ration
2.4 碱基奇偶偏好分析
PR2-plot 分析主要根据第3 位碱基的偏倚方向来分析密码子偏好性的影响因素。在PR2-plot 分析中(图3),观察各散点的分布发现大多数基因位于右下方,说明嘧啶T 的使用频率大于嘌呤A 的使用频率,嘌呤G的使用频率大于嘧啶C的使用频率。PR2-plot分析表明伊犁郁金香叶绿体基因组密码子使用偏好性不仅受突变的影响,同时也受到自然选择的影响。
图3 PR2-plot分析Fig. 3 Analysis of PR2-plot
2.5 最优密码子分析
结合伊犁郁金香叶绿体基因组的RSCU(表3),以RSCU 值 > 1 为标准筛选到高频密码子共31 个,并从构建的高低表达库中以ΔRSCU ≥ 0.08 为标准筛选到高表达密码子共22个(表5)。根据最优密码子的选择标准(同时满足高频率密码子和高表达优越密码子)确定18 个最优密码子,分别为GCU、CGA、CGU、UGU、CAA、GAA、GGU、AUU、CUA、UUA、AAA、UUU、CCU、AGU、UCU、ACU、GUA 以及GUU,其中以U 结尾有11 个,以A 结尾有7 个,说明伊犁郁金香叶绿体基因组偏爱使用以A和U碱基结尾的密码子。
表5 伊犁郁金香叶绿体基因组最优密码子分析Tab. 5 Optimal codon analysis of chloroplast genome in T. iliensis
3 讨论
3.1 密码子碱基组成
密码子是生命信息的基本遗传单位[27],编码同一氨基酸的同义密码子被使用的频率各异,而频繁使用的密码子决定了其使用偏好模式[28]。本研究得到的伊犁郁金香叶绿体基因组密码子不同位置的GC含量不同,而GC3含量的多少是生物密码子碱基组成的重要衡量指标[29]。通过对伊犁郁金香叶绿体基因组筛选出的53 条CDS 序列进行密码子偏好性分析,得到GC3的含量为27.15%,说明伊犁郁金香偏向使用A/U 类型的密码子,在向日葵(Helianthus annuusL.)[30]、二乔玉兰(Yulania soulangeanaSoul.-Bod.)[31]等物种研究中也得到类似的结论。
3.2 影响密码子偏性因素
碱基突变、自然选择、密码子各位置碱基含量、tRNA 丰度和基因序列长度等多种因素都被认为会对密码子的使用模式产生影响[32]。根据中性绘图分析、ENC-plot 分析的结果判断伊犁郁金香叶绿体基因组密码子偏好性的主要影响因素,发现使用频率为T > A、G > C,说明影响密码子偏好性的主要影响因素是自然选择,这与马尾松(Pinus massonianaLamb.)[33]、苦荞[Fagopyrum tataricum(L.)Gaertn.][34]、辣椒(Capsicum annuumL.)[35]等密码子偏好性的影响因素一致。但是根据PR2-plot 分析的结果认为突变也是伊犁郁金香叶绿体基因组密码子偏好性的影响因素之一,而密码子偏好的选择也会受多重因素的影响,如香花油茶(Camellia osmanthaYe CX, Ma JL et Ye H.)[36]的相关研究中同样认为突变和自然选择共同影响着密码子的偏好选择模式。
3.3 最优密码子
功能基因的转录、翻译和表达均受到密码子的影响,选择最优密码子可在构建基因表达载体时有效提高基因的表达效率[37]。在本研究中通过构建高低基因表达库,共筛选到18 个最优密码子,此前有研究表明叶绿体基因中最优密码子的数量因物种不同而异。29 种木兰科(Magnoliaceae)[38]植物的叶绿体基因最优密码子数在14 ~ 22之间,7种睡莲属(NymphaeaL.)[39]植物研究中最优密码子介于14 ~ 17 个;而在秋茄(Kandelia obovataSheue et al.)[40]的研究中仅确定了3 个最优密码子;西藏凹乳芹(Vicatia thibeticade Boiss.)[41]的最优密码子数量为4个。以上研究结果再次证实了同义密码子使用偏好特性是在多种因素共同影响下形成的。对伊犁郁金香叶绿体基因组使用模式的研究可为后续野生郁金香资源开发、优良性状的遗传改良、外源基因表达及叶绿体工程育种等提供技术支撑和理论依据。