香花油茶叶绿体基因组密码子偏好性分析
2022-09-26郝丙青夏莹莹甘四明马锦林
郝丙青,夏莹莹,叶 航,甘四明,马锦林
(1.中国林业科学研究院 热带林业研究所,广东 广州 510520;2.南京林业大学,江苏 南京 210037;3.广西壮族自治区林业科学研究院,广西 南宁 530002)
香花油茶Camellia osmantha,是山茶科山茶属短柱茶组的一个新物种[1],具有生长快[2]、抗逆性强[3]、耐高温[4]、抗病虫害[5-6]等特性。此外,与陆川油茶Camellia vietnamensis、普通油茶Camellia oleifera相比,香花油茶叶片日灼症状明显减少,且光饱和点最高[7]。香花油茶非常适宜在南亚热带低海拔丘陵地区生长,是南带油茶种植区极有潜力的油用作物。
叶绿体是植物细胞中最重要、最关键的细胞器,是植物进行光合作用的重要场所。植物叶绿体中含有一套独立的遗传物质,其分子量小,遗传特性稳定,且含有大量的遗传信息[8]。密码子由生物体中遗传信息mRNA上的3个碱基组成,能够将遗传信息翻译成氨基酸,进而合成功能蛋白。自然界中存在20种氨基酸,除色氨酸和甲硫氨酸外,其余氨基酸至少含有2个以上的密码子,也称为同义密码子(Synonymous coden)。然而,在同义密码子中,不同物种对不同密码子的使用频率不同,即某些物种或基因在同义密码子选择上会存在一定的偏好性[9-10]。甚至,同一物种不同器官、组织、基因之间都存在着一定程度的密码子偏好性,这种由密码子偏好性造成的差异,一般会在高表达基因中被检测到,同时也会对基因功能、蛋白质表达等产生影响[11-13]。此外,依据不同物种的密码子使用偏好性,可以提高蛋白表达效率和准确性[14-15]。目前,油茶密码子偏好性的研究仅限于普通油茶[16],发现其不仅受突变作用,更多受选择的影响。而香花油茶密码子偏好性的研究未见报道。因此,本研究通过测序获得香花油茶的叶绿体全基因组序列,进而研究其密码子偏好性,一方面为了反映香花油茶的进化规律及突变方式,研究其适应外界环境的分子机制;另一方面,通过分析最优密码子,为香花油茶基因表达载体的设计提供参考,进而提高叶绿体基因组中基因的表达量。
1 材料与方法
1.1 材 料
对香花油茶叶绿体基因组测序并提交到国家基因组科学数据中心(登录号:GWHBAUE00000000),香花油茶植株材料位于广西壮族自治区林业科学研究院油茶种质资源库(22°55′51″N,108°20′03″E),为了提高密码子偏好性分析的准确性,从现存的88条序列中剔除不足300 bp的短序列及重复序列,最终获得53条序列用于密码子偏好性分析。
1.2 方 法
1.2.1 密码子组成分析
使 用CodonW 1.4.2 软 件(http://codonw.sourceforge.net)筛选出CDS序列,分析其密码子偏好性参数,包括有效密码子数(Effective Number of Codons,ENC)、同义密码子相对使用情况(Relative Synonymous Codon Usage,RSCU)、GC1、GC2、GC3、GC_all(GC1、GC2和GC3表示各密码子第1位、第2位、第3位碱基上的GC含量,GC_all表示密码子三碱基中GC的平均含量)。最后使用SPSS 21.0软件进行各参数之间的显著性分析。
1.2.2 中性绘图分析
中性分析(Neutrality plots)是以GC12(GC12表示第1位和第2位碱基上的平均GC含量)为纵坐标,G3为横坐标的绘图分析。通过分析二者的相关性,判断密码子偏好性的影响因素,即当GC12与GC3为显著性相关时,密码子偏好性受突变的影响;当GC12与GC3之间相关性不显著时,密码子偏好性受选择的影响[17]。
1.2.3 ENC-plot分析
ENC(Effective Number Codon,ENC),是评价基因序列中密码子偏好性中最具有参考价值的参数。通常,高表达基因的密码子偏好性强,其ENC值较小,低表达基因则含有较多种类的稀有密码子,其ENC值较大。所以,可以通过比较ENC值来确定内源基因表达量的相对高低。本文中利用Python3.7软件进行ENC-plot分析,以其ENC期望值为纵坐标,GC3为横坐标,绘制标准曲线。当散点分布在标准曲线上或其附近时,表明该基因位点更多受突变的影响;当散点距离标准曲线较远时,表明该基因位点受自然选择的影响为主。
ENC=2+GC3+29/[(GC3)2+(1-GC3)2]。
式中:GC3为密码子第三碱基的GC含量[8]。
1.2.4 PR2-plot偏好性分析
PR2-plot偏好性分析(PR2-bias plot analysis)是针对具有4种密码子编码的氨基酸,对其密码子第3位碱基上A、U、C、G的组成情况进行分析[18],以A3/(A3+U3)|4和G3/(G3+C3)|4的值进行绘图。其中,“|4”表示具有4种密码子编码的氨基酸,分别为丙氨酸(GCA、GCC、GCG、GCU)、精氨酸(CGA、CGU、CGG、CGC)、甘氨酸(GGA、GGC、GGG、GGU)、亮氨酸(CUA、CUU、CUG、CUC)、脯氨酸(CCA、CCC、CCG、CCU)、丝 氨 酸(UCA、UCU、UCG、UCC)、苏 氨 酸(ACA、ACC、ACG、ACU)和缬氨酸(GUA、GUC、GUG、GUU)。其中,PR2-plot图的中心点为A=U,C=G,以该点发出的矢量表示碱基偏移的程度和方向。
1.2.5 最优密码子分析
本文中采用ΔRSCU法预测最优密码子[19]。对前期筛选出的88条基因序列的ENC值从小到大进行排序,排序结果的两端各选出10%的序列,建设高、低表达的基因库,然后计算高低表达基因库中相对应的RSCU值和ΔRSCU,选取出ΔRSCU>0.08的密码子作为高表达密码子。然后选取高表达密码子和高频密码子的公共部分,最后确定最优密码子[20-21]。
式中:xij是编码第i个氨基酸的第j个密码子出现次数;ni是编码第i个氨基酸的同义密码子数量[22]。
2 结果与分析
2.1 香花油茶叶绿体基因组同义密码子相对实用度分析
各氨基酸RSCU值分析结果(表1)显示,RSCU值为1的密码子数目为2个,即甲硫氨酸和色氨酸,该两个氨基酸的密码子使用没有偏好性。RSCU>1的密码子数目共有31个,其中以U结尾的有16个,以A结尾的有12个,以G结尾的有3个,这说明以U或A结尾的密码子是香花油茶叶绿体基因组较为偏爱的密码子,以G或C结尾的则为非偏爱密码子。
表1 香花油茶叶绿体基因组中各氨基酸的RSCU分析†Table 1 RSCU analysis of amino acids in the chloroplast genome of C.osmantha
2.2 香花油茶叶绿体基因组密码子偏性
香花油茶叶绿体基因组中所有CDS中不同位置的GC含量结果(表2)显示,所有CDS密码子的平均GC含量为37.85%,且GC1(45.87%)>GC2(39.67%)>GC3(28.03%),密码子3个位置上碱基的GC含量并非均匀分布,香花油茶中CDS的GC1明显大于GC2、GC3。香花油茶中,ENC值在24.1~61.0之间,平均值为46.23,香花油茶的ENC范围明显大于普通油茶的范围(35.23~56.67)。
表2 香花油茶叶绿体基因组中各CDS序列密码子不同位置GC含量及ENC值†Table 2 GC content and ENC value at different codon positions in each CDS sequence of C.osmantha chloroplast genome
2.3 偏性主要受到选择作用的影响
2.3.1 相关性分析及中性绘图分析
密码子各位置GC含量与ENC值的相关性分析发现,ENC与GC指标均不显著相关,GC1与GC2呈极显著性相关(P=0.005 5),GC_all与GC1、GC2和GC3呈极显著相关(表3)。
表3 密码子各位置GC含量和ENC值的相关性分析†Table 3 Correlation analysis of GC content and ENC value at each codon position
研究(图1)表明,GC12的取值在0.310~0.555之间,GC3的取值范围在0.17~0.56之间,GC12和GC3的相关系数为0.061 1,回归系数为0.121 62,二者相关性不显著,因此推测香花油茶叶绿体全基因组序列中密码子的偏好性受选择影响。
图1 香花油茶叶绿体基因组中性绘图Fig.1 Neutral plotting of the chloroplast genome of C.osmantha
2.3.2 ENC-plot分析
有研究证明,在ENC有效密码子绘图分布中,标准曲线上的密码子使用偏好性不受自然选择压力的影响,而分布在标准曲线以外的密码子则受自然选择压力或突变选择压力或其他因素影响[23]。本研究结果(图2)显示,部分基因位于标准曲线上或其附近,说明该部分基因位点的实际ENC值与理论ENC值基本一致,说明该部分基因的密码子偏好不受自然选择压力的影响;部分基因距离标准曲线较远,说明该部分基因位点的实际ENC值与理论ENC值相差较远,则该部分基因的密码子偏好性受自然选择的影响更大。
图2 香花油茶叶绿体基因组的ENC-plot分析Fig.2 ENC-plot analysis of the chloroplast genome of C.osmantha
此外也有研究发现,如果同义密码子第3位碱基的GC(GC3s)值分布较广,则表明密码子使用偏好性受突变压力的影响,因为相同的氨基酸可以由不同的密码子所编码;而如果GC3s值分布在较小的范围内,表示密码子使用偏好性受自然选择压力的影响[24]。本研究中GC3s值分布在0.17~0.56之间(图2),表明香花油茶叶绿体基因组密码子偏好性受突变的影响。
当4种碱基(G、C、A、U)呈现均衡分布,密码子偏好性不受突变和自然选择的影响[25]。图3显示,A、U、G、C在4个区域中的分布是不均匀的,其中右下方位置中的个数较多,说明U的使用频率高于A,G的使用频率高于C,研究结果与芍药Paeonia lactiflora[26]相一致。此外一般认为G和C(或者A和U)成比例地分布在密码子第3位碱基上,则表明该物种的密码子使用偏好性受突变压力影响;如果G和C(或者A和U)不成比例地分布在密码子第3位碱基上,则表明密码子使用偏好性受自然选择压力影响[24]。因此推测自然选择是影响香花油茶叶绿体基因组序列中密码子偏好性的重要因素。
图3 PR2-plot绘图分析Fig.3 PR2-plot analysis of the chloroplast genome of C.osmantha
2.4 最优密码子分析
根据香花油茶叶绿体基因组中61个基因序列的ENC值大小进行排序,从排序结果的两端各取10%的基因作为高、低表达的基因库。然后计算两个基因库中密码子的RSCU和ΔRSCU值,结果(表4)显示,确定了22个密码子为香花油茶叶绿体基因组的高表达密码子。结合22个高表达密码子和表1中RSCU>1的31个高频密码子,选取二者的公共部分,最后确定了5个香花油茶叶绿体基因组最优密码子,分别为GAU、GGU、UUG、CCU、AGA。
表4 香花油茶叶绿体基因组序列最优密码子分析†Table 4 Optimal codons analysis of the chloroplast genome of C.osmantha
续表4Continuation of table 4
3 结论与讨论
3.1 结 论
本研究发现香花油茶叶绿体基因组中密码子第3位碱基多以A或U结尾,这一结果与普通油茶[16]、山楂[27]、西南桦[28]、枣[29]、芍药[26]、二穗短柄草[30]、杧果[31]、杜仲[32]等的研究结果相一致,表明植物叶绿体基因组中密码子上的第3碱基可能具有相似的使用模式。同时发现GC3的含量最低,这也迎合了植物叶绿体基因组密码子第3位碱基多以A、U结尾的结论。此外,GC1、GC2和GC3之间相关性不显著,这与香花枇杷[33]、陆地棉[34]、糜子[35]等的研究结果相一致。
本研究中发现香花油茶叶绿体基因组中存在5个最优密码子,分别为GAU、GGU、UUG、CCU、AGA,其中3个以U结尾,1个以A结尾,1个以G结尾。一般认为富含AU碱基的序列中,最优密码子也同样富含AU,而富含GC碱基的序列中,最优密码子也同样富含GC[36],本研究结果也验证了这一结论。
3.2 讨 论
前人研究表明,在正选择和突变压力的作用下会形成大量的最优密码子,相反,在纯化选择和突变压力作用下只会导致少量最优密码子的形成[35]。本研究香花油茶叶绿体基因组中仅鉴定出5个最优密码子。因此推测,香花油茶叶绿体基因组中存在较少最优密码子的原因可能是由于该物种在进化过程中受到纯化选择压力造成的。
本研究采用生物信息学方法分析了香花油茶叶绿体全基因组的密码子偏好性,并鉴定出5个最优密码子,有利于进一步研究山茶属植物的进化机制,为香花油茶的分子育种提供理论基础。目前,由于香花油茶全基因组序列未知,其分子生物学的研究范围存在很大的局限性。在后续的工作中,将在叶绿体全基因组水平和转录组水平分析控制某一重要性状基因在山茶属植物之间的偏好性。