APP下载

抽筒竹叶绿体基因组的密码子偏好性分析

2019-11-14李江平国春策杨光耀张文根

竹子学报 2019年2期
关键词:密码子叶绿体绘图

李江平,秦 政,国春策,杨光耀,张文根

(1.江西农业大学 江西省竹子种质资源与利用重点实验室,江西 南昌330045;2.江西省林业科学院,江西 南昌330032)

密码子(codon)作为自然界中生命信息的基本遗传单位,除甲硫氨酸(methionine)、酪氨酸(tyrosine)只有一个对应密码子以外,其它氨基酸均对应2~6个同义密码子;同义密码子在生物体内的使用频率的差异形成了密码子偏好性(codon usage bias)[1]。早期有学者认为,密码子使用频率的不均等是由于基因组中的核苷酸突变具有非随机性,使得一些密码子更容易发生突变偏好性而导致的[2]。后来又衍生了一系列针对密码子偏好性在不同物种、基因组以及基因内部的形成机制的假说,其中以“选择一突变一漂移”假说和“中性理论”假说最具说服性[3]。在对一些细菌和真核生物基因组研究中,不同物种的密码子使用模式有所不同[4],影响密码子偏好性的因素除了选择压力和突变之外还有其他因素,如tRNA丰度、密码子亲水性等[5]。而密码子偏好性不仅影响着翻译过程的准确度和速度[6],还影响翻译折叠[7]、RNA稳定性[8]和转录[9]等过程。叶绿体是植物特有的细胞器,因其基因组十分保守、进化速率低而被广泛用于植物进化和物种鉴定等研究[10]。叶绿体作为植物体内的半自主细胞器,在进化上属于内共生细菌,拥有自己的一套基因组,且其在遗传上属细胞质遗传,花粉精细胞中也不含叶绿体的基因,因此将叶绿体基因组作为受体进行的基因工程(转基因),可以避免核转基因系统中由花粉逃逸带来的生物安全性问题;再者叶绿体基因组还有目的基因表达量高、定点整合等优点,成为植物基因工程新的研究热点[11]。但相对于核基因组研究来说,叶绿体基因组的研究滞后,目前关于叶绿体密码子使用模式的研究在大麦(Hordeum vulgare)[12]、玉米(Zea mays)[13]、莴苣(Lactuca sativa)[14]等植物上被相继报道。

抽筒竹(Gelidocalamus tessellatus T.H.Wen et C.C.Chang)为多年生小型木本禾草类,隶属于竹亚科(Bambusoideae)井冈寒竹属(Gelidocalamus T.H.Wen),其竹型亭立,一枝一叶,枝叶潇洒,是优良的园林观赏植物。然而,其分布范围较为狭窄,仅在广西西北部和贵州东南区域有所发现,目前对其相关研究较少。为了更好地了解该种群及改良其性状,本文以抽筒竹叶绿体基因组密码子作为材料,进行了密码子偏好性分析。

1 材料与方法

1.1 材料

登陆NCBI数据库(https://www.ncbi.nlm.nih.gov/),根据GenBank登录号NC_024719.1搜索并下载抽筒竹叶绿体基因组序列[15],序列长度为139,712 bp,其中共有82条编码蛋白的CDS(Coding DNA Sequence)。由于重复和过短序列会影响密码子偏好性指标的测定[16],因此剔除5条重复序列和25条小于300 bp的CDS,将剩余的52条CDS作为研究的分析材料。

1.2 方法

1.2.1 密码子偏好性参数计算 使用Codon W 1.4.2和在线程序CUSP()、CHIPS(http://imed.med.ucm.es/EMBOSS/)等对选取的CDS进行密码子偏好性参数计算,如有效密码子数(Effective Number of Codon,ENC)、相对同义密码子使用度(Relative Synonymous Codon Usage,RSCU)、GC、GC1、GC2、GC3等。其中,GC、GC1、GC2、GC3分别表示CDS的GC总含量和密码子的各个对应位置上的GC含量。

1.2.2 中性绘图分析 中性绘图分析是一种可用于初步判断影响密码子偏好性因素的方法[17]。首先统计密码子3个位置上的GC含量,以GC1、GC2、GC3、GC12分别表示密码子第1位、第2位、第3位的GC含量以及前两位GC含量的平均值;再分别将GC12和GC3作为纵坐标和横坐标进行散点绘图,图中的一个点即代表一个基因的位置;最后通过分析密码子第1、2位与第3位碱基的相关性,推断密码子偏好性的影响因素。若GC12与GC3之间呈显著相关,则3个位置的碱基组成无差异,密码子偏好性主要受突变的影响;若GC12与GC3之间呈不显著相关,则说明第1、2位于第3位的碱基组成存在差异,密码子的偏好性主要受选择的影响。

1.2.3 ENC-plot绘图分析 以GC3为横坐标,ENC为纵坐标,构建散点图,并在图中画出ENC值的标准曲线,以此来探讨各基因密码子使用偏好性情况和检测碱基组成对密码子偏好性的影响,图中一个点即代表一个基因。若散点沿标准曲线分布或落在标准曲线附近,则说明该基因密码子偏性仅受突变影响;若散点落在标准曲线下方较远的位置,则说明该基因密码子偏性受到选择影响。

标准曲线的计算公式如下:

1.2.4 最优密码子确定 将各个基因按ENC值大小排序,再从2段各选出10%的基因,分别建立高低偏性库,然后取两库中△基SCU>0.08的密码子作为高表达优越密码子[18]。最后通过比较高表达优越密码子与高频密码子,取交集即可确定最优密码子[19]。

1.2.5 抽筒竹与毛竹(Phyllostachys edulis)的叶绿体基因组密码子偏好性比较 登陆NCBI数据库通过登录号HQ337796.1搜索并下载毛竹的叶绿体基因组序列[20],经处理后计算其各密码子的使用频率并与抽筒竹进行比较。若频率比值在0.5~2.0之间,则表明两者对该密码子的偏好性较接近;若频率比值落在0.5~2.0两侧,则表明偏好性差异较大[21]。

2 结果与分析

2.1 密码子偏好性分析

通过Codon W 1.4.2软件和CUSP程序对经过筛选后的52条CDS进行分析,结果表明(表1),抽筒竹叶绿体基因组密码子的ENC值在38.85~61.00之间,平均值为49.66。根据ENC值小于35则偏好性强、大于35则偏好性弱的标准[20],可以得知抽筒竹叶绿体基因组密码子偏性较弱。而且,密码子3个位置上的平均GC含量分别为47.25%、40.00%、31.01%,说明密码子偏好以A或U结尾。

相关分析(表2)显示,GC与GC1、GC2、GC3的相关系数分别为0.788、0.688和0.656,均达到极显著相关水平;ENC与GC3的相关系数为0.398,达到极显著相关水平,说明密码子第3位碱基的组成对密码子偏好性有影响;密码子数目N与ENC的相关系数为-0.001,说明基因序列长度对密码子偏好性没有影响。RSCU分析(表3)表明,RSCU值大于1.00密码子数目为28个,其中16个以U结尾、11个以A结尾、1个以G结尾,说明抽筒竹叶绿体基因组密码子偏好以A或U结尾。

表1 抽筒竹叶绿体基因组不同位置的GC含量Tab.1 GC content of different positions of codon on the chloroplast genome of Gelidocalamus tessellatus

表2 各基因相关参数的相关性分析Tab.2 Correlation analysis between parameters of each gene

2.2 中性绘图分析

在抽筒竹叶绿体基因组中性绘图分析(图1)中,GC12的取值范围为0.3792~0.5382,GC3的取值范围为0.222 2~0.354 8,两者的相关系数为0.281,回归系数为0.3576 3,说明两者的相关性微弱,突变对密码子第1、2位和对第3位碱基的组成的影响不同。而且,绝大多数基因落在对角线的上方,表明突变不是影响密码子偏好性形成的主要因素。因此,抽筒竹叶绿体基因组密码子偏好性形成的过程中可能更多地受到选择的影响。

图1 中性绘图分析图Fig.1 Neutrality plot analysis

图2 ENC-plot绘图分析Fig.2 ENC-plot analysis

2.3 ENC-p lot绘图分析

以GC3为X轴、ENC为Y轴作散点图(图2),图中的每一个点代表一个基因。ENC与GC3的分布范围较广,说明不同的基因密码子偏好性相差较大。为了进一步显示差异,根据公式计算ENC比值,进行了频数分布分析(表4)。结果显示,44%的基因的ENC比值分布在0.05~0.15之间,35%的基因的ENC比值分布在-0.05~0.05之间。ENCexp与ENCobs接近表明基因的密码子受突变影响[21],而本文中的ENCexp与ENCobs分布存在差异,因此抽筒竹叶绿体基因组密码子偏好性更多受到选择的影响。

2.4 最优密码子确定

以ENC值为标准对抽筒竹叶绿体各个基因进行排序,两端各选出5个基因作为高低偏性库;然后使用Codon W 软件计算偏性库中的RSCU值,并用高偏性库的RSCU值减去低偏性库的RSCU值得到△RSCU(表5);最后,确定了22个带星号的密码子为高表达密码子。

将22个高表达密码子与表3中的28个高频密码子(即RSCU>1.00)相比较,取它们的交集,即得到10个最优密码子,它们分别为UUU、UCA、UGU、CCC、CAU、AGA、ACA、AAU、GAA和以及GGA。

表3 抽筒竹叶绿体基因组各氨基酸相对同义密码子使用度Tab.3 RSCU analysis on protein coding region in Gelidocalamus tessellatus

表4 ENC比值频数分布Tab.4 Distribution of ENC ration

2.5 抽筒竹与毛竹的叶绿体密码子偏好性比较

抽筒竹与毛竹的叶绿体基因组密码子使用频率比值中,两者呈现出高度一致的密码子偏好性,它们的密码子使用频率比值均在0.5~2.0之间(表6)。

表5 抽筒竹叶绿体基因组高/低偏性库的密码子用法Tab.5 Codon usage of high/low bias library of chloroplast genome of Gelidocalamus tessellatus

表6 抽筒竹与毛竹的叶绿体基因组密码子偏好性比较Tab.6 Comparison of codon bias of chloroplast genomes between G.tessellatus and Ph.edulis

4 讨论

变异和自然选择是影响密码子偏好性的主要因素[22]。在中性绘图分析和ENC-plot绘图分析中,大部分基因受到自然选择的影响,同时也有少数基因受到突变的影响,这表明抽筒竹叶绿体基因组密码子的偏好性并不是单一因素影响的结果,可能同时受到突变和选择等多重因素的影响,这与Zhou和Wei[25]、Morton[26]以及刘庆坡[22]等人的研究结果一致。而且,抽筒竹叶绿体基因组密码子第3位的GC含量表明,其密码子多以A和U结尾,小麦、二穗短柄草等禾本科作物的叶绿体基因组密码子也多以A和U结尾[12],说明这类植物可能具有高度一致的密码子偏好性及使用模式。在抽筒竹与毛竹的叶绿体基因组密码子偏好性的比较中,两者具有高度一致的密码子偏好性,毛竹的叶绿体基因组密码子也多以A和U结尾,这一定程度上表明叶绿体基因组在竹亚科中非常保守。然而,在毛竹全基因组的密码子偏好性研究中,其密码子多以G、C结尾,且最优密码子均以G、C结尾[27],这与抽筒竹叶绿体基因组中的最优密码子有明显不同,反映了叶绿体基因组和核基因组在密码子偏好性方面的不同。

在低等生物如细菌和古细菌中,GC含量高的物种通常拥有GC含量较高的最优密码子;反之AT含量高的物种,其最优密码子中的AU含量较高[28]。后人基于全基因组进行研究,发现在高等植物中并没有出现这种特征[27-28]。然而,但在一些横跨多个科属的高等植物,如蒺藜(Tribulus terrester)、苜蓿(Medicago sativa)[19]、文心兰(Oncidium hybridum)[31]、荞麦(Fagopyrum esculentum)[32]的叶绿体基因组中,这种特征又表现得非常明显。这一定程度上可以支持叶绿体是通过内共生方式从蓝细菌进化而来的观点[33-34]。而密码子偏好性及其使用模式,一定程度上反映了物种间的进化关系,更深层次的研究还有待进一步开展。

猜你喜欢

密码子叶绿体绘图
来自河流的你
“禾下乘凉图”绘图人
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
以“题”带“面” 突破密码子与反密码子的特性
密码子与反密码子的本质与拓展
共生
人不吃饭行吗
新型密码子、反密码子、氨基酸对应盘
垂涎三尺
一种快速提取微藻完整叶绿体及其DNA的方法