APP下载

3种含笑属植物叶绿体基因组密码子偏好性分析*

2022-06-29周涛杨林舒军霞沈莲文夏晞王大玮

西部林业科学 2022年3期
关键词:密码子叶绿体基因组

周涛,杨林,舒军霞,沈莲文,夏晞,王大玮

(1.西南林业大学 云南省高校林木遗传改良与繁育重点实验室,云南 昆明 650224;2.西南林业大学 西南山地森林资源保育与利用教育部重点实验室,云南 昆明 650224)

叶绿体是植物体内进行光合作用的重要细胞器,在物种演化过程中起着重要作用[1-2]。因叶绿体中含有大量自我调节的编码及功能基因,且具有序列长度适中、基因直系同源、进化速率适中等优势被广泛应用于系统发育、物种分类鉴定和遗传表达等研究[3-5]。随着高通量测序技术的发展,越来越多的植物叶绿体基因组序列得到测序和组装,为种间亲缘关系、基因工程载体设计、提高转化后同质化效率等方面的研究提供理论依据[6-8]。

密码子是连接DNA和蛋白质之间的纽带,是遗传信息的序列单位及蛋白质翻译过程中信息传递的重要元件[9]。密码子的使用偏好性是指某一物种或某一基因在蛋白质翻译过程中倾向于使用一种或几种特定的同义密码子的现象[10]。研究密码子使用偏好性可为提高遗传转化效率、优化异源基因载体、提高外源基因表达量等研究提供理论依据[4,11-12],因此,对密码子偏好性的分析可为后续提供该物种的密码子偏好性优化策略,进而为利用基因工程技术改良植物重要性等研究奠定理论基础[13]。

含笑属(Michelia)是木兰科(Magnoliaceae)的常绿乔木,主要分布于热带及亚热带地区,是我国重要的药用、景观植物[14-17]。其中,香子含笑(M.hypolampra)的叶、花含有半萜类、单萜类及酸酯类等物质,可以做植物源防腐剂[18];壮丽含笑(M.lacei)的花、叶、根中可提取分离其有效成分抗菌活性,医药学可开发为抗菌抑制剂[19-20];醉香含笑(M.macclurei)的花、叶中可提取出挥发油,其富含生物活性化合物,具有抗纤维化疾病功效,在医药行业有重要用途[21-22]。本研究基于高通量测序对香子含笑、壮丽含笑、醉香含笑3种含笑属植物的叶绿体基因组密码子的使用模式进行分析,明确3种含笑属植物的叶绿体基因组密码子偏好性及影响其密码子偏好性的因素,为后续3种含笑属植物的叶绿体基因组外源蛋白表达载体的构建及优化等方面的研究提供理论依据。

1 材料与方法

1.1 实验材料

采自云南省昆明市植物园(102°10′E、24°23′N,海拔为1 891 m)的香子含笑、壮丽含笑、醉香含笑,其由西南林业大学刘江华副教授鉴定,标本现存于西南林业大学林木遗传改良与繁育重点实验室。采取新鲜幼嫩叶片在液氮中速冻,最后冷藏于-80 ℃冰箱中备用。将样品送至安诺优达基因科技(北京)公司进行叶绿体基因组测序,3种含笑属植物的叶绿体基因组序列已提交至美国国家生物技术中心(National Center for Biotechnology Information,NCBI)数据库(https://www.ncbi.nlm.nih.gov/)。

1.2 数据处理

利用生物信息学软件(GENEIOUS软件),选取长度>300 bp以及起始密码子和终止密码子正确的蛋白质编码区(CDS)完整序列用于后续分析。以3种含笑属植物筛选得到的150条CDS序列进行分析,使用CodonW 1.4.2、CUSP、SPSS、CUSP(http://imed.med.ucm.es/EMBOSS/)等软件进行数据分析以及图表绘制。

ENC-plot绘图分析 有效密码子(effective number of codons,ENC)可用于明确的分析密码子的偏好性,ENC-plot则可直观的分析密码子的使用模式和偏好性形成受到自然选择及突变的影响程度,ENC值理论范围为20~61,当ENC值越接近20时,表示该基因受到自然选择的影响较弱,反之则受到自然选择的影响较大。以含笑属叶绿体基因组中筛选出的每一条CDS序列的ENC值为纵坐标,GC3含量为横坐标,绘制散点图,并在图中计算出ENC值期望曲线(ENC=2+GC3+29/[GC32+(1- GC3)2])。

PR2-plot分析 以A3/(A3+T3)值为纵坐标,G3/(G3+C3)为横坐标,绘制散点图,图中的“十”字交叉中心点代表A=T且C=G,以该点发出的矢量表示碱基偏移的程度和方向。

中性绘图分析 可以初步分析影响密码子使用偏好性的因素。以GC12(GC1与GC2的平均值)为纵坐标,GC3为横坐标利用 Excel绘制散点图,该分析可以明显看出GC12与GC3之间的关系,GC12和GC3的相关性越显著,且回归系数越接近1,则说明密码子偏好性更受突变的影响,反之,则说明偏好性更多受自然选择的影响。

最优密码子分析 以密码子的ENC值作为偏好性参考的重要指标,选取升序排列后的ENC值的前后两端10%的基因,并依此建立高、低表达基因库。根据CodonW软件计算两个表达库中密码子的RSCU值和△RSCU值(△RSCU=RSCU高表达-RSCU低表达),确定3种含笑属植物叶绿体基因组的高表达密码子(RSCU>1)和高频密码子(△RSCU≥0.08),同时满足两个条件的密码子为最优密码子。

系统发育分析 从NCBI数据库下载已报道的木兰科15个属16个种的叶绿体基因组并以杨柳科(Salicaceae)杨属(Populus)的毛白杨(Populustomentosa)作为外类群,与3种含笑属植物的叶绿体基因组进行聚类分析,并研究其系统发育关系。使用MAFFT对序列进行比对,利用IQ-TREE v1.6.12软件并使用最大似然法(maximum likelihood,ML)进行系统发育树的构建,选择最佳模型K3Pu+F+R4,进化树用1 000次重复bootstrap检验,构建系统发育树[23]。并对3种含笑属植物系统进化关系进行分析。具体所选物种见表1。

表1 用于系统发育分析的17物种信息

2 结果与分析

2.1 密码子组成特征分析

利用CodonW1.4.2和CUSP在线软件对香子含笑(MW470944)、壮丽含笑(MW470942)、醉香含笑(MW470941)共150条CDS序列进行分析,结果见表2。

表2 3种含笑属植物叶绿体基因组碱基组成

香子含笑、壮丽含笑、 醉香含笑的GC含量和ENC含量分别为39.3%、38.9%、39.2%;50.5%、50.9%、50.48%,表明3种含笑属植物的GC含量和ENC含量相近(表3)。随后分别对3种含笑属植物各叶绿体基因组密码子的GC含量进行统计分析,结果如图1所示。总体来看,各基因的GC1、GC2和GC3含量都各有不同,3个含笑属植物的ENC值分别为:36.22~57.89(香子含笑)、 36.22~57.91(壮丽含笑)、36.22~57.89(醉香含笑),且大部分的ENC值都在45以上,3种含笑属基因的GC含量和ENC值存在一定差异,但差异较小。

表3 3种含笑属密码子数各位置GC含量、数量与ENC值的相关性分析

图1 3种含笑属植物叶绿体编码基因密码子GC 含量

2.2 密码子偏好性影响因素分析

2.2.1 中性绘图分析

中性绘图分析结果(图2)显示,香子含笑GC12、GC3的数值范围分别为:0.345 9~0.553 9、0.224 4~0.392 7;壮丽含笑GC12、GC3的数值范围分别为:0.345 9~0.553 9、0.230 2~0.508 6;醉香含笑GC12、GC3的数值范围分别为:0.345 9~0.553 9、0.224 4~0.369 7。3种含笑属植物的分布范围基本类似,说明3种含笑属植物的叶绿体基因组较为保守。香子含笑、壮丽含笑、醉香含笑的Pearson相关系数分别为0.02、0.022、0.091,进一步说明GC12和GC3的相关性不显著。香子含笑、壮丽含笑、醉香含笑的回归系数分别为0.025 7、0.022 1、0.124 4,表明GC12和GC3的相关性微弱,表明3种含笑属植物受自然选择影响压力较大。

2.2.2 ENC-plot绘图分析

ENC-plot绘图分析见图3,结果显示大部分部分基因离标准曲线有一定的距离,ENC实际值和ENC期望值存在一定的差异,表明自然选择作用对密码子的影响较大;但其中部分基因位于标准曲线周围,ENC实际值和ENC期望值基本相似,说明突变对这些密码子影响较大。ENC比值计算分析内容见表4,结果显示ENC频数比值分布在-0.05~0.05间的各自有18个,且与预期ENC值较为接近,而香子含笑、壮丽含笑、醉香含笑分别有35、36、33个基因则分布在这个区间以外,且离预期ENC值较远,表示离标准曲线较远,表明其偏好性主要受到选择压力的影响。以上说明,含笑属密码子偏好性同时受到突变和自然选择的影响,但是更多的还是受自然选择的影响。

表4 ENC比值频率分布

2.2.3 PR2-plot绘图分析

若PR2-plot平面图内的基因均匀分布,则说明各密码子碱基的A、T、C和G的使用频率相同。由图4可知,大部分基因分布在图中左下角,表明密码子最后一位碱基的使用具有偏好性,且使用频率T>A,G>C,含笑属叶绿体基因组密码子的使用受到自然选择影响的同时仍受到其他因素的影响。

2.3 最优密码子的确定

分别对3种含笑属植物的ENC值进行排序,随后选出两端各10%的基因作为高、低基因表达库,并对3种含笑属植物的RSCU以及△RSCU值进行计算,结果见表5。以RSCU>1为筛选高频密码子的标准,RSCU>1且△RSCU值≥0.08为筛选高表达密码子的标准,同时将表现为高频和高表达的密码子定义为含笑属叶绿体基因组的最优密码子。结果显示香子含笑有11个最优密码子,5个以U结尾,5个以A结尾,1个以G结尾;在壮丽含笑中筛选出9个最优密码子,以U结尾的4个,以A结尾的5个;醉香含笑中有10个最优密码子,其中5个以U结尾,5个以A结尾。3种含笑属植物的最优密码子绝大多数都以A和U结尾,只有香子含笑中有1个密码子以G结尾。

2.4 3种含笑属植物叶绿体基因组系统发育分析

本研究为确定3种含笑属植物在木兰科的系统位置,从NCBI上下载16个木兰科各属物种的叶绿体基因组作为参考进行全局比对,并以杨柳科杨属的毛白杨为外类群,构建ML系统发育树(图5)。

结果表明,聚类的支持率较高,全部分支的检验值均达到100%。所有木兰科物种聚为一支,杨柳科杨属的毛白杨独成一支。木兰科物种分为四大进化支,第一支由含笑属的深山含笑(Micheliamaudiae)、醉香含笑、乐昌含笑(Micheliachapensis)、黄兰含笑(Micheliachampaca)、香子含笑、石碌含笑(Micheliashiluensis)、观光木(Micheliaodora)、云南含笑(Micheliayunnanensis)、壮丽含笑聚在一起,说明其亲缘关系较近;第二支由华盖木属(Manglietiastrum)的华盖木(Manglietiastrumsinicum)独成一支;第三分支为木兰属(Magnolia)的望春木兰(Magnoliabiondii)、黄山木兰(Magnoliacylindrica)、皱叶木兰(Magnoliapraecocissima)聚成一支;第四分支为木莲属(Manglietia)的川滇木莲(Manglietiaduclouxii)、大果木莲(Manglietiagrandis)、毛果木莲(Manglietiahebecarpa)组成。聚类分析结果表明,醉香含笑、香子含笑、壮丽含笑这3种植物与其他含笑属聚为一枝,关系较近,其他属植物各自聚为一枝,关系较近。

3 讨论与结论

本研究利用CUPS对3种含笑属植物叶绿体基因组密码子进行分析,结果显示其ENC值均大于45%,表明密码子偏好性较弱。对3种含笑属植物叶绿体基因组进行中性绘图、相关性分析,结果显示GC2>GC1>GC3,且GC3与GC1、GC2相关性不显著,表明密码子GC3与GC1、GC2有差异,且密码子偏向以A/G碱基结尾,此结果与白兰(Micheliaalba)、香木莲(Magnoliaaromaticavoucher)、长蕊木兰(Magnoliacathcartii)、玉兰(Magnoliadenudata)等植物的研究结果相似[24],这可能与植物叶绿体基因组在进化过程中密码子偏好性相对保守有关[4]。

表5 含笑属叶绿体基因组最优密码子分析

图5 基于叶绿体基因组序列用ML法构建的17个物种的系统进化树

本研究对3种含笑属植物叶绿体基因组密码子进行ENC-plot、PR2-plot分析,ENC实际值和ENC期望值存在一定的差异,表明自然选择作用对密码子的影响较大;各编码基因不均匀的分布于平面图的4个区域内,使用频率T>A、G>C;说明影响其密码子偏好性形成的主要因素是自然选择,这与石碌含笑[25]的结果相似,但与杜梨(Pyrusbetulifolia)[26]、巨桉(Eucalyptusgrandis)[27]、杧果(Mangiferaindica)[28]等受突变和自然选择的影响相对均衡的结论不一致,推测存在多种因素影响植物密码子的偏好性,不同物种间影响密码子偏好性的主要因素也有所不同[29]。

对3种含笑属植物的最优密码子进行分析,确定其最优密码子共30个,以A结尾的有15个,以U结尾的有14个,以G结尾的有1个,其中有6个(UAU、CAU、CAA、AAU、AAA、GGA)为共同最优密码子,大多数以A/U结尾,这与川滇木兰[30]、华盖木[31]、观光木[32]等研究结果类似。说明高等植物叶绿体基因组具有相似的使用模式,其偏好性在进化上较为保守。

使用最大似然法对近缘种的叶绿体基因组与3种含笑属植物叶绿体基因组进行聚类分析。由构成的ML系统发育树可得,各分支支持率均较高。聚类结果表明:醉香含笑、香子含笑、壮丽含笑这3种植物与其他含笑属植物聚为一个支,但最终并没有完全聚在一个小的分组中,说明这3种含笑属植物的叶绿体基因组各不相同,这可能是受到环境的影响,与前人对含笑属植物所作的聚类结果一致[33-35],说明以该方法得到的聚类分析结果是可靠的。该研究结果为进一步确定含笑属植物的起源及亲缘关系提供了一定的依据。

本研究对3种含笑属植物叶绿体基因组密码子的特征及偏性进行了分析,密码子偏好性对蛋白的表达有着直接的影响,转运核糖核酸(tRNA)在翻译水平上能够改变蛋白的翻译速度。编码同种氨基酸的密码子在频率上占主导地位,该密码子通常由tRNA的同种受体读取,并且浓度越高读取频率越快[36]。密码子偏好性策略主要基于高频密码子对应的tRNA浓度较高,可直接加快蛋白的翻译速率,将供体密码子与宿主基因组中具有最高频率的同义密码子进行替换,利用宿主中最丰富的密码子来编码优化序列中的氨基酸,宿主细胞内的密码子频率越高,相应的tRNA水平也越高,翻译速率较快,更利于蛋白含量的表达[37]。利用密码子偏好性策略来提高异源蛋白的表达水平已得到人们的广泛认可,目前,在毕赤酵母(Pichiapastoris)、大肠杆菌(Escherichiacoli)、向日葵(Helianthusannuus)、香蕉(Musanana)、香菇(Lentinusedodes)中都有相关研究,尤其是在人体内翻译速率实验中得到证明:相同的tRNA可以解码不同的密码子[38],在生物医药方面具有重要应用[39]。对3种含笑属植物叶绿体基因组密码子的特征及偏性进行分析,筛选出最优密码子,为后期制定密码子优化策略来提高异源蛋白在含笑属植物中的表达量从而改良含笑属植物重要性状奠定坚实基础,同时,为3种含笑属植物种质资源鉴定及遗传育种提供理论依据,进一步阐明其遗传结构和遗传机制,丰富遗传信息资源。

猜你喜欢

密码子叶绿体基因组
紫九牛叶绿体基因组密码子偏好性分析
“植物界大熊猫”完整基因组图谱首次发布
我国小麦基因组编辑抗病育种取得突破
第一代基因组设计的杂交马铃薯问世
牛参考基因组中发现被忽视基因
共生
人不吃饭行吗
新型密码子、反密码子、氨基酸对应盘
对“翻译”过程中几个问题的探讨
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析