刺柏属4种药用植物叶绿体基因组密码子偏好性分析
2022-12-08舒军霞沈莲文王大玮
舒军霞,杨 林,周 涛,沈莲文,王大玮*
刺柏属4种药用植物叶绿体基因组密码子偏好性分析
舒军霞1,杨 林1,周 涛1,沈莲文2,王大玮1*
1. 西南林业大学云南省高校林木遗传改良与繁育重点实验室,云南 昆明 650224 2. 西南林业大学西南山地森林资源保育与利用教育部重点实验室,云南 昆明 650224
明确刺柏属圆柏、垂枝香柏、昆明柏和铺地柏4种药用植物叶绿体基因组密码子的使用偏好性及影响其密码子偏好性的因素。利用CodonW、CUSP、SPSS等软件对4种刺柏属药用植物叶绿体基因组密码子偏好性进行分析。4种刺柏属药用植物叶绿体基因组密码子的GC含量在35.8%~37.3%,有效密码子数(effective number of codon,ENC)值在47.10~47.79,表明其密码子偏好性较弱。中性绘图、ENC-plot、PR2-plot分析表明影响4种刺柏属药用植物叶绿体基因组密码子使用偏性的因素有选择和突变。同时利用相对同义密码子使用度(relative synonymous codon usage,)值和ENC值筛选出共65个最优密码子,其中有9个密码子为4种刺柏属植物共有的最优密码子。4种刺柏属药用植物密码子偏好使用A/T结尾,其密码子使用偏性主要受到自然选择的影响。通过对4种刺柏属植物叶绿体基因组密码子的使用偏性进行分析及外类群聚类分析验证,揭示影响其密码子使用偏性的主要因素,为后续刺柏属叶绿体基因组外源蛋白表达载体的构建及优化提供理论依据。
刺柏属;圆柏;垂枝香柏;昆明柏;铺地柏;密码子偏好性;最优密码子;自然选择
叶绿体基因组是高等植物细胞质基因组的组成成分之一,携带大量自我调节的编码基因。与核基因组相比具有序列长度适中、基因直系同源、进化速率适中等优势[1-2]。这些优势可以用于揭示物种起源、进化、演变及比较基因组学等研究方向[3-5]。随着高通量测序技术的发展,越来越多的植物叶绿体基因组得到了测序和组装。因此,叶绿体基因组已经广泛应用于植物系统发育研究、物种鉴定、叶绿体基因工程和遗传结构分析等方面的研究,为植株的多抗性转化、农作物代谢途径改造等方面奠定理论依据[6-7]。
密码子是生物体内mRNA(或DNA)上的3联体核苷酸残基序列,是遗传信息的序列单位,参与mRNA翻译成蛋白质的过程[8]。密码子的使用偏好性是指某一物种或某一基因在蛋白质翻译过程中倾向于使用一种或几种特定的同义密码子的现象[9]。目前对密码子偏好性的研究主要集中在分子进化、翻译调控等方面[10-11]。研究表明,密码子偏好性可以通过改变蛋白质结构、核苷酸序列等方式影响外源基因的表达[12-13]。因此,对密码子偏好性的分析可提供密码子偏好性优化策略,进而为利用基因工程技术改良植物重要性等研究奠定理论基础。
圆柏L.、垂枝香柏W. C. Cheng ex Ferré、昆明柏W. C. Cheng和铺地柏(Endlicher) Siebold ex Miquel均属于柏科刺柏属植物,主要分布于热带及亚热带地区。刺柏属植物是具有药用、景观、生态价值的经济树种。刺柏属植物的枝叶中含有具抗炎、抑菌效果的总酚、总黄酮等化合物,是中医常用来止血、散肿毒的传统药物[14-15];同时研究发现圆柏叶提取物制备的生物功能银纳米颗粒对肺癌细胞有抗转移和抗增殖的作用[16]。此外,刺柏属植物还具有耐寒耐旱及改善土壤环境等特点,是我国西北干旱以及被重金属污染地区的主要栽培树种[17-18]。刺柏属植物在多个领域都有开发利用价值,因此加强刺柏属叶绿体基因组的基础研究对其高效利用具有重要意义。本研究分析了4种刺柏属叶绿体基因组密码子使用模式并通过外类群聚类分析验证,确定了影响其密码子使用偏好性的因素以及最优密码子,为4种刺柏属植物叶绿体基因组后续进行异源基因表达载体设计和基因工程应用和研究提供理论依据。
1 材料
所用的植物样本采于云南省昆明市(102°10'E,24°23'N,平均海拔1891 m)西南林业大学(圆柏、昆明柏、铺地柏,2020年7月3日)和中国科学院昆明植物研究所(垂枝香柏,2020年7月11日),所有样本均由西南林业大学刘江华副教授分别鉴定柏科刺柏属植物圆柏L.、垂枝香柏W. C. Cheng ex Ferré、昆明柏W. C. Cheng和铺地柏(Endlicher) Siebold ex Miquel。样本送至安诺优达基因科技(北京)有限公司进行叶绿体基因组测序并将测序结果上传至NCBI数据库(https://www.ncbi. nlm.nih.gov/),圆柏、昆明柏、垂枝香柏、铺地柏登录号分别为MZ151419、MZ151420、MZ151421、MZ151422。
2 方法
2.1 数据处理方法
剔除CDS中基因长度小于300 bp、重复和不完整的序列,选择起始密码子为ATG、终止密码子为TAA、TAG、TGA的序列,对符合条件的CDS进行下一步的分析。以4种刺柏属植物筛选得到的CDS序列进行分析,使用CodonW1.4.2、CUSP、SPSS26.0、Excel、CUSP(http://imed.med.ucm.es/ EMBOSS/)等软件进行数据分析以及图表绘制。
2.1.1 ENC-plot绘图分析 以GC3为横坐标(),有效密码子数(effective number of codon,ENC)值为纵坐标(),绘制散点图和ENC值的标准曲线图(ENC=2+GC3+29/[GC32+(1-GC3)2])。若基因落点位于标准曲线上或附近表明密码子偏好主要受突变影响,反之则主要受到选择影响。同时为了更准确地评估观察值(ENCobs)与期待值(ENCexp)之间的差异,根据公式(ENCexp-ENCobs)/ENCexp计算ENC的比值频数,并结合比值频数对差异进行量化分析。
2.1.2 PR2-plot分析 以G3/(G3+C3)为横坐标(),以A3/(A3+T3)为纵坐标(),绘制散点图,图中心点位置表明碱基含量A=T、G=C,即密码子不具有偏好性,其余点与中心点的矢量距离则代表其偏倚程度和方向。
2.1.3 中性绘图分析 以GC3为横坐标(),GC12(GC1、GC2的平均值)为纵坐标(),绘制散点图并做直线拟合分析。若直线斜率接近1,表明密码子在碱基组成上无差异,则密码子偏好性主要决定因素为突变;若直线斜率接近0,则更多地受到选择的影响。
2.2 高表达基因库和低表达基因库
以密码子的ENC值作为偏好性参考的重要指标,选取升序排列后的ENC值的前后两端10%的基因,并依此建立高、低表达基因库。根据CodonW软件计算2个表达库中密码子的相对同义密码子使用度(relative synonymous codon usage,)值和RSCU值(RSCU=RSCU高表达-RSCU低表达),确定4种刺柏属植物叶绿体基因组的高表达密码子(RSCU>1)和高频密码子(∆RSCU≥0.08),同时满足2个条件的密码子为最优密码子。
2.3 密码子偏性验证分析
从NCBI数据库中下载拟南芥L.、香子含笑L.、杉木L.的叶绿体基因组序列,在4种刺柏属叶绿体基因组基础上筛选相同基因的CDS并计算密码子的RSCU值,进行外类群聚类分析,以此来验证4种刺柏属叶绿体基因组密码子偏好性。
3 结果与分析
3.1 密码子组成特征分析
通过CodonW1.4.2和在线CUSP程序对圆柏(MZ151419)、昆明柏(MZ151420)、垂枝香柏(MZ151421)、铺地柏(MZ151422)叶绿体基因组进行分析(表1)。对密码子各位置的GC含量和ENC值进行相关性分析(表2),并对4种刺柏属叶绿体基因组密码子参数分析(表3)。结果表明GCall和GC1、GC2、GC3的相关性均达到极显著水平(0.543~0.774);GC3与GC1、GC2的相关性不显著,但与GCall(0.543~0.743)和ENC(0.391~0.552)呈显著相关性,说明密码子的第3位与第1、2位的碱基组成不同。
表1 4种刺柏属植物叶绿体基因组
表2 4种刺柏属植物叶绿体基因的GC含量及ENC值
表3 4种刺柏属叶绿体基因组密码子参数的相关性分析
*< 0.05**< 0.01
3.2 密码子偏好性影响因素分析
3.2.1 ENC-plot分析 通过对叶绿体基因组中各基因的ENC值和GC3的关联分析,然后根据各基因与标准曲线的距离来衡量影响密码子偏好性的主要因素。落点位于标准曲线上或附近表明密码子偏好性主要受突变影响,反之则主要受到选择影响。
根据ENC-plot分析图(图1),大部分落点位于标准曲线下方,极少部分位于标准曲线下方较远位置。ENC值在31.65~59.39,且绝大部分ENC值大于45,说明这4种刺柏属植物叶绿体基因组密码子偏好性均较弱。结合ENC比值频数分布表(表4)发现,4种刺柏属叶绿体基因组分别有14、16、17、14个基因位于标准曲线附近,分别有15、22、25、23个基因距标准曲线较远,表明突变影响了密码子的使用模式。
3.2.2 PR2-plot分析 以G3/(G3+C3)为横坐标,A3/(A3+T3)为纵坐标进行PR2-plot分析来研究叶绿体基因组密码子的第3位上(A/T)与(C/G)之间的关系。结果表明在4个区域内的点分布并不均匀(图2)。4种刺柏属植物的点都集中在右半部分,这说明碱基使用情况T>A,G>C。结果表明4个刺柏属叶绿体基因组密码子在第3位上A/T的使用频率较高,且密码子使用模式受到多种因素的影响。
图1 ENC-plot分析图
表4 ENC比值频率分布
图2 PR2-plot分析
3.2.3 中性绘图分析 本研究对4种刺柏属植物叶绿体基因组做中性绘图分析以进一步确定影响其密码子偏好性的因素。以GC3为横坐标(),GC12为纵坐标()绘制散点图。若基因落点沿对角线分布,斜率接近1,则3个位置上的密码子碱基组成无明显差异,密码子偏好性主要受突变影响,反之则为自然选择影响。
如图3所示,4个叶绿体基因组密码子的GC12值在0.33~0.52,GC3值在0.15~0.39,斜率在0.010~0.049,相关性不显著,说明密码子1、2位碱基和第3位碱基的组成存在明显差异,密码子的偏好性受自然选择影响较大,这与ENC-plot分析结果一致。
图3 中性绘图分析
3.3 最优密码子确定
通过构建高表达、低表达基因库,分别计算4种刺柏属植物在这2个基因库中的RSCU和∆RSCU,见表5。选取RSCU>1的密码子为高频密码子,∆RSCU≥0.08的密码子为高表达密码子。同时满足高频、高表达的密码子选为最优密码子。结果表明(表6),这4个刺柏属叶绿体基因组中以G结尾的最优密码子只占极小部分,以A和U结尾的密码子占绝大部分,其中又以U结尾的密码子数最多。
表5 4种刺柏属植物叶绿体基因组密码子RSCU值
3.4 外类群聚类分析
为验证本研究中所得出的4种刺柏属叶绿体基因组密码子的使用偏性能否用于后续对密码子的研究,使用拟南芥(NC-000932.1)、香子含笑(MW470947)、杉木(KC427270.1)公开发表的叶绿体基因组数据筛选相同基因,计算密码子的RSCU值(表7),根据RSCU值做聚类分析。结果表明(图4),7个物种可以分为3大类:拟南芥、香子含笑和针叶树种。其中铺地柏单独聚为1支,表明铺地柏与其他3种刺柏属植物密码子使用模式具有明显的差异。
4 讨论
通常密码子第3位碱基受到的自然选择压力较小,不会影响与氨基酸的对应关系,因此对研究密码子偏好性具有重要意义[19]。对4种刺柏属植物叶绿体基因组进行相关性分析、中性绘图分析,结果显示GC3和GC1、GC2相关性不显著,且GC3<GC1、GC2,表明密码子GC3与GC1、GC2有差异,且密码子偏向以A/G碱基结尾,这与巴山松[20]、臭柏[21]等大部分裸子植物叶绿体基因组密码子偏好性的研究结论相似,表明亲缘关系近的高等植物密码子偏好使用模式具有一定的相似性。
表6 4种刺柏属植物叶绿体基因组最优密码子
*<0.05 **<0.01 ***<0.001
表7 7个物种叶绿体基因组密码子RSCU值
续表7
图4 外类群聚类分析图
影响密码子偏好性形成的因素有很多,这其中最主要的因素是自然选择和突变[22]。根据ENC-plot分析、PR2-plot分析的结果显示4种刺柏属植物叶绿体基因组密码子的使用频率T>A、G>C,说明影响密码子偏好性形成的主要因素是自然选择,这与马尾松[23]、思茅松[24]等针叶树种的结论一致;但与杜梨[25]、银白杨[26]等主要受到突变影响以及巨桉[27]、芒果[28]等受突变和自然选择的影响相对均衡的结论不一致,推测可能存在多种因素影响植物密码子偏好性,不同物种间影响密码子偏好性的主要因素也有所不同[29]。
利用与外类群叶绿体基因组密码子的RSCU值进行聚类分析来对4种刺柏属植物叶绿体基因组密码子的使用偏性结果进行群体验证。结果显示,4种刺柏属植物中铺地柏单独聚为1支;昆明柏、圆柏、垂枝香柏聚为另外1支。铺地柏原产于日本,为匍匐灌木;垂枝香柏和昆明柏是中国特有种,为乔木或小乔木;圆柏虽分布广泛,但属于乔木[30]。研究结果与4种刺柏属植物的地理分布及形态学特征一致,证明本研究中4种刺柏属植物的密码子偏好性分析的结果可用于后续对异源基因表达载体的设计和基因工程的应用和研究中。
本研究在4种刺柏属植物叶绿体基因组密码子中筛选出共65个最优密码子,确定了GUA、UCU、CCU、CCA、GCU、AAA、GAU、CGU、GGA等9个密码子为4种刺柏属叶绿体基因组共有最优密码子,大部分最优密码子以A或U结尾,尤其以U结尾,这与杉木[31]、云南蓝果树[32]、梧桐[33]等高等植物研究结果类似,说明高等植物叶绿体基因组的进化相对保守。
本研究对4个刺柏属叶绿体基因组密码子的特征及偏性进行了分析和验证,找出最优密码子,对制定密码子优化策略来提高异源蛋白在刺柏属植物中的表达量从而改良刺柏属植物重要性状奠定坚实基础。
利益冲突 所有作者均声明不存在利益冲突
[1] 张悦. 红豆杉科叶绿体基因组结构多样化研究 [D]. 北京: 北京林业大学, 2019.
[2] 任婷. 十种报春花属植物的叶绿体基因组研究 [D]. 西安: 西北大学, 2018.
[3] Li S F, Su T, Cheng G Q,. Chromosome evolution in connection with repetitive sequences and epigenetics in plants [J].(), 2017, 8(10): E290.
[4] 姜汶君, 郭梦月, 庞晓慧. 叶绿体基因组在药用植物鉴定及系统进化研究中的应用 [J]. 世界中医药, 2020, 15(5): 702-708.
[5] 丁彦强, 方扬, 靳艳玲, 等. 基于叶绿体基因组的浮萍亚科系统进化 [J]. 应用与环境生物学报, 2017, 23(2): 215-219.
[6] 李泳潭, 张军, 黄亚丽, 等. 杜梨叶绿体基因组分析 [J]. 园艺学报, 2020, 47(6): 1021-1032.
[7] 母连胜, 何勇, 田志宏. 植物叶绿体遗传转化技术及应用研究进展 [J]. 长江大学学报: 自科版, 2017, 14(14): 52-57.
[8] 周承哲, 朱晨, 李小桢, 等. 茶树密码子使用偏性分析方法及其研究进展 [J]. 分子植物育种, 2020, 18(5): 1480-1488.
[9] 马孟莉, 张薇, 孟衡玲, 等. 豆蔻属药用植物叶绿体基因组密码子偏性分析 [J]. 中草药, 2021, 52(12): 3661-3670.
[10] Yu C H, Dang Y K, Zhou Z P,.usage influences the local rate of translation elongation to regulate co-translational protein folding [J]., 2015, 59(5): 744-754.
[11] 吴宪明, 吴松锋, 任大明, 等. 密码子偏性的分析方法及相关研究进展 [J]. 遗传, 2007, 29(4): 420-426.
[12] 唐晓芬, 陈莉, 马玉韬. 密码子使用偏性量化方法研究综述 [J]. 基因组学与应用生物学, 2013, 32(5): 660-666.
[13] 杨云彭, 马晓焉, 霍毅欣. 密码子优化策略在异源蛋白表达中的应用 [J]. 生物工程学报, 2019, 35(12): 2227-2237.
[14] 符文豪. 刺柏木材中抗炎活性成分的研究 [D]. 厦门: 厦门大学, 2019.
[15] 赵俊淇. 柏木、圆柏的精油提取及其抑菌性研究 [D]. 雅安: 四川农业大学, 2018.
[16] Noorbazargan H, Amintehrani S, Dolatabadi A,. Anti-cancer & anti-metastasis properties of bioorganic-capped silver nanoparticles fabricated fromextract against lung cancer cells [J]., 2021, 11(1): 61.
[17] 张翼, 来静. 内蒙古中西部地区圆柏移植季节分析与选择 [J]. 农业与技术, 2021, 41(5): 109-111.
[18] 施辰阳, 沙旭明, 马丹丹, 等. 基于外源硅处理下刺柏对重金属镉污染土壤的修复治理研究 [J]. 杭州师范大学学报: 自然科学版, 2019, 18(1): 46-52.
[19] 王晓双,杨芳,罗茜,等. 石斛属叶绿体基因组密码子使用偏性及系统发育分析[J/OL].分子植物育种, 2022, http://kns.cnki.net/kcms/detail/46.1068.S.20210303.1340.012.html.
[20] 徐贝. 巴山松及其近缘种的叶绿体基因组比较分析 [D]. 西安: 西北大学, 2021.
[21] 路东晔, 张磊, 郝蕾, 等. 臭柏叶绿体基因组结构与系统进化分析 [J]. 西北植物学报, 2018, 38(8): 1464-1475.
[22] Rao Y S, Wu G Z, Wang Z F,. Mutation bias is the driving force ofusage in thegenome [J]., 2011, 18(6): 499-512.
[23] 叶友菊, 倪州献, 白天道, 等. 马尾松叶绿体基因组密码子偏好性分析 [J]. 基因组学与应用生物学, 2018, 37(10): 4464-4471.
[24] 原晓龙, 陈伟, 王毅, 等. 思茅松叶绿体基因组密码子偏好性分析 [J]. 基因组学与应用生物学, 2021, 40(3): 1278-1283.
[25] 辛雅萱, 董章宏, 瞿绍宏, 等. 杜梨叶绿体基因组密码子偏好性分析 [J]. 河北农业大学学报, 2020, 43(6): 51-59.
[26] Zhou M, Long W, Li X. Analysis of synonymoususage in chloroplast genome of[J]., 2008, 19(4): 293-297.
[27] 王鹏良, 吴双成, 杨利平, 等. 巨桉叶绿体基因组密码子偏好性分析 [J]. 广西植物, 2019, 39(12): 1583-1592.
[28] 唐玉娟, 赵英, 黄国弟, 等. 芒果叶绿体基因组密码子使用偏好性分析 [J]. 热带作物学报, 2021, 42(8): 2143-2150.
[29] 秦政, 郑永杰, 桂丽静, 等. 樟树叶绿体基因组密码子偏好性分析 [J]. 广西植物, 2018, 38(10): 1346-1355.
[30] 中国科学院中国植物志编辑委员会. 中国植物志(第7卷) [M]. 北京: 科学出版社, 1978: 362-363.
[31] 郑薇玮, 陈金慧, 郝兆东, 等. 杉木等5种针叶树叶绿体密码子偏好性分析 [J]. 分子植物育种, 2016, 14(5): 1091-1097.
[32] 原晓龙, 康洪梅, 王毅. 云南蓝果树叶绿体基因组密码子偏好性分析 [J]. 西北林学院学报, 2020, 35(4): 26-31.
[33] 陆奇丰, 骆文华, 黄至欢. 两种梧桐叶绿体基因组密码子使用偏性分析 [J]. 广西植物, 2020, 40(2): 173-183.
Analysis of codon bias in the chloroplast genome of four medicinal plants of
SHU Jun-xia1, YANG Lin1, ZHOU Tao1, SHEN Lian-wen2, WANG Da-wei1
1. Key Laboratory for Forest Genetic and Tree Improvement & Propagation in Universities of Yunnan Province, Southwest Forestry University, Kunming 650224, China 2. Key Lab of Ministry of Education for Conservation and Utilization of Mountain Forest Resources in Southwest China, Southwest Forestry University, Kunming 650224, China
To determine the codon usage preference of the chloroplast genome of four medicinal plants ofgenus (,,, and) and the factors that affecting its codon preference.CodonW, CUSP, SPSS and other software was used to analyze the codon preference of the chloroplast genome of four medicinal plants of.The GC content of the chloroplast genome codons of the four medicinal plants ofwas from 35.8% to 37.3%, and the effective number of codon (ENC) value was from 47.10 to 47.79, indicating that their codon preference was weak. Neutral plotting, ENC-plot, PR2-plot analysis showed that the factors affecting the codon usage bias of the chloroplast genome of the four medicinal plants ofspecies were selection and mutation. At the same time, the relative synonymous codon usage (RSCU) value and ENC value were used to filter out a total of 65 optimal codons, of which nine codons are the optimal codons shared by four species of.The codon preference of four species ofspecies uses A/T ending, and its codon usage bias is mainly affected by natural selection. This study analyzes the codon usage bias of the chloroplast genome of four species ofplants and verified it by cluster analysis of the outer group cluster analysis, revealing the main factors affecting the codon usage bias ofgenus, and it is the foreign protein of the subsequentchloroplast genome. The construction and optimization of expression vectors provide a theoretical basis.
L.;L.;W. C. Cheng ex Ferré;W. C. Cheng;(Endlicher) Siebold ex Miquel; codon preference; optimal codon; natural selection
R286.12
A
0253 - 2670(2022)23 - 7507 - 09
10.7501/j.issn.0253-2670.2022.23.022
2022-03-01
云南森林资源培育与利用协同创新中心开放基金项目(201903611)
舒军霞(1998—),女,硕士研究生,研究方向为林木遗传育种。Tel: 18008713477 E-mail: shujunxia@swfu.edu.cn
通信作者:王大玮,硕士生导师,副教授,研究方向为林木遗传育种。Tel: 13888915161 E-mail: wangdawei@swfu.edu.cn
[责任编辑 时圣明]