豆蔻属药用植物叶绿体基因组密码子偏性分析
2021-06-24马孟莉孟衡玲王田涛李春燕卢丙越
马孟莉,张 薇,孟衡玲,王田涛,李春燕,卢丙越*
1.云南省高校滇南特色生物资源研究与利用重点实验室,云南 蒙自 661199
2.红河学院 生物科学与农学学院,云南 蒙自 661199
豆蔻属AmomumRoxb.是姜科第2 大属,全球150 余种,主要分布在亚洲和大洋洲的热带地区,我国有26 种,其中包括2 个变种,主要分布在西藏、云南、贵州、广西、广东、福建等省区,本属植物大多可作药用或香料,有祛风止痛、健胃消食之功效[1]。《中国药典》2015年版收录的豆蔻属物种有草果Amomum tsao-koCrevost et Lemaire、阳春砂Amomum villosumLour.、绿壳砂Amomum villosumLour.var.xanthioidesT.L.Wu et Senjen、海南砂仁Amomum longiligulareT.L.Wu、白豆蔻AmomurnkravanhPierre ex Gagnep.和爪哇白豆蔻Amomum compactumSoland ex Maton,其中阳春砂、绿壳砂和海南砂的干燥成熟果实做砂仁用,白豆蔻和爪哇白豆蔻干燥成熟果实做豆蔻使用[2]。2020年2月4日印发的《新型冠状病毒感染的肺炎诊疗方案(试行第五版)》中,草果被用于新冠肺炎临床治疗初期和中期推荐的中药处方,而恢复期推荐中药处方中含有砂仁,说明豆蔻属药用植物在抗病毒治疗中也发挥着重要作用。
叶绿体是调节植物光合作用的主要细胞器,具有感知外界环境胁迫信号的能力[3]。此外像氨基酸、蛋白质、脂类、萜类、酚类等多种物质与植物生命活动相关的代谢过程均需叶绿体的参与[4],挥发油是豆蔻属植物重要的化学成分,其挥发油主要由单萜、倍半萜和二萜等萜类物质构成[5]。随着高通量DNA 测序技术的发展及叶绿体测序技术成熟,越来越多的药用植物已完成叶绿体基因组的组装,包括姜科的姜、蜂窝姜、艳山姜、益智、观音姜、黄花姜黄、山柰、紫花山柰等,其中姜科豆蔻属的爪哇白豆蔻、白豆蔻、草果、阳春砂、绿壳砂和海南砂也已完成测序(https://www.ncbi.nlm.nih.gov/ genome/)。
DNA 携带的遗传信息在从RNA 转移到蛋白质的过程中以三联子密码的形式传递,每种氨基酸至少对应1 个密码子,最多对应6 个密码子。编码相同氨基酸的密码子称为同义密码子,在蛋白质合成过程中,使用同义密码子的频率是不同的,把一个物种或一个基因倾向于使用一个或多个特定的同义密码子的现象称为密码子使用偏性(Codon usage bias,CUB)[6],这一现象被认为是生物为适应环境而表现出的一种进化行为[7]。已有研究表明,选择、突变和漂变是导致密码子偏性的主要原因[8],而对于哪种因素起主导作用仍是研究的热点和争论的焦点。对生物密码子使用偏性的分析,有助于理解物种的分子进化和环境适应性,研究物种间的进化关系[9],而且对研究基因表达也具有重要意义[10],最近王茹茹等[11]利用α-法尼烯合酶基因在叶绿体中过表达的拟南芥转基因株系实现了萜类代谢挥发物含量的增加,认为叶绿体是萜类代谢工程一个理想的亚细胞空间,这为通过基因工程手段提高豆蔻属药用植物精油含量、改良精油品质提供了一个新的思路。而目前未见关于豆蔻属叶绿体基因组密码子偏性研究的详细报道,本研究系统分析了豆蔻属4 个药用植物草果、阳春砂、白豆蔻和爪哇白豆蔻的叶绿体基因组密码子使用模式和变异来源,结果可为豆蔻属药用植物叶绿体的深入研究和应用奠定基础。
1 材料
草果和阳春砂植株采自云南省红河哈尼族彝族自治州金平苗族瑶族傣族自治县金河镇大老塘村(22°73′99.86″N,103°21′43.19″E),经云南省高校滇南特色生物资源研究与利用重点实验室张薇教授鉴定为姜科豆蔻属植物草果A.tsao-koCrevost et Lemaire 和阳春砂A.villosumLour.。草果和阳春砂叶绿体全基因组序列已上传至GenBank,GenBank 收录号分别为MK926774 和MN931250,此外从GenBank 数据库下载白豆蔻(收录号NC_036935)和爪哇白豆蔻(MG000589)叶绿体基因组序列。草果、阳春砂、白豆蔻和爪哇白豆蔻叶绿体基因组大小分别为163 648、164 069、162 766、163 553 bp,分别包括无重复蛋白质编码基因序列79、79、80、80 条。为保证结果的准确性和可比性,筛选的各基因需满足以ATG 为起始密码子,以TAA、TAG、TGA 为终止密码子,并且编码区序列长度超过300 bp 的条件,最终确定50 条基因序列用于CUB 分析。
2 方法
2.1 密码子偏好性分析
利用 CUSP 在线程序(http://www.Bioin formatics.nl/emboss-explorer/)计算各基因编码区总GC 含量(GCall)以及密码子第1 位(GC1)、第2位(GC2)、第3 位(GC3)的GC 含量。利用CodonW1.4.2 软件计算有效密码子数(ENC)和同义密码子的相对使用频率(relative synonymous codon usage,RSCU),并进行对应性分析(correspondence analysis,COA)。通过Microsoft Excel和IBM SPSS19.0软件对分析数据进行整理和作图。
2.2 中性绘图分析
中性绘图分析是衡量密码子偏性影响因素的方法之一,同义密码子的突变通常发生在第3 碱基,而第1 或第2 碱基的突变是非同义密码子的突变,非同义密码子的突变率较低。在中性图中,以每个基因的GC12(GC1 和GC2 的平均值)为纵坐标(Y),GC3 为横坐标(X),每个点都被认为是一个独立的基因,如果所有的点都沿对角线分布,说明密码子3 个位置的碱基没有明显差异,只受突变压力的影响;如果GC12 和GC3 变异的相关性很低,则表明自然选择是密码子使用模式的主要决定因素[12]。
2.3 ENC-plot 分析
有效密码子数(ENC)反映的是密码子偏离随机选择的程度[13],被广泛用于衡量密码子偏好性水平,ENC 值从20(极偏好,每个氨基酸只使用一个密码子)到61(无偏好,每个氨基酸均匀使用所有同义密码子),当ENC 值≤35 时,认为密码子使用有非常显著的偏差。通过给定的GC3 含量,可以计算出理论ENC 值。
ENC=2+GC3+29/[GC32+(1-GC3)2]
以GC3 为横坐标,ENC 为纵坐标,用Microsoft Excel 绘制ENC-plot 图。如果密码子使用偏性受到突变压力的很大影响,基因将位于标准曲线上或略低于标准曲线,相反,如果基因低于标准曲线,则受到选择和其他因素的影响较大。
2.4 PR2-plot 分析
PR2 偏倚分析(PR2-bias plot analysis)是为了避免由密码子第3 位碱基A/T 和C/G 之间突变不平衡,仅对4 种密码子编码的氨基酸进行密码子第3 位上4种碱基组成情况的分析[14]。本研究选择了包括编码亮氨酸(Leu)的CTT、CTC、CTA、CTG,编码缬氨酸(Val)的GTT、GTC、GTA、GTG,编码苏氨酸(Thr)的TCT、TCC、TCA、TCG,编码脯氨酸(Pro)的CCT、CCC、CCA、CCG,编码丝氨酸(Ser)的ACT、ACC、ACA、ACG,编码丙氨酸(Ala)的GCT、GCC、GCA、GCG,编码精氨酸(Arg)的CGT、CGC、CGA、CGG 和编码甘氨酸(Gly)的GGT、GGC、GGA、GGG 的8 个氨基酸密码子用于PR2 偏倚分析。分别以A3/(A3+T3)为纵坐标,G3/(G3+C3)为横坐标制作散点图,通过各点偏离中心点(A=T,C=G)判断碱基偏移的程度和方向。
2.5 对应性分析
对应性分析(COA)从多维空间中提取最具影响的轴和方向,通过分析COA 轴分离出的基因能识别影响密码子使用偏性的主要原因[15]。利用CodonW1.4.2 软件进行COA 分析,根据相对同义密码子使用度(RSCU)值将所有基因绘制在59 维的向量空间中,产生了一系列可以用来表示豆蔻属植物叶绿体基因组密码子使用变异的正交轴,根据基因在多维空间中的同义密码子使用情况,来分析密码子使用变化的主要来源。
2.6 最优密码子分析
参照刘庆坡等[16]的方法确定最优密码子。根据ENC值大小,将4个豆蔻属物种50个候选基因中ENC值最高(10%)和最低(10%)的作为高表达组(5个)和低表达组(5 个),分别计算高表达组和低表达组的RSCU,并计算高低组的RSCU 差值(ΔRSCU),以ΔRSCU 大于0.08 的密码子作为高表达密码子;将高表达密码子与高频密码子(RSCU>1)取交集,共有的密码子作为最优密码子。
3 结果与分析
3.1 叶绿体基因的密码子偏好性分析
豆蔻属4 个物种叶绿体基因组的GC 含量见表1。50 个基因整个编码区的GC 含量(GCall)在37.22%~37.31%,叶绿体基因组3 个位点的GC1、GC2 和 GC3 含量分别为 45.68%~45.93%、38.08%~38.24%和27.72%~28.03%,其中GC1>GC2>GC3,平均GC 含量均小于50%,表明4 个物种叶绿体基因组倾向于使用A/T 碱基和A/T 结尾密码子。草果、阳春砂、白豆蔻和爪哇白豆蔻叶绿体基因组编码区的ENC 值分别在35.28(rps18)~55.08(ndhC)、35.27(rps18)~56.00(ndhC)、38.94(rps18)~56.08(ndhC)和35.27(rps18)~56.08(ndhC),4 个物种50 个基因ENC 值均在35 以上,表明豆蔻属物种叶绿体基因密码子偏性较弱。
表1 豆蔻属叶绿体基因组密码子不同位置的GC 含量Table 1 GC content of different positions of codon in chloroplast genome of Amomum Roxb.
4 个豆蔻属物种各基因的GC1、GC2、GC3、GCall、ENC 和密码子数(codon counts,CC)相关性分析见表2。GCall 与GC1、GC2 和GC3 呈极显著相关(P<0.01),GC1 和GC2 之间也呈极显著相关,表明密码子第1 位碱基和第2 位碱基组成相似,但与第3 位碱基组成存在显著差别;ENC 值与GC3相关性呈极显著水平,而与GC1 和GC2 相关性不显著,表明密码子第3 位碱基的组成对密码子使用偏性有重要影响;4 个物种的ENC 值与基因密码子数CC 之间的相关系数为0.199(草果)~0.211(爪哇白豆蔻),物种间差异较小,且相关性均未达到显著水平,表明CC 对ENC 的影响较弱,豆蔻属物种叶绿体基因长度对密码子使用偏性无干扰。
表2 各基因相关参数的相关性分析Table 2 Correlation analysis of each gene's related parameters
为了进一步分析密码子使用模式,利用CodonW1.4.2 软件计算4 个物种的RSCU 值,结果表明4 个物种的RSCU 值相近,RSCU>1 的密码子共有30 个,其中只有1 个密码子(TTG)以G 结尾,其余29 个密码子都以A、T 结尾,说明豆蔻属叶绿体基因组中A 或T 出现频率较高,是该属叶绿体基因组偏好的密码子。RSCU<1 的密码子中除CTA 和ATA 以A 结尾外,其余均以C 或G 结尾,说明以C、G 结尾的密码子出现频率比较低,是非偏好密码子(表3)。
表3 豆蔻属叶绿体同义密码子的使用频率Table 3 RSCU analysis of protein coding region in the chloroplast of Amomum Roxb.
3.2 中性绘图分析
豆蔻属叶绿体基因中性绘图见图1。草果、阳春砂、白豆蔻和爪哇白豆蔻叶绿体基因组各基因的GC3 分别为17.27%~36.82%、16.55%~36.32%、16.55%~36.77%和16.55%~36.19%,GC3 含量最低的基因为rps11基因,最高的为ycf2基因;GC12的取值范围分别为草果(33.14%~56.12%)、阳春砂(32.95%~56.48%)、白豆蔻(32.95%~55.76%)和爪哇白豆蔻(32.95%~55.76%)。4 个物种的GC12与GC3 的相关系数分别为0.240(草果)、0.213(阳春砂)、0.211(白豆蔻)和0.204(爪哇白豆蔻),相关性均未达到显著水平(P=0.05),说明突变压力对密码子使用偏倚的影响较小。此外,中性图斜率显示,4 个叶绿体基因组密码子使用模式的突变压力仅占25.61%~31.04%,而自然选择占68.96%~74.39%。这些结果表明自然选择在密码子使用模式中起着重要作用。
图1 中性绘图分析Fig.1 Analysis of neutrality plot
3.3 ENC-plot 绘图分析
4 个豆蔻属植物叶绿体基因组的ENC 和GC3分布相似(图2)。只有少数几个点位于曲线附近,偏性较弱,而大多数ENC 值低于预期值的基因位于曲线下方,偏性较强,表明突变压力对叶绿体基因组密码子使用偏好性影响不大,更多地受到选择效应的影响,这也与中性分析的结果一致。
图2 ENC-plot 分析Fig.2 Analysis of ENC-plot
3.4 PR2-plot 绘图分析
PR2-plot 分析表明,草果、阳春砂、白豆蔻和爪哇白豆蔻的AT 偏向分别为0.451、0.448、0.448 和0.449,GC 偏向分别为0.455、0.450、0.450 和0.450。各编码基因不均匀地分布于平面图的4 个区域内,平面图左下方基因分布较多(图3),说明豆蔻属叶绿体基因密码子的第3 位密码子存在T/C 偏向,豆蔻属叶绿体基因组密码子使用模式不仅受到突变影响,同时还受到如选择压力等其他因素的影响。
图3 PR2-plot 分析Fig.3 Analysis of PR2-blot
3.5 对应性分析
基于4 个物种的50 个叶绿体基因的RSCU 值进行对应性分析(COA)(图4),前4 个轴累计解释的变异分别占总变异的37.27%、36.46%、34.91%和36.40%,第1 轴可解释的变异分别占总变异的11.27%、11.07%、10.43%和10.80%;4 个物种第2~4 轴可解释的变异分别为草果(10.54%、7.96%和6.09%)、阳春砂(9.58%、8.17%和7.64%)、白豆蔻(8.73%、8.28%和7.48%)和爪哇白豆蔻(9.84%、8.13%和7.63%),由于第1 轴仅解释了豆蔻属植物cp 基因组中密码子使用的部分变异,表明豆蔻属植物叶绿体的密码子使用变异来源并不单一,可能与几个主要因素有关。
图4 基于RSCU 的对应性分析Fig.4 Corresponding analysis based on RSCU
3.6 最优密码子分析
根据高低库中密码子的RSCU 值和ΔRSCU 值来确定豆蔻属叶绿体的最优密码子(表4),草果、阳春砂、白豆蔻和爪哇白豆蔻分别确定了18、16、16、18 个最优密码子。4 个物种共有的高频密码子有13 个(TTT、TTA、ATT、GTA、ACT、CAA、AAA、GAA、TGT、CGT、CGA、AGT、GGT),在13 个共有密码子中ΔRSCU 均大于0.5 的有4 个,分别为编码亮氨酸的TTA、编码苏氨酸的ACT、编码精氨酸的CGA 和编码丝氨酸的AGT。除TTG 外,所有的最优密码子均以A/T 结尾。
表4 豆蔻属叶绿体基因组最优密码子分析Table 4 Putative optimal codons in the chloroplast genome of Amomum Roxb.
4 讨论
密码子使用偏性是生物基因组进化的一个重要特征,对研究分子进化和外源蛋白表达有重要意义[17-18]。前人对真核生物和原核生物的密码子使用偏向进行了大量的研究,发现密码子使用偏向与GC 组成、tRNA 丰度、基因表达水平、基因长度等有关[6]。密码子的使用模式与GC 含量密切相关,本研究中4 个豆蔻属植物叶绿体基因组3 个位点的
GC1(45.68%~45.93%)、GC2(38.08%~38.24%)、GC3(27.72%~28.03%)含量和总GC(37.22%~37.31%)含量均小于50%,说明4 个叶绿体基因组倾向于使用A/T 碱基和A/T 结尾的密码子,这与已报道的籽粒苋[19]、糜子[20]、刺榆[21]、大戟科[22]、茶树[23]、茄科[24]等植物叶绿体基因组研究结果一致,也说明高等植物在叶绿体基因GC 含量及密码子使用上具有相似性。
4 个豆蔻属物种的叶绿体基因组中均有30 个密码子的RSCU>1,其中29 个密码子以A/T 结尾,而RSCU<1 的32 个密码子中有29 个密码子以C/G结尾,这也与前人对叶绿体基因密码子偏性分析的结果相似[25-26]。相比较而言,核基因组中高频密码子的数量和密码子第3 位碱基变化很大,像双子叶植物大豆、拟南芥和番茄分别有29、26 和25 个高频密码子,且绝大多数高频密码子以A 或T 结尾,而像单子叶植物玉米、水稻和小麦分别有28、27和25 个高频密码子,大多以G 或C 结尾[27]。本研究中4 个豆蔻属植物叶绿体基因组RSCU 值的变异范围相似,分别为0.29~2.01、0.29~2.06、0.29~2.02 和0.28~2.07,均以TTA(编码亮氨酸)的RSCU值最高和AGC(编码丝氨酸)最低,表明在豆蔻属物种中TTA 使用频率最高,而AGC 使用频率最低,相似的密码子使用情况在菊科植物[18]、陆地棉[28]、沙枣[29]、刺五加[30]等物种中也存在,而柿属植物编码Arg 的AGA 和CGC 的RSCU 值最高和最低[31],蒺藜苜蓿也以编码Arg 的AGA 的RSCU 最高,但RSCU 最低的是编码Arg 的CGG[32],表明不同物种在氨基酸和密码子使用上存在差异。
中性绘图分析是通过密码子3 个位点碱基组成的相关性来判断影响密码子偏性原因的常用方法,在随机突变或一定方向突变压力的情况下,密码子3 个位点的碱基含量应该相似,当存在选择压力的情况下密码子3 个位点的碱基组成会出现差异。本研究中4 个豆蔻属物种GC3 和GC12 之间没有显著的相关性,密码子第3 位受到随机突变的影响较弱,表明选择压力可能是影响豆蔻属叶绿体基因核苷酸组成的重要因素,ENC-plot 分析也证实了这一点,4 个物种都只有少部分基因位于标准曲线上或附近,更多的基因则落于标准曲线下方,说明在豆蔻属叶绿体基因组中只有少部分基因的密码子偏性是由突变主导,而更多的基因密码使用受选择作用主要影响。进一步的PR2-plot 分析也证实了密码子第3 位碱基的组成并非随机突变形成,大部分基因位于平面图的左下方(图3),而没有集中在中心点位置(随机突变情况下A/T 和G/C 所占比例相当),其中个别基因偏离中心点很远,表明除突变外,其它因素(如选择)对豆蔻属叶绿体密码子使用模式影响较大,此外对应性分析前4 轴可解释总变异的37.27%、36.46%、34.91%和36.40%,第1 轴是主要的变异来源,约占总变异量的11%,这也表明密码子的使用除受自然选择外,还受到其它因素的影响。综合分析表明豆蔻属物种密码偏性受多种因素影响,其中以选择压力为主。本研究在草果和爪哇白豆蔻中提取到18 个最优密码子,而阳春砂和白豆蔻都为16 个,其中共有最优密码子有13 个。鉴于最优密码子与基因的表达水平有关,在后续的豆蔻属物种基因工程研究,可有针对性的改造外源基因密码子,以提高基因的表达量,来实现改良物种重要性状的目的。
利益冲突所有作者均声明不存在利益冲突