甘蔗属种及其近缘属种蔗茅的全基因组密码子偏好性分析
2024-04-17田春艳李旭娟李纯佳毛钧刘新龙
田春艳 李旭娟 李纯佳 毛钧 刘新龙
(1.热带作物生物育种全国重点实验室,昆明 650205;2.云南省农业科学院甘蔗研究所 云南省甘蔗遗传改良重点实验室,开远 661699;3.农业农村部甘蔗生物学与遗传育种重点实验室,开远 661699)
遗传密码子是生命信息的基本遗传单位,核酸携带的遗传信息向蛋白质转化的过程是以三联体密码子形式传递的。每种氨基酸可由1-6 个密码子编码,这些编码同一种氨基酸的所有密码子被称为同义密码子[1]。不同生物甚至是同一基因组的不同基因,对同义密码子的使用并不是均衡的, 而是优先或倾向于使用一种或几种特定的同义密码子, 这称为密码子使用偏好性[2-4]。密码子使用偏好性是在长期的生物进化过程中形成的,在真核生物、原核生物以及病毒中都存在,是一种普遍现象[5-6]。其受自然选择、碱基突变、tRNA 丰度、氨基酸序列组成、基因组大小等多种因素的影响,其中自然选择和突变被认为是关键因素[7-8]。生物的密码子使用偏好性能在一定程度上反映出物种或基因的起源,对基因表达、目的基因修饰、基因家族分化等问题具有重要研究意义[9]。研究表明,生物体内普遍存在的这种密码子使用偏好性会导致外源基因在宿主细胞中的表达量降低。使用转基因受体系统偏爱的密码子进行目的基因序列优化是提高外源基因表达水平的一种有效手段[10]。周宗梁等[11]根据水稻偏好密码子对来源于苏云菌芽孢杆菌的cry1Ah1 基因进行密码子优化,结果表明全部采用最高频密码子的优化方案效果最好,cry1Ah 蛋白平均表达量占可溶性蛋白的0.104%。陈惠等[12]根据毕赤酵母密码子使用偏好性, 将来源于黑曲霉N25 的植酸酶基因phyA 进行改造, 结果密码子优化的酵母转化子中植酸酶活性为对照的2 倍。利用密码子优化的外源基因已在某些植物中获得了重组蛋白高表达的转基因植株[13-15]。
甘蔗(Saccharum spp.)是世界上最主要的糖料作物,供应了全世界近80%的食糖,因其具有十分高的生物量,也是重要的能源材料。在我国,甘蔗糖占据了近90%的食糖供应,是保障我国食糖安全的重要经济作物。现代甘蔗栽培品种主要来源于热带种和割手密两个同源多倍体的甘蔗属原始种间的杂交,其中70%-80%的染色体来源于热带种,10%-20%来源于割手密,10%属于二者的重组染色体[16]。因其基因组高度复杂且十分庞大,至今尚未完成基因组的测序工作,严重制约了甘蔗分子生物学和生物技术相关研究的发展。近几年,福建农林大学和广西大学亚热带农业生物资源保护与利用国家重点实验室先后完成了甘蔗属割手密(S.spontaneum),热带种(S.officinarum)以及甘蔗近缘属植物蔗茅(Erianthus fulvus)的基因组测序和组装工作,快速推动了甘蔗重要性状的分子机制解析,优异基因挖掘及生物技术育种的研究[17-19]。近年来,随着作物生物技术的快速发展,甘蔗种业对甘蔗重要性状的改良需求越来越迫切,亟需挖掘优异外源基因用于甘蔗品种性状的改良。为了提高这些外源基因在甘蔗转化体中的高效表达,解析甘蔗密码子偏好性特征十分重要。至今尚没有系统分析甘蔗密码子使用模式的研究报道。鉴于此,本研究拟基于前人已公布的4 个甘蔗属及其近缘属种基因组数据,研究其密码子使用模式并分析其影响因素,筛选出最优密码子,以期为利用基因工程实现优异外源基因在甘蔗中的高表达提供科学指导,为开展甘蔗抗虫、抗病转基因育种奠定重要的基础。
1 材料与方法
1.1 甘蔗属及其近缘属蔗茅的基因组数据来源及筛选
从甘蔗基因组数据库(http://sugarcane.zhang‑jisenlab.cn/SugarcaneDB/#/downloads)下载甘蔗属的热带种(LA‑purple)和割手密(NP‑X 和AP85‑441)及其近缘属种蔗茅(Yunnan2009‑3)共4 个材料的CDS 序列。为提高密码子偏好性分析准确性,利用Python 工具根据以下条件筛选符合密码子偏好性分析的CDS 序列:序列长度大于或等于300 bp 且序列碱基数是3 的整倍数;具有正确的起始密码子和终止密码子,且序列中间不具有终止密码子[20]。最终从热带种LA‑purple、割手密NP‑X 和AP85‑441 以及蔗茅Yunnan2009‑3 中获得符合条件的CDS 序列分别为242 904 条、131 179 条、60 604 条、35 616 条用于后续分析。
1.2 密码子组分分析
利用Python 编写代码分别计算CDS 序列的GC含量、密码子第1 位、第2 位和第3 位的GC 碱基含量(分别用GC1、GC2、GC3 表示)。利用Co‑donW1.4.2 计算同义密码子第3 位GC 含量(GC3s)、同义密码子第3 位4 种碱基的含量(分别用A3s、T3s、C3s、G3s 表示)、有效密码子数(ENC)、同义密码子使用度(RSCU)、CAI(密码子适应指数)、Fop(最优密码子频率)等参数。
1.3 基因表达水平与密码子偏性参数间相关性分析
从甘蔗基因组数据库(http://sugarcane.zhang‑jisenlab.cn/SugarcaneDB/#/downloads) 下 载 割 手 密AP85‑441 和蔗茅Yunnan2009‑3 的基因表达数据,并利用广西大学亚热带农业生物资源保护与利用国家重点实验室张积森教授团队提供的热带种LA‑purple的基因转录表达数据。利用SPSS 软件进行基因表达水平TPM(transcripts per million)值与密码子偏好性参数间的相关性分析,并利用R 语言绘制相关系数图。分析密码子偏好性参数与基因转录表达水平间的相互关系。
1.4 中性绘图分析
同义密码子的突变通常发生于密码子的第3 位碱基上,而非同义密码子的突变位点通常发生在第1 位或第2 位碱基[21]。以每条CDS 序列的GC1 和GC2 的平均值(用GC12 表示)为纵坐标,GC3 为横坐标利用Microsoft Excel 绘制中性对比散点图,分析GC3 与GC12 的相关性。若二者显著相关,则回归曲线斜率接近1,说明密码子3 个位置的碱基组成无明显差异,其偏好性主要受突变因素影响。若二者相关性不显著,则表明其密码子偏好性的主要影响因素是自然选择[22]。
1.5 ENC‑plot分析
有效密码子数是衡量同义密码子使用偏好的常用参数,ENC 取值范围从20-61,ENC 值为20表示每个氨基酸只用一个密码子,具有极强的偏好性,ENC 值为61 表示每个氨基酸均匀使用所有同义密码子,无偏好性[21]。前人研究提出可将ENC=35.0 作为判断密码子偏好性强弱的分界点,若ENC ≤35,则说明有较强的密码子使用偏好性[22-23]。以ENC 实际值为纵坐标,GC3s 为横坐标绘制散点图,并根据公式计算ENC 期望值(ENC 期望值=2+GC3s+29/[GC3s2+(1‑GC3s)2]),在 散 点 图 中绘制ENC 期望值的标准曲线。若密码子使用偏好性主要受到突变压力的影响,则散点将位于标准曲线上或略低于标准曲线,相反,若散点低于标准曲线,则主要受到选择和其他因素的影响[24]。
1.6 PR2‑plot分析
PR2‑plot 分析是对密码子第3 位碱基(分别用A3、T3、G3、C3 表示)组成的偏差对密码子偏好性产生的影响进行分析。以A3/(A3+T3)为纵坐标,G3/(G3+C3)为横坐标绘制散点图,坐标的中心点位置表示A=T 且G=C,通过中心点到某散点的矢量距离来判断碱基偏移的程度和方向。
1.7 最优密码子确定及密码子偏好性差异分析
根据ENC 值对CDS 序列进行排序,取ENC 值最高和最低的10%基因序列分别作为低表达库和高表达库,利用CodonW 1.4.2 软件分别计算2 个表达库的RSCU 值,并计算ΔRSCU 值(ΔRSCU =RSCU高表达库-RSCU 低表达库)。其中,RSCU>1 的密码子为高频密码子,ΔRSCU ≥0.08 的密码子为高表达密码子,同时满足2 个条件的密码子为最优密码子[25]。此外,由于甘蔗基因组复杂,染色体数目众多,本研究进一步根据研究材料的倍性和染色体基数进行分组,计算密码子的RSCU 值,从全基因组和染色体组水平探讨了4 个材料的密码子使用偏好性差异。
1.8 不同生物密码子偏好性比较
利用在线的密码子使用数据库(http://www.kazusa.or.jp/codon/)下载甘蔗近缘作物玉米、高粱及其他模式生物如水稻、拟南芥、烟草、大肠杆菌、酵母等的密码子使用数据,分析这些主要模式生物与甘蔗属及其近缘属种在基因组碱基组成差异、密码子偏好模式等方面的差异。参照雷佳欣等[26]的方法,以本研究甘蔗属种及其近缘属种蔗茅4 个材料的基因组RSCU 均值作为甘蔗的RSCU 值(这是由于现在甘蔗栽培品种绝大部分都含有热带种和割手密血缘,且本研究结果分析表明这两个种与其近缘属种蔗茅的密码子使用偏好性高度相似),若甘蔗RSCU 值与其他物种RSCU 的比值≥2 或≤0.5 时,表明与甘蔗的密码子使用偏倚差异显著。
2 结果
2.1 甘蔗属种及其近缘属种基因组密码子碱基组成分析
甘蔗属种及其近缘属种蔗茅4 个材料的基因组CDS 序列的核苷酸组成分析结果见表1。4 个材料基因组CDS 序列的同义密码子第3 位的碱基组成都是C 碱基含量最高,G 次之,A 含量最低。平均GC 含量为56.30%,其中割手密AP85‑441的最高(57.53%),蔗茅Yunnan2009‑3 的最低(55.02%)。密码子3 个位点的GC 含量都是GC3>GC1>GC2, 同义密码子第3 位的GC 含量(GC3s)介于61.06%-64.91%之间,且C3s>G3s>T3s>A3s。说明甘蔗基因组富含GC, 且偏好于使用以G 或C 结尾的密码子。
表1 甘蔗属种及其近缘属种蔗茅基因组CDS 序列的核苷酸组成和ENCTable 1 Nucleotide composition and ENC of CDS sequences in Saccharum species and its phylogenetically related species E.fulvus
2.2 密码子偏好性相关参数及基因转录表达水平的相关性分析
有效密码子数是衡量基因密码子偏好性强弱的重要指标,为了解甘蔗全基因组水平基因间的密码子偏好性差异,本研究分析了4 个材料全基因组的ENC 频数分布及其百分比,结果见表2。由表2 可知,4 个材料基因组的ENC 值频数分布及百分比极其相似,ENC ≤35 的CDS 序列占总数的比例在12.05%-14.23%之间,ENC 值在35‑45 之间的占16.72%-19.32%,ENC 值 大 于45 的 占66.53%-71.23%,表明全基因组内具有较强密码子使用偏好的基因约占13%、而约69%的基因密码子使用偏好性较弱。因此,在转化异源基因到甘蔗材料中时不仅需考虑甘蔗的密码子偏好性问题,对于少数基因而言,可能还需要关注基因本身的密码子使用特性。
为进一步了解基因表达与基因密码子使用偏好性参数间的相互关系,本研究利用热带种LA‑purple、割手密AP85‑441 和蔗茅Yunnan2009‑3 的基因表达数据,分析了12 个密码子偏好性参数与基因转录表达水平间的相关性,相关系数见图1,如图所示,12 个密码子偏性参数间的相关性在甘蔗这3个材料基因组中的表现是一致的。其中,GC 含量与GC1、GC2、GC3 含量显著正相关(P<0.01),GC3与GC1 与GC2 显著正相关(P<0.01)。ENC 与GC1、GC3 为显著负相关(P<0.01),说明第1 位、第3 位碱基对密码子偏好性的影响较大。ENC、CAI 和Fop都与序列长度无显著相关性,CAI 和最优密码子频率(Fop)与GC3 正相关(P<0.01),这与其基因组核苷酸组成分析的结果相吻合,都表明了甘蔗偏爱使用以G 或C 结尾的密码子。基因表达水平(TPM)与基因的CDS 长度、A3s、T3s 及ENC 为负相关(P<0.01),与GC、GC3、C3s、G3s、CAI 及Fop 为正相关(P<0.01),但相关系数较小,说明这些参数与基因实际的转录表达水平存在相关性,但相关性并不是很强,可能受到基因复杂的调控机制影响。
图1 基因表达水平与密码子偏好性参数的相关系数Fig.1 Correlation coefficients between gene expressions and codon usage bias parameters
2.3 中性绘图分析
中性绘图分析结果见图2,图中黑色直线为拟合的线性回归线,该直线的斜率越大,说明密码子第1、2、3 位的碱基组成越相似,其偏好主要是受突变的影响,反之说明选择的影响越强。由图2 可以看出,LA‑purple、NP‑X、AP85‑441、Yun‑nan2009‑3 的GC3 含量主要分布在20%-99%之间,GC12 含量主要分布在30%-75%之间。回归系数分别为0.241 7、0.218 7、0.213 5、0.233 6,说明密码子使用模式的突变压力占 21.35%-24.17%,自然选择是影响密码子偏好性的主要因素。
图2 四个材料的中性绘图分析Fig.2 Neutrality-plot analysis of four materials
2.4 ENC‑plot分析
ENC‑plot 分析结果见图3,从图中可以看出,一部分基因分布在标准曲线上或周围,而大部分基因落在标准曲线的下方,表明突变和自然选择都影响着甘蔗属种及蔗茅的密码子使用偏好性,但自然选择在其中起着主导作用。
图3 四个材料的ENC-plot 分析Fig.3 ENC-plot analysis of four materials
2.5 PR2‑plot分析
PR2‑plot 分析结果见图4,中心点(0.5,0.5)位置为A=T 且G=C。如图所示,大部分基因都远离中心点,在4 个平面的分布呈现不均匀,说明大部分基因的密码子第3 位对4 种碱基的使用频率存在差异,表明甘蔗热带种、割手密和蔗茅的基因组密码子使用模式不仅受自然选择的影响,也受到包括突变压力等其他因素的影响。
图4 甘蔗4 个材料的PR2-plot 分析Fig.4 PR2-plot analysis of four materials of Saccharum
2.6 最优密码子确定及密码子偏好性差异分析
根据全基因组密码子的RSCU 值,将RSCU 大于根据同时满足2 个条件即:高表达库和低表达库的RSCU>1 且ΔRSCU ≥0.08 的密码子为最优密码子的标准,根据高、低表达库的RSCU 值和两个表达库之间的ΔRSCU 值,最终在4 个材料中都被确定为最优密码子的密码子共有13 个(表3),它们分别 为UUC、CUC、CUG、AUC、GUG、UCC、AGC、GCC、UAC、AAG、UGC、CGC 和GGC。 这13 个密码子中以C 结尾的有10 个,以G 结尾的有3 个,说明偏爱以G 或C 结尾的密码子。此外,密码子CAG 和GAG 在热带种LA‑purple、割手密NP‑X 以及蔗茅Yunnan2009‑3 这3 个材料中也被确定为最优密码子,而在割手密AP85‑441 中虽不是最优密码子,但也是对应氨基酸同义密码子中偏好使用的密码 子。由 此 可 知,LA‑purple、NP‑X、AP85‑441 和Yunnan2009‑3 的密码子使用模式在全基因组水平上高度相似。
然而,甘蔗基因组高度复杂,染色体数目类型丰富。如,LA‑purple 为X=10 的同源八倍体,NP‑X为X=10 的同源四倍体,AP85‑441 为X=8 的同源四倍体,蔗茅Yunnan2009‑3 为X=10 的同源二倍体。为深入探讨这4 个材料的密码子使用模式是否存在差异,本研究进一步从染色体组水平计算了密码子的RSCU 值,如LA‑purple(X=10, 各染色体组命名即从Chr1 到Chr10)。结果见图5,图中RSCU 值在虚线以上的密码子为编码相同氨基酸中偏好使用的同义密码子。从图中可以看出,4 个材料在染色体和全基因组水平的密码子RSCU 值无明显差异(同一密码子堆积柱上各颜色的直方柱高度几乎完全相等),各氨基酸偏好使用的同义密码子相同。表明4个材料的密码子使用模式在染色体组水平上也是高度相似的。
图5 四个材料全基因组和染色体组水平的密码子RSCU 值分析Fig.5 Analysis of codon RSCU on genome-wide and chromosome set level in four materials
2.7 甘蔗属种及其近缘属种蔗茅与主要模式生物的密码子使用模式比较
上述甘蔗属种及其蔗茅的密码子偏好性主要参数的相关性研究表明,有效密码子数与基因组GC含量以及密码子3 个位点的GC 含量呈显著负相关关系,ENC 值也是评价密码子偏好的重要参数之一。因此,我们分析了甘蔗4 个材料与其近缘作物玉米、高粱以及一些模式生物的碱基组成差异。结果如图6,从图中可以看出,甘蔗热带种LA‑purple、割手密NP‑X 和AP85‑441 及蔗茅Yunnan2009‑3 与玉米、高粱和水稻的基因组GC 含量差异不大,介于50%-60%之间,密码子3 个位点的GC 含量都表现为GC3>GC1>GC2,偏好于使用以G 或C 结尾的密码子,符合单子叶植物的密码子使用特征。而拟南芥、烟草、大肠杆菌、酵母的GC 含量分布在40%-50%之间,含量最低的是酵母,密码子3 个位点的GC 含量为GC1>GC3>GC2,偏向于使用A 或U 结尾的密码子,与甘蔗属种及其近缘属种蔗茅的密码子使用模式具有明显差异。
图6 甘蔗与其他生物的基因组碱基组成比较Fig.6 Comparison analysis of genome base composition between sugarcane and other organisms
此外,为探究不同生物的密码子偏好性差异,分别以热带种、割手密和蔗茅的RSCU 平均值作为甘蔗的RSCU 值,分别与其他7 种主要模式生物的密码子RSCU 进行比较分析,结果见图7。从图中可以看出,甘蔗与玉米、高粱和水稻的RSCU 比值范围分别为0.88-1.19, 0.84-1.37, 0.82-1.12,与拟南芥、烟草、大肠杆菌、酿酒酵母的RSCU 比值范围分别为0.46-3.40,0.43-3.15,0.35-3.34,0.23-4.67,表明甘蔗的密码子使用模式与玉米、高粱和水稻等单子叶植物的密码子使用偏好性非常相似,而与拟南芥、烟草等双子叶植物的密码子使用偏好性差异较大,因此,玉米、高粱、水稻这些作物比较适合作为甘蔗优异基因验证时的异源遗传转化载体。与常用的大肠杆菌、酿酒酵母等异源表达宿主相比,酿酒酵母与甘蔗属及其近缘属种的密码子偏好性差异更大,因此,在做甘蔗相关基因的原核表达系统研究时,更适合选择在大肠杆菌中进行。
3 讨论
密码子偏好性广泛存在于生物中,是其在特定自然选择压力及突变压力下的进化模式,体现了物种对基因组环境和自然进化压力的适应性选择[27]。本研究对甘蔗属热带种、割手密及其近缘属种蔗茅的全基因组进行了密码子使用模式及其影响因素分析,结果表明甘蔗属种和蔗茅在密码子使用模式上高度相似。核苷酸组成成分上,4 个材料的GC 含量范围为55.02%-57.53%,同义密码子第3 位的GC含量范围为62.46%-66.09%,说明基因组GC 含量较高,而AT 含量较低,且都倾向于使用以G 或C 结尾的密码子,这与水稻[28]、玉米[29]、小麦[20]等单子叶植物的密码子使用特征一致。而与拟南芥[30]等双子叶植物基因组GC 含量较低,偏好使用以A或T 结尾的密码子有所差异[31]。此外,ENC 值是反映基因编码时对密码子选择性强弱的指标之一,前人研究提出可将ENC=35.0 作为判断密码子偏好性强弱的分界点,若ENC ≤35,则说明有较强的密码子使用偏好性[22,32]。本研究中,4 个材料的全基因组CDS 序列的ENC 值范围在47.97-48.89,均值为48.45,表明甘蔗属及其近缘属种蔗茅密码子使用偏好性较弱。这种较弱的密码子使用偏好性在拟南芥[30]、芒果[33]、菠萝[34]等多种作物中都被观察到。然而,本研究通过进一步对ENC 值的分布进行分析发现,密码子偏好性还与基因本身有关,甘蔗4 个材料的基因组中,具有较强密码子偏好性的基因占12.05%-14.23%(ENC ≤35),偏好性中等的基因占16.72%-19.32%(35<ENC ≤45),而约69%的基因密码子使用偏好性较弱(ENC>45)。因此,在研究基因异源表达效率时,除了考虑宿主的密码子使用偏好性外,少数基因可能还需要考虑基因本身的密码子使用特性。同时,为深入掌握这些密码子偏好性参数与基因表达的相互关系,本研究进一步结合转录组测序数据进行了基因转录表达水平与这些参数的相关性分析,结果表明基因表达水平与基因序列长度、A3s、T3s 和ENC 等显著负相关,与GC、GC3、C3s、G3s、CAI、Fop 等参数显著正相关,这与Wen 等[35]对川桑的研究结果一致。但相关系数较小,相关性很弱。可能的原因是基因的转录调控受到多种因素及调控元件的影响,是一个十分复杂的过程。依靠基因序列的密码子使用偏好性参数只能初步从理论上预测基因的表达水平,并不能精准预测基因的实际表达水平。
生物密码子使用模式的形成并不是单一因素作用引起的,而是多种因素综合作用的结果,为更好地了解影响密码子偏好性形成的影响因素,我们进行了中性绘图分析、ENC‑plot 及PR2‑plot 分析。结果均表明它们的密码子使用模式均同时受到自然选择和其他因素如突变压力的影响,但自然选择在其中起着主导作用。这与拟南芥[30]、木薯[36]、睡莲[37]等物种的研究结果相似,自然选择在这些物种的密码子使用模式形成中占据着主导作用。而在其他如籽粒苋[38]、乳油木[39]等作物中则表现为突变为主要影响因素,这说明影响生物密码子使用模式形成的主导因素在物种间是有差异的。以上多种作物的研究结果皆表明同义密码子使用偏爱特征是在自然选择、突变及其他多种因素的共同作用下形成的。研究发现,受到的正向选择和突变压力越大,在基因组中形成的最优密码子就越多,反之则较少[40]。根据RSCU 值及高、低表达基因组二者的ΔRSCU 值,本 研 究在LA‑purple、NP‑X、AP85‑441和Yunnan2009‑3 中筛选出了13 个最优密码子,这些最优密码子都以G 或C 结尾,证明了甘蔗属及其近缘属种蔗茅与其他单子叶植物密码子使用特征一致,皆偏爱以G 或C 结尾的同义密码子[31]。同时,经过对密码子的RSCU 值对比分析,我们明确了本研究的热带种、割手密和蔗茅的密码子使用偏好特征不管在全基因组水平还是染色体水平都是高度相似的。
经对比分析,本研究筛选出的最优密码子与玉米[29]、小麦[20]等禾本科作物偏好使用的密码子具有非常高的相似性,这暗示着物种间亲缘关系越近,其密码子使用模式可能越相似。此外,Zhang 等[20]分析了小麦的线粒体基因组、叶绿体基因组以及核基因组的密码子使用模式,结果表明3 个基因组间的密码子使用特征也存在一定的差异。本研究利用甘蔗属种及其近缘种蔗茅的全基因组进行密码子使用偏好特性分析,尽管属于不同的种,但结果表明其密码子使用模式高度相似,这些共同的密码子使用偏好特征对提高外源基因在甘蔗中的表达效率具有重要意义。
4 结论
甘蔗属种与其近缘属种蔗茅的基因组都富含GC,且偏好使用G/C 结尾的密码子,密码子使用偏好性高度相似。其密码子使用模式的形成受到了自然选择、突变压力等因素的共同作用,其中自然选择占主导作用。相关性分析表明密码子偏好性参数与基因转录表达水平相关性较弱。通过比较发现,甘蔗与玉米、水稻和高效的密码子偏好性较为相似,在甘蔗基因功能异源验证时可优先选择利用这些作物作为异源表达系统。
致谢:
衷心感谢广西大学张积森教授及华秀婷博士、汪柏宇博士为本研究提供了基因组数据和基因表达数据;感谢杨绍林同事及西北民族大学刘珊珊博士在本研究Python 代码编写上给予的帮助和指导。