莴苣线粒体基因组密码子使用偏好性分析
2022-12-20孙曙光
张 扬,孙曙光,李 晴,魏 珍
(1. 河南省农业科学院,河南 郑州 450002;2. 河南省作物分子育种研究院,河南 郑州 450002;3. 郑州大学 生命科学学院,河南 郑州 450001)
栽培莴苣(Lactuca sativaL.)是世界范围内栽培较广和食用较多的蔬菜,我国常见的莴苣品种有莴笋、油麦菜、结球生菜、奶油生菜等类型。栽培莴苣在植物分类学上属于菊科菊苣族莴苣亚族莴苣属,该属有70~80 个野生种[1]。野生莴苣L.aculeataBoiss.、L.serriolaL.、L.salignaL.和L.virosaL.是与L.sativa系统发育关系较近的野生种,后3种常被用于L.sativa杂交育种、品种改良和遗传资源研究[2]。
生物在自然选择和突变的共同作用下,在编码氨基酸的过程中倾向于使用一种或几种特定密码子的现象叫作密码子偏好性(Codon usage bias)[3]。密码子偏好性同时受到基因表达程度及表达模式、基因长度、相关基因间的密码子偏好性、tRNA 丰度及其互作、mRNA 二级结构、选择作用下的DNA 变异及蛋白质翻译效率等多种因素影响[3-6]。
植物线粒体(Mitochondrion,mt)作为植物细胞重要的细胞器,基因组有独立进行复制的能力,且可以编码多种rRNA、tRNA及蛋白质,其主要功能是通过氧化磷酸化产生ATP,从而为细胞提供能量。此外,还参与植物细胞中多种重要的生理活动和物质合成代谢活动。近年的一些研究发现,植物线粒体与细胞质雄性不育(Cytoplasmic male sterility,CMS)有密切的关系。植物线粒体上的育性恢复基因(Restorer-of-fertility,Rf,如COX11)、不育诱导因子基因(Sterility-inducing factors,Orfs,如atp6、cox3、nad7、mttB、ccmFc和rpl5)等与细胞核上的基因互作,参与调控CMS[7]。植物选育中常使用雄性不育的品种与可育品种进行杂交,来获得具有高产量与抗逆性等优良性状的植株,在实际生产中具有成本低、易实现等特点。对高粱和油菜等作物不同品系和雄性不育系的线粒体基因组研究表明,线粒体易位和重复区造成的变异可能与雄性不育性有关[8-9]。此外,敲除线粒体上的三角状五肽重复(Pentatricopeptide repeat,PPR)基因会使拟南芥幼苗的生长受到抑制甚至导致死亡[10],表明线粒体上的PPR基因是拟南芥生长发育的必需基因。
目前,针对莴苣属植物的核基因及叶绿体基因组的研究较多,尽管栽培莴苣L.sativa‘Salinas’和野生莴苣L.saligna的线粒体基因组已经完成测序[11],但针对它们的线粒体编码基因的密码子使用偏好性却未见报道。鉴于此,对栽培莴苣L.sativa‘Salinas’和野生莴苣L.saligna的线粒体基因组中的编码基因的密码子碱基组成特点及使用偏好性进行比较分析,为栽培莴苣和野生莴苣线粒体基因表达,与CMS 相关的Rf和Orfs基因挖掘、载体构建及栽培莴苣和野生莴苣线粒体基因组进化研究提供基础和依据,并可为栽培莴苣分子育种和新基因资源的创制提供参考。
1 材料和方法
1.1 莴苣线粒体基因组序列
供试栽培莴苣L.sativa‘Salinas’和野生莴苣L.saligna的线粒体基因组序列下载自NCBI,登录号分别为MK642355 和MK759657[11]。使用Genieous 10.2.2(https://www. geneious. com)对L.sativa‘Salinas’和L.saligna线粒体基因组的编码基因进行提取,分别获得39、37 个编码基因。选取长度>300 bp,以ATG为起始密码子,以TAA、TAG、TGA为终止密码子的编码基因,然后去掉重复基因,最终获得27 个L.sativa‘Salinas’和30 个L.saligna编码基因进行后续分析。
1.2 线粒体基因组蛋白质编码基因提取及密码子使用偏好性分析方法
1.2.1 密码子相关参数计算 使用Win32CodonW(http://codonw. sourceforge. net/)和 EMBOSS(The European Molecular Biology Open Software Suite)[12]中的CUSP 分别计算编码序列(Coding sequence,CDS)的密码子第3个碱基组成(以CT3、CC3、CA3、CG3表示),统计27 个L.sativa‘Salinas’和30 个L.saligna编码基因总GC含量和密码子第1、2、3位碱基的GC含量(分别用GC、CGC1、CGC2、CGC3表示),统计密码子适应指数(Codon adaption index,CAI)、最优密码子使用频率(Frequency of optimal codons,Fop)及有效密码子数(The effective number of codons,ENC)。采用SPSS Statistics 21 对相关参数之间进行相关性分析和显著性检验。
1.2.2 中性绘图分析 分别以每个线粒体CDS 的CGC1、CGC2的平均值(记为CGC12)为纵坐标,以CGC3为横坐标绘制散点图,分析CGC12与CGC3的相关性,并分析可能影响密码子偏好性的因素。如果CGC12与CGC3显著相关,则表明莴苣线粒体编码基因密码子对不同碱基使用无差异,突变是影响密码子偏好性的主要因素;如果CGC12与CGC3不显著相关,且斜率接近0,则表明第1、2 位密码子与第3 位密码子使用存在差异,选择压力对密码子偏性影响较大[13]。
1.2.3 PR2-plot 绘图分析 通过PR2-plot 绘图分析来研究自然选择和突变对密码子偏好性的影响[14]。分别分析2 种莴苣CDS 第3 位碱基的T3、C3、A3、G3的组成情况,并以A3/(A3+T3)为纵坐标,以G3/(G3+C3)为横坐标绘制散点图。中心点代表无偏度使用时的密码子使用状态,每一个散点与中心点的矢量距离代表其偏倚程度和方向[15]。
1.2.4 ENC-plot绘图分析 通过以2种莴苣线粒体编码基因的ENC 和CGC3为纵、横坐标做散点图,并与ENC 期望值(标准曲线公式ENC=2+CGC3+29/[+(1-CGC3)2])进行比较[16],来研究碱基组成对密码子偏好性的影响。若散点分布于期望值曲线上方,其密码子偏好性仅受突变影响;若散点与期望值曲线重合,则代表密码子偏好性仅受碱基组成的影响;若散点分布于期望值曲线下方,表明密码子偏好性主要受选择影响[17]。
1.2.5 相对同义密码子使用度(RSCU)分析RSCU 表示特定密码子在编码对应氨基酸同义密码子间的相对使用概率[18]。当RSCU>1 的时候,表明该密码子偏好性较强;当RSCU=1时,表明该密码子使用无偏好性;当RSCU<1时,表示该密码子偏好性较弱。
1.2.6 最优密码子分析 以ENC 为偏好性标准,选取ENC 值最高和最低的10%基因构建高、低表达基因库,分别计算对应的密码子RSCU 值,筛选高、低表达基因库内对应密码子ΔRSCU≥0.08 的作为优越高表达密码子,且同时RSCU>1 的密码子为最优密码子[19-20]。
2 结果与分析
2.1 密码子组成分析结果
通过对栽培莴苣L.sativa‘Salinas’和野生莴苣L.saligna线粒体基因组的27 条和30 条CDS 进行密码子使用偏好性分析,发现2 种莴苣的线粒体编码基因在CDS数量,密码子数量,密码子第3位碱基组成,密码子第1、2、3位碱基的GC含量和编码基因总GC含量,CAI,Fop及ENC等方面均具有一定的差异(表1)。
表1 2种莴苣线粒体基因组编码基因密码子偏好性参数Tab.1 Codon usage bias parameters of mitochondrial genomes from two species of lettuces
栽培莴苣L.sativa‘Salinas’的线粒体编码基因比野生莴苣L.saligna少3 个,分别是dpo、psaB、rpo等3 个质体来源基因(表2),同时密码子数量少2 744 个,具有较大差异。从整体来看,L.sativa‘Salinas’和L.saligna的编码基因密码子第3位碱基含 量CT3、CA3分 别 为41.20%、36.26% 和40.08%、36.18%,2 种莴苣线粒体编码基因第3 位碱基以A/T结尾为主。在碱基GC 含量方面,L.sativa‘Salinas’和L.saligna编码基因的总GC 含量为43.43%和42.54%,第1、2、3 位碱基的GC 含量依次降低,分别为48.51%、43.14%、38.65% 和47.79%、41.38%、38.44%,表明2 种莴苣线粒体基因富含A/T 碱基。2种莴苣的CAI和Fop值较为一致。
表2 2种莴苣线粒体编码基因密码子GC含量及有效密码子数Tab.2 GC contents and ENC of mitochondrial genes in the two lettuces
2 种莴苣线粒体基因的ENC 都在36.61~61.00,范围较为一致,其中大部分编码基因的ENC 都在50.00 以上,密码子偏好性较弱(表2)。2 种莴苣线粒体基因中ENC 最大的基因都是atp4,为61.00,说明密码子使用平均,没有表现出偏好性。L.sativa‘Salinas’有3个基因atp8、rps12、rps13的ENC 低于50,分别为49.01、46.06 和36.61,而L.saligna则是psaB、rps12、rps13的ENC 最低,分别为48.86、46.06和36.61,这几个基因表现出一定的密码子偏好性。
从单个基因来看,2 种莴苣总GC 含量范围一致,都在37.45%~51.98%(L.saligna的rpo基因总GC 含量为37.43%),不同基因3 个位点的碱基GC含量具有较大的差异(表2)。2 种莴苣密码子CGC1、CGC2、CGC3、GC、ENC 和序列长度(SL)等参数在相关性分析中也有一定的差异(表3)。在L.sativa‘Salinas’中,GC 分别与CGC1、CGC2、CGC3之间极显著相关,说明总GC 含量与3 个位点的碱基GC 含量都有关系;ENC 与GC 和CGC3极显著相关,说明密码子第3 位碱基GC 含量和总GC 含量对L.sativa‘Salinas’密码子使用偏好性影响较大;SL与GC和CGC3也表现出了显著相关性,说明序列长度与GC和CGC3也有关系。而在L.saligna中,GC同样分别与CGC1、CGC2、CGC3之间呈极显著相关,CGC1与CGC2显著相关,却都与CGC3之间没有显著相关性;ENC 与GC 和CGC3同样呈极显著相关,说明密码子第3 位碱基GC 含量和总GC 含量也对L.saligna密码子使用偏好性影响较大;SL 与其他参数都没有显著相关性。总体而言,对2 种莴苣来说,GC 和CGC3对密码子使用偏好性影响较大。
表3 2种莴苣线粒体编码基因密码子参数的相关性分析Tab.3 Correlation coefficient of codon usage bias parameters of mitochondrial genes in the two lettuces
2.2 中性绘图分析结果
栽 培 莴 苣L.sativa‘Salinas’的CGC12与CGC3为0.387 5~0.516 2 和0.239 3~0.579 3,而野生莴苣L.saligna的CGC12与CGC3为0.372 9~0.516 7 和0.239 3~0.579 3,两者之间的差异主要在前2位碱基的GC含量上,但总体范围较为一致,说明线粒体编码基因的碱基GC 含量较为保守(图1)。栽培莴苣和野生莴苣的CGC12与CGC3的Pearson 相关系数分别为-0.171 和-0.206,均不显著,说明CGC1、CGC2与CGC3相关性不大,密码子偏好性主要受到第3 位碱基影响。栽培莴苣L.sativa‘Salinas’和野生莴苣L.saligna的回归曲线斜率分别为-0.097 8和-0.129 4,且大部分散点都在对角线之外,表明选择是2 种莴苣线粒体基因密码子使用偏好性的主要影响因素。需要注意的是,在2 种莴苣中,mttB和nad6两个基因都落在了对角线上,说明它们的密码子使用偏好性主要受到突变的影响。
图1 中性绘图分析Fig.1 Analysis of neutrality plot
2.3 PR2-plot绘图分析结果
PR2-plot 分析主要是对密码子第3 位碱基组成进行的分析,如果第3位碱基A=T和C=G时,散点分布在中心点上,表示突变是影响密码子偏好的唯一因素[21]。2 种莴苣的大部分线粒体基因都分布在下方区域(图2),表明T 的使用频率高于A;而左下方的基因略多于右下方,表明2 种莴苣线粒体基因第3 位碱基使用C 多于G。总体来说,2 种莴苣线粒体基因第3位碱基更偏好使用嘧啶碱基。
图2 PR2-plot绘图分析Fig.2 Analysis of PR2-plot
2.4 ENC-plot绘图分析结果
在ENC-plot 分析中,2 种莴苣的大部分线粒体基因都偏离ENC 期望值标准曲线(图3),在标准曲线下分布的基因更多,说明2 种莴苣的线粒体基因密码子偏好性主要受到选择压力影响,其次受到突变影响。ENC 与期望值偏离最大的前6 个基因,有5 个是2 种莴苣共有的基因,按偏离距离由大到小排列分别是atp8、rps13、nad6、rps12和mttB,而dpo基因是L.saligna独有的,偏离范围在rps13和nad6两个基因之间。
图3 ENC-plot绘图分析Fig.3 Analysis of ENC-plot
2.5 RSCU分析结果
对2 种莴苣的RSCU 分析(表4)表明,栽培莴苣有28 个高频密码子(RSCU>1),野生莴苣有29 个高频密码子(RSCU>1),除UUG(Leu 亮氨酸)外,2 种莴苣的高频密码子均以A/U 结尾,2 种莴苣之间的密码子使用偏好性较一致。
2.6 最优密码子分析结果
将2 种莴苣ENC 值最大和最小的10%基因作为标准,筛选出2 种莴苣的高、低表达基因库,然后在Win32CodonW 中分别计算高低表达基因库的RSCU(表4)。2 种莴苣的高表达基因相同,分别为atp4、ccmFc和nad9,栽培莴苣L.sativa‘Salinas’的低表达基因为atp8、rps12和rps13,而野生莴苣L.saligna的低表达基因为psaB、rps12和rps13。分别计算高、低表达基因库的ΔRSCU 值,选出ΔRSCU≥0.08 且线粒体编码基因整体RSCU>1 的密码子为最优密码子。从结果可以看出,2 种莴苣的线粒体编码基因的最优密码子存在较大的差异,栽培莴苣有12 个最优密码子,其中8 个最优密码子为其独有,另外4 个与野生莴苣共有,而野生莴苣仅有4 个最优密码子,均与栽培莴苣共有。这些差异可能是因为2种莴苣的低表达基因库有差异造成的。
表4 2种莴苣线粒体基因RSCU及最优密码子Tab.4 RSCU of mitochondrial genes and the optimal codons in the two lettuces
续表4 2种莴苣线粒体基因RSCU及最优密码子Tab.4(Continued) RSCU of mitochondrial genes and the optimal codons in the two lettuces
续表4 2种莴苣线粒体基因RSCU及最优密码子Tab.4(Continued) RSCU of mitochondrial genes and the optimal codons in the two lettuces
3 结论与讨论
基于叶绿体和核DNA 序列的系统发育研究表明,野生莴苣L.saligna与栽培莴苣L.sativa‘Salinas’的亲缘关系较近[22],是L.sativa‘Salinas’重要的野生遗传资源,并且对霜霉病具有一定的抗性,被用来创制新的莴苣品系[23]。近年来,有关植物线粒体基因组与细胞核上的基因互作,参与调控CMS 的报道越来越多[7]。本研究对栽培莴苣L.sativa‘Salinas’和野生莴苣L.saligna的线粒体编码基因密码子使用偏好性进行了分析,发现两者的密码子使用虽然有相似之处,但整体上看各项具体参数均具有一定的差异。
2 种莴苣的线粒体编码基因都富含A/T 碱基,第3 位碱基以A/T 结尾为主,这与栽培大豆、野生大豆以及野生稻线粒体基因密码子偏好性的研究结果一致[24-25],并且也与沙枣、胡萝卜、梧桐、云南蓝果树等多种植物的叶绿体基因密码子偏好性研究结果一致[13,26-29],反映出植物细胞器基因组的碱基组成进化趋势是较为一致的。2种莴苣的ENC数量范围较为一致,密码子偏好性较弱,主要受到第3位碱基影响,第3 位碱基更偏好使用嘧啶碱基。它们的CAI和Fop也非常接近。
栽培莴苣L.sativa‘Salinas’和野生莴苣L.saligna的CDS 数量、密码子数量差异较大。栽培莴苣有30条CDS,而野生莴苣有32条CDS,经过筛选,符合密码子偏好性分析的分别是27 条和30 条。CDS 数量和类别的差异可能是导致密码子数量差异大的原因。
本研究结果表明,选择压力是2 种莴苣线粒体基因密码子使用偏好性的主要影响因素。需要注意的是,在中性绘图分析的结果中,2种莴苣的mttB和nad6基因的密码子使用偏好性主要受到突变的影响;而在ENC-plot 分析中,主要受到选择压力影响的前6个基因分别是atp8、rps13、dpo(L.saligna独有,其余5个为共有)、nad6、rps12和mttB。2种莴苣的mttB和nad6基因同时受到突变和选择压力的影响。mttB是编码一种跨膜转运蛋白的基因,在菜豆中使用ACG 作为起始密码子,随后通过RNA 编辑转变成标准的AUG 起始密码子[30];而nad6是编码NADH(还原型辅酶Ⅰ)脱氢酶第6 亚基的基因,曾被报道与哈克尼西棉和向日葵等农作物的细胞核雄性不育有关[31-32]。FENG 等[33]对豆科植物线粒体基因的研究发现,正选择压力作用于atp8、ccmFn、matR和mttB等4 个基因,表明这几个基因可能在豆科植物线粒体基因组进化的过程中有较重要的作用。2种莴苣的atp8基因是编码ATP 合酶一个亚基的基因,rps12和rps13是核糖体蛋白小亚基编码基因,为叶绿体和线粒体共有的基因,dpo基因是来源于植物的DNA 聚合酶编码基因[34]。rps12基因被认为与陆地棉耐盐性相关[35],也常用来作为分子标记研究植物的遗传多样性和系统进化[36-37]。因此,2种莴苣中密码子使用偏好性主要受到选择压力影响的6 个基因atp8、rps13、dpo(L.saligna独有,其余5个为共有)、nad6、rps12和mttB,可能在莴苣线粒体基因组进化和CMS 研究中有较重要的作用,不仅可作为莴苣CMS 研究的备选基因,也可用于研究不同莴苣栽培品系和野生莴苣间的遗传多样性和系统发育关系。
RSCU 分析表明,栽培莴苣和野生莴苣分别有28 个和29 个高频密码子(RSCU>1),除Leu 外,两者的基因密码子都偏好以A/U 结尾。2 种莴苣的3个高表达基因(atp4、ccmFc和nad9)及2 个低表达基因(rps12和rps13)相同。不同之处在于,栽培莴苣L.sativa‘Salinas’有一个低表达基因为atp8,而野生莴苣L.saligna有一个低表达基因为psaB(光系统Ⅰ反应中心蛋白亚基基因)。这几个低表达基因的密码子偏好性要略高于其他的基因。栽培莴苣有12 个最优密码子,其中8 个最优密码子为其独有,另外4个与野生莴苣共有,而野生莴苣有且仅有4 个最优密码子。最优密码子的差异可能是因为2种莴苣的低表达基因库差异造成的,也可能是由于自然选择或人工育种对栽培莴苣线粒体基因组进化的影响,造成了它比野生莴苣有更多的最优密码子。
本研究对栽培莴苣L.sativa‘Salinas’和野生莴苣L.saligna的线粒体基因组编码基因的密码子使用偏好性进行了研究,发现2 种莴苣在密码子使用偏好性方面既有相似之处(如碱基含量、第3位碱基偏好性、ENC 数量范围及选择压力是影响2 种莴苣线粒体基因密码子使用偏好性的主要因素等特征),也有存在明显差异的地方(如最优密码子)。研究结果不仅提供了2种莴苣线粒体基因的最优密码子及密码子使用偏好性的数据,为未来栽培莴苣的分子育种改良、雄性不育研究及新品种创制提供了基础数据,也为莴苣线粒体基因组进化和遗传多样性研究中分子标记的选择提供了依据。