APP下载

海甘蓝(Crambe abyssinica)叶绿体基因组特征及其系统发育研究

2022-07-22钱方高作敏胡利娟王洪程

生物技术通报 2022年6期
关键词:密码子叶绿体核苷酸

钱方 高作敏 胡利娟 王洪程

(贵州师范大学生命科学学院,贵阳 550001)

海 甘 蓝(Crambe abyssinica Hochst. ex R.E.Fr.)是十字花科(Brassicaceae)海甘蓝属(Crambe)的一年生草本植物,主要分布在地中海、西伯利亚和中亚等地区[1]。海甘蓝种子中的芥酸(erucic acid)含量高达55%-62.5%,而芥酸是重要的工业用油,可用于机械润滑、脱膜剂和燃料橡胶添加剂,又可用作化妆品、香料、高级工程塑胶等化工原料[2]。此外,芥酸还可进一步衍生为芥酸醜胺、山嵛酸等,这些衍生物在医药、农业、工业等行业均具有广泛的应用前景,因此海甘蓝被认为是一种新型的、可再生工业油用资源,受到越来越广泛的重视[3-5]。此外,海甘蓝还具有抗旱、抗病等特点[2],科研人员曾尝试将海甘蓝的优异性状转移到芸薹属(Brassica)作物中,以提高芸薹属作物的品质和丰富芸薹属种质资源[6-7]。因此阐明海甘蓝在十字花科植物中的系统发育位置及与十字花科重要经济作物的亲缘关系,将为海甘蓝的遗传改良及优良性状转育到芸薹属作物的可能性提供有力的分子支撑。

叶绿体(chloroplast,cp)是绿色植物进行光合作用的场所,拥有独立的遗传物质[8]。关于其起源,被广泛接受的是“内共生起源学说(endosymbiotic theory)”[9]。在高等植物中,细胞核(nucleus,nr)、叶绿体和线粒体(mitochondria,mt)各自拥有自己的一套遗传物质,即核基因组(nuclear genome,nrDNA)、叶 绿 体 基 因 组(chloroplast genome,cp genome)以及线粒体基因组(mitochondrial genome,mtDNA)[10]。叶绿体基因组一般是以共价双链闭合环的形式存在,只有极少数部分为线型或多聚体形式。通常叶绿体基因组大小为120-160 kb,编码110-130个基因[11-12],由两个单拷贝区(large single copy,LSC;small single copy,SSC)和两个反向重复区(inverted repeat,IRa和IRb)组成的典型四分体结构。其中IRa和IRb区方向相反,序列相同。相比于核基因组与线粒体基因组,叶绿体基因组的结构和编码区基因相对保守[13],进化速率适中,介于核基因组和线粒体基因组之间[14],因此叶绿体基因组被广泛应用于物种间的系统进化关系研究[15-17]。

自1986年首次完成地钱(Marchantia polymorpha)和烟草(Nicotiana tabacum)的叶绿体基因组测序以来[18-19],越来越多的植物叶绿体基因组数据被公布于公共基因组数据库中。目前在GenBank数据库中公布了数千物种的叶绿体基因组信息,但尚未有海甘蓝叶绿体基因组系统的研究发表,且海甘蓝在十字花科植物中的系统发育地位亦不明晰。本研究通过Illumina测序平台对海甘蓝的叶绿体基因组进行测序和组装,并对海甘蓝及其近缘物种的叶绿体基因组进行系统比较。此外,还根据海甘蓝与已报道的50个十字花科物种叶绿体基因组进行了系统发育分析,确定了海甘蓝在十字花科植物中的系统发育位置。

1 材料与方法

1.1 材料

海甘蓝种子经水引发后种植于贵州师范大学生命科学学院光照培养室,光照条件为16 h/8 h的光照/黑暗周期,生长温度为22℃/16℃的光照/黑暗周期。

1.2 方法

1.2.1 DNA提取、测序和组装 待幼苗生长至五叶期时,收集幼嫩的叶片,通过植物DNA提取试剂盒(天根)提取总DNA。DNA经过纯化后,构建400 bp的文库,然后通过二代测序平台(Illumina HiSeq X-Ten)进行高通量测序。数据过滤以后,以拟南芥(Arabidopsis thaliana;NC_000932.1)叶绿体基因组为参考基因组,通过BLASR软件(默认参数)比对出与叶绿体基因组相关的reads,然后使用NOVOPlasty v3.7 软件进行组装(默认参数)[20]。通过 GeSeq软件进行基因预测[21],采用人工比对近缘物种(拟南芥)进行校正。最后,通过软件OGDRAW[22]绘制海甘蓝叶绿体基因组的物理图谱。测序产生的原始数据(https://www.ncbi.nlm.nih.gov/;Submission ID:SUB9605680;BioProject ID:PRJNA728550)和组装完成的叶绿体基因组信息(GenBank accession number:MZ153236)均上传至NCBI(National Center for Biotechnology In-formation)数据库。

1.2.2 重复序列分析 通过在线软件REPuter(https://bibiserv.cebitec.uni-bielefeld)对海甘蓝叶绿体基因组进行长重复序列分析[23],重复序列包含同向重复(forward)、反向重复(reverse)、互补重复(complement)和回文重复(palindromic)。参数设置如下:最大重复长度(maximum computed repeats)设置为1 000,最小重复长度(minimal repeat size)设置为30,汉明距离(Hamming distance)设置为3(表示一对重复序列的相似度不能小于90%),其余均为默认参数。

通 过 在 线 软 件MISA(https://webblast.ipkgatersleben.de/misa/)检测海甘蓝叶绿体基因组的简单重复序列(simple sequence repeat,SSR)[24],参数设置如下:单核苷酸(mononucleotide)、二核苷酸(dinucleotide)、三核苷酸(trinucleotide)、四核苷酸(tetranucleotide)、五核苷酸(pentanucleotide)、六核苷酸(hexanucleotide)的重复次数分别设置为10、5、4、3、3和3,其余均为默认参数。

1.2.3 密码子偏好性分析 通过CodonW1.4.2(http://downloads.fyxm.net/CodonW-76666.html)软 件对海甘蓝叶绿体基因组进行密码子偏好性分析,为了减小误差,选择长度不小于300 bp的编码基因(53个),同时对海甘蓝叶绿体蛋白编码基因的相对同义密码子使用度(relative synonymous codon usage,RSCU)进行了计算,所有参数均为默认值。

1.2.4 叶绿体基因组的比较分析 为分析海甘蓝叶绿体基因组与近缘物种之间的差异,通过在线软件mVISTA(http://genome.lbl.gov/vista/mvista/submit.shtml)中的Shuffle-LAGAN模型[25]比较海甘蓝与5个近缘物种:克拉里克海甘蓝(Crambe kralikii)、甘蓝型油菜(Brassica napus)、白菜(Brassica rapa)、萝卜(Raphanus sativus)和拟南芥的叶绿体基因组序列差异;此外,还使用在线软件IRscope(https://irscope.shinyapps.io/irapp/)比较海甘蓝及上述5个近缘物种的IR边界(LSC/IRb、IRb/SSC、SSC/IRa和IRa/LSC)信息。

通过MUMmer v3.0软件检测了海甘蓝与其5个近缘物种中的SNPs(单核苷酸多态性)和InDels(插入/缺失),以海甘蓝叶绿体基因组为参考,maxgap=500,mincluster=100,其余为默认参数。

1.2.5 分子进化与系统进化分析 为评估海甘蓝叶绿体基因组中蛋白编码基因(protein-coding genes,PCGs)的同义(synonymous,Ks)和非同义(nonsynonymous,Ka)替换率,我们通过MAFFT[26]比对了海甘蓝与其5个近缘种(克拉里克海甘蓝、甘蓝型油菜、白菜、萝卜和拟南芥)的75个共有编码基因序列,采用KaKs_calculator 2.0[27]计算了75个共有编码基因的Ka/Ks值。

同时,为阐明海甘蓝与十字花科其他物种的系统发育关系,我们从GenBank数据库(https://www.ncbi.nlm.nih.gov/genome/organelle/)中下载了十字花科的50个物种的叶绿体基因组全序列,以Aethio- nema cordifolium 和 Aethionema grandiflorum 为外类群,采用MAFFT软件比对叶绿体基因组全序列,使用MEGA7.0[28]基于Tamura-Nei模型的最大似然法(maximum likelihood,ML)构建系统发育树,bootstrap值设置为1 000,以此推断各节点的支持率。

2 结果

2.1 海甘蓝叶绿体基因组特征

本研究基于Illumina HiSeq X-Ten测序平台,以拟南芥叶绿体基因组信息为参考进行组装和注释,得到了全长为153 754 bp 的海甘蓝叶绿体基因组(图1)。海甘蓝叶绿体基因组呈典型的四分体结构,由一对长度为26 176 bp的IR区(IRa和IRb)以及将它们分开的长度分别为83 622 bp的LSC区和17 780 bp的SSC区组成。在该叶绿体基因组中,4种碱基数量的百分比含量为T(32.28%)>A(31.35%)> C(18.51%)> G(17.86%),GC碱基含量占碱基总数的36.37%(表1),远低于AT碱基含量(63.63%)。在LSC、SSC和IR区中,GC含量分别为34.14%、29.29%和42.36%,AT含量分别为65.86%、72.71%和60.64%。在IR区中,其GC含量的百分比明显高于其它两个单拷贝区。

海甘蓝叶绿体基因组中一共注释到111个基因,其中蛋白编码基因78个,tRNA基因29个,rRNA基因4个,大多数基因都是单拷贝,只有19个基因为双拷贝(表1,图1)。在LSC和SSC区中,分别包含81和13个基因(包含双拷贝);在两个IR区中,一共检测到36个基因,rRNA基因全部位于IR区。在这111个基因中,大多数基因都与光合作用相关,部分基因与自身复制相关,只有极少部分的基因(ycf类)功能尚未明确(表2)。此外,共有18个基因含有内含子,其中15个基因(petB,petD,atpF,ndhA,ndhB,trnA-UGC,trnG-GCC,trnI-GAU,trnKUUU,trnL-UAA,trnV-UAC,rps16,rpl16,rpl2和rpoC1)含有1个内含子,3个基因(rps12,clpP和ycf3)含有2个内含子,其中rps12是一个5′端位于LSC区,3′端位于IR区的反式剪接基因。

图1 海甘蓝叶绿体全基因组图谱 Fig.1 Circle gene map of the C. abyssinica cp genome

2.2 重复序列和SSR分析

在海甘蓝叶绿体基因组中,我们共检测到41个长度范围在30-42 bp的长重复序列,其中包括13个正向重复、23个回文重复、3个倒置重复和2个互补重复(附表1)。这些重复序列分布较为广泛,大部分位于基因间区(intergenic spacer,IGS)和内含子区域,有18个重复序列(8个正向重复和10个回文重复)位于ndhA、petD、psaB、psbJ、rrn4.5S、trnS-UGA、ycf2和ycf3基因上;最大的长重复序列(回文重复,42 bp)位于IGS区(psbE-petL),rrn4.5S、ycf2和ycf3基因上均检测到4个重复序列;此外,3个倒置重复和2个互补重复存在于trnS-GCU和trnGUCC基因的IGS区域。

表1 海甘蓝叶绿体基因组的详细特征Table 1 Detailed characteristics of the chloroplast genome of C. abyssinica

在海甘蓝的叶绿体基因组中,共鉴定到13种不同类型的59个SSR位点(附表2),包含 40个单核苷酸、10个二核苷酸、3个三核苷酸、4个四核苷酸和2个五核苷酸重复,大多数的SSRs位于IGS区域,也有部分SSR在基因上被检测到。所有的单核苷酸重复均表现为A或T类型,其中最长的单核苷酸(T)长度为21 bp;所有的二核苷酸重复为AT或TA类型,其中最长的二核苷酸重复(AT)长度为18 bp;三核苷酸(AAG、GGT和TAT)和四核苷酸重复(AAAT、ACTT、CAAA和TAAA)的长度均为12 bp;五核苷酸重复(AACAT和ATATA)为15 bp;未检测到六核苷酸重复。

表2 海甘蓝叶绿体基因组基因功能总结Table 2 Summary of assembled gene functions of C. abyssinica chloroplast genome

2.3 密码子偏性分析

通过对海甘蓝叶绿体基因组中的53个蛋白编码序列(>300 bp)进行密码子偏性分析,发现此53个蛋白编码基因全长为63 795 bp,包含21 265个密码子。在这些密码子中,有2 232个(10.50%)密码子编码亮氨酸(leucine,Leu),而仅有244个(1.15%)密码子编码半胱氨酸(cysteine,Cys)(附表3),表明在海甘蓝叶绿体基因组中使用最多和最少的氨基酸分别是亮氨酸和半胱氨酸。RSCU分析显示,在海甘蓝叶绿体基因组中,UUA和CUC分别是使用频率最高和最低的密码子,其中有30种密码子的RSCU值大于1,这些密码子使用频繁,此外这RSCU>1的密码子中,除编码亮氨酸的UUG之外,其余29种密码子的第3位均为A/U结尾。

2.4 海甘蓝叶绿体基因组比较分析

为了比较海甘蓝与其近缘物种的叶绿体基因组差异,我们比较了海甘蓝与本属的克拉里克海甘蓝、芸薹属的甘蓝型油菜和白菜、萝卜属(Raphanus)的萝卜以及模式作物拟南芥的叶绿体基因组基本信息(表3),海甘蓝与其5个近缘种的叶绿体基因组高度相似,6个物种的叶绿体基因组全长范围在152 860 bp(甘蓝型油菜)-154 478 bp(拟南芥),均为典型的四分体结构,并且GC含量也十分接近(36.29%-36.37%),除海甘蓝的叶绿体基因组和丢失了2个基因(ycf15和trnfM-CAU)外,其余物种在基因组成和数量上基本一致。

表3 6种十字花科物种叶绿体基因组特征比较Table 3 Comparison of six chloroplast genomes of Brassicaceae species

以海甘蓝叶绿体基因组信息为参照,利用mVISTA 中的Shuffle-LAGAN模型比较了海甘蓝与其5个近缘物种(克拉里克海甘蓝、甘蓝型油菜、白菜、萝卜和拟南芥)的叶绿体基因组序列差异(图2)。6个物种的叶绿体基因组在LSC区和SSC区序列变异较大,IR区相对较为保守。物种之间的叶绿体基因组具有高度的保守性(>90%),且编码区、tRNA 和 rRNA 区域的变异低于非编码区。此外,IGS变异也比较大,如trnK-UUV和rps16基因之间、rpoB和trnC-GCA基因之间、petA和psbJ基因之间、rps12和trnV-GAC基因之间、ndhF和rpl32基因之间存在较大的序列差异。值得注意的是,虽然编码区的变异一般都较小,但是ycf1基因在此6个物种之间的变异较大。

图2 以海甘蓝为参考与其他5个近缘物种的序列比对结果Fig.2 Sequence alignment of 5 chloroplast genomes of Brassicaceae,with the annotation of C. abyssinica as reference

2.5 IR区边界位置差异比较

通过在线网站IRscope比较分析了海甘蓝6个物种的LSC、SSC和IR区的边界位置,在此6个物种叶绿体基因组4个区域中,IR区较为保守,序列大小在26 035-26 264之间。如图3所示,海甘蓝叶绿体基因组IR边界处与其他5个物种基本类似,LSC/IRb、IRb/SSC和SSC/IRa三个边界分别位于rps19、ndhF和ycf1基因内,仅IRa/LSC边界位于IGS(rpl2-trnH)。在LSC/IRb边界处,拟南芥、萝卜、甘蓝型油菜和白菜的边界基因rps19均有166 bp位于LSC区,113 bp位于IRb区,克拉里克海甘蓝存在1 bp的微小差异,而在海甘蓝中rps19基因只有93 bp位于IRb区;在IRb/SSC边界处的ndhF基因,除甘蓝型油菜外(进入IRb区36 bp),其余5个物种均有37 bp进入IRb区;在SSC/IRa 边界,6个物种均横跨 ycf1基因,横跨进入SSC区的长度大小从4 274 bp-4 331 bp不等,其中,拟南芥的 ycf1 基因在 SSC 区的片段长度最大,萝卜和海甘蓝最小;仅有IRa/LSC边界处于rpl2和trnH基因的IGS,靠近trnH基因,拟南芥、萝卜和白菜距离trnH基因仅有3 bp,克拉里克海甘蓝有4 bp,而B. napus和海甘蓝距离trnH基因分别为30 bp和23 bp。

图3 六个十字花科物种叶绿体基因组边界序列及接头附近基因的比较分析Fig.3 Comparative analysis of the boundaries of chloroplast genomes and adjacent genes among six Brassicaceae

2.6 海甘蓝与其近缘物种间的分化差异分析

海甘蓝与其5个近缘物种的叶绿体基因组比较保守,其编码基因数目、基因组大小和基因组结构等方面较为相似,为检测海甘蓝与其近缘种叶绿体基因组间的分化差异,我们以海甘蓝叶绿体基因组信息为参考,比较了这6种物种叶绿体基因组的SNP及InDel的数目及分布差异(图4,附表4-9)。结果显示,海甘蓝与拟南芥之间检测到的SNPs和InDels最 多(5 269个SNPs,671个InDels)(图4,附表4);与同属的克拉里克海甘蓝之间检测到的SNPs和InDels数量最少(206个SNPs,789个InDels)(图4,附表7);与芸薹属(甘蓝型油菜和白菜)和萝卜属(萝卜)之间检测到的SNPs和InDels数量较为相似(图4,附表5-6、8)。此外海甘蓝与拟南芥、甘蓝型油菜、白菜、克拉里克海甘蓝和萝卜之间检测到的SNPs和InDels位于LSC区的数量分别为4 212(70.91%)、2 061(71.07%)、2 025(70.48%)、707(71.06%)和1 913(69.92%),而位于IR区的数量仅分别为588(9.00%)、243(8.38%)、244(8.5%)、90(9.05%)和240(8.77%)(附表9)。由此可见,海甘蓝叶绿体基因组在种间的变异要远小于属间的变异,且变异主要发生在叶绿体基因组的LSC区,在IR区的变异较小。

图4 海甘蓝与其近缘物种叶绿体基因组间的SNPs和InDelsFig.4 SNPs and InDels between C. abyssinica and its closely related species chloroplast genomes

2.7 叶绿体基因组选择压力与系统发育分析

本研究对海甘蓝叶绿体基因组及其5个近缘种的75个蛋白编码基因进行了Ka/Ks计算(图5)。总体上看,平均Ka/Ks值为0.164,说明海甘蓝叶绿体基因组基因受到强烈的纯化选择压力。相比于克拉里克海甘蓝,ccsA基因的Ka/Ks值为1.708,与拟南芥相比,rps14基因的Ka/Ks值为1.222,而对比于其他物种对应的ccsA和rps14基因,Ka/Ks均小于。而ndhF基因与5个物种相比,其Ka/Ks的平均值为1.459。ycf2基因与萝卜、白菜和甘蓝型油菜相比,Ka/Ks均大于1,表明ndhF和ycf2基因受到了极强的正选择。

图5 海甘蓝与十字花科5个近缘物种叶绿体基因组中75个蛋白编码基因的Ka/Ks值Fig.5 Ka/Ks ratios of 75 PCGs of the C. abyssinica chloroplast genome versus 5 closely related species of Brassicaceae

本研究基于海甘蓝及其50个十字花科物种的叶绿体基因组,以岩芥菜属(Aethionema)的A. cordifolium和A. grandiflorum 为外内群,采用最大似然法(maximum likelihood,ML)构建系统发育树。如图6所示,遗传变异度为0.005,共包含49个节点,其中有46(93.88%)个节点的bootstrap值都为100,1个节点为94,仅有2个节点低于94(分别为42和56)。海甘蓝与海甘蓝属、芸薹属、萝卜属、Cakile arabica、白芥属(Sinapis)和诸葛菜属(Orychophragmus)的物种(共14个物种)聚在一个分支上,从这14个亲缘关系较近的物种来看,诸葛菜属系统发生位置位于较远的地方;Cakile arabica单独为一支;海甘蓝与其同属的克拉里克海甘蓝聚在一起,与白芥属的物种构成一个分支,形成两个姊妹类群;芸薹属的黑芥(B. nigra)也与白芥属聚在一起;萝卜属的萝卜与芸薹属的白菜、甘蓝、甘蓝型油菜和芥菜型油菜以bootstrap值为100聚在一个分支上。

图6 基于51个十字花科物种叶绿体全基因组序列的系统发育树Fig.6 Phylogenetic tree based on chloroplast genome sequences of 51 Brassicaceae species

3 讨论

在光合植物中,叶绿体基因组以单性遗传的方式传递遗传物质,一般来说,大多数被子植物是母系遗传(maternal inheritance),而大多数裸子植物却为父系遗传[12,29]。叶绿体基因组的大小范围在120-160 kb,相对保守[30]。海甘蓝叶绿体基因组全长153 754 bp,呈现出与大多数被子植物一样的典型四分体结构[13,31],与大多数已发表的十字花科物种叶绿体基因组相似[32-33]。此外,与海甘蓝的近缘物种比较发现它们之间序列相似性很高,在LSC区和SSC区序列变异较大,编码区比非编码区保守。值得注意的是,虽然编码区的变异一般都较小,但是ycf1基因在此6个物种之间的变异较大,在猕猴桃科(Actinidiaceae)和唇形科(Labiatae)中也存在序列差异较大的现象[34-35]。除海甘蓝叶绿体基因组丢失了ycf15和trnfM-CAU基因外,其余物种在基因组成和数量上基本一致。在白芥和芝麻菜(Eruca sativa)中也观察到了缺失ycf15基因的现象[36-37],表明该基因在十字花科植物中存在广泛的变异。

在十字花科植物叶绿体基因组中,IR区的GC含量远高于LSC区和SSC区,这种GC含量的差异分布是被子植物的典型特征[38-39],造成这种现象的主要原因是由于IR区含有4个高 GC 含量的 rRNA 基因[40]。植物IR区边界处的基因种类相对保守,即在LSC/IRb处的基因大都为rpl22、rps19和rpl2基因,十字花科物种在此边界横跨了rps19基因,但在杨属(Populus)的多个物种中横跨了rpl22基因[41],据此推测十字花科物种相较于杨属植物IR区发生了明显的收缩;IRb/SSC处的基因是ndhF和一个因拷贝不完整在此形成的假基因(ycf1)[10],而在SSC/IRa边界附近只有ycf1基因(该基因在此正常拷贝),且大多数物种此边界均落在ycf1基因上;IRa/LSC边界多数情况下都处于rpl2与trnH的IGS区内,而在贝母属(Fritillaria)多个物种中,trnH基因全部位于IR区[42],表明IR区的收缩与扩张广泛存在于不同的科属中,而IR区的收缩与扩张可能与叶绿体基因组的大小变化有一定的关联,因此对不同物种间的差异进行评估可以揭示相关类群的进化演变过程。

海甘蓝叶绿体基因组包含了重复序列的4种类型,大部分位于 IGS和内含子区域,对于分析叶绿体基因组碱基替换、基因组进化、基因重排以及系统发育的研究有重要的作用[43-44]。SSR广泛存在于整个基因组中,常被用于遗传多样性分析、物种鉴别、连锁作图及分子标记辅助选择育种等方面[45-46]。在海甘蓝叶绿体基因组中检测到59个SSRs位点,与白芥、芝麻菜和豆瓣菜(Nasturtium officinale)中检测到的SSR类似[36-37,47],单核苷酸均表现为A/T型,具有很强的A/T偏性,主要是原因是SSR通常由短聚腺嘌呤(polyA)或多胸腺嘧啶(polyT)重复序列组成[48]。可以基于叶绿体基因组中的重复序列和SSR位点开发用于海甘蓝种类鉴别的特异性标记。

密码子的使用偏性广泛存在于叶绿体中,一些基因的密码子偏性使用可以反应该物种对外界环境的选择压力,被广泛认为在叶绿体基因组的重塑中起着关键作用[49-50]。海甘蓝叶绿体基因组中密码子使用最多的是编码亮氨酸的密码子(2 232,占10.50%),最少的是编码半胱氨酸的密码子(244,占1.15%)。RSCU分析是一种用于测量密码子使用偏倚程度的相对直观的方法,RSCU>1,代表该密码子使用更频繁[51-52]。RSCU分析显示,UUA和CUC分别是使用频率最高和最低的密码子,其中有30种密码子的RSCU值大于1,除编码亮氨酸的UUG之外,其余29种密码子的第3位均为A/U结尾,表明这些密码子的使用更加频繁且具有很强的A/U偏性,这一现象广泛存在于大多数被子植物中。同义和非同义核苷酸替换模式是基因进化的重要指标,常用Ka/Ks的比值评估蛋白编码基因是否存在选择压力或评估基因分化率[53]。Ka/Ks<1,表示该基因经历了纯化选择,Ka/Ks=1,表示该基因受到中性选择,Ka/Ks>1,表示该基因受到正选择。在大多数基因中,Ks核苷酸替换比Ka核苷酸替换发生得更频繁,因此Ka/Ks值通常小于1[54]。总体上看,海甘蓝叶绿体基因组平均Ka/Ks值为0.164,说明海甘蓝叶绿体基因组基因受到强烈的纯化选择压力。ndhF基因在叶绿体的发育过程中其重要作用[55],ycf2是被子植物中报道的最大的质体基因[56],ndhF和ycf2基因的Ka/Ks均大于1,表明ndhF和ycf2基因受到了极强的正选择。

叶绿体基因组的遗传方式是母系遗传,碱基替代率与基因组结构重排事件低,因此常被用于探究物种系统发育关系的重要工具[36-37,47,57-58]。一些研究以较高bootstrap值的系统进化树阐明了十字花科部分植物的亲缘关系,如Du等[37]在对白芥亲缘关系解析时构建的系统进化树中57(73.08%)个节点的bootstrap值都为100,以此揭示了白芥与芸薹属和萝卜属植物之间密切的亲缘关系;此后Zhu等[36]在解析芝麻菜亲缘关系时,同样构建的系统发育树中42(77.78%)个节点的bootstrap值都为100,阐明了芝麻菜与芸薹属之间的亲缘关系较近。本研究基于海甘蓝及其近缘物种的叶绿体基因组全序列构建的系统发育树中,46(93.88%)个节点的bootstrap值都为100,这些结果都证实了基于叶绿体基因组信息揭示物种分类地位的可靠性。Warwick等[59]基于叶绿体限制酶位点多态性、核糖体内转录间隔区和叶绿体trnL内含子序列对十字花科进行系统发育分析,发现海甘蓝与黑芥之间有着密切的亲缘关系,本研究中以较高节点bootstrap值支持了海甘蓝与芸薹属和萝卜属之间的密切关系。在该进化树中海甘蓝与海甘蓝属、芸薹属、萝卜属、Cakile arabica、白芥属和诸葛菜属的物种(共14个物种)聚在一个分支上,从这14个亲缘关系较近的物种来看,诸葛菜属系统发生位置位于较远的地方,相比于其他5个属的物种是亲缘关系较远的类群;海甘蓝属与白芥属的物种构成一个分支,形成两个姊妹类群;有趣的是,芸薹属的黑芥也被聚在了白芥属内,这在之前的许多系统发生研究上发现了相同的现象[36-37,47];萝卜属的萝卜与芸薹属的白菜、甘蓝、甘蓝型油菜和芥菜型油菜聚在一个分支上,表现出与芸薹属的亲密关系。基于此,关于萝卜与芸薹属的远缘杂交研究得以展开[60]。这些结果表明海甘蓝属、芸薹属、萝卜属、Cakile、白芥属和诸葛菜属有着类似的祖先,或者在物种形成过程中,这些物种之间的母系遗传信息发生了交流。

4 结论

通过Illumina HiSeq 测序平台从头组装了海甘蓝的完整叶绿体基因组,全长为153 754 bp,呈典型的四分体结构,一共注释到111个基因(78个蛋白编码基因、29个tRNA基因和4个rRNA基因);密码子偏好性分析表明海甘蓝偏爱使用A/U结尾的密码子;共检测到41个重复序列和59个SSR位点,以单碱基重复A/T为主;除ndhB和ycf2基因外,其余蛋白编码基因普遍存在纯化选择压力;此外,系统发育分析发现,海甘蓝与芸薹属作物亲缘关系密切,与白芥属植物形成姊妹类群。本研究结果为今后海甘蓝优异性状的转移、亲缘关系解析以及遗传多样性分析提供了分子依据。

文章所有附图附表数据请到本刊网站下载(http://biotech.aiijournal.com)。

猜你喜欢

密码子叶绿体核苷酸
甜菜叶绿体分离及其 DNA提取
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
密码子与反密码子的本质与拓展
Acknowledgment to reviewers—November 2018 to September 2019
人不吃饭行吗
新型密码子、反密码子、氨基酸对应盘
日粮核苷酸对动物肠道健康和免疫功能的影响及其在养猪生产中的应用
10种藏药材ccmFN基因片段密码子偏好性分析
科学家揭示细胞质与叶绿体翻译的平衡调控叶绿体发育的新机制