紫叶风箱果叶绿体基因组特征及绣线菊亚科系统发育分析
2024-03-22黄祥何梦瑶王子煊楚光明江萍
黄祥,何梦瑶,2,王子煊,楚光明,江萍,2*
(1. 石河子大学农学院,新疆 石河子 832003;2. 新疆生产建设兵团特色果蔬栽培生理与种质资源利用兵团重点实验室, 新疆 石河子 832003)
绣线菊亚科(subfam. Spiraeoideae)是蔷薇科(Rosaceae)最原始的亚科,全球共22 属260 余种,我国有8 属100 种[1]。紫叶风箱果(Physocarpus opulifolius‘Diabolo’)为蔷薇科,绣线菊亚科,风箱果属(Physocarpus)落叶灌木,是我国近年来从北美引入的观赏性花灌木;其枝叶整个生长季均呈紫色,花多而密,果实红色且宿存,具有较高的观赏价值,是园林绿化中优良的观花灌木和彩叶观赏树种,其形态特征及繁殖能力均优于我国分布的风箱果属中唯一的古老残遗种:风箱果(Physocarpus amurensis)[2]。目前,国内外学者对风箱果属物种的研究主要集中在栽培技术[3-4]、逆境胁迫[5-7]、杂交育种[8-10]等方面,关于风箱果属物种的系统发育研究较少[11]。然而,紫叶风箱果的分子遗传信息缺失不仅限制了其对风箱果属分类和遗传多样性的研究,也阻碍了该优良品种在风箱果育种中的应用。
叶绿体是具有高级自主遗传系统的细胞器,在高等植物的能量转换器中发挥着重要作用[12]。与核基因组相比,植物叶绿体基因组在结构组成和基因类型方面具有相对保守性[13]。被子植物具有高度保守的环状叶绿体基因组,包含一个大单拷贝区(large single copy, LSC)和一个小单拷贝区(small single copy, SSC),由成对的反向重复区(inverted repeats, IR)分隔。陆生植物物种的叶绿体基因组包括120~130个不同的基因,其中大多数编码与光合作用相关的蛋白质(约79个),其余的基因编码转移RNA(约30个)和核糖体RNA(4个)[14]。由于叶绿体基因组结构简单,缺乏重组、单亲遗传特征,其在植物研究的不同分类水平上得到了广泛研究,如:分子鉴定[15]、系统发育[16-17]、种群遗传[18]等。此外,叶绿体基因组中存在一些简单重复序列(simple sequence repeats, SSR)和单核苷酸多态性(single nucleotide polymorphism, SNP)的热点区域,可产生足够的信息用于物种分类和鉴定[19]。同时,植物叶绿体基因组中的密码子偏好性也可以反映其在进化过程中的分子适应程度和受到的进化压力。
本研究首次对风箱果属中紫叶风箱果的叶绿体基因组进行测序、组装和注释,进一步分析其叶绿体基因组特征和密码子偏好性等;此外,将其与已公布叶绿体基因组的绣线菊亚科物种构建系统发育树,进一步筛选种间基因组高变区。本研究目的在于:1) 阐明紫叶风箱果与其他绣线菊亚科物种的进化关系及其在系统发育中的地位;2) 筛选有效的候选分子标记序列和最优密码子,以期为紫叶风箱果的分子遗传标记、进化发育及叶绿体基因工程研究提供参考。
1 材料与方法
1.1 试验材料
植物样本来源于石河子大学校园内(84°03' E,44°18' N,海拔450 m),经石河子大学王梅教授鉴定为紫叶风箱果。2022 年5 月初,采集新鲜叶片,用液氮处理后置于液氮保温桶,带回实验室放入-80 ℃冰箱保存。
1.2 试验方法
1.2.1 叶绿体基因组测序、组装与注释 使用改良的CTAB 法[20]在紫叶风箱果新鲜叶片(100 mg)中提取其全基因组DNA。使用Illumina NovaSeq 6000 平台进行配对末端(pair end,PE)测序,测序读取长度为150 bp。使用fastp v0.20.0 软件筛选原始数据,去除接头并过滤掉Q-score≤5 占碱基数50%以上的reads,获得高质量的干净数据。使用GetOrganelle 软件[21]中的assembly 和graph.gfa 命令组装紫叶风箱果的叶绿体基因组。组装后使用风箱果叶绿体基因组序列(登录号MK911770)进行质量控制。为了提高注释准确性,分别使用Prodigal v2.6.3、Hummer v3.1b2、Aragorn v1.23[22]在默认设置和置信度≥95%的情况下对编码序列(coding sequence, CDS)、核糖体RNA(ribosomal RNA, rRNA)、转运RNA(transfer RNA, tRNA)进行注释,利用Sequin[23]检查注释缺失或错误的基因。使用OGDRAW v.1.3.1 软件[24]绘制整个基因组环状结构图。最终,紫叶风箱果完整叶绿体基因组数据上传至GenBank 数据库(https://www.ncbi.nlm.nih.gov/genbank/),登录号为OQ612669。
1.2.2 密码子偏好性分析 筛选长度大于300 bp 的基因序列,使用Codon W 1.4.2 软件和CUSP 在线程序(https://emboss. toulouse. inra. fr/cgi-bin/emboss/cusp)对有效密码子数、同义密码子相对使用度(relative synonymous codon usage, RSCU)、密码子鸟嘌呤和胞嘧啶(guanine and cytosine, GC)含量和最优密码子进行计算。通过中性绘图、ENC-plot 和PR2-plot 分析密码子偏好性的影响因素。
1.2.3 叶绿体基因组重复序列分析 使用REPuter v1.0 确定正向、反向、互补和回文序列,最大重复序列数为100 bp,最小重复大小为22 bp,同源性为90%[25]。使用MISA 软件[26]检查简单重复序列(SSR)的位置和基序。分别使用10、5、4、3、3 和3个重复单元的阈值来检测单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的SSR。
1.2.4 叶绿体基因组突变位点和IR 边界分析 使用DnaSP v6.0 计算风箱果属2个物种之间的核苷酸多态性(窗口长度设置为600 bp,步长为200 bp)[27]。将紫叶风箱果和风箱果的GenBank 格式的叶绿体基因组文件上传至生信云在线分析网站(http://112.86.217.82:9919/#/tool/alltool/detail/296),进行叶绿体基因组IR 区边界区域上基因的可视化。
1.2.5 系统发育分析 从NCBI 的GenBank 数据库下载绣线菊亚科其他15个物种的叶绿体基因组序列,和3种蔷薇科物种的叶绿体基因组序列(表1)。以3 种蔷薇科物种的叶绿体基因组序列作为外群,与测得的紫叶风箱果叶绿体基因组序列一起用于比较和分析系统发育。使用ModelFinder[28]估计了最佳拟合模型(TVM+F+R2)。基于最佳拟合模型,使用IQ-TREE v. 2.1.1[29]推断构建了步长值为1000 的最大似然法(maximum likelihood, ML)系统进化树。
表1 其他物种叶绿体基因组序列信息Table 1 Chloroplast genome sequence information of other species
2 结果与分析
2.1 叶绿体基因组基本特征
紫叶风箱果叶绿体基因组呈典型的双链环状四分体结构(图1),全长为159131 bp,LSC 长87582 bp、SSC 长18829 bp、反向重复区a(IRa)和反向重复区b(IRb)长26360 bp。叶绿体基因组GC 含量为36.43%,其中, LSC、SSC、IR 区的GC 含量分别为34.32%、36.41%、40.50%。
紫叶风箱果叶绿体基因组中共注释到130个基因,包含83个蛋白编码基因,8个rRNA 基因,37个tRNA 基因和2个假基因。其中75个基因与自我复制功能相关,45个基因与光合作用功能相关,5个基因编码其他蛋白质,6个基因的功能未知(表2)。18个基因存在双份拷贝,包括6个蛋白编码基因(rpl2、rpl23、rps12、rps7、ndhB、ycf2),8个tRNA 基因(trnA-UGC、trnI-CAU、trnI-GAU、trnL-CAA、trnN-GUU、trnR-ACG、trnS-GCU、trnV-GAC)和4个rRNA 基因(rrn16S、rrn23S、rrn4.5S、rrn5S)。
紫叶风箱果叶绿体基因组中有17个基因包含内含子,12个基因位于LSC 区,4个基因位于IR 区,1个基因位于SSC 区 (表3)。15个基因包含1个内含子(trnK-UUU、rps16、trnG-GCC、atpF、rpoC1、trnL-UAA、trnV-UAC、petB、petD、rpl16、rpl2、ndhB、trnI-GAU、trnA-UGC、ndhA),2个基因包含2个内含子(ycf3、clpP)。内含子长度为516 (trnL-UAA)~2499 bp(trnK-UUU)。
表3 紫叶风箱果叶绿体基因组中含内含子的基因信息Table 3 Information of gene introns in the chloroplast genome of P. opulifolius ‘Diabolo’ (bp)
2.2 密码子偏好性分析
紫叶风箱果叶绿体基因组中RSCU 值为0.47(CGC)~1.90(AGA),28个密码子为高表达优越密码子(ΔRSCU≥0.08),32个密码子为高频密码子(RSCU>1)。共确定12个最优密码子(UUG、AUU、GUU、GUA、UAA、AAA、UCU、UCC、CCU、ACU、GCU、GGU),除编码亮氨酸的密码子UUG 及编码丝氨酸的UCC 外,均以A/U 结尾(表4)。
进一步通过ENC-plot、ENC 分布直方图、PR2-plot 和中性绘图,分析紫叶风箱果叶绿体基因组中密码子偏好性的影响因素。由图2A 可知,大部分基因的分布在期望曲线附近;由图2B 可知,大部分基因的ENC 值小于ENC 期望值,且分布在直方图的0~0.05 区间内的基因数量较多。由图2C 可知,4个象限点的数量分布不均匀,中线上方基因数量小于下方基因数量,水平方向差异不大。由图2D 可知,GC12 和GC3 含量变异范围小,GC12和GC3 主要分布在0.3~0.5 和0.2~0.4;GC12 和GC3 之间线性回归系数为0.3293,进一步表明突变因素对密码子使用偏好性的影响占32.93%。因此,紫叶风箱果叶绿体基因组密码子使用偏好性主要受自然选择影响,突变等因素对其影响较弱。
图2 ENC-plot 分析(A)、ENC 分布直方图(B)、PR2-plot 分析(C)以及中性绘图分析(D)Fig.2 Analysis of ENC-plot (A), distribution histogram of ENC (B), analysis of PR2-plot (C), and analysis of neutrality plot (D)
2.3 序列重复分析
紫叶风箱果叶绿体基因组中共有27 对长序列重复,其中正向重复12 对,反向重复5 对,回文重复10 对,无互补重复序列(图3)。其中,重复长度为23 bp 的数量最多,占总数的37.04%;分布在LSC 区的重复长序列数量最多,占总数的59.26%。紫叶风箱果叶绿体基因组中,共确定87个SSR 位点,属于8 种重复类型(表5)。其中,单碱基A/T 重复类型的SSR 数量最多,占总数的74.71%;且重复次数在9、10、11 次最为常见,分别有25、13、10个SSR 位点。此外,SSR 在非编码区数量最多,占总数的88.51%;基因中SSR 占总数的14.10%,蛋白编码序列中SSR 占总数的11.49%。
图3 紫叶风箱果叶绿体基因组长序列重复分析Fig.3 Analysis of long number of repeat sequences in the chloroplast genome of P. opulifolius‘Diabolo’
表5 紫叶风箱果叶绿体基因组简单重复序列信息Table 5 Number of SSRs identified in the chloroplast genome of P. opulifolius ‘Diabolo’
2.4 突变热点分析
将风箱果属的紫叶风箱果和风箱果叶绿体基因组序列进行突变热点分析。结果表明,LSC 和SSC 区的核苷酸多态性高于IR 区(图4)。序列比对总长度为159290 bp,序列一致位点长度为158951 bp, 突变位点数为36;核苷酸多态性平均值为0.00023,范围为0~0.00667。其中,8个突变位点的核苷酸多态性大于0.00400,均在LSC区;分别属于trnfM(CAU)-rps14、trnH(GUG)-psbA、rpl20-rps12基因间区和psbZ、trnG(UCC)、trnfM(CAU)、trnH(GUG)、psbA、rbcL、rpl20基因区。
图4 风箱果属植物叶绿体基因组序列核苷酸多态性分析Fig.4 The nucleotide diversity of chloroplast genome sequence of Physocarpus species
2.5 IR 边界收缩和扩张分析
风箱果属的紫叶风箱果和风箱果叶绿体基因组边界分析显示,IR 区长度无变化,但4个边界区的过渡区域存在一定差异(图5)。风箱果属2个物种的叶绿体基因组在LSC-IRb 边界均存在rps19基因,向IRb 区扩张178 bp;IRb-SSC 边界均存在ndhF基因,向IRb 区扩张10 bp;SSC-IRa 边界均存在ycf1基因,向SSC 区扩张4621 bp;IRa-LSC 边界不存在扩张现象。紫叶风箱果叶绿体基因组ycf1基因向SSC 区扩张14 bp,风箱果中不存在这种现象。
图5 风箱果属植物叶绿体基因组IR 边界收缩和扩张分析Fig.5 Analysis of IR boundary contraction and expansion in chloroplast genome of Physocarpus species
2.6 系统发育分析
为确定紫叶风箱果在绣线菊亚科的系统位置,将其和19个绣线菊亚科物种的叶绿体基因组进行系统发育分析,并以3 种蔷薇亚科物种为外群,构建了ML 系统发育树(图6)。结果表明,绣线菊亚科物种系统发育树共分为两个大的分支,聚类的支持率较高,大部分节点的支持率为100%。第一分支包含5个绣线菊属物种、1个鲜卑花属物种和2个假升麻属物种,第二分支包含2个风箱果属物种、1个绣线梅属物种、3个珍珠梅属物种和2个白鹃梅属物种。第二分支中风箱果属和绣线梅属物种聚成一小支,珍珠梅属和白鹃梅属物种聚成一小支。其中紫叶风箱果和风箱果聚成一小支,亲缘关系最近。
图6 基于最大似然法构建的绣线菊亚科叶绿体基因组系统发育树Fig.6 The maximum-likelihood tree of subfam. Spiraeoideae species based on analyses of the chloroplast genomes
3 讨论
紫叶风箱果叶绿体基因组呈典型的四分体结构,具有LSC、SSC 和两个IR 区域,这和先前报道的路边青(Geum aleppicum)[30]、花楸(Sorbus koehneana)[31]、长柄扁桃(Amygdalus pedunculata)[32]等蔷薇科物种的叶绿体基因结构相似。Wolf 等[33]研究表明,被子植物叶绿体基因组长度通常为120~180 kb,IR 区为20~30 kb。本研究中,紫叶风箱果叶绿体基因组全长为159131 bp,IR 区长度为26360 bp,这也进一步表明叶绿体基因组的保守性。IR 区域是叶绿体基因组中最保守的区域,被子植物叶绿体基因组大小与IR 区和拷贝区边界的扩张和收缩密切相关[34-35]。本研究中,紫叶风箱果和风箱果的叶绿体基因组大小仅相差21 bp,这可能与两者IR 区长度的一致性相关。紫叶风箱果叶绿体基因组的平均GC 含量为36.43%,这与蔷薇科植物叶绿体基因组的平均GC 含量为35%~40%的结果一致[36],表明紫叶风箱果进化率较低[37];IR 区的GC 含量高于LSC 和SSC 区,这可能与IR 区分布大量GC 含量较高的rRNA 有关[38],这也和其他蔷薇科植物叶绿体基因组的特征一致[39]。
密码子偏好性通过平衡自然选择和突变偏好性显著影响叶绿体基因组的进化[40]。前人研究表明,中性突变发生在第3个密码子位置,G/C 和A/T 将同样存在于叶绿体基因组内的密码子组中[41]。本研究中,在RSCU 值大于1 的32个密码子中,29 种密码子均以A/U 结尾;当RSCU 值小于1 时,多以G/C 结尾;这表明以A/U 结尾的同义密码子更多地参与紫叶风箱果叶绿体基因组的蛋白质编码基因的过程,密码子第3 位碱基存在不对称性,密码子使用偏好性主要受自然选择影响,中性突变等因素对其影响较弱,这与前人在双子叶植物中密码子使用偏好性的研究一致[42-43]。此外,本研究在紫叶风箱果叶绿体基因组中确定了12个最优密码子,除编码亮氨酸的密码子UUG 与编码丝氨酸的UCC 外,均以A/U 结尾,这为紫叶风箱果中外源基因密码子的优化提供了理论依据。
重复序列和SSR 广泛存在于植物叶绿体基因组中,重复序列的类型、数量和位置因物种而异,它们用于识别叶绿体基因组突变热点[44-45]。本研究中,分布在LSC 区的重复长序列数量最多,LSC 和SSC 区的核苷酸多态性高于IR 区,表明IR 区保守性更高,这与其他蔷薇科物种的研究结果一致[38]。psbZ、trnG(UCC)、trnfM(CAU)、trnH(GUG)、psbA、rbcL、rpl20是紫叶风箱果叶绿体基因组中高核苷酸多态性的基因,这些序列可以为紫叶风箱果群体遗传学研究提供十分重要的分子标记。紫叶风箱果叶绿体基因组中,单碱基(A/T)重复类型SSR 数量最多,这可能和其叶绿体基因组A、T 碱基含量(63.57%)较高有关。此外,鉴定到的8 种重复类型共87个SSR 位点,可被用于确定紫叶风箱果系统发育关系、遗传多样性研究和物种鉴定中,但未来还需要进一步筛选具有高多态性的SSR。
植物叶绿体全基因组序列较单个基因或多个编码序列包含更丰富的遗传信息,被用于多个物种的系统发育关系研究[46-47]。陆玲娣[1]基于绣线菊亚科物种的起源、演化和分布等,提出风箱果属是从绣线梅属的亲缘类型中演化的另一个分支。本研究基于叶绿体基因组序列构建的ML 系统发育树从分子角度验证了前人的结论,风箱果属和绣线梅属物种聚成一支,近缘关系最近。此外,绣线菊属与鲜卑花属和假升麻属亲缘关系较近,珍珠梅属与白鹃梅属亲缘关系较近,这和Zhang 等[41]的研究结果一致。为了进一步清楚地反映绣线菊亚科物种之间的系统发育关系,仍然需要更多物种的叶绿体基因组被测序。
4 结论
紫叶风箱果叶绿体基因组全长为159131 bp,包括1个LSC 区(87582 bp)、1个SSC 区(18829 bp)、1 对IR 区(IRa 和IRb,26360 bp),呈典型的四分体结构。trnfM(CAU)-rps14、trnH(GUG)-psbA、rpl20-rps12基因间区和psbZ、trnG(UCC)、trnfM(CAU)、trnH(GUG)、psbA、rbcL、rpl20基因区是风箱果属植物叶绿体基因组中高核苷酸多态性区域,这些信息为其今后的分子标记开发提供了科学的依据。系统发育分析中,20个绣线菊亚科物种被归为4个聚类组,其中紫叶风箱果和风箱果聚成一支,亲缘关系最近。在紫叶风箱果叶绿体基因组中确定的12个最优密码子,除编码亮氨酸的密码子UUG 外,均以A/U 结尾;其密码子使用偏好性主要受自然选择影响,突变等因素对其影响较弱;研究结果可为紫叶风箱果的系统进化及叶绿体基因工程研究提供参考。