怀玉山产三叶青叶绿体基因组特征及其系统进化关系
2023-08-17洪森荣刘雯莉宋冰雁颜玉情
洪森荣,刘雯莉,宋冰雁,颜玉情
怀玉山产三叶青叶绿体基因组特征及其系统进化关系
洪森荣1, 2, 3, 4,刘雯莉1,宋冰雁1,颜玉情1
1. 上饶师范学院生命科学学院,江西 上饶 334001 2.上饶农业技术创新研究院,江西 上饶 334001 3.上饶市药食同源植物资源保护与利用重点实验室,江西 上饶 334001 4.上饶市三叶青保育与利用技术创新中心,江西 上饶 334001
解析怀玉山产三叶青叶绿体基因组信息序列特征和确定其在崖爬藤属的系统位置。用Illumina高通量测序平台NovaSeq6000进行测序获得怀玉山产三叶青叶绿体基因组序列,借助GeSeq、tRNAscan-SE、MISA、VISTA tools、DNADnaSP6.0、JSHYCloud、CodonW1.4.2、Pasteur Galaxy、mafft 7.0、fasttree 2.1.10等生物信息学工具进行序列分析、密码子偏好分析、崖爬藤属基因组比较分析和系统发育研究。怀玉山产三叶青叶绿体基因组为共价闭合双链环状分子,长160 165 bp,包含1个大单拷贝区(large single copy region,LSC)、1个反向重复区a(inverted repeat region a,IRa)、1个反向重复区b(inverted repeat region b,IRb)和1个小单拷贝区(small single copy region,SSC);怀玉山产三叶青叶绿体基因组注释到光合作用基因、自我复制基因、其他基因和未知功能基因4类共133个基因,包括 88个CDS基因、37个tRNA基因和8个rRNA基因;怀玉山产三叶青叶绿体基因组检测到63个SSR位点,其中单碱基重复56个,双碱基重复7个;怀玉山产三叶青叶绿体基因组核苷酸多样性的变化范围为0~0.234 18,基因间隔区、以及基因变异率最高。怀玉山产三叶青叶绿体基因组密码子偏好以A或U结尾,具有较强的偏好性。突变对密码子偏好性的影响较强,而其他因素如自然选择对密码子的偏好性影响较小。怀玉山产三叶青叶绿体基因组有31个高频密码子,16个以U结尾,13个以A结尾,2个以G结尾,其中13个为最优密码子。怀玉山产三叶青与福建产三叶青(MW375708)和广西产三叶青(MW375709)亲缘关系较近,与浙江产三叶青(MT827073)、浙江产三叶青(MW375707)、浙江产三叶青KT033563(NC_029339)、四川产三叶青(MW375710)和浙江产三叶青(MW375711)亲缘关系较远。三叶青之间的亲缘关系与地理位置相关性不大。首次采用生物信息学分析方法对怀玉山产三叶青叶绿体基因组进行了全面、深度解析,结果将为崖爬藤属药用植物的遗传多样性分析以及新品系的遗传育种研究等提供理论依据。
三叶青;叶绿体基因组特征;系统进化关系;大单拷贝区;小单拷贝区
三叶青Diels et Gilg为我国特有珍稀濒危葡萄科崖爬藤属药用植物[1],其新鲜或干燥块根可清热解毒、消肿止痛、化痰散结,常用于治疗小儿高热惊风、百日咳、毒蛇咬伤等[2];其干燥全草也可清热解毒、消肿止痛、活血祛风,常用于治疗流行性感冒、肝炎、泌尿系统结石、跌打损伤等[3]。
叶绿体是为绿色植物提供能量的光合细胞器,在光合作用及相关代谢活动中起重要作用[4]。随着生物技术的开发和应用,叶绿体基因组大小已经确定,被子植物中典型的叶绿体基因组为双链共价闭合环状分子,具有典型的四分体结构,包括一个大单拷贝区(large single copy region,LSC),小单拷贝区(small single copy region,SSC),反向重复区 a(inverted repeat region a,IRa),反向重复区 b(inverted repeat region b,IRb),植物叶绿体基因组的大小差异由IRa和IRb决定)[5]。被子植物的叶绿体基因组的长度一般在120~170 kb,通常编码110~130个基因,约40个基因是参与光合作用、转录和翻译[6]。叶绿体基因结构高度保守,确保在进化群体之间基因的直接同源性,能自我复制,多为母系遗传,进化不重组,直接反映植物进化积累的遗传变异,可为高等植物群体遗传学、系统发育和基因组进化提供依据[7]。
三叶崖爬藤植物在形态上很难区分,被认为是崖爬藤属中最难分类的一个属,许多专家学者从DNA分子标记和形态学角度对三叶崖爬藤植物进行了相关的研究,但这些分类系统还是存在较大差异,究其原因,一是形态学的传统物种分类方法易受环境因子影响,二是DNA分子标记关注的侧重点存在差异[8]。植物叶绿体基因组远小于核基因组,编码区和非编码区的分子进化速度差异显著,各类群叶绿体基因组之间共线性良好,随着系统发育学和基因组学的交融,在植物系统发育研究中,基于叶绿体基因组的系统发育基因组学研究优势渐渐凸显,为一些分类困难类群的系统学问题提供了新的解决方案[9-10]。
国内已经有浙江三叶崖爬藤[9-10]叶绿体基因组的相关报道,但未涉及到崖爬藤属植物叶绿体基因组密码子偏好性分析。三叶青种质遗传多样性十分丰富,浙江产三叶青种质之间的遗传信息有一定差异[11]。怀玉山产三叶青为江西省上饶市玉山全县特产,2016年3月31日原中华人民共和国农业部正式批准对“怀玉山产三叶青”实施农产品地理标志登记保护[12]。本研究对怀玉山产三叶青叶绿体基因组进行测序,对其GC含量、SSR位点等进行分析,并与不同产地三叶崖爬藤以及崖爬藤属其他物种的基因组进行多重比较,以期为怀玉山产三叶青的系统发育和不同产地三叶青的亲缘关系提供数据支撑,同时丰富三叶崖爬藤的叶绿体基因组数据库,为怀玉山产三叶青的遗传多样性保护、生产性状等相关研究提供理论基础,也为怀玉山产三叶青种质鉴定、DNA条形码开发提供新思路。
1 材料与仪器
1.1 材料
怀玉山产三叶青栽培种“怀玉2号”试管苗(由上饶市三叶青保育与利用技术创新中心提供)。由上饶市红日农业开发有限公司陈荣华高级农艺师鉴定为三叶青Diels et Gilg栽培种“怀玉2号”试管苗。
1.2 仪器
高通量二代测序NextSeq 550AR基因测序仪(Illumina公司,美国)。
2 方法
2.1 DNA提取和测序
用CTAB法提取怀玉山产三叶青叶片DNA,DNA浓度利用Qubit2.0进行精确定量检测合格后,将DNA片段化(Covaris超声波破碎仪随机打断),经过片段纯化、末端修复等途径获得测序文库。文库构建完成后,先用Qubit2.0进行初步定量,稀释文库,随后使用Agilent 2100对文库的插入片段进行检测,插入片段大小符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量,以保证文库质量。文库检测合格后,在天津诺禾致源科技有限公司用Illumina高通量测序平台NovaSeq6000进行测序。
2.2 基因的组装和注释
首先利用SOAPnovo v2.04(http://soap. genomics.org.cn/)拼接软件对质控后的全部clean data进行novo初步组装,将组装得到的全部contig与叶绿体数据库进行比对,筛选得到来自叶绿体的contig;然后利用MITObim v1.6通过迭代比对,将测序的所有clean reads mapping到这些contig上进行延伸,通过gap close获得叶绿体的全基因组序列。将怀玉山产三叶青叶绿体基因组序列上传至NCBI(GenBank登录号OP589402)。使用GeSeq、tRNAscan-SE对叶绿体基因组进行注释,再经过手工校正后得到最终的叶绿体基因组基因注释结果。使用OGDRAW制作叶绿体基因组图谱。
2.3 叶绿体基因组特征分析
使用MISA在线工具(https://webblast.ipk- gatersleben. de/misa /index. php)的微卫星定位检测技术对怀玉山产三叶青叶绿体基因组序列中的简单重复序列(Simple sequence repeats,SSR)进行搜索。用VISTA tools绘制结构mVIST结构变异图。利用DNADnaSP6.0软件计算近缘物种的基因组Pi。通过JSHYCloud在线工具集分析怀玉山产三叶青叶绿体基因组IR 区边界结构差异,从NCBI中选崖爬藤属浙江产三叶青Diels et Gilg、扁担藤(Hook.) Gagnep.、毛五叶崖爬藤Pierre ex Gagnep.、Linnaeus、(Miq.) Planch.;葡萄翁属祖提葡萄翁(Dinter & Gilg) Desc.、矮葡萄瓮(N. E. Br.) Desc. ex Wild & R. B. Drumm.、(Sprague) Desc.、桑德森葡萄翁Linnaeus和乌蔹莓乌蔹莓(Thunb.) Raf.的10种植物叶绿体基因组来比对不同物种间叶绿体基因组异同。运用软件CodonW1.4.2分析怀玉山产三叶青叶绿体基因组的相对同义密码子使用情况(relative synonymous condon usage,RSC)。通过Pasteur Galaxy 在线工具集(https://galaxy.pasteur. fr/ CodonW)中的CodonW模块分析密码子使用情况,设置输出结果为有效密码子数(ENC)和相对同义密码子使用度(RSCU),其他参数设为默认值。ENC>35表示含有较多种类的稀有密码子,且基因表达量偏低;某一密码子的RSCU>1.00表示编码对应的蛋白质时偏好使用该密码子,RSCU<1.00表示不偏好使用该密码子,RSCU=1.00表示该密码子没有偏好性。对近缘物种进行GC3~GC12分析(Neutrality-plot分析)、ENC-plot分析和PR2-bias-plot分析和最优密码子分析。将怀玉山产三叶青叶绿体基因组序列上传至NCBI进行BLASTn比对,选择highly similar sequence(megablast)来比较相似性在95%以上的序列,检索获得怀玉山产三叶青的近缘种,以明确怀玉山产三叶青叶绿体基因组序列在葡萄科中的系统关系。序列比对利用mafft 7.0软件,建树利用fasttree 2.1.10软件。
3 结果与分析
3.1 怀玉山产三叶青叶绿体基因组的结构特征
测序raw reads为17 808 860条。测序clean reads为17 695 827条。经组装和注释后怀玉山产三叶青叶绿体基因组为共价闭合的双链环状分子(图1),长160 165 bp,具有典型的四分体结构,由1个LSC、2个IR(1个IRa和1个IRb)和1个SSC共4部分组成,其中,LSC、SSC、IRa和IRb区的长度分别为88 172、18 963、26 515和26 515 bp。基因组的总GC含量为37.50%,其中,LSC、SSC、IRa和IRb区的GC含量分别为35.50%、31.76%、42.89%和42.89%。
3.2 怀玉山产三叶青叶绿体基因类型分析
对怀玉山产三叶青叶绿体基因组进行在线注释,结果见表1。由表1可知,共注释到光合作用基因、自我复制基因、其他基因和未知功能基因4类,包括88个CDS基因、37个tRNA基因和8个rRNA基因,共133个基因。对有多个外显子的叶绿体基因进行结构分析,由2个外显子构成的基因有19个,包括8个CDS基因和13个tRNA基因,其中有2个基因在IR区重复;由4个外显子构成的基因有4个,均为4个tRNA基因;完全在LSC区的基因有82个;完全在SSC区的基因有12个;完全在IRb和IRa区的基因有17个;在SSC-IRb junction的基因有1个;在LSC-IRb junction的基因有1个;在SSC-IRa junction的基因有1个;在LSC-IRa junction无基因;rps12有2个拷贝,每个拷贝具有3个外显子,且2个拷贝共享第一个外显子,第一个外显子位于LSC区域,另外2个外显子位于IR区域。
图1 怀玉山产三叶青叶绿体基因组图谱
表1 怀玉山产三叶青叶绿体基因功能分类
Fig.1 Chloroplast gene functional classification offrom Huaiyu Mountain
基因功能基因类型基因名基因数量 光合作用光系统psaA、psaB、psaC、psaI、psaJ 5 光系统ⅡpsaJ、psbA、psbB、psbC、psbD、psbE、psbF、psbH、psbI、psbK、psbL、psbM、psbT、psbZ14 NADH 脱氢酶ndhA、ndhB、ndhB、ndhC、ndhD、ndhE、ndhF、ndhG、ndhH、ndhI、ndhJ、ndhK12 细胞色素b /f 复合体petA、petB、petD、petG、petL、petN 6 ATP合成酶atpA、atpB、atpE、atpF、atpH、atpI 6 自我复制核糖体大亚基蛋白质rpl14、rpl16、rpl2、rpl2、rpl20、rpl22、rpl23、rpl23、rpl32、rpl33、rpl3611 核糖体小亚基蛋白质rps11、rps12、rps12、rps14、rps15、rps16、rps18、rps19、rps2、rps3、rps4、rps7、rps7、rps814 核糖体大亚基rbcL 1 RNA聚合酶rpoA、rpoB、rpoC1、rpoC2 4 核糖体RNArrn16、rrn16、rrn23、rrn23、rrn4.5、rrn4.5、rrn5、rrn5 8 转运RNA trnC-GCA、trnD-GUC、trnF-GAA、trnG-GCC、trnH-GUG、trnI-CAU、trnI-CAU、trnK-UUU trnTERM-UUA、trnL-CAA、trnL-CAA、trnL-UAA、trnL-UAG、trnM-CAU、trnN-GUU、trnN-GUU、trnP-UGG、trnQ-UUG、trnR-ACG、trnR-ACG、trnR-UCU、trnS-GCU、trnS-GGA、trnS-UGA、trnT-UGU、trnV-GAC、trnV-GAC、trnV-UAC、trnW-CCA、trnY-GUA、trnfM-CAU30 其他基因成熟酶matK 1 蛋白酶clpP1 1 囊膜蛋白cemA 1 乙酰辅酶A羧化酶accD 1 C-型细胞色素合成基因ccsA 1 翻译起始因子infA 1 未知功能基因保守假设叶绿体阅读框架ycf1、ycf1、ycf15、ycf15、ycf2、ycf2 6
3.3 怀玉山产三叶青叶绿体基因重复序列分析
怀玉山产三叶青叶绿体基因组中SSR的类型及分布见表2。由表2可知,在怀玉山产三叶青叶绿体基因组中共检测到63个SSR位点,其中,单碱基重复有56个,双碱基重复有7个,其中,重复单元为A、重复频率为10的SSR位点数量最多(7),重复单元为T、重复频率为10的SSR位点数量最多(11),重复单元为A/T的最高重复频率为18。
3.4 怀玉山产三叶青IR区边界结构差异分析
怀玉山产三叶青IR区边界结构差异分析见图2。由图2可知,11种葡萄科植物叶绿体基因组结构从LSC中间呈线性展开,均由1个LSC区、1个SSC和2个反向重复区(IRa和IRb)4部分组成,各个区域间对应的连接基因相同。除了的基因位于接近JLB边界的LSC区外,其他10种植物浙江产三叶青、扁担藤、毛五叶崖爬藤、、乌蔹莓、祖提葡萄翁、矮葡萄瓮、、桑德森葡萄翁的基因横跨 JLB边界;基因位于接近JLB边界的LSC区;基因位于接近JLB边界的IRb区和接近JLA边界的IRa区;基因横跨JSB边界和JSA边界;除了乌蔹莓和的基因横跨JSB边界外,其他9种植物浙江产三叶青、扁担藤、毛五叶崖爬藤、、、祖提葡萄翁、矮葡萄翁、桑德森葡萄翁的基因位于接近JSB边界的SSC区;基因和基因位于接近JLA边界的LSC区。由IR区边界扩张和收缩情况看,葡萄科植物、、和4个基因位置和长度在属间差异明显,基因位置和长度不太一致。怀玉山产三叶青和浙江产三叶青基因和基因一致,但具有位置和长度的特异性,与乌蔹莓属和葡萄翁属组间差异明显,说明基因和基因不同程度的扩张和伸缩导致了不同物种间的IR和SSC区长度差异。
表2 怀玉山产三叶青叶绿体基因组中SSR的类型及分布
Table 2 Type and distribution of SSR in chloroplast genome of T. hemsleyanum from Huaiyu Mountain
重复单元碱基类型重复单元重复次数总数 5678910111213141516171819 A−−−−− 7 5 522−2−−−23 C−−−−− 1−−−−−−−−− 1 T−−−−−11 8 543−−−−132 AT−−11− 2−−−−−−−−− 4 CT−−1−−−−−−−−−−−− 1 TA−11−−−−−−−−−−−− 2 A/T−−−−−18131065−2−−155 C/G−−−−− 1−−−−−−−−− 1 AG/CT−−1−−−−−−−−−−−− 1 AT/AT−121 2−−−−−−−−− 6
JLB-LSC和IRb区的边界 JSB-IRb和SSC区的边界 JSA-SSC和IRa区的边界 JLA-IRa和LSC区的边界
3.5 叶绿体基因组比对分析
以怀玉山产三叶青为参考,使用mVISTA在线软件对11种葡萄科植物叶绿体基因组进行全序列比对,以分析11种葡萄科植物叶绿体基因组序列的差异。结果表明,崖爬藤属、乌蔹莓属、葡萄翁属植物的基因组变化较大,但崖爬藤属植物的基因组较为保守,特别是怀玉山产三叶青和浙江产三叶青之间的基因组较为稳定(图3)。使用滑动窗口计算高度可变区域的核苷酸多样性,以估计所分析11种葡萄科植物叶绿体基因组中不同区域的差异水平。结果表明,核苷酸多样性的变化范围为0~0.234 18,基因间隔区、以及基因变异率最高(图4),以上结果与mVISTA软件分析结果一致。
3.6 怀玉山产三叶青RSCU分析
怀玉山产三叶青氨基酸RSCU见表3和图5。由表3和图5可知RSCU值大于1.00的密码子共有30个(终止密码子除外),其中,有29个以A或U结尾,有1个以G结尾,说明怀玉山产三叶青叶绿体基因组的密码子偏好以A或U结尾。RSCU值等于1的密码子有1个,表明该密码子使用无偏好性。RSCU值大于1.60的密码子为编码Ala的GCU、编码Arg的AGA、编码Gly的GGA、编码Leu的UUA、编码Tyr的UAU、编码Thr的ACU、编码Ser的UCU、编码Met的AUG。RSCU值小于0.60的密码子包括编码Ala的GCG、编码Arg的CGC和CGG、编码Asn的AAC、编码Asp的GAC、编码Cys的UGC、编码Gln的CAG、编码Glu的GAG、编码Gly的GGC、编码His的CAC、编码Leu的CUC和CUG、编码Lys的AAG、编码Met的GUG、编码Pro的CCG、编码Ser的AGC和UCG、编码Thr的ACG、编码Tyr的UAC、编码Val的GUC和GUG。综上所述,怀玉山产三叶青叶绿体基因组高频率使用GCU、AGA、GGA、UUA、UAU、ACU、UCU、AUG分别编码Ala、Arg、Gly、Leu、Tyr、Thr、Ser和Met,低频率使用GCG、CGC和CGG、AAC、GAC、UGC、CAG、GAG、GGC、CAC、CUC和CUG、AAG、GUG、CCG、AGC和UCG、ACG、UAC、GUC和GUG分别编码Ala、Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Leu、Lys、Met、Pro、Ser、Thr、Tyr和Val。
图3 11种葡萄科植物叶绿体基因组的可视化比对图
图4 11种葡萄科植物叶绿体基因组核苷酸多样性
表3 怀玉山产三叶青氨基酸的RSCU
Table 3 RSCU of amino acids of T. hemsleyanum from Huaiyu Mountain
密码子氨基酸 RSCU数量密码子氨基酸RSCU数量 GCAAla1.101 780 0387UUALeu1.791 490 0842 GCCAla0.643 416 0226UUGLeu1.238 300 0582 GCGAla0.438 434 0154AAALys1.467 320 01044 GCUAla1.816 370 0638AAGLys0.532 677 0379 AGAArg1.911 730 0527AUGMet1.993 800 0643 AGGArg0.634 825 0175GUGMet0.006 201 52 CGAArg1.356 710 0374UUCPhe0.748 021 0567 CGCArg0.362 757 0100UUUPhe1.251 980 0949 CGGArg0.449 819 0124CCAPro1.153 500 0325 CGUArg1.284 160 0354CCCPro0.716 948 0202 AACAsn0.457 358 0303CCGPro0.546 584 0154 AAUAsn1.542 640 01022CCUPro1.582 960 0446 GACAsp0.403 950 0225AGCSer0.353 444 0124 GAUAsp1.596 050 0889AGUSer1.162 950 0408 UGCCys0.577 640 093UCASer1.282 660 0450 UGUCys1.422 360 0229UCCSer0.963 420 0338 CAAGln1.543 270 0740UCGSer0.544 418 0191 CAGGln0.456 726 0219UCUSer1.693 110 0594 GAAGlu1.509 540 01068UAATer1.465 910 043 GAGGlu0.490 459 0347UAGTer0.784 091 023 GGAGly1.640 860 0747UGATer0.750 000 022 GGCGly0.366 831 0167ACAThr1.255 300 0429 GGGGly0.645 799 0294ACCThr0.711 046 0243 GGUGly1.346 510 0613ACGThr0.418 435 0143 CACHis0.486 983 0159ACUThr1.615 220 0552 CAUHis1.513 020 0494UGGTrp1.000 000 0471 AUAIle0.898 172 0688UACTyr0.378 270 0188 AUCIle0.629 243 0482UAUTyr1.621 730 0806 AUUIle1.472 580 01128GUAVal1.488 950 0539 CUALeu0.859 574 0404GUCVal0.527 624 0191 CUCLeu0.425 532 0200GUGVal0.585 635 0212 CUGLeu0.434 043 0204GUUVal1.397 790 0506 CUULeu1.251 060 0588
下面方块代表编码每种氨基酸的所有密码子,上方柱子的高度代表所有密码子RSCU值的总和
3.7 密码子组成成分分析
利用Codon W和CUSP在线软件对11种葡萄科植物叶绿体基因组的88条CDS进行密码子组成成分分析(图6)。由图6可知,11种葡萄科植物的T3和A3含量高于G3含量,表明11种葡萄科植物的第3位碱基以A/T为主。对11种葡萄科植物各基因密码子的GC含量进行统计分析,发现GC3含量(29.18%)均低于GC1(45.90%)和GC2(39.87%),表明GC在密码子不同位置上的分布并不均匀,GC1、GC2、GC3呈现不断降低的趋势。大部分基因的ENC值都在40以上。ENC的取值大小侧面反映了密码子偏性的强弱,值越高偏性越弱,怀玉山产三叶青各基因的ENC值介于26.167~61.000,平均值为46.88,其中ENC值大于45的有59个,小于45的仅有29个,表明怀玉山产三叶青叶绿体基因组密码子具有较强的偏好性。
3.8 GC3-GC12分析
11种葡萄科植物叶绿体基因组密码子GC3-GC12分析分析结果见图7。由图7可知,GC3-GC12分析发现11种葡萄科植物叶绿体基因的GC3含量分布在0.15~0.50,GC12含量分布在0.30~0.60,二者的分布范围都比较集中,且沿着对角线上方分布。两者的相关系数=0.01(2=0.000 1),相关显著,表明密码子偏好性主要受突变影响,受选择因素影响较小。回归曲线斜率为0.015 2,说明密码子第1、2位与第3位碱基组成偏好性差异较小,突变对密码子偏好性的影响较强,而其他因素,如自然选择可能对密码子的偏好性影响较小。
3.9 ENC-plot分析
ENC-plot分析主要用于判断密码子偏好性是否被突变或选择等因素影响,11种葡萄科植物的ENC-plot分析见图8。由图8可知,部分基因位点沿标准曲线分布或落在标准曲线附近,表明这些基因实际ENC值与预期值相近;另外一部分基因位点落在期望值的下方,说明实际ENC值与预期ENC值之间存在差异,说明11种葡萄科植物叶绿体基因组有一部分基因的密码子偏好性受到突变的影响较大,而受到选择效应的影响相对较小。
3.10 PR2-plot分析
通过PR2-plot分析,11种葡萄科植物叶绿体基因组中由4个密码子编码的氨基酸家族中第3位上嘌呤(A、G)和嘧啶(T、C)的使用情况见图9。
GC12表示密码子第1、2位GC含量的平均值;GC3表示密码子第3位的GC含量 A~K分别代表怀玉山产三叶青、浙江产三叶青、扁担藤、毛五叶崖爬藤、Tetrastigma rafflesiae、Tetrastigma lawsonii、乌蔹莓、祖提葡萄翁、矮葡萄翁、Cyphostemma adenopodum和桑德森葡萄翁,下同
图7 11种葡萄科植物叶绿体基因组密码子GC3-GC12分析
由图9可知,基因不均匀地分布于平面图的4个区域内,平面图左上方基因分布较多,说明密码子第3位碱基的使用存在偏性,而且T的使用频率低于A,C的使用频率高于G。当密码子使用偏好只受突变影响时,4种碱基的使用频率应相等。因此,11种葡萄科植物叶绿体基因组密码子使用模式不仅受到突变影响,同时还受到如选择压力等其他因素的影响。
图8 11种葡萄科植物叶绿体基因组密码子ENC-plot分析
3.11 最优密码子确定
对怀玉山产三叶青叶绿体基因的ENC值进行排序,分别选取两端基因各5个,构建高表达基因库(ENC值小)和低表达基因库(ENC值大),并计算二者的RSCU差值(ΔRSCU)。筛选ΔRSCU≥0.08的高表达密码子,且RSCU>1的高频率密码子定义为怀玉山产三叶青叶绿体基因组的最优密码子(表4)。由表4可知,怀玉山产三叶青有31个高频密码子,16个以U结尾,13个以A结尾,2个以G结尾,其中有13个为最优密码子(6个以U结尾,7个以A结尾)。
图9 11种葡萄科植物叶绿体基因组密码子PR2-plot分析
3.12 葡萄科植物系统发育分析
基于6个崖爬藤属种类1个乌蔹莓属种类、4个葡萄翁属种类、1个牛果藤属种类和1个菱叶藤属种类的叶绿体基因组构建的系统发育树见图10。由图10可知,在崖爬藤属植物中,怀玉山产三叶青(SYQ)、浙江产三叶青(NC_029339)、扁担藤、毛五叶崖爬藤、、和乌蔹莓聚为一大支;祖提葡萄翁、矮葡萄翁、、桑德森葡萄翁聚为一支;牛果藤和菱叶藤聚为一大支,但怀玉山产三叶青与浙江产三叶青聚为一小支。说明聚在一支的崖爬藤属植物种类亲缘关系较近,崖爬藤属植物与乌蔹莓属、葡萄翁属、牛果藤属和菱叶藤属植物亲缘关系较远。
表4 怀玉山产三叶青叶绿体基因最优密码子筛选
Table 4 Screening of optimal codons for chloroplast genes of T. hemsleyanum from Huaiyu Mountain
密码子氨基酸RSCU数量RSCU低表达数量RSCU高表达数量RSCU差值 GCUAla1.816 37638 1.655 170121.655 170 UUALeu1.791 498421.034 48051.866 670140.832 190 UCUSer1.693 115940.272 72711.785 710101.512 983 GGAGly1.640 867471.333 33062.074 070140.740 740 GAUAsp1.596 058890.800 00021.428 570100.628 570 CCUPro1.582 964461.538 46051.882 350 80.343 890 CAAGln1.543 277401.200 00031.733 330130.533 330 GUAVal1.488 955391.142 86041.454 550120.311 690 UAATer1.465 91430.600 00011.200 000 30.600 000 CGUArg1.284 163540.833 33351.315 790 50.482 457 UCASer1.282 664501.636 36061.964 290110.327 930 UUUPhe1.251 989491.230 77081.680 000210.449 230 CCAPro1.153 503250.615 38520.705 882 30.090 497
图10 基于叶绿体基因组的葡萄科13个种类的系统发育树
基于8个三叶崖爬藤[怀玉山产三叶青(SYQ)、福建产三叶青(MW375708)、广西产三叶青(MW375709)、浙江产三叶青(MT827073)、浙江产三叶青(MW375707)、浙江产三叶青(KT033563)(NC_029339)、四川三叶青(MW375710)、浙江产三叶青(MW375711)]、扁担藤、毛五叶崖爬藤、、Wen12461牛果藤和菱叶藤的叶绿体基因组构建的系统发育树见图11。由图11可知,三叶青聚为2大类,其中一类包括福建产三叶青(MW375708)、广西产三叶青(MW375709)、浙江产三叶青(MT827073)、浙江产三叶青(MW375707)和浙江产三叶青(KT033563)(NC_029339),另一类包括四川三叶青(MW375710)和浙江产三叶青(MW375711)。而在第一类中,浙江产三叶青KT033563(NC_029339)单独成一小支,浙江产三叶青(MT827073)和浙江产三叶青(MW375707)单独成一小支,怀玉山产三叶青(SYQ)、福建产三叶青MW375708和广西产三叶青(MW375709)单独成一小支。说明怀玉山产三叶青(SYQ)、福建产三叶青(MW375708)和广西产三叶青(MW375709)亲缘关系较近。
图11 基于叶绿体基因组的葡萄科15个种类的系统发育树
4 讨论
叶绿体是高等植物光合作用和碳固定的重要细胞器,起到能量转换的作用[13]。在叶绿体基因组中以若干小簇的形式排列的光合作用基因如-、-、-、-、---和---等属于转录单位和调控单位,如叶绿体中的基因都具转录活性,可编码NADH-质体醌(PQ)氧化还原酶,当用PQ氧化抑制剂阻断光合系统I和II之间的电子传递通道时,叶绿体呼吸的电子传递则不受影响;叶绿体的和基因可编码膜上输送各种代谢物质的蛋白质;约有一半的叶绿体基因包括rRNA、tRNA、RNA多聚酶和核糖体蛋白质等基因协同核基因参与到叶绿体蛋白质的合成;叶绿体基因如tRNA和蛋白质基因均含有内含子,在表达过程中需要对转录后的RNA分子进行拼接加工[14]。
植物叶绿体基因组长约107~218 kb,其长短取决于IR区的收缩和扩张[15]。本研究所获得的怀玉山产三叶青叶绿体基因组大小与结构与已报道的被子植物研究结果相符。怀玉山产三叶青叶绿体基因组长160 165 bp,是一个典型的四分体结构,与浙江产三叶青(159 914 bp)[9-10]、浙江舟山三叶青(152 281 bp)差异小。怀玉山产三叶青叶绿体基因组GC含量为37.50%,与浙江舟山三叶青叶绿体基因组中GC含量(37.5%)一致,与浙江产三叶青叶绿体基因组中GC含量(37.55%)有些差异,怀玉山产三叶青叶绿体基因组IRs区中GC含量达到最高(42.98%),与浙江舟山三叶青IRs中GC含量42.9%有差异[9-10]。怀玉山产三叶青叶绿体基因组LSC区88 172 bp,SSC区18 963 bp,IRs区26 515 bp,与浙江产三叶青(LSC:87 927 bp、SSC:18 967 bp、IRs:26 510 bp)、浙江舟山三叶青(LSC:88 185 bp、SSC:18 966 bp、IRs:26 519 bp)遗传差异很小,LSC区域10~250 bp,SSC和IRs区域相差1~10 bp[9-10]。
通过IRscope比较分析,发现葡萄科的11个物种叶绿体基因组结构和大小差异较大,SC和IR边界有明显区别,基因和基因不同程度的扩张和伸缩导致了11个物种间的IR和SSC区长度差异。反向重复区域经常出现假基因化,在怀玉山产三叶青叶绿体基组中,基因有2个,分别横跨JSB边界和JSA边界,位于JSA边界的基因长度为5633 bp(浙江舟山三叶青为5634 bp),为正常基因;位于JSB边界的基因长度为1199 bp(浙江舟山三叶青为1200 bp),位于JS边界的基因的3’端SS区发生缺失,仅有56 bp,位于JSB边界的基因为一个假基因[9]。有研究表明,阴暗潮湿等环境因子的自然选择,等基因选择压力存在差异,导致等基因的进化速率也存在差异[16-17],这类进化速率存在差异的等基因,可以组合成为DNA条形码用来分析崖爬藤属植物的系统发育[18]。
怀玉山产三叶青叶绿体基因组共注释出133个基因,包括88个基因、37个tRNA基因和8个rRNA基因,这与浙江舟山三叶青叶绿体基因组的基因注释结果[9]一致。怀玉山产三叶青叶绿体基因组没有检测到内含子,仅个别基因具1~2个含子。其中基因具2个内含子,而浙江舟山三叶青叶绿体基因组和基因具2个内含子,且怀玉山产三叶青叶绿体基因组没有注释到基因。值得一提的是怀玉山产三叶青叶绿体基因组注释到6个未知功能基因[(2)、(2)、(2)],而浙江舟山三叶青叶绿体基因组未知功能基因有7个,注释到了1个基因[9]。基因和基因可能是造成怀玉山产三叶青与浙江舟山三叶青品质差异的2个候选基因,其功能需进一步利用先进的分子技术手段对其功能进行鉴定。在本研究中,基于VISTA tools和DNADnaSP6.0软件分析结果表明,在11种葡萄科植物存在一些变异率较高的区段,如、以及基因等,今后这些变异热点区段,或许可以也作为新的DNA条形码,用于崖爬藤属植物的物种鉴定和系统发育关系等方面的研究[9]。
叶绿体SSR为短的单核苷酸串联重复序列,位于叶绿体基因组非编码区域时,通常显示种内变异重复次数[19],在同一物种表现高度变异,广泛用于群体遗传学和系统发育分析等领域[20-21]。怀玉山产三叶青叶绿体基因组共检测到63个SSR位点,单碱基重复有56个,双碱基重复有7个,其中,单重复单元为A或T重复频率为10的SSR位点数量最多,重复单元为A/T的最高重复频率最高,这与其他植物科[22]中的报道一致,怀玉山产三叶青叶绿体基因组SSR位点可为崖爬藤属物种分子标记开发及物种鉴定提供理论依据。
核酸组成成分显著影响核基因密码子使用偏好性,自然选择和变异方向在叶绿体基因组密码子使用偏好性中起到重要作用[23]。在本研究中,怀玉山产三叶青叶绿体基因组RSCU值大于1.00的密码子共有30个(终止密码子除外),其中有29个以A或U结尾,有1个以G结尾,这一结果与大多数被子植物叶绿体基因组的研究结果类似,都偏好使用A或U结尾的密码子[24-25]。以叶绿体基因组为对象,RSCU值>1.60时,为高使用频率密码子,RSCU值<0.60时为低使用频率密码子[26],在本研究中,怀玉山产三叶青叶绿体基因组高频率使用GCU、AGA、GGA、UUA、UAU、ACU、UCU、AUG分别编码Ala、Arg、Gly、Leu、Tyr、Thr、Ser和Met,低频率使用GCG、CGC和CGG、AAC、GAC、UGC、CAG、GAG、GGC、CAC、CUC和CUG、AAG、GUG、CCG、AGC和UCG、ACG、UAC、GUC和GUG分别编码Ala、Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Leu、Lys、Met、Pro、Ser、Thr、Tyr和Val。假设核苷酸碱基变异发生在密码子第3位,那么在基因或基因组中简并密码子A、T和C、G所占比例相当[27]。本研究通过PR2-plot分析发现,基因不均匀地分布于平面图的4个区域内,平面图左上方基因分布较多,密码子第3位碱基的使用存在偏性,T使用频率低于A,C使用频率高于G,说明怀玉山产三叶青叶绿体基因组受碱基突变和自然选择的双重影响。本研究GC3-GC12分析表明,密码子第1、2位与第3位碱基组成偏好性差异较小,突变对密码子偏好性的影响较强,而其他因素如自然选择可能对密码子的偏好性影响较小。有研究表明,低等生物体中如细菌和古生菌,富含GC的物种通常拥有GC含量较高的最优密码子[28];反之,富含AU的物种,最优密码子AU含量较高[29]。本研究结果与此一致,怀玉山产三叶青有31个高频密码子,16个以U结尾,13个以A结尾,2个以G结尾,其中有13个为最优密码子(6个以U结尾,7个以A结尾),最优密码子多以A或U碱基结尾,可为叶绿体是通过内共生方式从蓝细菌进化而来的观点提供依据[30]。
叶绿体基因组信息量较大,且其结构、大小和基因组成相对恒定,已广泛应用于系统进化分析。蒋明等[9]和Li等[10]分别构建了三叶崖爬藤、赤苍藤、葡萄、夏葡萄、东北蛇葡萄、槭叶葡萄等12种植物和三叶崖爬藤、葡萄等40种植物叶绿体基因组的系统发生树,均发现崖爬藤属的三叶崖爬藤单独聚为一组,与葡萄属较为接近。本研究结果与此研究结果一致,本研究构建了6个崖爬藤属种类、1个乌蔹莓属种类、4个葡萄翁属种类、1个牛果藤属种类和1个菱叶藤属种类叶绿体基因组的系统发育树,发现怀玉山产三叶青与浙江产三叶青聚为一小支,说明聚在一支的崖爬藤属植物种类亲缘关系较近,崖爬藤属植物与乌蔹莓属、葡萄翁属、牛果藤属和菱叶藤属植物亲缘关系较远。本研究还构建了怀玉山产三叶青、福建产三叶青、广西产三叶青、浙江产三叶青、四川三叶青叶绿体基因组构建的系统发育树,发现怀玉山产三叶青、福建产三叶青和广西产三叶青聚为一小支,说明怀玉山产三叶青与福建产三叶青和广西产三叶青亲缘关系较近,与浙江产三叶青、四川三叶青和浙江产三叶青亲缘关系较远,说明三叶青之间的亲缘关系与地理位置相关性不大,这也证实了尹明华等[31]利用SSR荧光标记分析三叶青64个种质遗传多样性和亲缘关系的结论。本研究获得了怀玉山产三叶青叶绿体基因组的基本信息及其系统发育关系,为怀玉山产三叶青的遗传多样性保护、生产性状、系统演化等相关研究提供数据基础,也为怀玉山产三叶青种质鉴定、DNA条形码开发提供了新思路。
利益冲突 所有作者均声明不存在利益冲突
[1] Zhan L H, Pu J B, Zheng J R,.Diels et Gilg ameliorates lipopolysaccharide induced sepsis via repairing the intestinal mucosal barrier [J]., 2022, 148: 112741.
[2] Yang L, Shi Y S, Ruan X,. Salt interferences to metabolite accumulation, flavonoid biosynthesis and photosynthetic activity in[J]., 2022, 194: 104765.
[3] Liu Y Y, Li Y L, Chen W,.flavones exert antihepatic carcinoma property both in vitro and in vivo [J]., 2021, 5: 9-16.
[4] Bobik K, Burch-Smith T M. Chloroplast signaling within, between and beyond cells [J]., 2015, 6: 781.
[5] Shahzadi I, Abdullah, Mehmood F,. Chloroplast genome sequences ofand: Comparative analyses, mutational hotspots in genus Artemisia and phylogeny in family Asteraceae [J]., 2020, 112(2): 1454-1463.
[6] Liu Y C, Li Y T, Feng S X,. Complete chloroplast genome structure of four Ulmus species andand comparative analysis within Ulmaceae species [J]., 2022, 12(1): 15953.
[7] Meng J, Li X P, Li H T,. Comparative analysis of the complete chloroplast genomes of four Aconitum medicinal species [J]., 2018, 23(5): 1015.
[8] 孙健, 沈晓霞, 陈加红, 等. 药用植物三叶青种质多样性与栽培管理的研究进展 [J]. 科技通报, 2018, 34(1): 13-17.
[9] 蒋明, 王军峰, 应梦豪, 等. 三叶崖爬藤叶绿体基因组的组装与序列分析 [J]. 中草药, 2020, 51(2): 461-468.
[10] Li M Z, Chen Q Y, Yang B X,. The complete chloroplast genome sequence ofDiels at Gilg [J]., 2016, 27(5): 3729-3730.
[11] 尹明华, 谢妮妮, 徐文慧, 等. 三叶青种质资源遗传多样性的ISSR分析 [J]. 中草药, 2018, 49(20): 4884-4891.
[12] 林国卫, 闻静, 石光禹, 等. 侵染怀玉山产三叶青的病毒RT-PCR鉴定 [J]. 分子植物育种, 2020, 18(3): 968-975.
[13] Neuhaus H E, Emes M J. Nonphotosynthetic metabolism in plastids [J]., 2000, 51: 111-140.
[14] Grevich J J, Daniell H. Chloroplast genetic engineering: Recent advances and future perspectives [J]., 2005, 24(2): 83-107.
[15] Yu J Y, Xia M Z, Xu H,. The complete chloroplast genome sequence of(Asteraceae) [J]., 2021, 6(2): 430-431.
[16] Yang X F, Wang Y T, Chen S T,. PBR1 selectively controls biogenesis of photosynthetic complexes by modulating translation of the large chloroplast gene Ycf1 in[J]., 2016, 2: 16003.
[17] Vitti J J, Grossman S R, Sabeti P C. Detecting natural selection in genomic data [J]., 2013, 47: 97-120.
[18] 裴男才. 利用植物DNA条形码构建亚热带森林群落系统发育关系: 以鼎湖山样地为例 [J]. 植物分类与资源学报, 2012, 34(3): 263-270.
[19] Provan J, Powell W, Hollingsworth P M. Chloroplast microsatellites: New tools for studies in plant ecology and evolution [J]., 2001, 16(3): 142-147.
[20] Wills D M, Hester M L, Liu A Z,. Chloroplast SSR polymorphisms in the Compositae and the mode of organellar inheritance in[J]., 2005, 110(5): 941-947.
[21] Ebrahimi A, Zarei A, Zamani F M,. Evaluation of genetic variability among early mature Juglans regia using microsatellite markers and morphological traits [J]., 2017, 5: e3834.
[22] 孙哲, 李澳旋, 杜晓蓉, 等. 房山紫堇叶绿体基因组特征及其系统进化关系 [J]. 草地学报, 2022, 30(8): 1982-1989.
[23] Pechmann S, Frydman J. Evolutionary conservation of codon optimality reveals hidden signatures of cotranslational folding [J]., 2013, 20(2): 237-243.
[24] 杨亚蒙, 焦健, 樊秀彩, 等. 桑叶葡萄叶绿体基因组及其特征分析 [J]. 园艺学报, 2019, 46(4): 635-648.
[25] Zhou M, Long W, Li X. Patterns of synonymous codon usage bias in chloroplast genomes of seed plants [J]., 2008, 10(4): 235-242.
[26] Mukhopadhyay P, Basak S, Ghosh T C. Nature of selective constraints on synonymous codon usage of rice differs in GC-poor and GC-rich genes [J]., 2007, 400(1/2): 71-81.
[27] Liu Q P, Xue Q Z. Comparative studies on codon usage pattern of chloroplasts and their host nuclear genes in four plant species [J]., 2005, 84(1): 55-62.
[28] Nekrutenko A, Li W H. Assessment of compositional heterogeneity within and between eukaryotic genomes [J]., 2000, 10(12): 1986-1995.
[29] Hershberg R, Petrov D A. General rules for optimal codon choice [J]., 2009, 5(7): e1000556.
[30] Raven J A, Allen J F. Genomics and chloroplast evolution: What did cyanobacteria do for plants? [J]., 2003, 4(3): 209.
[31] 尹明华, 徐文慧, 谢妮妮, 等. 三叶青种质资源遗传多样性的SSR荧光标记分析 [J]. 中草药, 2018, 49(23): 5649-5656.
Phylogenetic relationship and characterization of chloroplast genome offrom Huaiyu Mountain
HONG Sen-rong1, 2, 3, 4, LIU Wen-li1, SONG Bing-yan1, YAN Yu-qing1
1. College of Life Sciences, Shangrao Normal University, Shangrao 334001, China 2. Shangrao Agricultural Technology Innovation Research Institute, Shangrao 334001, China 3. Key Laboratory of protection and utilization of medicinal and edible plant resources in Shangrao City, Shangrao 334001, China 4. ShangraoDiels et Gilg Conservation and Utilization Technology Innovation Center, Shangrao 334001, China
To analyze the genomic information sequence characteristics of the chloroplast offrom Huaiyu Mountain and determine its systematic position in the genus of.The chloroplast genome sequence offrom Huaiyu Mountain was obtained by sequencing with Illumina high throughput sequencing platform NovaSeq6000, and bioinformatics tools such as GeSeq, tRNAscan SE, MISA, VISTA tools, DNADnaSP6.0, JSHYCloud, CodonW1.4.2, Pasteur Galaxy, Mafft 7.0, fasttree 2.1.10 were used for sequence analysis, codon preference analysis, genome comparative analysis and phylogenetic research of.The chloroplast genome offrom Huaiyu Mountain is a covalently closed double stranded ring molecule with a length of 160 165 bp, including 1 LSC, 1 IRa, 1 IRb and 1 SSC; the chloroplast genome offrom Huaiyu Mountain has been annotated with 133 genes in four categories: photosynthesis genes, self-replication genes, other genes and unknown functional genes, including 88 CDS genes, 37 tRNA genes and eight rRNA genes; Sixty three SSR loci were detected in the chloroplast genome offrom Huaiyu Mountain, including 56 single base repeats and seven double base repeats; The variation range of nucleotide diversity of the chloroplast genome offrom Huaiyu Mountain was 0—0.234 18, and the variation rates of,and genewere the highest. The codon of chloroplast genome offrom Huaiyu Mountain had a strong preference for ending in A or U. Mutation had a strong impact on codon preference, while other factors such as natural selection had a small impact on codon preference. The chloroplast genome offrom Huaiyu Mountain had 31 high-frequency codons, 16 ending in U, 13 ending in A, and two ending in G, of which 13 were the optimal ones.from Huaiyu Mountain was close tofrom Fujian MW375708 andfrom Guangxi MW375709, and far fromfrom Zhejiang MT827073,from Zhejiang MW375707,from Zhejiang KT033563 (NC_029339),from Sichuan MW375710 andfrom Zhejiang MW375711, which showed that there was little correlation between the genetic relationship and the geographical location.The genetic relationship betweenis not closely related to its geographical location. In this study, the chloroplast genome offrom Huaiyu Mountain is analyzed comprehensively and deeply for the first time by using bioinformatics analysis method, which will provide theoretical basis for genetic diversity analysis of medicinal plants and genetic breeding research of new strains of.
Diels et Gilg; characterization of chloroplast genome; phylogenetic relationship; large single copy region; small single copy region
R286.12
A
0253 - 2670(2023)16 - 5358 - 14
10.7501/j.issn.0253-2670.2023.16.025
2023-02-03
国家自然科学基金资助项目(31960079);2022年上饶市科技专项项目(饶科发[2023]5号社发类)(2022A008);江西省科技厅重点研发计划一般项目(20202BBG73010);江西省教育厅科学技术研究项目(GJJ201704);上饶市科技局平台载体建设项目(2020J001)
洪森荣(1974—),教授,主要从事植物生物技术研究工作。Tel: (0793)8153721 E-mail: hongsenrong@163.com
[责任编辑 时圣明]