APP下载

人参属植物叶绿体基因组特征及其进化的研究

2022-12-02任怡园钱柏霖韩利红

福建农业学报 2022年7期
关键词:叶绿体核苷酸人参

刘 潮,李 敏,任怡园,钱柏霖,韩利红

(曲靖师范学院生物资源与食品工程学院/云南省高校特色果酒技术创新与应用工程研究中心,云南 曲靖 655011)

0 引言

【研究意义】人参属(PanaxL.)属伞形目五加科(Araliaceae)多年生草本植物,起源于喜马拉雅山区[1],主要分布于东亚和北美的高海拔山区,该属几乎所有物种均具有重要的药用价值,特别根茎被广泛用作草药[2]。叶绿体是绿色植物体重要的细胞器,植物物种和个体之间的叶绿体基因组变异,对于植物群体遗传学研究和物种鉴定均具有重要价值。叶绿体基因组研究可为人参属物种鉴定、起源、进化、遗传多样性分析和资源保护与利用提供基础。【前人研究进展】人参属包含14个物种,其中人参(P.ginseng)、西洋参(P.quinquefolius)、三七(P.notoginseng)、竹节参(P.japonicus)和越南参(P.vietnamensis)为中国、美国、日本和越南等地贵细类药材,用于治疗和预防多种疾病,具有很大国际市场[3]。人参、屏边三七(P.stipuleanatus)和姜状三七(P.zingiberensis)均已入选中国珍稀濒危植物名录,其中人参属植物具有相似的形态特征,但在活性成分和药理作用上存在明显差异[4-5]。人参富含100余种人参皂苷类活性成分,是我国中草药材中著名的植物类药材,有助于缓解疲劳、促进康复和预防潜在疾病[5],其富含的人参皂苷Ra2、Rg1、Ra1以及丙二酰人参皂苷Ra3等,可通过作用于哺乳动物雷帕霉素靶蛋白(mTOR)、胞内磷脂酰肌醇激酶(PI3K)和其他靶点来调节前列腺特异性抗原(PSA)、核糖体 S6激酶(S6K)、MDM2(Murine double minute 2)和P53基因的 mRNA表达,从而抑制乳腺癌的增殖[4]。西洋参产自美国和加拿大南部,主要用于治疗气虚性贫血、咳嗽和哮喘[6]。三七主要分布在中国云南省,含有皂苷和三七素等止血活性成分,常用于调节和治疗心血管系统、神经系统和免疫系统等方面疾病[7]。叶绿体基因组编码多个参与光合作用等重要代谢反应的关键蛋白,由一对反向重复区(Inverted repeats,IRs)分别将大单拷贝区(Large single copy,LSC)和小单拷贝区(Small single copy,SSC)分开,从而构成典型的四分体结构[2,8-11]。大部分被子植物叶绿体基因组包含120~130个基因,其中包括编码光合作用相关的蛋白编码基因、核糖体RNA基因和转运RNA基因[8,11]。随着高通量测序技术的快速发展,大量植物叶绿体基因组序列已完成测序,叶绿体基因组被广泛用于物种鉴定和系统发育分析[8,11-12]。【本研究切入点】目前,多个人参属物种叶绿体基因组序列已被公布[13-14],鉴于人参属物种重要的开发和利用前景,应用叶绿体基因组的遗传分析,对于人参属物种鉴定、资源保护和开发利用均具有重要的理论和实践意义。【拟解决的关键问题】本研究基于已公布的叶绿体基因组数据,利用生物信息学方法,对人参属物种叶绿体基因组结构、重复序列、核苷酸变异位点、基因进化以及系统发育进行分析。人参属物种亲缘关系和遗传多样性分析,将为我国人参属资源的品种改良和开发利用提供理论依据。

1 材料与方法

1.1 数据收集

从美国国家生物技术信息中心GenBank数据库(https://www.ncbi.nlm.nih.gov/)检索并下载14种人参属植物叶绿体基因组序列信息(表1)。

表1 人参属物种叶绿体基因组特征Table 1 Chloroplast genomes of Panax species

1.2 试验方法

1.2.1 重复序列分析 通过REPuter软件[15]分析长重复序列,参数设置为最小重复长度30 bp,最大碱基错配数3。通过MISA软件[16]检测简单重复序列(Simple sequence repeat,SSR)数目及位置分布,最小重复数设为单核苷酸10,二核苷酸5,三核苷酸4,四核苷酸、五核苷酸和六核苷酸均为3。

1.2.2 基因组结构分析 使用IRscope软件[17]对人参属物种叶绿体基因组LSC、SSC和IRs边界的收缩与扩张进行可视化。通过mVISTA软件[18],以人参叶绿体基因组序列(MK408938)为参照,选用Shuffle-LAGAN全局比对模式,对人参属物种叶绿体基因组序列同源性进行可视化比对。

1.2.3 核苷酸多样性分析 使用MAFFT软件[19]对叶绿体基因组序列进行比对,使用DnaSP软件[20]计算叶绿体基因组序列核苷酸多态性(Pi),参数设置为搜索窗口长度600 bp,步长200 bp,使用R程序绘图。

1.2.4 基因进化分析 使用MAFFT软件对各物种叶绿体蛋白编码基因进行比对,使用PAMLX[21]的CODEML算法采用位点模型法对正选择位点进行检测,并评价人参属物种叶绿体蛋白编码基因的进化情况。

1.2.5 系统发育分析 利用14种人参属植物叶绿体基因组序列,以五加科物种楤木(Aralia elata)和波缘楤木(A.undulata)为外类群,使用IQ-TREE 2软件[22]基于最大似然法(Maximum likelihood,ML)构建系统发育树,建树模型为TVM+F+R6,步长值为1 000。

2 结果与分析

2.1 叶绿体基因组特征

14种人参属植物叶绿体基因组均为双链环形结构,由LSC、SSC、IRa和IRb等4部分构成,基因组总长度为155 984 bp(越南参变种P.vietnamensisvar.langbianensis)~156 402 bp(珠子参P.major),属内叶绿体基因组长度差异小于500 bp,总GC含量为38.04%~38.08%,LSC、SSC和 IR长度分别为86 077 ~86 322 bp、17 934 ~18 150 bp 和 25 887 ~26 103 bp,GC含量分别为36.26%~36.31%、32.07%~32.27%和42.98%~43.10%(表1)。所有基因组均包含114个unique基因,其中有80个蛋白编码基因,4个rRNA和30个tRNA。21个基因属于双拷贝基因,包括8个蛋白编码基因(ndhB、rpl2、rpl23、rps7、rps12、ycf1、ycf2和ycf15),4个 rRNA基因(rrn4.5、rrn5、rrn16和rrn23), 7个 tRNA基因(trnA-UGC、trnI-CAU、trnI-GAU、trnL-CAA、trnN-GUU、trnR-ACG和trnV-GAC)。3个基因(rps12、clpP和ycf3)包含2个内含子,15个基因包含1个内 含 子 (atpF、ndhA、ndhB、petB、petD、rpl2、rpl16、rpoC1、rps16、trnA-UGC、trnG-UCC、trnIGAU、trnK-UUU、trnL-UAA和trnV-UAC)。

2.2 重复序列分析

利用REPuter软件对14种人参属植物叶绿体基因组序列4种长重复序列进行分析,共检测到长度为30~100 bp的重复序列625条(图1)。4种重复类型中,回文重复数目最多,平均含有24条,其次为正向重复,平均20条,各物种中反向重复和互补重复数较少,除了野三七(P.vietnamensisvar.fuscidiscus)中含有4条反向重复和2条互补重复外,其他物种仅含有0~1条反向重复,且均不含互补重复序列(图1-A)。根据重复序列长度分析显示,各物种中30~39 bp长度的序列最多,平均占56%,其次为40~49 bp序列,平均占23%,60~69 bp序列占15%,而50~59 bp和大于70 bp的序列占比均为3%(图1-B)。重复序列数目最多的是疙瘩七(P.japonicusvar.bipinnatifidus)102条,最少的为屏边三七(P.stipuleanatus)27条,其他物种的重复序列数目为31~56条。

从14种人参属植物叶绿体基因组中共检测到574个SSR位点,各物种中分布数目为37~45个,单核苷酸重复数目最多,平均占49%,四核苷酸重复占21%,二核苷酸占15%,三核苷酸占7%,五核苷酸占6%,六核苷酸仅占2%(图2-A)。单核苷酸重复类型主要为A/T,占单碱基重复的83%;二核苷酸重复均为AT/AT型;三核苷酸重复有AAT/ATT、AAG/CTT和AGC/CTG等3种类型,其中AAT/ATT占60%;5种四核苷酸重复中,AAAG/CTTT型占42%,AAAT/ATTT型占 36%,ACCT/AGGT型占28%,AATT/AATT型占14%,而AAAC/GTTT型仅占1%;五核苷酸重复主要为AATCT/AGATT型,占76%,部分物种中未检测到六核苷酸重复(图2-B)。人参属种间SSR数目差异相对较小,竹节参叶绿体基因组中SSR数目最多(45个),三七和疙瘩七的SSR最少(均为37个)。

2.3 叶绿体基因组结构变异

使用IRscope软件对人参属物种叶绿体基因组LSC/IRs/SSC边界收缩与扩张进行比较(图3)。14种植物IR区长度最大差异为216 bp,表明IR区存在一定程度的扩张或收缩。所有物种LSC/IRb边界均跨越基因rps19,IRb区延伸到rps19的长度为46~51 bp;IRb/SSC边界存在较大差异,7个物种IRb/SSC边界跨越基因ycf1,ycf1编码区延伸到SSC长度为1~3 bp,6个物种 IRb/SSC边界跨越基因ndhF,IRb区延伸到ndhF长度为8~12 bp;所有物种SSC/IRa边界均位于基因ycf1编码区内,IRa区延伸到ycf1的长度为1 476~1 649 bp;全部物种IRa/LSC边界均跨越基因trnH,IRa的延伸长度为4~7 bp。

以人参叶绿体基因组(MK408938)为参照,使用mVISTA软件比较人参属物种叶绿体基因组序列,发现14种人参属植物叶绿体基因组序列一致性较高,非编码区序列变异高于编码区,LSC区和SSC区序列变异高于IR区。相比于人参属其他物种,屏边三七和三叶参序列变异相对较高,人参属叶绿体基因组基因数目和顺序一致,未发现基因重排现象(图4)。

2.4 叶绿体基因组核苷酸多态性

使用DnaSP软件对14种人参属植物叶绿体基因组序列核苷酸多态性(Pi)进行分析(图5),比对序列总长度为158 911 bp,共检测到多态性位点2 889个,核苷酸多样性值范围为0~0.030,平均值为 0.004,LSC、SSC和 IR区Pi平均值分别为0.005、0.008和0.001,显示LSC区和SSC区高度可变,IR区相对保守。鉴定的12个高度可变热点(Hotspot)中,7个位于LSC区(trnH-psbA、rps16-trnQ、psbI-trnS、trnE-trnT、clpP、psbH-petB和rpl16-rps3),5个位于 SSC区(ndhF-rpl32、rpl32-trnL、ndhD-psaC、rps4-trnT和ycf1),IR区未检测到核苷酸多态性位点,表明单拷贝区核苷酸多态性明显高于IR区。

2.5 基因进化分析

为了解人参属叶绿体蛋白编码基因在进化过程中是否受到选择作用,利用PAML软件对基因dN/dS比率和正选择位点进行分析(图6、表2)。结果发现,clpP、ycf1和ycf2的dN/dS比率均大于1,表明这些基因受到正选择作用。而cemA、matK和rpl2的dN/dS比率虽然小于1,但均大于0.92,表明这些基因进化过程中主要受纯化选择作用,同时也受到一定的选择作用影响。根据经验贝叶斯分析,共有8个蛋白编码基因正选择位点达显著水平(P> 95%), 分 别 为cemA、clpP、matK、ndhF、rbcL、rpoA、ycf1和ycf2,显著性正选择位点数分别为 1、1、1、8、3、2、10和 4(表2)。三叶参rpoA基因在803和804位插入两个碱基A造成移码突变,随后出现终止密码子TAG,导致蛋白翻译提前终止。

表2 基于位点模型的人参属叶绿体蛋白编码基因正选择分析Table 2 Potential positive selection test on chloroplast genomes of Panax species based on site model

2.6 人参属系统发育分析

基于叶绿素基因组数据,使用IQ-TREE软件构建了人参属物种系统发育树(图7)。结果显示,屏边三七和三叶参位于人参属系统发育树的基部,人参和西洋参构成支持率为100%的单一支系。三七单独构成一支。越南参及其两个变种与峨眉三七和姜状三七构成一支,与由珠子参、假人参、竹节参和疙瘩七构成的单支形成姊妹类群。

3 讨论

人参属植物是一类生长缓慢的多年生草本植物,根茎中富含人参皂苷等生物活性物质,被广泛用于预防和治疗多种疾病[5]。目前,多个人参属物种叶绿体基因组已完成测序[2,13-14]。通过叶绿体基因组分析,可深入探讨人参属物种的系统发育与进化特征,为该属种质资源保护、分子育种和品种改良奠定基础。本研究从NCBI数据库下载人参属物种叶绿体基因组数据,对基因组基因构成、序列重复、结构变异、基因进化及物种系统发育关系进行分析,发现14种人参属植物叶绿体基因组高度保守,物种间叶绿体基因组大小差异500 bp以内,编码的基因种类、数目和排序一致,显示基因组结构高度保守。

物种间的重复序列差异是进化过程中自然选择和环境适应性的结果,重复序列数量与物种的进化水平直接相关[23]。长重复序列广泛存在于植物叶绿体基因组中,其通过保护编码区维持了基因组的稳定性,在基因表达和调控中发挥重要作用,由于具有高度多态性,长重复序列成为群体遗传学研究的理想工具[24]。人参属物种叶绿体基因组中平均包含24条回文重复和20条正向重复,而反向重复和互补重复较少,30~39 bp长度的重复序列占50%以上,这与其他物种类似[25]。人参属重复序列数目高于木姜子属(Litsea)[8],低于辣椒属(Capsicum)[10]、悬钩子属(Rubus)[11]、姜属(Zingiber)[26]和冬青属(Ilex)[27]。与人参属其他物种(除越南参变种基因组较小外)相比,屏边三七和三叶参均含有较少的重复序列,这在一定程度上反映物种进化水平,与二者属于基部类群的结果一致。简单序列重复具有丰富的多态性、高度重复性和可靠性等优点,特别是在种内水平上表现出相对较高的突变率,在群体遗传关系和系统发育研究中经常被用作遗传分子标记[28],被广泛用于药用植物群体遗传学研究[10-11]。人参属物种叶绿体基因组中含有37~44个SSR位点,其中大多数为A/T重复,单核苷酸重复是最丰富的重复序列,与其他物种研究类似[8,10,29-30],这与植物叶绿体基因组A、T含量较高有关。人参属物种SSR数目高于悬钩子属[11]和松属(Pinus)[24],低于姜属[26]和草果(Amomum tsao-ko)[31]。本研究中发现的长重复序列以及SSR将有助于开发人参属物种的遗传多态性分子标记,为群体遗传学研究提供材料。

IR区边界的收缩和扩张是叶绿体基因组结构变异的重要原因[32]。人参属叶绿体基因组IR区与单拷贝区边界高度保守[13],4个边界分别跨越rps19、ycf1-ndhF、ycf1和trnH,但不同物种 IR/SSC边界的差异也较为显著,IR/SSC边界的变化可能是导致人参属叶绿体间大小差异的原因,这与五加科其他物种类似[33]。叶绿体基因组共线性分析显示,物种演化过程中人参属叶绿体基因组未发生基因重排,IR区序列一致性高于单拷贝区,这与前人研究结果一致[3,11,34]。通过比较14种人参属植物叶绿体基因组,检测到12个高度可变热点,7个位于LSC区(trnH-psbA、rps16-trnQ、psbI-trnS、trnE-trnT、clpP、psbH-petB和rpl16-rps3),5个位于 SSC区(ndhF-rpl32、rpl32-trnL、ndhD-psaC、rps4-trnT和ycf1),IR区未检测到高变位点,表明单拷贝区核苷酸多态性明显高于IR区,且多态性位点多为基因间隔区[35-36]。鉴定的12个高变区可与SSR等其他标记一起用于群体遗传学和系统地理学研究[11,30]。

植物在进化过程中,往往受到环境等多种因素的影响,而基因的正选择分析可为植物适应性进化提供理论依据。当dN/dS>1,认为基因主要受正选择作用;dN/dS=1,认为主要受中性选择作用;dN/dS<1,则认为主要受纯化选择作用[37]。研究发现,人参属叶绿体功能未知基因clpP、ycf1和ycf2受正选择作用。目前,clpP、ycf1和ycf2编码蛋白功能仍不明确,但其基因在多个物种中均受正选择作用[25-26,31]。与本研究结果不同,Liu等[13]对8个人参属物种分析后,未检测到正选择位点,这可能与物种数目、检测软件和计算方法有关。本研究使用14种人参属植物的基因序列,采取通用的CODEML算法,能得到更准确的结果。在光合作用相关基因ndhF和rbcL中检测到多个正选择位点,可能与人参属物种不同纬度生长环境的光照条件有关。以上分析表明,这些正选择基因或位点在人参属植物与环境互作过程中受到了选择作用,可能与物种的生态适应性有关。

基于完整叶绿体基因组序列的人参属系统发育分析显示,屏边三七和三叶参位于基部分支,这与前人研究结果一致[2,14,38]。与本研究不同,岳杰[14]认为珠子参与越南参和姜状三七关系更为紧密,这可能与建树时选择的基因组序列不同有关,NCBI数据库中有3条珠子参叶绿体基因组序列,本研究选择了聚类关系较近的两条序列中的一条(MN496312)。本研究结果中的物种系统演化拓扑结构与前人研究类似,人参和西洋参在进化过程中经历了两次全基因组复制事件,促进了人参属物种的多样化[6,39]。人参和西洋参四倍化后于2.59百万年前从二倍体物种中分化出来,主要分布在东北亚和北美,由于地理隔离和生态环境适应性进化,与其他二倍体物种进一步分开,于0.77百万年前分离成单种[6]。

4 结论

人参属植物叶绿体基因组长度为155 984 ~156 402 bp,均包含114个unique基因,其中80个蛋白编码基因,4个rRNA和30个tRNA。基因组序列中含有较多的回文重复和正向重复。SSR主要由A/T碱基构成,以单核苷酸重复为主。人参属植物叶绿体基因组序列一致性较高,非编码区序列变异高于编码区,IR区存在一定程度的扩张和收缩。12个高度可变热点中,7个位于LSC区,5个位于SSC区。未知功能基因clpP、ycf1和ycf2受正选择作用。屏边三七和三叶参为人参属的原始类群,而三七、竹节参和越南参则亲缘关系较近,构成了人参属的较新分化类群。

猜你喜欢

叶绿体核苷酸人参
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
Acknowledgment to reviewers—November 2018 to September 2019
共生
人不吃饭行吗
清爽可口的“水中人参”
人参娃娃
一种快速提取微藻完整叶绿体及其DNA的方法
吃人参不如睡五更
对“叶绿体中色素的提取和分离实验”的改进