APP下载

萝藦叶绿体基因组结构及进化发育分析

2024-01-22马萌萌李淑娴吴怀通

浙江农业科学 2024年1期
关键词:叶绿体碱基基因组

马萌萌,李淑娴,吴怀通

(林木遗传育种全国重点实验室,南方现代林业协同创新中心,林木遗传与生物技术教育部重点实验室,江苏省林木遗传和高效培育重点实验室,南京林业大学 林学院,江苏 南京 210037)

萝藦(Metaplexisjaponica(Thunb.)Makino)是多年生草本缠绕藤本植物,广泛分布于中国、日本、韩国和俄罗斯[1]。它全株含有丰富的白色乳汁,其中幼叶、根和果实可作为蔬菜栽培[2]。同时,还可以作为中药用于治疗创伤性损伤、蛇咬伤、体质虚弱和小儿疳积等[3-4]。萝藦的粗提物中的化学成分已被证实具有多种药理作用,如抗肿瘤、抗氧化、抗菌、免疫抑制和神经保护作用[5-7]。目前,已从萝藦中分离出类固醇糖苷、配体、黄酮类化合物、挥发油和脂肪油等化合物[8]。

萝藦种子上附着长长的种毛,起到辅助种子扩散的作用。该种毛是一种高产的天然纤维,可以通过人工或机械方式进行剥离,纤维形态结构与棉纤维或杨絮纤维类似,都是由细胞壁组成的中空组织[4]。萝藦种毛的中空特性可以作为天然的吸油材料,具有较高的吸油能力、环境相容性和良好的可重复性[9-10]。同时,其较大的表面积比、丰富的空隙和中空纤维的充分活化,可以促进对亚甲基蓝的高效吸附,为染料分子的吸附提供良好的生物材料[11]。

植物叶绿体是进行光合作用的主要场所,并参与合成和分解淀粉、脂肪酸、色素和氨基酸等生化过程[12-14]。叶绿体携带一定的遗传信息,主要是光合作用相关酶,在核基因的协助下,可以半自主地完成基因的转录和翻译。叶绿体基因组属于细胞质遗传,高度保守,在细胞质中能完成自我复制,具有稳定的结构和低突变率。因此,随着高通量测序技术的发展,在植物系统进化、细胞质不育基因克隆等研究中,叶绿体基因组的分析逐渐呈现出优势[15]。另外,在萝藦科植物的分类研究中,与夹竹桃科以及下面的多个亚科或属间存在分类的争议。利用叶绿体基因组可以更好地梳理萝藦科植物的分类进化关系。

目前,萝藦植物的研究较多处于功能探索阶段,包括次生代谢物的提取纯化,种毛的结构和应用功能等。萝藦的分子研究报道较少,尤其是基因克隆、基因组和转录组数据更是鲜有报道。因此,本研究以萝藦为实验材料,首次系统研究萝藦叶绿体的基因组结构、基因组成,并结合萝藦科其他植物叶绿体基因组数据,构建系统进化关系,明确了萝藦在进化中的关系。

1 材料与方法

1.1 试验材料

萝藦种子收集自南京林业大学白马实验基地,种植在植物生长室。待植株生长达到6~8片真叶时,采集植株新鲜无病虫害的嫩叶,放置在液氮中冷冻,并保存在-80 ℃冰箱。

1.2 试验方法

1.2.1 构建基因文库并测序

使用CTAB法[16]提取萝藦总DNA,并结合琼脂糖凝胶电泳和Nanodrop分光光度计检测提取的DNA质量,包括完整性、浓度和纯度。将DNA使用超声波打碎并筛选出长约500 bp的片段,根据Illumian DNA文库构建说明书完成文库的构建。构建完成的DNA文库,委托南京集思慧远在Illumina Novaseq6000高通量测序平台完成叶绿体基因组测序。

1.2.2 叶绿体基因组的组装和注释

对测序下机的数据,使用NGSQC ToolKit 软件[17]进行测序序列(raw reads)质控,包括去除接头、低质量序列、模糊序列和格式转换等,获得高质量序列(clean reads)。使用bowtie2软件[18],在clean reads中筛选来自叶绿体的测序序列,使用SPAdes软件[19]完成叶绿体基因拼接。为确保基因注释的准确性,采用两种方法进行基因注释。一是使用prodigal v2.6.3[20]完成叶绿体基因的CDS注释,使用hmmer v3.1b2[21]完成rRNA的预测;二是根据NCBI上公布的近缘物种,提取基因序列,使用blast v2.6比对组装的序列,得到两种注释结果。最后,将两种结果进行手动检查存在差异的基因,去除冗余和注释错误基因,确定外显子边界,获得最终的基因注释结果。

1.2.3 萝藦叶绿体基因组SSR分析

简单重复序列(simple sequence repeats,SSR)又称微卫星基因座,是由1~6个核苷酸序列为单元多次串联重复组成的序列,这种序列特征在真核生物基因组中广泛分布[22-23]。叶绿体基因组上的SSR标记使用MISA v1.0软件[24]进行叶绿体基因组简单重复序列位点(chloroplast simple sequence repeats cpSSR)的分析,重复基序和重复次数分别设置为单碱基重复8次,2个碱基重复5次,3~6个碱基各重复3次,2个SSR位点间的距离不小于100 bp,对分析得到的cpSSR类型、数量等进行统计分析。

1.2.4 叶绿体全基因组比较分析及共线性分析

为展现萝藦与近缘物种在叶绿体基因组序列的近缘关系,分析构成基因组的4个不同区域的边界序列。近缘物种的叶绿体基因组序列在NCBI网站下载,包括马利筋(Asclepiasnivea,NCBI登录号为NC_022431)、地稍瓜(Cynanchumthesioides,NCBI登录号为MW864598)、匙羹藤(Gymnemasylvestre,NCBI登录号为NC_047175)、球兰(Hoyacarnosa,NCBI登录号为NC_045868)、Vincetoxicumhainanense(NCBI登录号为NC_051946)、通光散(Marsdeniatenacissima,NCBI登录号为MW861760)、南瓜子金(Dischidiaaustralis,NCBI登录号为OL790122)共7个物种叶绿体基因组。使用mVISTA软件默认参数进行基因组比对。

1.2.5 萝藦叶绿体基因组系统发育进化树分析

在NCBI网站下载已经公开的萝藦科的近缘物种叶绿体基因组,共下载了25个叶绿体序列(表1)。利用全基因组序列构建最大似然(maximum likelihood,ML)系统发育树。物种间的序列使用MAFFT v7.427完成多序列比对,使用RAxML v8.2.10软件,设置GTRGAMMA模型,rapid Bootstrap分析,bootstrap=1 000,完成进化树构建。

表1 萝藦近缘物种叶绿体基因组序列信息Table 1 Information of chloroplast genome sequences of related species of Metaplexis japonica

2 结果与分析

2.1 萝藦叶绿体基因组结构特征

萝藦的高通量测序数据下机质量控制后,获得6.71 G的高质量测序序列。通过基因组的拼接,获得萝藦的叶绿体基因组的总长度为157 081 bp,由大单拷贝区(LSC,88 972 bp)、小单拷贝区(SSC,18 657 bp)与间隔两个区域的两个反向重复区(IRA和IRB,均24 726 bp)4部分组成(图1)。4个区域的GC含量也不相同,其中IRA和IRB区的GC含量最高达到43.33%,SSC区的GC含量最低是32.25%。

图1 萝藦叶绿体基因组图谱Fig.1 Chloroplast genome map of Metaplexis japonica

萝藦叶绿体全基因组预测了132个基因,其中:包括87个编码蛋白基因,37个tRNA基因,8个rRNA基因。基因功能注释结果显示,这些基因可以分为4类(表2)。第一类为光合作用相关基因,包含45个成员,参与和维持了植物的光合作用反应。这些基因中,除了ndhA、ndhB、petB、petD和atpF含有1个内含子外,其他基因均不含有内含子。另外ndhB基因还存在两个重复基因,其他均为一个拷贝。第二类是自我复制相关的基因,主要是维持叶绿体在细胞质中完成复制(表2)。这些基因包括74个成员,提供了遗传信息转录和翻译的基本条件,例如核糖体亚基基因、RNA聚合酶基因、转运RNA基因等。它们相比光合作用相关基因,存在较大比例的基因出现拷贝数增加或高比例内含子。第三类是其他功能基因,包括6个成员,可能起到调控或物质转运的功能,比如转录起始因子infA和囊膜蛋白基因cemA。第四类是一些功能基因。

表2 叶绿体基因功能分类统计表Table 2 Classification and statistics of chloroplast gene functions

2.2 萝藦叶绿体基因组散在重复序列及SSR位点分析

散在重复序列是以分散的方式分布在基因组中的重复序列,较多是由于DNA转座导致形成。因此,散重复序列的长度不定,从几十到几千碱基均可发生。使用vmatch v2.3.0软件鉴定萝藦叶绿体基因组中的散在重复序列。鉴定形式包括正向重复(forward,F)、回文重复(palindrome,P)、反向重复(reverse,R)和互补重复(complement,C)4种。结果显示,萝藦叶绿体中散在重复序列在不同形式间存在较大差异,其中正向重复最多为78次,互补重复最少为2次。同时,重复片段也存在较大差异,重复片段长度为30~102 bp不等。其中,33 bp序列的重复次数最多为30次,50、53、54 bp等较大片段的重复次数最少为1次(图2)。

图2 散在重复序列统计图Fig.2 Statistical chart of scattered repetitive sequences

简单重复序列(SSR)由于其在基因组中的广泛分布,由此开发的SSR分子标记成为分子生物学中的重要工具之一。在萝藦叶绿体基因组中鉴定了271个SSR位点,单碱基重复169个,数量最多,双碱基重复13个,三碱基重复77个,四碱基重复8个,六碱基重复4个,没有检测到五碱基重复序列。出现频率最高的简单重复序列是A/T,之后是三碱基重复序列的TAA/TCT(图3)。

图3 SSR各类型数量统计图Fig.3 Statistical diagram of the quantity of SSR types

2.3 边界分析

环形的叶绿体基因组由IR、LSC、SSC分成4部分组成,有4个边界。为了探究萝藦在进化过程中,4个部分的边界是否发生了扩张或收缩。选取了萝藦的近缘物,选取原则是同一科分类下不同属的物种叶绿体。包括马利筋属(Asclepiasnivea)、鹅绒藤属(Cynanchumthesioides)、匙羹藤属(Gymnemasylvestre)、球兰属(Hoyacarnosa)、白前属(Vincetoxicumhainanense)、牛奶菜属(Gongronemopsistenacissima)和眼树莲属(Dischidiaaustralis)共7个物种的叶绿体与萝藦叶绿体基因组进行比较分析。结果显示,8个物种的叶绿体基因组长度在157 081~176 733 bp,基因组间存在一定的碱基数目差异。分析LSC/IRb之间的边界,在萝藦、Asclepiasnivea、Gymnemasylvestre、Vincetoxicumhainanense和Cynanchumthesioides均处于rps19与rpl2基因之间;而rpl22基因在Gongronemopsistenacissima、Dischidiaaustralis和Hoyacarnosa中横跨该边界。IRb/SSC之间的边界,在萝藦、Asclepiasnivea和Gymnemasylvestre中均处于ycf1和ndhF基因之间;在Vincetoxicumhainanense中处于ycf1基因中;在Cynanchumthesioides中处于ycf1和rpl32基因之间;在Gongronemopsistenacissima中是被ycf1基因横跨该边界;在Dischidiaaustralis和Hoyacarnosa中处于rpl32和ndhF基因之间。分析SSC/IRa之间的边界,在萝藦、Asclepiasnivea、Gymnemasylvestre和Gongronemopsistenacissima中是被ycf1基因横跨该边界;在Vincetoxicumhainanense中处于ycf1和trnN基因之间;在Cynanchumthesioides中处于rps15和trnN基因之间;在Dischidiaaustralis和Hoyacarnosa中处于ndhF和rpl32基因之间。分析IRa/LSC之间的边界,在萝藦、Asclepiasnivea、Gymnemasylvestre、Vincetoxicumhainanense和Cynanchumthesioides均处于rpl2和trnH基因之间;在Gongronemopsistenacissima、Dischidiaaustralis和Hoyacarnosa中均处于rps19和trnH基因之间。总体分析,萝藦与Asclepiasnivea、Gymnemasylvestre和Vincetoxicumhainanense在叶绿体基因组中的边界序列相似度最高,也观察到Vincetoxicumhainanense的JSB边界上的ycf1基因跨越IRb区和SSC区的边界,JSA边界上的ycf1发生位移,体现出Vincetoxicumhainanense的IR区域向SSC区扩张。还发现Dischidiaaustralis和Hoyacarnosa两个物种存在类似的边界序列,暗示它们在进化关系中处于较近的物种(图4)。

图4 叶绿体IR边界变化分析Fig.4 Analysis of chloroplast IR boundary changes

2.4 萝藦系统进化分析

为了确定萝藦在近缘植物中的进化地位,选择萝藦科和夹竹桃科分类下面不同属的多种代表植物,以长春花作为外类群,结合拼接的萝藦叶绿体基因组序列,构建系统进化树。一般来说自展值在70以上较为可信,自展值较低则无法准确区分,进化树中除了自展值为99和64的两个节点外,其余节点自展值均为100,结果较为可信。系统发育分析结果显示,整体可以分为3个进化分支,除了络石属(TrachelospermumL.)和端兹亚属(Rhazya)相对其他物种进化关系较远,它们各自独立进化一个分支外。第一个进化分支包括白前属(VincetoxicumL.)、秦岭藤属(BiondiaSchltr.)、牛角瓜属(CalotropisR. Br)和马利筋属(AsclepiasL.);第二个进化分支主要包括鹅绒藤属(CynanchumL.),其中萝藦与Cynanchumthesioides进化关系最近;第三进化分支包括匙羹藤属(GymnemaR. Br.)、牛奶菜属植物(Gongronemopsistenacissima)、眼树莲属(DischidiaR. Br)和球兰属(HoyaR.Br.)(图5)。

图5 叶绿体系统进化分析Fig.5 Chloroplast system evolution analysis

3 讨论

叶绿体对维持地球生命起着至关重要的作用,它是活跃的新陈代谢中心,可以通过光合作用和释放氧气将太阳能转化为碳水化合物来维持地球的生命。同时,叶绿体在植物生理和发育的其他方面发挥着重要作用,包括氨基酸、脂肪酸、植物激素和维生素等代谢物的合成等[25],对非生物胁迫也会产生影响[26]。被子植物的叶绿体基因组长度一般认为在115~165 kb[27]。萝藦叶绿体基因组呈环形,四分体结构典型,包括大单拷贝区、小单拷贝区和两个反向重复区。全长157 081 bp,符合被子植物叶绿体总长范围,与萝藦科公布的叶绿体基因组序列长度相似,包括黑水藤(Biondiainsignis)[28]、秦岭藤(Biondiachinensis)[29]、大理白前(Cynanchumforrestii)[30]、银狗牙花(Tabernaemontanadivaricata)[31]、隔山消(Cynanchumwilfordii)[32]、地梢瓜(Cynanchumthesioides)[33]等。萝藦叶绿体基因组成功注释了132个基因,其中主要光合作用相关基因占比达到34.1%(45/132),维持自我复制相关基因占比达到56.1%(74/132)。这两类基因占叶绿体总基因的绝大部分,与叶绿体分布在细胞质中进行光合作用,可进行自我复制的细胞器特征相吻合。

叶绿体简单重复序列(cpSSR),是指位于叶绿体基因组中的SSR位点,它可以提供更多的植物基因组的变异信息,这些位点通常位于非编码区,是通过重复次数的不同产生个体间的差异。它与核基因组SSR位点相似,但拥有自己不同的特征,包括属于细胞质遗传,全部发生遗传重组[34]。在萝藦叶绿体基因组中,鉴定了271个SSR位点,主要以单碱基A、T重复为主,其次是三碱基TAA重复。上述SSRW位点的鉴定,为后续SSR分子标记的开发提供了可靠的靶位点,这些位点也为萝藦种质资源的鉴定分类等积累分子标记信息[35]。

由于萝藦科与夹竹桃科在物种分类中存在较多的争议,不同学者依据不同植物特征对这两个科物种的分类有不同观点。例如有的学者认为两个科应该归为一个科[36],有的学者坚持认为分为两个科,或者置于捩花目龙胆亚目分类下面。近期,研究学者们通过叶绿体基因组的分子系统发育学进一步证实了萝藦科应该属于夹竹桃科的一部分[37-38]。为了鉴定萝藦的进化关系,在已经公布的萝藦科或夹竹桃科物种中,选择不同属的物种叶绿体构建系统进化树。结果验证了萝藦属于鹅绒藤属。同时,夹竹桃科下的白前属和秦岭藤属与萝藦科下的牛角瓜处于同一进化分支,他们在系统进化关系上更近。进一步说明现行的萝藦科和夹竹桃科分类需要参考分子系统进化关系进行更新。

4 结论

本研究结合高通量测序,完成了萝藦的叶绿体基因组测序和组装,成功注释了132个基因,分析了基因结构和预测基因功能。同时,在叶绿体基因组中鉴定了271个SSR位点,为后续的SSR分子标记开发提供了基因组和靶位点参考。进一步结合近缘物种,分析了萝藦在进化过程中不同基因组区域边界基因的变异,证实了Vincetoxicumpycnostelma在进化过程中发生了IR区域向SSC区扩张。最后,结合萝藦科和夹竹桃科下的不同属多个物种的叶绿体基因组序列,构建了系统发育进化树,确定了萝藦在进化中属于鹅绒藤属,还发现了萝藦科和夹竹桃科植物分类中需要更新分类的线索。总之,本研究系统分析了萝藦叶绿体基因组,积累了萝藦研究的分子数据,展现了萝藦的系统进化关系。

猜你喜欢

叶绿体碱基基因组
牛参考基因组中发现被忽视基因
应用思维进阶构建模型 例谈培养学生创造性思维
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来4名新成员
生命“字母表”迎来4名新成员
南方红豆杉叶绿体非编码序列PCR体系优化及引物筛选
基因组DNA甲基化及组蛋白甲基化
有趣的植物基因组
茶树叶绿体DNA的PCR-RFLP反应体系优化
基因组生物学60年