冷杉属叶绿体基因组比较与系统发育分析
2021-07-10李佳赵梦瑶张朝霞相世英郑宏春贺游利
李佳,赵梦瑶,张朝霞,相世英,郑宏春,贺游利
(陕西学前师范学院 生命科学与食品工程学院,陕西西安 710100)
冷杉属(Abies Mill)是松科中仅次于松属的第二大属,包含约50 个物种,在全球广泛分布,多分布于亚洲、欧洲等高山地带。目前,我国冷杉属植物种类最多,有19 种3 变种,其中百山祖冷杉(Abies beshanzuensis)、秦岭冷杉(Abies chensiensis)由于分布范围小且物种数量较少已被列入国家保护名录[1],冷杉属各物种均可提取冷杉树脂,其叶片含有干性油,从中提取的精油可用作化妆品的配料,少数精油中的某些成分可以抑制癌细胞生长,具有抗肿瘤活性[2-4],因此冷杉属植物具有重要的应用价值。
叶绿体是植物光合作用的重要场所,普遍存在于陆地植物、藻类和部分原生生物中,是细胞内具有自主遗传信息的重要细胞器[5-6]。叶绿体在裸子植物中大多数为母系遗传,少数如落叶松属(Larix)为父系遗传[7],双亲遗传很罕见[8]。叶绿体基因组DNA 一般为双链环状结构,极少数为线型或多聚体,如粗刺藻(Acetabularia caliculus Lamouroux)[9]。叶绿体基因组由大单拷贝区、小单拷贝区、反向重复区A 和反向重复区B 组成[10-12]。
叶绿体基因组主要有与自我复制有关的基因、与光合作用有关的基因以及开放阅读等其他基因,而这些基因都是功能基因[13-14]。叶绿体基因组的基因数目一般为120~150,在基因的组成及排列顺序和方式上往往具有高度保守性[15]。在进化过程中,叶绿体基因会出现不同程度的丢失。不同种类的植物叶绿体基因组大小、基因数量会存在差异[10],分析物种的叶绿体基因数量、基因组结构等可以为生物的遗传规律、亲缘关系及进化方式、方向等提供一定的数据资料。
松科(Pinaceae)是现存裸子植物中最大的一个类群,也是研究松柏类植物系统发育的一个关键类群,而冷杉属作为松科的第二大属,对于冷杉属的叶绿体基因组以及系统发育分析的研究有助于确定松科的属间以及种间关系。姜雪莲[16]在2016 年结合了叶绿体基因的系统发育分析结果将峨眉冷杉(Abies fabri)划分为一个独立的物种。而汪小全等[17]基于叶绿体基因组数据的分析结果,使得松科系统发育关系基本得到解决,但得到的支持率较低;因此有必要开展对于冷杉属的系统发育研究。
本研究分析了冷杉属叶绿体基因组的GC 含量、长度、重复序列,并重建了冷杉属植物的系统发育关系,为冷杉属系统进化、亲缘关系研究提供理论和数据方面的支持,从而为松科以及裸子植物的系统进化关系等研究提供进一步的数据支持。
1 材料与方法
1.1 数据来源
如表1 所示,选取美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)已经公布的冷杉属植物10 个物种以及4 个外类群为材料,下载这14 个物种的叶绿体全基因组序列和注释信息。
表1 冷杉属10 个物种及4 个外类群的GenBank 登录号
1.2 数据分析
1.2.1 冷杉属叶绿体基因组基本特征分析
依据NCBI 公布的冷杉属植物的叶绿体全基因组序列及其注释信息,整理其包含的基因含量、基因组大小、蛋白编码基因个数及其长度等信息,采用Bioedit 软件计算其GC 含量。
1.2.2 冷杉属叶绿体基因重复序列分析
采用MISA(https://webblast.ipk-gatersleben.de/misa/)软件分析冷杉属10 个物种叶绿体全基因组序列包含的简单重复序列,参数设置为单碱基大于10 次,二碱基大于5 次,三碱基大于4 次,四、五、六碱基均大于3 次。
1.2.3 冷杉属植物的系统发育分析
选取南方红豆杉(Taxus chinensis)、西藏红豆杉(Taxus wallichiana)、巴西南洋杉(Araucaria angustifolia)和日本柳杉(Cryptomeria japonica)作为外类群,并结合冷杉属10 个物种叶绿体基因组序列的注释结果,得出这14 个物种共有的叶绿体基因为60 个(表2)。对14 个物种的60 个蛋白编码基因分别利用Bioedit 进行序列比对,并将比对结果串联在一起。利用MEGA 软件进行系统发育分析,主要选用最大似然法(Maximum Likelihood,ML)和邻接法(Neighbor-Joining method,NJ)进行,并利用自展分析(Bootstrap,重复100 次)检验各分支的置信度。
表2 冷杉属10 个物种共有的60 个叶绿体蛋白编码基因列表
2 结果与分析
2.1 冷杉属叶绿体基因组基本特征
如表3 所示,冷杉属植物10 个物种的叶绿体基因组大小在120 057~121 799 bp。叶绿体基因组长度最大的是巴山冷杉(Abies fargesii),其长度为121 799 bp;最小的是梵净山冷杉(Abies fanjingshanensis),基因组大小为120 057 bp。巴山冷杉和梵净山冷杉之间相差1 742 bp,表明基因组长度变化较小。冷杉属叶绿体基因组总共包含的基因数目多为113 个,仅白冷杉(Abies concolor)为110 个。大多数冷杉属的蛋白编码基因个数为74 个,白冷杉的蛋白编码基因数目为71 个,其中只包含一个ycf12基因,而冷杉属其余物种均包含2个ycf12基因。此外,白冷杉的psaA 和ycf1 基因均为假基因,其是否还具有功能有待进一步研究。冷杉属10 个物种的tRNA的基因个数均为35 个,rRNA 个数稳定在4 个,分别为rrn16、rrn23、rrn4.5、rrn5。冷杉属叶绿体基因组的GC 含量变化较小,均为38%左右。
2.2 冷杉属的简单重复序列
如表4 所示,冷杉属植物叶绿体基因组包含的重复序列总数在55~71 个,其中最多的是百山祖冷杉,有71 个;最少的是白冷杉,有55 个。每个物种预测到的简单重复序列(Simple sequence repeat,SSR)个数不等:欧洲冷杉(Abies alba)、香脂冷杉(Abies balsamea)和朝鲜冷杉(Abies koreana)均含有64 个SSR,秦岭冷杉和新疆冷杉(Abies sibirica)均含有68个SSR,巴山冷杉和台湾冷杉(Abies kawakamii)均含有69 个SSR,其余3 个物种预测到的SSR 个数均不相同。冷杉属叶绿体基因组中出现的SSR 位点共有655 个,单核苷酸最多为419 个,约占全部SSR 位点的64%;其次是二核苷酸,总共137 个,其中135个为AT/AT,仅有两个为AG/CT 组成。三核苷酸一共21 个,约占3.21%;四核苷酸62 个,占全部SSR位点的9.4%;五核苷酸出现的次数较少,共16 个,占2.44%;冷杉属10 个物种均不包含六核苷酸SSR。单碱基、二碱基、三碱基、四碱基、五碱基的个数在不同物种中也不相同。本研究中冷杉属10 个物种的SSR个数和分布情况存在差异,其原因可能是冷杉属植物在进化过程中不同物种的基因序列缺失、突变等。
表3 冷杉属10 个物种叶绿体全基因组序列信息统计表
表4 冷杉属10 个物种包含的重复序列统计表
2.3 冷杉属系统发育结果
以红豆杉科的南方红豆杉和西藏红豆杉,南洋杉科的巴西南洋杉以及柳杉科的日本柳杉为外类群,采用邻接法和最大似然法进行系统发育树重建,结果如图1 和2 所示。两种方法构建的系统发育树都显示所有冷杉属植物构成一个单系群。最大似然法的构树结果显示,欧洲冷杉与梵净山冷杉聚为一类,组成冷杉属的基部,朝鲜冷杉、香脂冷杉、台湾冷杉、百山祖冷杉、巴山冷杉聚为一类,秦岭冷杉、白冷杉、新疆冷杉聚为一类;邻接法中梵净山冷杉单独分为一支,其余9 个物种分为一支,并且在这个分支内部欧洲冷杉与其他8 个物种为姐妹类群;而其余8 个物种的聚类结果与最大似然法一致。
图1 基于60 个蛋白编码基因构建的冷杉属系统发育树(ML 法)
图2 基于60 个蛋白编码基因构建的冷杉属系统发育树(NJ 法)
3 结论
冷杉属10个物种的叶绿体基因组大小差异较小,包含的叶绿体基因也比较保守。冷杉属10 个物种的基因个数在110~113,编码蛋白基因在71~74 个,共有基因110 个。冷杉属10 个物种包含的SSR 个数不尽相同,并且都是单碱基重复类型最大,没有六碱基重复。系统发育树分析结果显示,所有冷杉属植物构成一个单系群,但最大似然法与邻接法的结果对欧洲冷杉的分类位置存在争议,未来还需要结合更多松科植物的叶绿体基因组序列对其进行深入研究。