毛籽红山茶叶绿体基因组特征及其系统发育分析
2022-09-01童一涵孔庆博冯士令周莉君丁春邦
郑 倩,童一涵,孔庆博,冯士令,周莉君,丁春邦,陈 涛
(四川农业大学命科学学院,四川 雅安 625014)
叶绿体是一种可以半自主遗传的有色质体,它参与光合作用,对地球上的所有生命都有重要意义[1]。叶绿体基因组相比较于核基因组与线粒体基因组,具有结构简单、进化速率适中等优点,更适合进行系统发育分析[2]。通过对叶绿体全基因组分析,能够为亲缘关系相近的物种提供有用的区分信息,如Gu C.H.等[3]利用对叶绿体基因组分析,揭示了千屈菜科22个物种的系统发育关系,Cai C.N.等[4]认为叶绿体全基因组在肉豆蔻科系统发育和一些保护遗传学中都具有很大的潜力。叶绿体基因组在遗传进化方面具有重要意义。
山茶属(Camellia)植物通常为灌木或小乔木,是山茶科(Theaceae)最大并且具有极高经济价值的一个属,现中国植物志记载有238个物种,约占所有山茶属植物的80%以上[5-6]。毛籽红山茶(Camellia trichosperma)是山茶属红山茶组(Sect.CamelliaDyer)的植物,最早在江西寻乌发现,其树高可达15 m,花色红艳,顶生,果实很大,呈球形,直径一般为10~15 cm,叶脉不明显,果实子房室种子被毛是其比较容易辨认的特征[6]。由于植株数量和分布范围等因素的影响,到目前为止,并没有毛籽红山茶遗传相关的研究。
对于山茶属物种分类情况,现存在3种经典的分类系统,分别是Sealy分类系统、张宏达分类系统和闵天禄分类系统[6-8]。山茶属植物种群分布散乱,自交和种间杂交非常普遍,造成了山茶属亲缘关系混乱,加大了对山茶属分类工作的难度。毛籽红山茶经常被人误认为是南山茶(Camellia semiserrata),并且与浙江红山茶(Camellia Chekiangoleosa)性状近似[6],通过形态学进行分类并不可靠,可与分子手段相结合,对物种进行区分,判断物种间的亲缘关系。毛籽红山茶果实大,具有成为优良油茶树种的潜力。本研究分析毛籽红山茶叶绿体基因组序列特征及其系统发育关系,以期为山茶属物种的准确分类、进化模式以及毛籽红山茶资源进一步开发利用提供参考。
1 材料和方法
1.1 数据收集
毛籽红山茶的幼嫩叶片材料采自四川省雅安市天全县(N29°59′19.61ʺ,E102°38′34.13ʺ,海拔1 230 m),采集的嫩叶用茶包装好放入变色硅胶中带回实验室备用。
1.2 方法
1.2.1 DNA提取与测序
将带回实验室的嫩叶通过改良的CTAB法提取DNA[9],再用1%的葡萄糖琼脂凝胶电泳检测DNA完整性,用核酸蛋白仪检测DNA浓度和纯度,将浓度高和纯度好的DNA进行随机打断、末端修复和连接接头等测序文库的构建,合格的文库用Illumina HiSeq 4000平台进行双末端测序(成都基预科技有限公司)。原始数据经过去接头污染,去低质量序列后得到4.2 G的干净数据(clean reads)。
1.2.2 组装与注释
过滤后的数据利用GetOrganelle软件[10]进行从头组装,得到一条环形叶绿体基因图序列。用CPGAVAS2[11]序列信息进行在线注释,再根据已发表的同属其他物种叶绿体基因组信息,利用Blast比对相结合再进行人工矫正,最后向NCBI提交序列(登录号:OK181904)。叶绿体全基因组图谱采用在线工具OGDRAW(https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)[12]绘制完成。
1.2.3 叶绿体基因组特征分析
利用MISA软件[13]对毛籽红山茶的叶绿体全基因组进行SSR位点搜寻,其检索程序参数设置如下:单核苷酸单元重复数不少于10,二核苷酸单元重复数不少于5,三核苷酸单元重复数不少于4,四核苷酸单元、五核苷酸单元和六核苷酸单元重复数不少于3[14]。利用codonW(http://codonw.sourceforge.net)进行密码子偏好性分析[15],并利用IRscope对IR区边界扩张收缩分析[16]。
1.2.4 系统发育分析
为了确定毛籽红山茶的系统发育位置,从NCBI下载山茶属19个物种的叶绿体全基因组序列,以圆籽荷属(Apterosperma)的圆籽荷(Aptero⁃sperma oblata,登录号:NC035641)物种作为外类群进行系统发育分析。利用MAFFT7[17]进行比对后,用MEGAX[18]对比对序列进行校正后,再计算出最佳ML建树模型,然后运用Windows版IQ-tree 1.6.12构建系统发育树,自展支持率为1 000[19],使用iTOL在线工具(https://itol.embl.de/)对系统发育树进行美化[20]。
2 结果与分析
2.1 叶绿体全基因组基本特征分析
通过本研究得到156 605 bp核苷酸组成的毛籽红山茶叶绿体全基因组,其叶绿体具有典型的四分体结构特征,即一个大单拷贝区(LSC),一个小单拷贝区(SSC)和两个相同的反向重复序列(IRs)。LSC区长度为86 256 bp,GC含量占37.5%,SSC长度为18 415 bp,GC含量占30.5%,两个反向重复序列长度为25 967 bp,分别位于86 256~112 223 bp及130 638~156 605 bp,其GC含量占43%(图1)。
表1 系统发育分析21个物种信息Table 1 Phylogenetic analysis of 21 species information
毛籽红山茶叶绿体全基因组的注释结果表明,其共有131个基因(表2),包含87个蛋白编码基因,8个rRNA基因以及36个tRNA基因。其中,每个反向重复区都包含4个rRNA基因(rrn4.5S、rrn5S、rrn16S、rrn23S),7个 tRNA 基因(trnI-CAU、trnLGAG、trnV-GAC、trnI-GAU、trnA-UGC、trnR-ACG、trnN-GUU)及6个蛋白编码基因(rpl2、rpl23、ycf2、ycf15、ndhB、rps7),ycf1基因位于两个IR区和SSC区交界处。大单拷贝区包含64个蛋白编码基因和21个tRNA基因,小单拷贝区包含11个蛋白编码基因(rps15、ndhH、ndhA、ndhI、ndhG、ndhE、psaC、ndhD、ccsA、rpl32、ndhF)和1个tRNA基因(trnL-UAG)。注释结果也显示了在毛籽红山茶叶绿体基因中,大多数基因不具有内含子,只有16个基因具有内含子(表3),包含9个蛋白编码基因和7个tRNA基因,其中只有ycf3基因和clpP基因具有两个内含子,其他基因均只有一个内含子。
图1 毛籽红山茶叶绿体全基因组图谱Figure 1 Complete cp genome map of Camellia trichosperma
表2 毛籽红山茶叶绿体基因注释信息Table 2 Gene annotation of Camellia trichosperma chloroplast genomes
表3 毛籽红山茶叶绿体基因组中含内含子信息Table 3 Information of gene introns in the chloroplast genome of Camellia trichosperma
2.2 叶绿体基因组SSR分析
基于对毛籽红山茶叶绿体基因组序列分析,对其SSR位点进行检测,发现了68个SSR位点(表4),除了五核苷酸重复单元,单核苷酸至六核苷酸重复单元均有出现。单核苷酸重复数量为48,重复类型仅有A/T,没有G/C类型的重复。二核苷酸重复数量为4,三核苷酸仅有1次重复,四核苷酸具有AAAG/CTTT、AAAT/ATTT、ACAG/CTGT、AGAT/ATCT和AGGG/CCCT 5种重复方式,数量分别为3、4、1、3、2。从表中也可看出单核苷酸占比最大,达到70.59%,三核苷酸占比最小,为1.47%。
表4 毛籽红山茶叶绿体SSR信息Table 4 SSRs information in chloroplast genome of Camellia trichosperma
2.3 密码子偏好性分析
研究结果显示,该物种除终止密码子外,共有28 987个密码子,数量最多的氨基酸是亮氨酸(Leu),具有2771个密码子,占9.56%,数量最少的氨基酸是半胱氨酸(Cys),具有292个密码子,占1.01%。本次研究结果显示密码子具有明显的偏好性,RSCU等于1的氨基酸有两个,分别为甲硫氨酸(Met)和色氨酸(Trp),RSCU大于1的密码子种类有30个,大多数以A/U结尾(表5)。
表5 毛籽红山茶各氨基酸相对同义密码子使用度Table 5 RSCU analysis of protein coding region in Camellia trichosperma
(续 表5)
2.4 IR边界的收缩与扩张
虽然叶绿体基因进化速度较慢,在序列和结构上相对保守,但在IR区的边界收缩与扩张是普遍存在的现象。为了明确IR区边界收缩与扩张情况,本次研究从NCBI上下载了4条山茶科物种叶绿体全基因组序列,分别是南山茶(MZ403753)、浙江红山茶(NC037472)、茶(Camellia sinensis,登录号:MH042531)和圆籽荷(NC035641),通过与毛籽红山茶进行序列比对,再画出示意图(图2)。其结果显示,除了浙江红山茶的rps19基因位于LSC区,其余4个物种rps19基因均位于LSC/IRb边界,并且其长度都相同,其中位于LSC区部分的长度为233 bp,位于IRb区部分的长度为46 bp。毛籽红山茶、南山茶、茶和圆籽荷rpl2基因都位于IR区内,只有浙江红山茶rpl2基因处在LSC/IRb边界,基因全长1 486 bp,其中位于LSC区部分的长度为53 bp,位于IRb区部分的长度为1 434 bp。ndhF基因是位于SSC区靠近IRb区的一个蛋白编码基因,毛籽红山茶、南山茶、浙江红山茶、茶和圆籽荷ndhF基因分别距边界63、5、64、56和53 bp。ycf1基因位于SSC/IRa连接处,毛籽红山茶、南山茶、浙江红山茶、茶和圆籽荷ycf1基因长度分别为5 615、5 621、5 624、5 606和5 609 bp,位于SSC区长度分别是4 652、4 579、4 658、4 547和4 549 bp。5种植物trnH基因均位于LSC区,靠近IRa区,其中除浙江红山茶trnH基因距边界160 bp外,其余4个物种均距离LSC/IRa边界1 bp。
图2 山茶科6个物种叶绿体基因组四分体边界对比图Figure 2 Comparison of the quadripartite borders of cp genomes of six species from Theaceae
2.5 系统发育分析
用MEGAX计算出最佳ML建树模型为GTR+G+I,将毛籽红山茶与从NCBI上下载的20种山茶科植物通过最大似然法(ML)建立了系统发育树。其结果显示,圆籽荷作为外类群,其分支最长,毛籽红山茶与山茶(Camellia japonica)和浙江红山茶处在一个小分支上,自展支持率为87.8%(图3),结果可信度较高,说明毛籽红山茶与山茶和浙江红山茶亲缘关系较近,这与张宏达系统分类结果一致,但相较于同组的南山茶和滇山茶,亲缘关系较远。
图3 基于21个物种完整叶绿体基因组的ML系统发育树Figure 3 The ML phylogenetic tree based on 21 species of complete chloroplast genomes
3 讨论
从1986年K.Ohyama等[21-22]第一次测出地钱(Marchantia polymorphaL.)和烟草(Nicotiana taba⁃cumL)叶绿体全基因组序列至今,无数学者通过对植物叶绿体全基因组序列的分析,解决了许多分类及系统发育等关键问题。Xu G.Y.等[23]通过对叶绿体序列分析解决了中国野生葡萄、欧亚葡萄以及北美葡萄亲缘关系问题。从NCBI数据库可知,目前已能在线查看137种山茶属植物叶绿体全基因组信息以及3种未经证实的叶绿体全基因组信息,其cpDNA长度变化不大,从150~160 kb不等,都具有典型的四分体结构,其结构变化比较保守,并且序列中GC含量越高,序列越保守。本次研究中,将毛籽红山茶叶绿体全基因组序列信息提交到NCBI数据库,丰富了数据库中山茶属叶绿体基因组的数据。LSC/IR区和SSC/IR区收缩与扩张除了影响其长度,也是叶绿体进化发展的重要影响因素[24-25]。董婉琳通过对棉属叶绿体基因组IR区边界的收缩与扩张分析,认为可以用此对叶绿体基因组多样性进行更直接的描述[26]。本次研究通过比较IR区边界附近的基因位置和长度(rps19、rpl2、ndhF、ycf1、trnH),来表现基因的收缩与扩张,其结果显示除浙江红山茶外,其他4个物种在IR区的边界区别较小,基因长度和距边界的距离差异不大,这与李倩等对贵州威宁红花油茶研究结果相同[27]。不同物种在IR区边界收缩与扩张情况存在差异,这对叶绿体IR区边界情况的研究具有意义,能为系统发育和物种鉴定提供依据。
简单重复序列(SSR)是指1~6个核苷酸为单位,经过串联形成重复的DNA序列,形成的几十至几百碱基序列,并大量存在于生物体的基因组中,影响着细胞多种生命活动,位于非编码区的SSR比位于编码区的变化更大[28-29]。因为SSR分子标记是一种共显性标记,操作简单,所以普遍运用于植物遗传多样性的分析,在种属间也表现为碱基组成差异[30-31]。本次研究中SSR分析结果显示,占比最大的是单核苷酸A/T类型,占70.59%,没有出现G/C类型。也出现了二核苷酸、三核苷酸、四核苷酸和六核苷酸类型,没有出现五核苷酸重复类型。SSR位点的确定,为SSR分子标记的开发奠定基础。
生物界中广泛存在密码子的偏好性现象,突变、遗传漂变和自然选择等是密码子偏好性产生的决定性因素[15]。氨基酸密码子偏好性是由于同义密码子出现的概率不同,造成了部分同义密码子出现概率更高[32]。同义密码子使用频率(RSCU)能够直观反映出密码子使用的偏好性,一个密码子使用频率较高,则其RSCU值大于1,密码子没有偏好性,则RSCU值等于1[33]。RSCU等于1的氨基酸有两个,分别为甲硫氨酸(Met)和色氨酸(Trp),它们只有一种编码氨基酸的密码子,不具有密码子偏好性,毛籽红山茶密码子更偏向于A/U结尾,探究生物的密码子偏好性,可以通过改变密码子,提高蛋白质表达量。
研究结果显示毛籽红山茶和浙江红山茶亲缘关系最近,在张宏达分类系统中,他们同属于红山茶组,虽然滇山茶和浙江红山茶都属于红山茶组,但南山茶属于滇山茶亚组(Subsect.ReticulataChang),而浙江红山茶属于光果红山茶亚组(Subsect.Lucidis⁃simaChang),这可能是滇山茶和浙江红山茶处在不同亚支的原因,在张宏达分类系统中,把毛籽红山茶也归于滇山茶亚组,本次研究结果显示毛籽红山茶归于光果红山茶亚组更合适。短柱茶和茶梅在一个小分支上,本次分析结果支持陈凯[34]不把短柱茶组归属于油茶组。谭晓风等[35]利用RAPD引物分析,认为茶梅和油茶亲缘关系较远,本文研究结果也不支持将两者放在一个分类组中。毛肋茶与茶组物种在一个分支上,所以研究结果也支持Huang H.等[36]的结论,支持张宏达系统中将毛肋茶分到茶组中。通过系统发育分析,能为物种间的亲缘关系判别提供有效依据。
本研究首次报道了毛籽红山茶叶绿体基因组序列,并对其进行结构、SSR、密码子偏好性、IR区边界收缩与扩张及系统发育分析,判断了毛籽红山茶与其他部分山茶属植物的亲缘关系。这些研究结果为毛籽红山茶资源的利用开发以及保护提供参考依据。