APP下载

木兰科叶绿体基因组的密码子使用特征分析

2020-03-16季凯凯宋希强陈春国李革谢尚潜

中国农业科技导报 2020年11期
关键词:进化树密码子叶绿体

季凯凯, 宋希强, 陈春国, 李革, 谢尚潜*

(1.海南大学,热带特色林木花卉遗传与种质创新教育部重点实验室, 海南省热带特色花木资源生物学重点实验室, 海口 570228; 2.大卫集团大卫(海南)股份发展有限公司, 海口 570228)

中心法则是重要的生物学规律,三联体密码子在翻译过程中将遗传信息从mRNA传递至蛋白质,在生物体的生命活动中发挥重要作用[1]。在蛋白质的翻译过程中,有61个密码子编码不同的氨基酸,除了甲硫氨酸(Met,M)和色氨酸(Trp,W)以外的所有氨基酸均由一个以上同义密码子编码,保证了翻译过程的稳定性[2-3]。然而同义密码子在编码氨基酸时使用频率存在差异,即密码子偏好性(codon usage bias, CUB)[4-5],比如玉米[6]、菠萝[7]、香蕉[8]等单子叶物种密码子常以G/C结尾,在茶树[9]、杨树[10]等双子叶植物中常以A/U结尾。

自然选择、基因突变以及遗传漂移是引起密码子使用偏好的重要原因[11],不同生物体密码子偏好的影响因素也不尽相同。已有研究表明,大肠杆菌、酿酒酵母、枯草芽孢杆菌等单细胞生物中密码子的偏好是由基因突变和自然选择共同引起[12-13]。在一些编码区包含极高GC或AT碱基含量的原核生物[14]和哺乳动物[15]中突变是主要影响因素,但在玉米[6]、拟南芥[16]等植物中自然选择起着重要的作用。此外,密码子的偏好还受其他因素影响,如基因的表达和基因的长度等[17-19]。

木兰科(Magnoliaceae)植物是现存木本被子植物较为原始的种群,对研究被子植物的起源及进化具有重要作用。木兰科狭义分为木兰亚科和鹅掌楸亚科,主要分布在亚洲热带和亚热带区域,少数分布在北美南部和中美洲[20]。我国是木兰科植物资源最为丰富的国家,有14属160余种,分别占全科属和种总数的77%和49%[21]。由于人们对森林资源的过度利用,致使许多木兰科物种处于濒危处境,如鹅掌楸(L.chinense)、厚朴(M.officinalis)和西康玉兰(M.wilsonii)等[22]。目前,木兰科植物的研究相对比较薄弱,主要集中于其药用成分分析、物种分布及保护措施上,比如从厚朴中提取具有抗肿瘤、抗痴呆和降血压功能的活性物质厚朴酚,以及保护和培育单性木兰、香港木兰等[23-25]。

随着测序技术的发展以及基因组研究的兴起,木兰科植物在基因组水平也开展了相关工作,中国的鹅掌楸(L.chinense)和北美稀有木兰M.ashei的全基因组信息被解析[26]。相对于复杂的全基因组信息,大小仅约为160 kb的叶绿体基因组被研究的更为广泛。目前,木兰科已报道了29种植物的参考叶绿体基因组,均由二代测序Illumina平台完成,采用NOVOPlasty、SOAPdenovo等方法完成了叶绿体基因组的组装[27-28],并且各叶绿体基因组的编码区也被成功注释和解析。由于叶绿体存在于细胞质中,具有结构完整和序列保守等特点,常用于物种系统发育研究[29]。针对目前木兰科植物叶绿体基因组以个体的纵向水平研究为主,缺乏群体内个体间的横向水平的系统研究。因此,本研究搜集已有的29种木兰科植物叶绿体基因组,以编码区形成蛋白的核心元件密码子作为分析对象,首次系统地比较分析叶绿体基因组编码区的密码子使用特征,并阐释了29种木兰科植物间的系统发生关系,为进一步深入研究木兰科植物的基因组学和系统进化分析提供重要的基础和参考。

1 材料与方法

1.1 叶绿体基因组数据

本研究从NCBI(National Center for Biotechnology Information,https://www.ncbi.nlm.nih.gov)数据库中收集29种木兰科植物的叶绿体基因组,包括27种木兰亚科和2种鹅掌楸亚科(表1)。根据GeneBank的注释信息提取29种叶绿体基因组的编码区域(coding sequence,CDS)序列,并参考已有CDS序列[30],选取序列长度大于300 bp的CDS序列用于密码子使用特征分析。

表1 本研究所收集的29种木兰科叶绿体基因组Table 1 29 chloroplast genomes of Magnoliaceae collected

1.2 密码子使用特征分析方法

1.2.1特征参数 使用分析软件CodonW1.4.2(http://codonw.sourceforge.net)[31]计算每种木兰科植物叶绿体基因组的密码子使用偏差相关参数,包括相对同义密码子使用度(relative synonymous codon usage,RSCU)、有效密码子数(effective number of codon,ENC)、第三位核苷酸G+C频率(GC3)、密码子第三位置每个碱基的含量(A3、T3、G3、C3)、密码子第一、第二和第三位置的G+C含量(GC1、GC2、GC3)等。

①RSCU值大于1的密码子被认为是高频密码子[32-33],RSCU计算公式如下。

式中,xij为编码第i个氨基酸使用密码子j的频率,ni为第i个氨基酸的同义密码子的个数。

②ENC是衡量同义密码子偏好程度的重要指标,范围在20~61之间,低于35表示密码子的使用具有高偏好性,反之则低偏好性,计算公式如下[34]。

ENC期望=2+s+29/[s2+(1-s)2]

式中,s为密码子第三个位置G和C出现的频率。

1.2.2ENC-plot分析 用ENC值和GC3s值做散点图,将结果用于分析产生密码子偏好的影响因素。ENC与GC3s期望值之间的标准曲线可通过以下公式计算[30]。

如果每个CDS序列的真实ENC值完全符合或接近理论标准曲线,则密码子碱基突变可能是产生密码子使用偏好的重要因素;而偏离标准曲线区域,则自然选择可能是影响密码子使用偏好的因素[30]。

1.2.3中性绘图 为了进一步研究密码子偏好的因素,本研究对29种木兰叶绿体基因组进行中性绘图,将叶绿体中每个基因的GC3含量作为横坐标,GC12含量作为纵坐标,使用R绘散点制图并作直线拟合。在直线拟合分析中,如果回归系数接近1,说明密码子偏好性主要受突变影响,反之,回归系数接近于0,则密码子偏好性主要受自然选择的影响[35]。

1.2.4PR2(parity rule 2)分析 已有研究表明,密码子第三碱基与密码子使用偏好的形成密切相关[36]。为了进一步分析蛋白编码CDS序列中密码子第三个碱基的组成特征,本研究选择具有4个同义密码子的8个氨基酸进行分析,包括丝氨酸(S)、亮氨酸(L)、脯氨酸(P)、精氨酸(R)、苏氨酸(T)、缬氨酸(V)、丙氨酸(A)和甘氨酸(G)。以G3/(G3+C3)和A3/(A3+T3)分别作为横坐标和纵坐标,分析上述8个氨基氨酸的密码子第三位碱基分布情况。若密码子使用只受到突变的影响,理论上使用密码子第三位碱基A/T和G/C的频率应相等。否则,密码子的偏好可能受自然选择及其他因素影响[37]。

1.2.5最优密码子计算 最优密码子是指使用频率高且ENC差异大于某个临界值的密码子[38]。ENC的差异指选取ENC值最高(high)和最低(low)两端各5%的基因分别作为密码子低偏好性组和高偏好性组,然后计算两组RSCU值分别记为RSCUhigh和RSCUlow,并计算密码子的△RSCU值(RSCUhigh-RSCUlow)作为ENC的差异。参照已有研究进展将0.08作为临界值[39],本研究将△RSCU>0.08且RSCU值>1的密码子确定为最优密码子。

1.2.6密码子使用偏好的聚类与系统进化分析

为了探讨29种木兰科叶绿体基因组密码子的使用偏好性与系统进化的关系,以每种木兰植物为一个对象,其相应的RSCU值为一个变量,使用SPSS 25.0软件(http://www.spss.com/)聚类分析的组间联接法绘制聚类图[40],利用MEGA 7.0的系统邻接法(Neighbor-Joining,NJ)对叶绿体基因组构建系统进化树[41]。此外,本研究根据叶绿体基因组和CDS序列也分别利用MEGA 7.0构建了相应的系统进化树,并将其与基于密码子偏好特征RSCU值的进化树进行比较。

2 结果与分析

2.1 密码子组成特征分析

29种木兰科植物叶绿体基因组密码子数平均21 528个,其中鹅掌楸(L.chinense)最多(21 574),日本辛夷(M.kobus)最少(21 316)(表2)。每种叶绿体基因组的密码子不同碱基位置的GC含量均小于0.5,即密码子的三个位置碱基均偏向于A和U。对于三个碱基位置的GC1、GC2和GC3含量的特征比较,除了北美鹅掌楸(L.tulipifera)和玉兰(M.denudata)外,其余全部叶绿体基因组密码子中GC2含量均小于GC1和GC3,且ENC值均大于55(表2)。北美鹅掌楸(L.tulipifera)和玉兰(M.denudata)两种叶绿体的GC含量与ENC值明显不同于其他物种,其中GC3含量在同组密码子三个碱基位置中含量最低,且ENC值均低于55,分别为53.74和52.39(表2)。上述的密码子GC含量及ENC值特征有可能影响基于密码子使用特征的聚类结果。

表2 叶绿体基因组密码子的参数特征Table 2 Codon features of chloroplast genomes

2.2 同义密码子分析

分析29种木兰科叶绿体基因组的59个同义密码子,结果表明木兰科植物叶绿体基因组的同义密码子(RSCU>1)数为28~32个(图1),其中偏好相同的密码子24个,且均以A和U结尾(图1)。在氨基酸水平上,编码精氨酸(R)的AGA在所有木兰科植物中都表现出强烈的偏好性(RSCU>2),其次是编码甘氨酸(G)的GGA。结果表明,29个木兰科物种叶绿体基因组有相似的同义密码子使用,且密码子第三位碱基普遍偏向于A/U(图1)。

图1 29种木兰科植物叶绿体基因组同义密码子分析Fig.1 Analysis of synonymous codons in 29 chloroplast genomes of Magnoliaceae

2.3 密码子偏好影响因素分析

2.3.1ENC-plot分析 29种木兰科植物叶绿体基因组的基因分布在标准曲线两侧,呈分散小簇状,且主要分布在标准曲线附近,部分基因分布在距标准曲线较远位置(图2)。该分析结果说明,29种木兰科植物叶绿体基因组的密码子使用模式不仅受到自然选择的影响,同时也受到突变压力作用的影响。

图2 ENC-plot分析Fig.2 ENC-plot analysis

2.3.2PR2 plot分析 本研究对29个木兰科叶绿体基因组密码子的第三位碱基A/T(A3和T3)和C/G(G3和C3)的关系奇偶校验分析(parity rule 2,PR2),结果(图3)表明,坐标点非均匀的分布在四个区域内,其中主要分布于G3/(G3+C3)>0.5和A3/(A3+T3)<0.5的区域,表现出密码子第三位碱基T的使用频率比A高,G的使用频率比C高 (图3)。该研究结果进一步说明了密码子的使用偏好性特征受碱基突变的作用。

图3 PR2-plot分析Fig.3 PR2-plot analysis

2.4 中性绘图分析

为了进一步确定影响木兰科植物叶绿体基因组密码子偏好的主要因素,分别对29种木兰科叶绿体基因组做中性绘图分析(图4),发现GC12分布于0.312 0~0.507 5,GC3分布于0.242~0.602。回归系数在-0.127 5~-0.304 5间,GC12和GC3呈负相关关系。在29种木兰植物中,日本辛夷(M.kobus,回归系数为-0.127 5)受到自然选择的影响最大,厚朴(M.officinalis,回归系数为-0.304 5)是受自然选择最小(图4)。结果说明,29种木兰科植物叶绿体基因组密码子的使用不仅受到了自然选择的作用,还受突变的影响。

图4 29种木兰科植物叶绿体中性绘图分析Fig.4 Neutrality plot analysis of 29 chloroplast genomes of Magnoliaceae

2.5 最优密码子确定

根据29种兰科物种叶绿体基因组的使用频率RSCU和ENC值,进行了最优密码子分析(图5)。研究表明,叶绿体基因组的最优密码子数介于14~22之间,其中鹅掌楸(L.chinense)、厚朴(M.officinalis)和天女木兰(M.sieboldii)三个物种具有最多的最优密码子数(22个),而云南含笑(M.yunnanensis)的最优密码子数最少(14个),并且最优密码子的第三位碱基偏向于A和U。此外,29种木兰植物叶绿体基因组共同拥有的最优密码子有4个:缬氨酸(GUU,V)、缬氨酸(GUA,V)、谷氨酰胺(GAA,Q)和丙氨酸(GCU,A),密码子第三位碱基与同义密码子的偏好分析相同(图1),均偏好于A和U(图5)。该结果也说明了木兰科29个物种间的叶绿体基因组的最优密码子差异明显(图5),与同义密码子的分析结果(24个相同密码子)不同(图1)。

图5 最优密码子分析Fig.5 Optimal codon analysis

2.6 29种木兰科植物的系统进化关系

2.6.1基于叶绿体基因RSCU的进化分析 基于叶绿体基因组的密码子使用特征RSCU值进行聚类,构建了29种木兰的进化亲缘关系(图6)。结果表明,聚类结果分成两大分支:第一分支是玉兰(M.denudata)和北美鹅掌楸(L.tulipifera)聚为一类;第二分支为其余27个木兰科物种,包括鹅掌楸(L.chinense)和其他26个木兰亚科物种。该聚类分支结果与玉兰(M.denudata)和北美鹅掌楸(L.tulipifera)具有相类似的密码子特征有关(表2和图1),上述基于密码子特征构建的进化关系明显与真实的物种分类不同。

图6 基于RSCU的29种木兰科植物叶绿体基因树状聚类Fig.6 Cluster of 29 chloroplast genomes based on RSCU value

2.6.2基于叶绿体序列的进化分析 本研究构建了29种木兰科叶绿体蛋白编码序列(CDS)和全部叶绿体基因组序列特征的系统进化树(图7)。结果显示,两种进化树分类极为相似,都具有两个大分支,第一分支包括鹅掌楸和北美鹅掌楸两个物种,属于鹅掌楸亚科。第二分支包括剩余的27个物种,属于木兰亚科。结果与根据RSCU值的聚类结果表现出较大的差异,叶绿体基因组系统发育进化树和蛋白编码系统发育进树系关系更接近29个木兰科物种的真实分类。这也很好地说明了序列的位点突变特征和非编码区序列在生物体的进化过程中也具有重要的作用。

3 讨论

密码子作为基因编码区翻译形成蛋白过程的重要核心元件,其使用特征对蛋白的翻译以及相应的功能研究具有重要作用。目前,已有多个物种的叶绿体基因组密码子特征分析报道,而木兰作为具有重要的经济、药用、观赏等价值的原始被子植物,已有29种木兰科植物的叶绿体基因组相关注释和个体分析研究,但对于它们密码子使用特征及物种间的系统进化关系缺乏系统的比较分析。因此,本研究分析了29种木兰科植物的叶绿体基因组编码区的密码子使用特征及其系统发生关系。

A:基于叶绿体蛋白编码序列的系统进化树;B:基于叶绿体全基因组的系统进化树。A: Phylogenetic tree based on chloroplast protein coding sequences; B: Phylogenetic tree based on chloroplast genome sequences.图7 29种木兰科植物叶绿体系统进化树Fig.7 Phylogenetic tree of 29 chloroplasts from Magnoliaceae

本研究发现,基于密码子偏好性的系统发育树与基于叶绿体基因组和基因组编码序列(CDS)的进化树差别很大,只有部分聚类分支相同(图6、图7)。已有研究表明,基于密码子偏好性的聚类结果并不能准确反映真实的系统分类和亲缘关系[42],本研究也证实了这个结论。存在差异的原因可能与密码子的不同位置的碱基(GC1、GC2和GC3)含量以及同义密码子的使用不同相关,如玉兰(M.denudata)和北美鹅掌楸(L.tulipifera)是29种木兰科植物中仅有两个叶绿体基因组GC2含量高于GC1和GC3(表2),而且它们的同义密码子的使用明显不同于其他木兰科植物(图1)。此外,叶绿体全基因组系统进化树和蛋白编码序列(CDS)的进化树分类极为相似,更能反映29种木兰科植物的真实分类。这也进一步说明了在物种的进化过程中,基因组的位点突变特征以及非编码区的序列信息也起到相应作用,这些信息为深入研究生物体的进化过程提供帮助。

29种木兰科植物的叶绿体基因组密码子偏好于A和U结尾,并且偏好因素受自然选择的影响,这与高等双子叶植物茶树[9]和杨树[10]等叶绿体密码子偏好分析结论一致。此外,在分析木兰科物种进化关系中,基于RSCU构建的聚类关系与蛋白编码序列进化树的分类差异较大。基于CDS序列进化树与基于密码子RSCU特征构建的聚类关系均存在较大差别,该结果也说明了基于密码子偏好特征的进化关系可能遗漏了一些有用信息,比如CDS序列中无偏好密码子信息,这也间接说明无偏好密码子在进化中也发挥重要的作用。

猜你喜欢

进化树密码子叶绿体
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
共生
人不吃饭行吗
新型密码子、反密码子、氨基酸对应盘
对“翻译”过程中几个问题的探讨
大学生对进化树的常见误解
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析
福州2009—2014年甲型H1N1流感病毒株HA基因进化分析
艾草白粉病的病原菌鉴定
一种快速提取微藻完整叶绿体及其DNA的方法