高粱泡叶绿体基因组特征分析*
2022-05-28赵文植董章宏沈伟祥常晓勇辛培尧
赵文植,董章宏,辛 静,沈伟祥,王 飞,徐 建,常晓勇,辛培尧
(1.西南林业大学,国家林业和草原局西南风景园林工程技术研究中心,云南 昆明 650224;2.西南林业大学,西南地区生物多样性保育国家林业和草原局重点实验室,云南 昆明 650224;3.昆明市市级机关绿化基地管理处,云南 昆明 650501)
叶绿体是植物特有的细胞器。叶绿体基因组编码的蛋白是光合作用和其他代谢过程的重要参与者[1]。叶绿体基因组相对独立且稳定,属核外遗传,其结构较为简单,拷贝数量多,分子量不大,因此,被广泛用于系统进化分析、DNA 条形码开发和基因工程改造等领域[2-4]。遗传学中,编码同一种氨基酸的三联体密码子为同义密码子[5]。在肽链合成过程中,相同氨基酸的各个同义密码子使用频次存在一定差异,从而产生了密码子的使用偏好性。不同物种的密码子使用偏好性不同,而同一种物种或近缘种间可能存在相似的密码子偏好性[6-7]。因此,研究物种密码子使用的偏好性对研究物种的进化模式及其在系统发育史中的地位具有重要的指导意义[8-9]。随着叶绿体基因组测序技术的不断发展,已有杧果(Mangifera indica)[10]、香花枇杷(Eriobotrya fragrans)[11]、柳叶芹(Czernaevia laevigataturcz.)[12]、灯盏花(Erigeron breviscapus)[13]、蒜头果(Malania oleifera)[14]、华山松(Pinus armandii)[15]、大花君子兰(Clivia miniata)[16]、沙枣(Elaeagnus angusti folia)[17]和乳苣(Mulgedium tataricum)[18]等多种植物叶绿体基因组特征分析的报道,为相关植物的分子鉴定、基因组学以及遗传改良等提供了重要的理论支撑。
高粱泡(Rubus lambertianus)是蔷薇科(Rosaceae)悬钩子属(Rubus)半常绿落叶藤状灌木[19-20],分布于中国南部和西南地区[21],兼具药用[22-25]、食用[26-29]和园林观赏[30-32]作用,是一种极具潜力的多功能植物。目前,对高粱泡的研究主要集中在无性扦插繁殖[20-21]、组织培养[33]、果实色素理化性质[34]、营养价值评价和种子油脂肪酸组分分析[35]以及良种选育[36]等方面,其叶绿体基因组特征的相关研究鲜见报到。杨芮[37]对与高梁泡同属的3 种树莓:插田泡(R.coreanus)、光滑高粱泡(R.lambertianusvar.glaber)和无刺黑莓‘阿拉好’(RubusבArapaho’)的叶绿体基因组进行比较分析,提出悬钩子属木莓组植物具有最近的系统分化;基于ndhF和rpl20-rps12序列对中国悬钩子属植物的系统发育研究提出悬钩子属植物呈现多系进化现象[9,38]。上述研究为高梁泡叶绿体基因组的研究提供了重要参考。本研究通过高粱泡叶绿体基因组特征分析,可为高粱泡乃至悬钩子属植物在该领域的相关研究提供理论参考。
1 材料与方法
1.1 DNA 提取及叶绿体基因组测序组装
从中国科学院西双版纳热带植物园采集高粱泡刚萌发的新鲜幼叶,采用CTAB 法提取其全基因组DNA,并检测DNA 的完整性、纯度和含量[39]。选取质量合格的DNA 样品送至浙江安诺优达生物科技有限公司进行叶绿体基因组测序。从NCBI 中下载已知的近缘物种棕红悬钩子(R.rufus)叶绿体基因组序列作为参考,通过Get-Organelle 软件[40]进行叶绿体基因组装,再用网络注释软件Geseq[41]进行叶绿体基因组注释,使用Geneious 软件对注释结果进行人工校正,并将校正后的结果利用OGDRAW 软件[42]作图分析。该结果已提交蔷薇科叶绿体基因组数据库(https://lcgdb.wordpress.com/category/rosaceae/),登录号:LAU10051。
1.2 密码子偏好性分析
采用WRIGHT 等[43]提出的方法,从高粱泡叶绿体基因组注释的86 条CDS 中最终选取52条CDS 序列用于进一步分析。
1.2.1 密码子相关参数计算
采用MEADE 等[44]的方法获得 GC1、GC2、GC3和GCall的含量及相关参数[CAI(密码子适应指数)、CBI(密码子偏好指数)和FOP(最优密码子频率)],并利用Excel 2019 和SPSS 23.0 软件对所得参数进行相关性分析。
同义密码子偏好性的强弱常用ENC 表示,其取值范围为20~61,通常以ENC=45 为区分密码子偏好性强弱的标准。RSCU 表示密码子有无偏好性,RSCU=1 表示该密码子无偏好,RSCU<1 表示该密码子的偏好性弱,RSCU>1 表示该密码子的偏好性强[43,45-46]。
1.2.2 中性绘图分析
以GC3为横坐标、GC12(GC1和GC2的平均值)为纵坐标绘制散点图,分析GC3与 GC12的相关性,其中每个散点代表1 个基因。参考WRIGHT 等[43]的方法判断密码子使用偏好性。
1.2.3 ENC-plot 绘图分析
以GC3为横坐标、ENC 值为纵坐标构建ENCplot 图进行分析,标准曲线计算公式为:ENC=2+GC3+29/[GC32+(1-GC3)2],通过基因点与标准曲线距离分布判断密码子是受选择或突变的影响[43-45]。为了更具体地显示实际ENC 值(ENCobs)和预期ENC 值(ENCexp,由标准曲线公式得出)之间的差异,计算ENC 比值[(ENCexp-ENCobs)/ENCexp]并统计ENC 比值频数,结合ENC 比值频数对差异进行量化分析,可以较为准确地判断突变和选择压力的影响程度[45-46]。
1.2.4 PR2-plot 绘图分析
分别以A3/(A3+T3)、G3/(G3+C3)为纵、横坐标构建PR2-plot 图并进行偏好分析[45]。
1.2.5 最优密码子的确定
采用WRIGHT 等[43]的方法,以RSCU>1 的密码子作为高频密码子,并以高粱泡ENC 值两端各选择10%的基因构建高、低表达库,并取ΔRSCU≥0.08(ΔRSCU=RSCU高表达-RSCU低表达)的密码子为高表达密码子,最优密码子的确定以同时满足以上2 种条件为准[43-47]。
1.2.6 系统发育分析
为明确高粱泡在悬钩子属的系统发育位置,从NCBI 中下载悬钩子属已公开的48 个物种及外类群路边青属2 个物种的叶绿体基因组,通过MAFFT v7.429 软件进行序列比对,采用IQ-tree 1.6.12 软件maximun likelihood(ML)构建系统发育树,并对其进行分析。
2 结果与分析
2.1 高粱泡叶绿体基因组的基本特征
高粱泡的叶绿体基因组结构为经典四段式结构,包含2 个反向重复区(IR),大单拷贝区(LSC)和小单拷贝区(SSC)(图1)。高粱泡cpDNA 全长为156 266 bp,GC 含量为37.2%,其中IR、LSC和SSC 区分别为25 781、85 849和18 855 bp。高粱泡cpDNA 共注释得到131 个基因,包含86 个CDS 基因、37 个tRNA 基因和8 个rRNA 基因(表1)。统计结果显示:高粱泡大部分基因无内含子,但有8 个蛋白质编码基因(rpoC1、rpl16、petD、petB、ndhB、rpl2、rps16、ndhA)和7 个tRNA 基因(trnV-UAC、trnA-UGC、trnI-GAU、trnH-GUG、trnK-UUU、trnL-UAA、trnG-UCC)各含有1 个内含子,蛋白质编码基因rps12和clpP1各含有2 个内含子。
表1 高粱泡叶绿体基因组注释基因列表Tab.1 List of genes found in chloroplast genome of Rubus lambertianus
图1 高粱泡叶绿体基因组图谱Fig.1 Gene map of the Rubus lambertianus chloroplast genome
2.2 高粱泡密码子碱基组成
由表2 可知:高粱泡密码子包括10 个烟碱脱氢酶基因、5 个ATP 基因、14 个核糖体基因、9 个光合作用基因和14 个其他基因。52 个CDS密码子的GC 平均含量为38.58%,其中,第1、2、3 位上GC 平均含量分别为47.08%、39.51%和29.11%,各位置的GC 含量平均值从高到低依次为GC1>GC2>GC3。可见,绝大部分CDS 密码子第1、2 位的GC 含量高于第3 位的GC 含量,高粱泡叶绿体基因组密码子偏好以A、U 结尾。52 个基因的ENC 取值范围为34.03~57.67,平均为47.92,表明高粱泡叶绿体基因组密码子的偏性较弱。
表2 高粱泡叶绿体基因组密码子不同位置碱基的GC 含量及ENC 值Tab.2 GC content and ENC value of different position codons in chloroplast genome in R.lambertianus
由表3 可知:GC1、GC2和GC3均与GCall呈极显著相关,GC1与GC2呈极显著相关,但GC3与GC1和GC2均无相关性,表明密码子的第1、2位碱基组成存在相似性,但与第3位不同,说明密码子在3 个位置上的碱基组成存在差异。CAI、CBI 和FOP 均与GCall和GC1存在极显著正相关,说明高粱泡叶绿体基因密码子的G、C 含量与CAI、CBI、FOP 呈显著正相关;ENC 与GC1无相关性,与GC2呈显著负相关,与GC3和GC3S呈极显著正相关,说明密码子第3位的GC 含量与碱基组成有关;ENC 与CAI 和FOP 之间不存在显著相关性,与CBI 之间呈显著负相关,表明同义密码子偏好性与这3 个参数可能不存在相关性。
表3 不同密码子位置 GC 含量、数量与 ENC 值的相关性分析Tab.3 Correlation analysis of GC content,quantity and ENC value of different position codon numbers
高粱泡各氨基酸(或终止密码子)的RSCU 分析结果(表4)表明:RSCU>1 的密码子有33 个;其中,16 个以U 结尾,13 个以A 结尾,3 个以G 结尾,仅有1 个以C 结尾。可见,高粱泡叶绿体基因组偏好使用以U 或A 结尾的密码子。
表4 高粱泡各氨基酸(或终止密码子)的RSCU 分析Tab.4 RSCU analysis of each amino acid(or stop codons)in R.lambertianus
2.3 中性绘图分析
中性绘图(图2)分析表明:GC12的取值范围为0.324~0.536,GC3的取值范围为0.220~0.367,GC12和GC3的相关系数为0.201 7、回归系数为0.297 7,表明高粱泡叶绿体基因组中GC12和GC3的相关性不显著,GC1、GC2和GC3的碱基组成存在差异,基因组中GC 含量较为保守,说明选择对叶绿体基因组密码子偏好性的影响更大。
图2 中性绘图分析Fig.2 Neutrality plot analysis
2.4 ENC-plot 绘图分析
由图3 可知:高粱泡大部分基因点落在标准曲线下方,部分基因点位于标准曲线下方较远位置,说明高粱泡叶绿体基因组密码子偏好性受自然选择影响较大。ENC 比值计算结果(表5)表明:ENC 比值在>-0.05~0.05 区间的基因有22 个,而29 个基因则分布在该区间以外,远离预期ENC值,说明选择对密码子的偏好性影响较大。
图3 ENC-plot 绘图分析Fig.3 ENC-plot analysis
表5 ENC 比值频数分布Tab.5 Distribution of ENC ratio
2.5 PR2-plot 绘图分析
由图4 可知:基因点没有均匀分布在PR2-plot 图的4 个区域,大部分基因点分布在图的下半部,且在右下半部分布的基因点比左下半部分多,说明密码子第3 位碱基的使用具有偏好性,且T>A、G>C,故可认为高粱泡叶绿体基因组密码子使用模式不仅受到选择的影响,还受到其他因素的影响。
图4 PR2-plot 绘图分析Fig.4 Analysis of PR2-plot
2.6 最优密码子的确定
通过分析得到RSCU 值>1 的33 个高频密码子,各密码子RSCU 值和ΔRSCU 值的计算结果(表6)显示:选出ΔRSCU≥0.08 的密码子25 个,ΔRSCU≥0.30 的密码子15 个,ΔRSCU≥0.50 的密码子10 个。最终选出6 个以A 结尾、12 个以U 结尾的最优密码子共计18 个,分别为 UCU、CCU、CGU、CAA、CGA、AUU、UAU、ACU、AGU、UUA、AAA、GUU、GCU、UUU、UGU、GGU、GUA 和 GAA。
表6 高粱泡叶绿体基因最优密码子的确定Tab.6 Determination of optimal codons in the chloroplast genes of R.lambertianus
2.7 系统发育分析
由图5 可知:利用51 个物种的叶绿体基因组序列构建最大似然法系统发育树,每个分支都具有较高的支持率。外类群路边青属的2 个物种与内类群悬钩子属的物种明显分开。悬钩子属可聚为以下4 支:第1 支包括悬钩子栽培品种(R.hybrid);台东刺花悬钩子(R.taitoensis)和燪叶悬钩子(R.parviaraliifolius)聚为第2 支(空心莓组);棕红悬钩子(R.rufus)、高粱泡(R.lambertianus)、蛇泡筋(R.cochinchinensis)和锈毛莓(R.reflexus)聚为第3 支(木莓组);椭圆悬钩子(R.ellipticus)、红毛悬钩子(R.wallichianus)和白花悬钩子(R.leucanthus)等聚为第4 支(空心莓组)。由图5 还可知:高粱泡与棕红悬钩子先聚为1 支,再与蛇泡筋和锈毛莓聚为1 支,说明高粱泡与棕红悬钩子亲缘关系最近。
图5 基于叶绿体基因组序列构建的最大似然法树Fig.5 Established maximum likelihood method tree based on chloroplast genome sequences
3 讨论
3.1 叶绿体基因组比较分析
高粱泡叶绿体基因组中共注释得到131 个基因,大小为156 266 bp,其中有110 个不同的基因,包括29 个tRNA 基因、77 个蛋白质编码基因和4 个rRNA 基因。高粱泡叶绿体基因组具有双链环状四分体结构,包含2 个反向重复区、1 个短单拷贝区和1 个长单拷贝区[48]。高粱泡叶绿体基因组比鸡爪茶(登录号:MT576954)短2 687 bp,比多腺悬钩子(登录号:MW115423)长1 122 bp。据已知报道,地球上绝大多数植物叶绿体基因组在120~160 kb 区间,其组织结构简单且稳定[49],多为经典四段式结构[50-51]。前人研究表明:植物叶绿体基因组相对保守,但随着物种的进化和选择,个别物种存在基因变异(缺失、替换和插入等)[52]。研究显示:IR 区变化是引起叶绿体基因组大小发生差异的主要因素,如:叶绿体基因组出现IR 区扩张的天竺葵(Pelargonium hortorum)[53];叶绿体基因组IR 区严重萎缩甚至丢失的日本黑松(Pinus thunbergii)[54]、水杉(Metasequoia glyptostroboides)[55]和豌豆(Pisum sativum)[56]等。这些研究结果证实了IR 区的保守特质,对叶绿体基因组特征的深入分析具有重要意义。本研究中高粱泡叶绿体基因组全序列GC 含量为37.2%,符合已报道的大多数双子叶植物叶绿体的GC 含量区间(31%~38%)。IR 区的GC 含量较高(42.8%),而SSC 区的GC 含量较低(31.2%),这是由于IR 区存在rRNA 基因,而SSC 区含有大部分NADH基因[57]。
3.2 密码子偏好性
很多因素都影响着密码子的偏好性,如自然选择、纯化作用及中性突变等[58]。本研究中高粱泡叶绿体编码蛋白的各基因ENC 范围为34.03~57.67,平均值为47.92。根据ENC 值介于20(完全偏好)与61(不偏好)之间的特点[43],推测高粱泡叶绿体蛋白编码基因密码子使用偏好性较弱。前人研究表明:除突变压力和自然选择外,关联突变、核苷酸组成、基因长度和基因表达水平都会影响基因组的密码子使用偏好性[59-60],但自然选择和突变压力通常被认为是主要原因,因此,分析密码子偏好性的重要指标是第3 位碱基的GC含量。相关性分析表明:GC1、GC2与GC3无显著相关性,各位置上的GC 含量为GC1(47.08%)>GC2(39.51%)>GC3(29.11%),且最优密码子均以A、U 结尾,说明高粱泡叶绿体基因密码子受选择压力的影响;结合基因中各位置的GC 含量和ENC 值以及中性绘图和ENC-plot 绘图等,可认为密码子的偏好性受自然选择的影响更大,这与前人对杧果[10]、灯盏花[13]、蒜头果[14]和降香黄檀[44]等植物的研究结果一致;但对普通油茶(Camellia oleifera)[61]和香花枇杷[11]的研究认为密码子的偏好性受突变和选择的共同影响,可推断不同密码子偏好性受到的影响因素可能存在差异。PR2-plot 分析显示:第3 位碱基上的数量表现为T>A、G>C,与杧果[10]和蒜头果[14]等的研究结果一致;但对剑麻[45]、沙枣[17]和香花枇杷[11]等的研究显示:密码子碱基使用频次明显不相等(T>A、C>G),说明不同物种的密码子碱基组成不同,密码子偏好性是多种因素综合作用的结果。因此,研究密码子偏好性可为物种间的进化和性状改良等提供理论支撑。
3.3 系统发育
YANG 等[62]为确定台湾8 种悬钩子植物在悬钩子属中的系统发育位置和亲缘关系,完成了31 种悬钩子属叶绿体基因组特征及系统进化分析,证明悬钩子属植物复杂的系统进化史。本研究利用最大似然法对高粱泡、48 种悬钩子属和2 种路边青属物种的叶绿体基因组序列构建系统发育树,结果与前人[9,38]使用叶绿体DNA 片段构建的系统发育树相比,提高了各个分支节点的支持率和属内物种水平的分辨率。本研究表明:悬钩子属植物明显区分于外类群,组间关系得到解析,空心莓组为属内较早的类群,分为2 支,呈现多系进化,所有木莓组植物以较高支持率聚于同一分支,这与徐玉芬[63]的研究结果一致;矮生莓组的梳齿悬钩子、空心莓组短柄亚组的掌叶悬钩子与木莓组绢毛亚组的绢毛悬钩子以高支持率聚集于木莓组进化枝,故推测木莓组可能由空心莓组进化而来,这与张丽[9]的研究结果一致。另有学者基于8 个悬钩子属植物和1 个外类群物种叶绿体基因组序列构建进化树,提出悬钩子属木莓组植物具有最近的系统分化,且指出木莓组光滑高粱泡的进化时间晚于空心莓组插田泡[37]。
4 结论
通过叶绿体基因组进行测序和注释,发现高粱泡叶绿体基因组结构为经典四段式结构。叶绿体基因组的总长度为156 266 bp,GC 含量为37.2%,其中LSC 区长85 849 bp,IR 区长25 781 bp,SSC区长18 855 bp。注释到的131 个基因中,有蛋白质编码基因86 个,tRNA 基因37 个,rRNA 基因8 个。高粱泡叶绿体基因组密码子的偏性较弱,且受自然选择的影响较大,具有较近的系统分化。阐明高粱泡叶绿体基因组内有关的编码基因以及重要的基因表达信息,可为高粱泡及悬钩子属近缘植物的群体遗传和系统进化提供理论参考。