‘德钦’紫花苜蓿叶绿体基因组序列及特征分析
2022-03-07孙志轩敖平星毕玉芬赵雁
孙志轩, 敖平星, 毕玉芬, 赵雁*
(1.云南农业大学园林园艺学院, 云南 昆明 650201; 2.云南农业大学动物科学技术学院, 云南 昆明 650201)
叶绿体是植物进行光合作用的关键场所,是细胞内具有自主遗传信息的重要细胞器,普遍存在于陆地植物、藻类和部分原生生物中[1-2]。叶绿体基因组的大小、结构和基因种类、数目、排列顺序以及密码子的组成都具有高度保守的特性[3],与核基因相比其进化速率相对较慢、核苷酸替换频率较低、易于分析,因此,叶绿体基因组已广泛应用于物种的起源、系统发育关系以及新物种的鉴定[4-5]。近年来测序技术不断发展和进步,NCBI(https://www.ncbi.nlm.nih.gov/) 数据库中已有上千个物种的叶绿体基因组序列。典型的被子植物叶绿体基因组为一个环状四分体结构[6],其大小通常为120~180 kb,由两个序列相同方向相反的重复区(Inverted repeat,IR),一个大单拷贝区(Large single-copy,LSC)和一个小单拷贝区(Small single-copy,SSC)组成[7],有的物种(如松柏类(conifers)[8]、牻牛儿苗属(Erodium)[9]、豆科(Legumes)[10]和列当科(Orobanchaceae)[11]中的一些物种)会出现IR区部分或全部缺失的现象[12-13]。
苜蓿属(MedicagoL.)共有87个种[14],其中最重要的是被誉为“牧草之王”的紫花苜蓿,紫花苜蓿在全球种植面积最广,在畜牧业中具有重要商业价值。云南省德钦地区分布的野生紫花苜蓿,是省内唯一成群落分布的苜蓿属资源,研究表明,‘德钦’苜蓿是由我国青海和甘肃传入西藏,并沿金沙江和澜沧江流域逐渐向下游传播[15]。2010年通过全国草品种委员会审定,允许在适宜的区域推广使用,命名为‘德钦’紫花苜蓿[16]。‘德钦’苜蓿为异花授粉的同源四倍体,2n=4x=32,秋眠级为1.2[17],适应迪庆州海拔2 000~3 000 m,年降雨量303.9~660.0 mm的区域[18]。前期研究表明,‘德钦’苜蓿具有耐热性[19-21]、耐旱性[22]和耐酸铝性[23-25]等特异耐受性,是在干热地区生存的特异性种质。目前,‘德钦’苜蓿在分子水平上与已公布的紫花苜蓿及品种的关系还不清楚,本研究通过高通量测序获得‘德钦’苜蓿叶绿体基因组全序列,分析其叶绿体基因组特点,探明其在苜蓿属中的地位,对特异基因挖掘以及加快云南苜蓿品种的改良和育种进程具有重要意义。
1 材料与方法
1.1 试验材料
供试材料为‘德钦’紫花苜蓿(登记号:415,野生栽培品种),2018年采自云南省德钦县的野外保种基地,父母本均为‘德钦’紫花苜蓿。选用颗粒饱满的种子消毒后放入培养皿中萌发,挑选萌发较好的种子播种于无菌土中,每3天浇一次改良霍格兰溶液,一个月后选取长势较好无病害‘德钦’苜蓿新鲜叶片,提取DNA[26]。
1.2 试验方法
1.2.1叶绿体基因组测序及质控 利用琼脂糖凝胶电泳检测DNA完整性,Nanodrop 2000检测DNA的浓度和纯度,DNA样品检测合格后,使用Covaris超声波破碎仪随机打断,再经末端修复、3′端加A尾、加测序接头、纯化、PCR扩增等步骤构建测序文库,使用Agilent 2100对文库的插入片段进行检测,质检合格的文库用Illumina NovaSeq 6000(北京诺禾致源科技股份有限公司)高通量测序平台测序。对获得的原始数据进行过滤,去除带接头的、低质量的Reads用于后续组装。
1.2.2叶绿体基因组序列拼接和注释 用CLC Genomic Workbench v10(CLC Bio.,Aarhus,Denmark)对处理后的Reads进行从头组装成contigs,参考NCBI已发表的紫花苜蓿(MK460489)使用BLAST(https://blast.ncbi.nlm.nih.gov/)确定拼接顺序,然后使用Geneious v8.0.2(Biomatters Ltd.,Auckland,New Zealand)软件进行手动拼接,最后将Reads重新映射(map)到组装好的叶绿体基因组上,检查、校对和修补有缺口的位点,获得最终的环状叶绿体基因组。利用在线注释软件Annotation of Organellar Genomes[27]对拼接好的叶绿体基因组进行注释,然后结合已发表的亲缘种注释结果在Geneious中对起始密码子、终止密码子、内含子及外显子进行修正。将注释好的序列导出GenBank格式,提交至NCBI数据库得到序列号。利用在线绘图软件Organellar Genome DRAW[28]将GenBank文件生成叶绿体基因组物理图谱。
1.2.3相对同义密码子分析 利用CodonW脚本对‘德钦’苜蓿76条蛋白编码序列的密码子使用度(Relative synonymous codon usage,RSCU)进行计算,RSCU>1的密码子认为具有偏好性[29]。
1.2.4重复序列分析 用SSR Hunter v1.3[30]和MISA-web v2.1[31]对‘德钦’苜蓿叶绿体基因组简单重复序列(Simple sequence repeats,SSRs)位点进行分析鉴定。参数设置:单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸最小重复次数分别为10,5,4,3,3,3;2个SSRs之间的最小距离设置为100 bp,若距离为零,组成复合SSR;若距离小于100 bp,则组成间隔SSR。
1.2.5苜蓿属植物聚类分析 从NCBI数据库下载同属已发表的35个叶绿体序列数据,基于在线程序MAFFT (https://mafft.cbrc.jp/alignment/server/index.html) 进行多重比对。利用MEGA v7.0[32]软件用最大似然法(Maximum likelihood,ML)构建‘德钦’苜蓿和同属植物种系统发育树。
2 结果与分析
2.1 叶绿体基因组基本特征
‘德钦’苜蓿(NCBI登录号:MN218692)叶绿体DNA序列全长125 470 bp,与其他被子植物叶绿体基因组结构相似,是一个典型的环状结构(图1),具有1个小单拷贝区(SSC)、1个大的单拷贝区(LSC)和1个反向重复区(IR)。叶绿体基因组注释结果显示(表1),‘德钦’苜蓿叶绿体基因组含有110个编码基因,其中蛋白质编码基因76个,转运RNA(tRNA) 30个和核糖体RNA(rRNA) 4个,GC含量33.9%;其中16个基因包含1个内含子,1个基因包含2个内含子;rps12是反式剪切基因;clpP基因缺失一个内含子;ycf3是唯一的具有两个内含子的基因;trnK-UUU具有最大的内含子,内含子长为2 481 bp,matK基因位于其中。同时,‘德钦’苜蓿叶绿体基因组中缺失rps16,rpl22和infA基因。
图1 ‘德钦’叶绿体基因组示意图Fig.1 Chloroplast genome map of M.sativa ‘Deqin’注:外层环外圈箭头表示外层环圈外基因逆时针方向表达,内圈箭头表示外层环圈内基因顺时针方向表达,不同颜色方块表示不同功能的基因;内环深灰色阴影表示GC含量,浅灰色阴影表示AT含量Note:Genes shown on the outside of the circle are transcribed in the counterclockwise direction,while those inside are transcribed in the clockwise direction. The colored bars indicate genes belonging to different functional groups. The darker gray dashed area denotes the GC content while the lighter gray corresponds to the AT content of the plastomes
表1 ‘德钦’苜蓿叶绿体基因注释信息Table 1 Genes present in the chloroplast genome of M.sativa ‘Deqin’
2.2 密码子偏好性分析
对‘德钦’苜蓿密码子偏好性分析可为其叶绿体基因工程的开展和目标性状的遗传改良奠定基础。‘德钦’苜蓿76条蛋白编码序列总长为66 540 bp,GC含量为36.5%,共有22 080个密码子参与,其中亮氨酸(Leu)使用最为频繁,其次是异亮氨酸(Ile),半胱氨酸(Cys)使用次数最少,其数量分别为2 345(10.62%),1 979(8.96%),238(1.08%)。相对同义密码子使用度显示‘德钦’苜蓿有70.74%密码子的RSCU>1,表现出偏好以A和T结尾的特性(表2)。
表2 ‘德钦’苜蓿密码子信息Table 2 Codon usage in M.sativa ‘Deqin’
2.3 简单重复序列(SSR)分析
在‘德钦’苜蓿叶绿体基因组中鉴定出单核苷酸、二核苷酸、三核苷酸、四核苷酸和五核苷酸SSRs位点共115个(79,21,8,5,2),没有发现六核苷酸(表3)。从SSRs类型上来看,除了普通的SSR外还存在12个间隔SSR,最大的是(TA)6有290 bp;对其组成及位置分析发现绝大多数的SSRs由A和T组成,有27个SSRs位点在编码区,其余均在非编码区;在‘德钦’苜蓿clpP基因编码区中出现(A)12位点,而紫花苜蓿为(A)13位点;‘德钦’苜蓿中出现四核苷酸(TTAT)3位点,紫花苜蓿中不存在。
表3 ‘德钦’紫花苜蓿与紫花苜蓿简单重复序列位点对比Table 3 Comparison of simple sequence repeats (SSR) sites in M. sativa ‘Deqin’ and M. sativa
续表3
2.4 叶绿体全基因组系统发育分析
以豆科车轴草族(Trib. Trifolieae)已公布的胡卢巴属(TrigonellaL.) 1个种、草木樨属(Melilotus(L.) Mill.) 1个种、紫雀花属(ParochetusBuch.-Ham. ex D. Don) 1个种和车轴草属(TrifoliumL.)的5个种作为外类群,对‘德钦’苜蓿和已发表的35个苜蓿属(Medicago)植物叶绿体全基因组构建ML系统发育树(图2)。结果显示,36个苜蓿属植物聚为一支,并具有较高的支持率,‘德钦’苜蓿与紫花苜蓿聚为一支(支持率为75%),‘德钦’苜蓿与紫花苜蓿亲缘关系最近。
图2 基于叶绿体全基因组的苜蓿属36个物种及其近缘种的最大似然法聚类结果Fig.2 Cluster analysis of 36 species of Medicago using complete chloroplast genome sequence by the maximum likelihood method
3 讨论与结论
本研究采用第二代高通量测序技术对‘德钦’苜蓿叶绿体基因组进行了测序,以‘德钦’苜蓿亲缘关系最近的紫花苜蓿叶绿体基因组为参考组,成功组装出完整的‘德钦’苜蓿叶绿体基因组,其大小为125 470 bp,符合被子植物叶绿体基因组大小[7],属于IR缺失型,GC含量为33.9%,3个基因rps16,rpl22和infA缺失,与前人对蝶形花亚科(Papilionoideae)植物研究结果类似,可能是基因组重排的结果[33-34]。
外源基因的表达水平会受到物种密码子偏好性的影响[35-36],双子叶植物偏好以A/T结尾的密码子,而单子叶植物偏向于以G/C结尾的密码子[37],本研究中‘德钦’苜蓿叶绿体密码子分析显示70.74%的蛋白密码子RSCU>1,具有偏好A/T的特性,与双子叶植物偏好使用A/T结尾的密码子结果一致。
SSRs分析可对种质资源进行遗传结构分析和品种鉴定[38-39]。在‘德钦’苜蓿叶绿体基因组中共鉴定出115个SSRs位点,其中clpP编码区发现一个与紫花苜蓿有差异的位点,研究表明,clp蛋白酶在生物体内可通过水解作用清除干扰正常代谢的蛋白或多肽,参与多种抗逆活动[40-42],如在拟南芥(Arabidopsisthaliana(L.) Heynh)[43]和番茄(LycopersiconesculentumMill)[44]中发现clpB基因可有效增加其耐热性,花生(ArachishypogaeaL.)中发现clpP家族个别成员可受盐胁迫诱导表达[45]。本研究中‘德钦’苜蓿在clpP编码区与紫花苜蓿出现差异,可能与‘德钦’苜蓿特异性耐受有关,其具体作用有待进一步研究。本试验对‘德钦’苜蓿叶绿体基因组进行测序,并对其进行基因特征分析,揭示了其叶绿体基因组水平特点,补充了苜蓿属植物叶绿体基因组信息,为加快苜蓿属植物分子生物学研究以及‘德钦’苜蓿特异基因的挖掘及利用提供参考。