APP下载

彩色马蹄莲转录组测序及其特性分析

2020-07-10张永春蔡友铭杨柳燕

上海农业学报 2020年3期
关键词:马蹄莲密码子彩色

周 琳,张永春,蔡友铭,杨柳燕

(上海市农业科学院林木果树研究所,上海市设施园艺技术重点实验室,上海 201403)

彩色马蹄莲(Zantedeschiahybrida)为天南星科(Araceae)马蹄莲属(Zantedeschia)的多年生球根花卉[1],因其品种丰富且佛焰苞和叶型多样,可作为观赏价值较高的切花或观叶植物,备受国内外消费者青睐[2]。近年来,国内外在彩色马蹄莲组织培养[3]、种球培育和储藏技术[4]、矮化与促花调控[5]以及抗病育种[6]方面开展了大量工作;然而,相对于其他球根花卉,彩色马蹄莲品种的表型差异(如佛焰苞、叶型、叶耳等多样性)形成机理尚缺乏较为深入的研究。

近年来,测序技术快速发展,且测序成本逐年降低,转录组测序(RNA-Seq)可全面地揭示植物在特定时刻和组织的表达基因及其表达量,能够在整体水平上研究基因功能以及基因结构,揭示特定生物学过程及生长发育过程中的分子机理[7]。目前,转录组测序已广泛应用于植物叶色突变[8]、花色[9]、抗病性[10]等性状差异机理研究;此外,基于转录组数据挖掘的SSR标记(Simple Sequence Repeats,简单重复序列标记)和SNP标记(Single Nucleotide Polymorphism,单核苷酸多态性标记)也应用于品种鉴定、亲缘关系分析、遗传多样性评价等研究[11]。

上海市农业科学院通过杂交育种和分子标记辅助选育,获得了彩色马蹄莲切花新品种‘金丝绒’(沪农品认花卉2010第004号)和‘梦幻’(沪农品认花卉2010第003号)。‘金丝绒’株高70—80 cm,株幅50—60 cm,佛焰苞金黄色,周径(16—18 cm)花枝数为3—5支,叶片为箭形且无叶耳,抗病性较强;‘梦幻’株高60—70 cm,株幅40—45 cm,佛焰苞紫色,同等周径(16—18 cm)花枝数为4—6支,叶片为戟形且有叶耳,抗病性强。两个彩色马蹄莲品种在株高、株辐、佛焰苞、叶型、花期以及抗性等方面均存在较大差异,可作为表型差异机理研究的材料。本研究以‘金丝绒’和‘梦幻’为材料,采用高通量测序技术,初步筛选与彩色马蹄莲表型相关基因,并进行密码子使用偏好性分析,以期为阐明其表型差异提供依据。

1 材料与方法

1.1 材料

选择彩色马蹄莲(Zantedeschiahybrida)育成品种‘金丝绒’和‘梦幻’直径为5—6 cm的种球为试验材料。供试材料选择标准、赤霉素处理、种植、灌溉和水肥管理等参照杨柳燕等[12]的方法。种植1个月后,选取2个品种球茎、根系和叶片组织,称重后立即放入液氮中冷冻30 min,随后放入-80℃冰箱保存。

1.2 方法

1.2.1 RNA提取、文库构建与检测

RNA提取、浓度和纯度检测参照李青竹等[13]的方法。将2个彩色马蹄莲品种高质量球茎、根系、叶片的RNA等量混合,交由广州基迪奥生物科技有限公司完成文库构建和转录组测序(Illumina HiSeqTM4000系统)。

1.2.2 转录组数据组装、序列注释和功能分类

转录组测序得到原始数据,数据过滤条件参照陈赫等[14]的方法;使用Trinity软件[15]进行从头组装获得unigene(非重复序列基因)。将2个彩色马蹄莲品种的所有unigene与蛋白序列数据库Nr(Non-Redundant Protein Sequence Database,非冗余蛋白库)、Swiss-Prot(Swiss-Prot Protein Sequence Database,Swiss-Prot数据库)、KOG(Clusters of Orthologous Groups for Eukaryotic Complete Genomes,真核生物蛋白相邻类的聚簇)以及核酸数据库KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书)进行比对,比对方法参照李青竹等[13];随后,进行基因功能注释、预测其功能分类和参与的生物学途径。

1.2.3 SSR位点预测和转录因子分析

使用MISA软件(MIcroSAtellite identification tool,version 1.0)进行SSR标记的搜索,具体参数参照李青竹等[13]的设置。转录因子(Transcription factors,TF)分析通过将预测的蛋白序列与相应的 TF 数据库(plant TFdb/animal TFdb)进行hmmscan比对获得。

1.2.4 密码子使用偏好性分析

参照赖瑞联等[16]的方法从转录组数据中筛选并提取满足条件的编码序列用于后续分析。随后,利用CodonW 1.4.4软件(https://sourceforge.net/projects/codonw/files/)对彩色马蹄莲转录组数据密码子组成进行分析,包括彩色马蹄莲转录组中总的GC含量、密码子的第1、2、3位含量(GC1、GC2、GC3)、有效密码子数(Effective number of codon,ENC)、同义密码子第3位GC含量(GC3s)、以及同义密码子相对使用频率(Relative synonymous codon usage,RFSC)。最后,依据RFSC结果,参照林涛等[17]的方法鉴定彩色马蹄莲基因高频密码子。

2 结果与分析

2.1 转录组数据统计、组装

‘金丝绒’和‘梦幻’球茎、根和叶片的RNA各混合样品,通过Illumina HiSeqTM4000测序平台获得原始数据(raw reads)后,先进行数据过滤,即除去含接头、含N比例大于10%以及低质量的原始读数序列,以获得高质量纯净序列(clean reads),测序数据量、GC含量等统计结果见表1。2个材料的clean data均为7 Gb 以上,碱基质量大于Q30的比例分别为95.98%和96.02%,GC含量分别为52.65%和52.44%,表明测序组装效果较好,满足开展后续基因注释和功能分类等要求。利用Trinity软件对上述获得的clean reads进行从头(de novo)组装,共获得76 060条非冗余unigene序列,长度范围为200—17 366 bp,其中多数集中于200—500 bp,平均序列长997 bp,N50为1 938 bp。此外,大于3 000 bp的unigene有5 381条,占总数的7.07%。

表1 转录组测序数据质量分析

2.2 基因功能注释结果

使用BLAST 软件将unigene与常用的各大数据库进行比对分析,获得注释的unigene共有30 321条(39.86%)。如表2所示,4个数据库中以Nr和Swiss-Prot数据库得到的条目较多,分别占全部条目总数的39.78%和24.61%;而KEGG数据库仅有10 083条(13.26%)unigene得到了注释,注释信息最少。

表2 unigene注释的统计

2.3 unigene功能分类

2.3.1 GO(基因本体,Gene Ontology)分类

在转录本中,能够被注释到GO分类的unigene仅有2 669条,分别参与到3个GO类别(生物学过程、分子功能和细胞组分)的40个亚类(图1)。生物学过程的17个亚类中,代谢过程和细胞过程涉及的unigene较多,分别有1 544条和1 277条;分子功能中包括11个亚类,其中催化活性相关基因丰度最高,为1 550条;细胞组分中包括12个亚类,其中细胞和细胞片段包含unigene数量最多,均为844条,其次为细胞器,有619条。

2.3.2 KOG分类

彩色马蹄莲76 060条unigene中仅有17 183条(22.59%)注释到KOG数据库的25个功能分类(图2)。注释数量排名前5的组依次是:通用功能预测(7 736条,45.02%)、蛋白质翻译后修饰与运转及分子伴侣(2 943条,17.13%)、信号转导机制(2 504条,14.57%)、RNA加工和修饰(1 410条,8.21%)、转录(1 380条,8.03%);此外,有1 115条(6.49%)注释到功能未知。

2.3.3 KEGG分类

注释到KEGG数据库的10 083条unigene中有5 358条(53.14%)参与了132条代谢通路;所涉及的代谢通路包括:代谢(9 252条,73.18%)、遗传信息处理(2 233条,17.66%)、细胞过程(497条,3.93%)、环境信息处理(394条,3.12%)和有机系统(266条,2.10%)。在最大的类别,即代谢途径中,代谢途径和次生代谢产物的生物合成途径是unigene最为富集的2个途径,分别有2 125条和1 108条unigene。

2.4 SSR标记和转录因子分析

2.4.1 SSR标记分析

从彩色马蹄莲所有的unigene中进行SSR位点检索,最终从9 721条unigene序列中检索到13 206个SSR位点,其中有2 429条unigene含有2个或2个以上的EST-SSR位点。SSR的5种重复类型所占比例存在显著差异,二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸重复所占比例分别为61.31%、31.02%、4.24%、1.79%和1.64%。彩色马蹄莲所有SSR 基序中,AG/CT(47.8%)比率最高,其次为AC/GT、AAG/CTT和AGG/CCT,分别占7.8%、6.7%和6.3%,所占比例均显著低于AG/CT;此外,AAAG/CTTT、AAAT/ATTT和AGAT、ATCT所占比例均低于1%。

2.4.2 转录因子分析

基于彩色马蹄莲转录组数据,预测出54个TF家族,共有1 115个TF的unigene,其中数量最多的前10个TF类型为bHLH、ERF、MYB、MYB_related、bZIP、NAC、C2HA、WRKY、C3H和Trihelix(图3),分别占总预测量的8.25%、7.00%、5.92%、5.83%、5.47%、5.20%、5.11%、4.84%、4.13%和3.41%。54个TF家族在植物的信号转导、生长发育(花和花粉发育、光周期反应、碳氮代谢以及次生代谢产物合成)、抗逆性等方面发挥重要作用。这些TF的发现将为后续研究彩色马蹄莲生长发育过程提供新思路。

2.5 转录组密码子使用偏好性分析

2.5.1 GC含量及有效密码子数分析

从2个彩色马蹄莲76 060条unigene中共筛选出33 090条高置信蛋白编码基因CDS 序列。彩色马蹄莲转录组密码子使用偏好性分析结果显示,unigene 平均总GC含量为50.67%;GC1、GC2和GC3分别为54.29%、43.23%和54.48%,而GC3s则为53.00%。彩色马蹄莲GC3s略低于GC3含量,这与模式植物(拟南芥)[18]、木本植物(枳[19]、杨梅[20]和黄皮[21])的GC3s与GC3比较结果相一致。彩色马蹄莲ENC分布范围为20.61—61.00,虽然其中有3 473条unigene的ENC值小于35,但ENC平均值为57.59,参照密码子使用偏好性对ENC值的设定范围,表明彩色马蹄莲转录组数据中密码子不存在明显的使用偏好性。

2.5.2 彩色马蹄莲的RFSC和HF

对筛选获得的33 090条表达基因的密码子进行同义密码子相对使用频率(RFSC)分析表明(表4),彩色马蹄莲表达基因的密码子RFSC差异较大。根据高频密码子筛选法[17],彩色马蹄莲转录组中高频使用密码子仅有3个,分别为AGG(编码精氨酸)、CAG(编码谷氨酰胺)和AAG(编码赖氨酸)。

表4 彩色马蹄莲表达基因的同义密码子相对使用频率(RFSC)和高频密码子(HF)

Table 4 The relative frequency of synonymous codon(RFSC)and high-frequency codons(HF) of coding sequences inZantedeschiahybrida

3 结论与讨论

本研究通过彩色马蹄莲‘金丝绒’和‘梦幻’2个品种的转录组测序,获得到了高质量的测序数据,为彩色马蹄莲后续基因功能研究提供了丰富的序列信息。经组装共得到76 060条unigene,基于四大公共数据库,共注释到30 321条unigene,仍有45 739条unigene未获得注释。这是由于球根花卉整体基因组较大,相对基因组测序进展落后,同时与彩色马蹄莲转录组和基因克隆研究工作相对滞后于其他球根花卉有关。

彩色马蹄莲品种间株高、株辐、佛焰苞颜色、肉穗花序颜色、喉斑、叶型以及叶片斑点等存在较大差异。本研究从2个彩色马蹄莲切花品种的转录组数据中挖掘到大量的unigene,这些unigene参与到马蹄莲生长的各个重要代谢途径。KOG分类表明,有7 736条unigene注释到通用功能预测。由代谢通路分析结果可见,有9 252条unigene参与代谢通路,其中代谢途径和次生代谢产物的生物合成途径最为富集。这些对比结果为彩色马蹄莲性状相关基因克隆、表达分析、功能验证等提供了理论基础。

基于转录组数据,从彩色马蹄莲的9 721条unigene中挖掘出13 206个SSR位点,其中二核苷酸重复最多,占60%以上,Wei等[22]在彩色马蹄莲品种‘Rehmannii’不同组织转录组数据中挖掘的SSR位点与本研究结果一致。利用转录组挖掘SSR标记时,品种间基序类型和比例的结果存在较大差异,本研究基于‘金丝绒’和‘梦幻’转录组挖掘的SSR中,AG/CT、AC/GT、AAG/CTT和AGG/CCT出现频率最高,而Wei等[22]研究‘Rehmannii’的转录组数据中出现频率最高的4类基序则为AG/CT、AT/TA、GAA/CTT和AAG/CTT。这可能与彩色马蹄莲栽培品种间在株型、叶型、花色等方面差异较大有关。彩色马蹄莲分子标记的开发先前主要集中于简单重复序列间扩增(ISSR)和随机扩增多态性DNA标记(RAPD),并用于品种鉴定和遗传多样性评估[23-25];近年来,Wei等[22]基于单个品种不同组织的转录组数据挖掘了9 933个SSR标记和7 162个SNP标记,并通过21个彩色马蹄莲种质从200对SSR引物中筛选出58个稳定且具多态性的引物。本研究中‘金丝绒’和‘梦幻’作为2个性状差异显著的彩色马蹄莲品种,从其转录组数据中挖掘的SSR标记,将有助于彩色马蹄莲亲缘关系和遗传多样性的分析,对于彩色马蹄莲分类及指导育种具有重要意义。此外,彩色马蹄莲中数量较多的转录因子如bHLH、ERF、MYB和bZIP,在信号转导、生长发育、次生代谢、非生物胁和生物胁迫应答方面发挥重要作用[26-28],为彩色马蹄莲生长发育研究尤其是表型差异研究提供了重要的线索和依据。

通过对彩色马蹄莲33 090条CDS序列的密码子使用偏好性分析,发现彩色马蹄莲密码子不存在明显的使用偏好性,但在同义密码子相对使用频率分析中,发现彩色马蹄莲表达基因中不同密码子的RFSC差异较大。此外,本研究发现2个彩色马蹄莲品种高频使用密码子仅有3个,分别为AGG、CAG和AAG,这与已报道的物种存在较大差异;如草莓[29]、川贝母[30]、石榴[31]和黄皮[21]分别有21个、15个、19个、11个高频密码子。其可能原因是物种间、器官间、细胞核基因和细胞器基因间、基因家族成员间均存在密码子使用偏好性[16],导致彩色马蹄莲密码子使用偏好性与其他研究结果差异较大。

综上,本研究利用转录组测序技术,获取了‘金丝绒’和‘梦幻’彩色马蹄莲品种的unigene,并利用四大数据库对unigene进行了功能注释、功能分类、代谢途径预测、SSR标记挖掘以及密码子使用偏好性分析等研究,有助于深入了解彩色马蹄莲表型差异机理,并为其分子育种奠定基础。

猜你喜欢

马蹄莲密码子彩色
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
有那样一抹彩色
新型密码子、反密码子、氨基酸对应盘
彩色的风
对“翻译”过程中几个问题的探讨
白色马蹄莲
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析
被折弯的马蹄莲
彩色手表
马蹄莲