尾叶紫薇全长转录组测序及微卫星标记开发
2021-09-29吴宜静张一鸣陆泓锦赵天祎蔡军火潘会堂张启翔
章 寒,吴宜静,张一鸣,续 言,陆泓锦,赵天祎,蔡 明*,张 曼,蔡军火,潘会堂,张启翔
(1.北京林业大学 花卉种质创新与分子育种北京市重点实验室/国家花卉工程技术研究中心/城乡生态环境北京实验室/园林环境教育部工程研究中心/林木花卉遗传育种教育部重点实验室/园林学院,北京 100083;2.江西农业大学 园林与艺术学院,江西 南昌 330045)
【研究意义】尾叶紫薇(Lagerstroemia caudata)原产中国,属千屈菜科(Lythraceae)紫薇属(Lagerstroemia),是该属唯一被证明具有花香的物种,也是培育香花紫薇新品种的重要育种亲本[1-2]。广泛了解尾叶紫薇花香物质合成相关基因并开发大量分子标记,将为紫薇花香遗传改良奠定基础。【前人研究进展】近年来,关于尾叶紫薇的研究已在杂交育种、遗传多样性、花香成分及释香规律、香气物质生物合成与代谢等方面开展,但在分子生物学层面上的研究依旧不够深入,缺乏对功能基因的系统了解[1-5]。而尾叶紫薇已有的二代转录组测序数据,受限于读长短的技术问题,部分转录本不能代表全长cDNA,序列信息不够全面。微卫星序列又名简单重复序列(simple sequence repeat,SSR),是研究植物遗传多样性的重要分子标记之一[6]。在尾叶紫薇微卫星标记相关报道里,研究者以尾叶紫薇为材料通过磁珠富集法开发了60 个尾叶紫薇SSR 分子标记并获得18 对多态性引物[7],以紫薇为材料得到在尾叶紫薇中通用的65 对多态性引物,并获得6 个与叶片大小、地径、株高性状连锁的SSR 位点[8-10]。目前与尾叶紫薇花香性状连锁的SSR 标记尚未见报道,且数量远远无法满足分子育种研究的需要。【本研究切入点】以单分子实时(single-molecule real-time,SMRT)测序技术为代表的第三代测序技术,具有读长超长、测序周期短、无需测序后组装等特点,在转录组de novo 方面有较大的应用前景,如可快速获得更为全面的基因序列信息等[11-12]。因此,本研究基于SMRT 测序技术获得尾叶紫薇全长转录本,通过功能注释,获得花香物质合成相关基因;搜索SSR 位点并分析其组成特点,初步验证了SSR 标记的有效性。【拟解决的关键问题】针对尾叶紫薇花香物质合成相关基因,了解不全面及SSR 分子标记数量有限的问题,为进一步研究尾叶紫薇花香性状、开展分子标记辅助育种提供参考。
1 材料与方法
1.1 试验材料
试验材料为国家花卉工程技术研究中心紫薇种质资源圃(北京,小汤山)生长状态良好的尾叶紫薇,于2019 年6 月采集现蕾期(花苞萼片开裂),盛开期(花瓣完全打开,肉眼可见花粉,柱头分泌粘液),衰败期(花药脱落,花丝卷曲,花瓣收缩且萎蔫)的花朵(图1),单独标记后,迅速放入液氮中,转移至-80 ℃冰箱保存。
图1 尾叶紫薇三个时期花朵Fig.1 Three period flowers of L.caudata
1.2 文库构建与测序
使用多糖多酚植物RNA 提取试剂盒(北京天根,DP441)提取3 个时期花朵RNA,10 g/L 琼脂糖凝胶电泳、NanoDrop2000 分光光度计检测总RNA的完整性、纯度及质量,选取条带清晰,无降解,纯度高的3 个不同时期的RNA 样品,等物质的量混合。全长转录组测序文库及随后的测序由北京诺禾致源科技股份有限公司完成,测序平台是PacBio sequel,采用IsoSeq3(v3.2.2)软件进行全长转录本分析,获得去冗余的基因序列。
1.3 基因功能注释
利用NCBI Blast(v2.2.28+)、HMMER(v3.0)、KAAS和Blast2GO(v2.5)软件,对获得的尾叶紫薇去冗余序列进行7大数据库的基因功能注释,包括Nr(NCBI non-redundant protein sequences,e-value=1e-5)、Nt(NCBI nucleotide sequences,e-value=1e-5)、Pfam(protein family,e-value=0.01)、KOG/COG(clusters of orthologous groups of protein/eukaryotic ortholog groups,e-value=1e-3)、Swiss-Prot(a manually annotated and reviewed protein sequence database,e-value=1e-5)、KEGG(kyoto encyclopedia of genes and genomes,e-value=1e-10)、GO(gene ontology,e-value=1e-6)[13-17]。
1.4 微卫星序列(SSR)的搜索
利用MISA 软件(MIcroSAtellite identification tool)[18]对基因序列中的SSR 位点进行搜索,参数设置如下:1-6 核苷酸最少重复次数分别为10、6、5、5、5、5,复合SSR 的最大间隔碱基数为100 bp,统计并分析SSR分布频率及特征。
1.5 SSR分子标记引物开发与检测
用Primer3[19]设计引物,引物条件如下:预期产物大小在100~300 bp,引物长度18~24 bp,GC 含量在40%~60%,退火温度在57~63 ℃,上下游引物的退火温度差不大于2 ℃;避免引物出现二聚体、发卡结构等。
随机选取设计好的52 对引物送至北京擎科新业生物技术有限公司合成。用天根DNA 提取试剂盒(DP305)提取尾叶紫薇DNA,PCR 体系如下:10 μL 2×TaqPCR mix,8 μL 无菌水,上下游引物各0.5 μL,DNA模板1 μL。94 ℃预变性5 min;94 ℃变性30 s,55 ℃退火30 s,72 ℃延伸18 s,30个循环;72 ℃终延伸5 min。扩增得到的PCR产物用15 g/L的琼脂糖凝胶电泳进行检测。
2 结果与分析
2.1 尾叶紫薇全长转录组序列长度分布
对尾叶紫薇3 个时期的花朵混样cDNA 文库测序,获得39 087 条非冗余、高质量全长转录本即unigene。全长转录本总长度为82 416.42 kb,其中最短unigene有52 bp,最长unigene有12 199 bp,平均长度为2 109 bp,长度中位数为1 982 bp,N50 长度为2 427 bp,N90 长度为1 363 bp,长度主要分布在500~4 000 bp(图2)。
图2 尾叶紫薇全长转录组序列长度分布Fig.2 Length distribution of the full-length transcriptome of L.caudata
2.2 全长转录组序列的功能注释
为了全面了解尾叶紫薇Unigene 的功能信息,利用数据库进行同源检索比对,并基于匹配结果进行功能注释,结果表明,共有38 559 条序列获得注释,占总序列数量的98.64%,有8 387 条序列在所有数据库中都得到了注释。其中,在Nr 库注释成功的序列数最多,有36 857 条,占总序列数的94.29%,在KOG 数据库获得注释的序列数最少,有14 312 条,占比36.61%(表1)。
表1 尾叶紫薇Unigenes在公共数据库中的注释统计Tab.1 Annotation statistics of L.caudata unigenes in public databases
2.2.1 Nr 功能注释 从Nr数据库获得注释的结果看,尾叶紫薇在236个物种中得到了注释,其中,注释到的物种主要有同为桃金娘目的石榴(Punica granatum)(28 895,78.4%)、大桉(Eucalyptus grandis)(2 499,6.78%)、欧洲栓皮栎(Quercus suber)(345,0.94%)、葡萄(Vitis vinifera)(301,0.82%)、可可(Theobroma cacao)(277,0.75%)、木薯(Manihot esculenta)、橡胶树(Hevea brasiliensis)(262,0.71%)、胡桃(Juglans regia)(255,0.69%)等。在获得注释的Unigene中,8.8%的序列相似度在95%~100%,64.4%的序列相似度在80%~95%,25.8%的序列相似度在60%~80%。可见尾叶紫薇主要从亲缘关系相对较近的同为桃金娘目的石榴和大桉中获得注释,超过70%的Unigene匹配到了相似性较高(>80%)的序列。
2.2.2 GO 功能注释 共有31 577 条unigene 序列在GO 数据库中获得注释,可被分为3 大类,包括细胞组分、分子功能及生物学过程共53 个功能组。细胞组分中有17 个功能组52 731 条序列,分子功能的有13 个功能组42 731 条序列,生物学过程的有23 个功能组86 353 条序列。在细胞组分中,被注释到细胞部分和细胞的最多,各有9 624 条序列,仅1 条序列被注释到突触或突触部分。在分子功能中,以结合能力(19 265)和催化活性(16 979)相关基因为主,受体调节活性(15)和金属伴侣活性(3)相关基因很少。生物学过程组分中,较多基因参与到了细胞进程(19 682)和代谢进程(18 458),而参与细胞杀伤(24)或节律进程(15)相关的基因较少,其他功能组情况见图3。
图3 尾叶紫薇GO分类Fig.3 GO functional categories of L.caudata
2.2.3 KOG 注释分类 在KOG 数据库中,共有14 312 个基因经同源基因匹配获得功能注释,可被归至25 个功能大类(图4)。其中,翻译后修饰、蛋白质周转和分子伴侣相关基因(2 000)最多,其次是一般功能预测(1 873),翻译、核糖体结构和生物发生(1 302),细胞内转运、分泌和囊泡运输(1 174),信号转导机制(1 170),涉及核结构(77),防御机制(45),细胞运动(10)和胞外结构(8)的基因则较少。
图4 尾叶紫薇的KOG分类Fig.4 KOG functional categories of L.caudata
2.2.4 代谢通路分析 根据KEGG注释结果(表2),18 538条序列注释成功,可归类至5大代谢通路19条代谢途径。5大代谢通路中以代谢相关的途径(10 011)最多,共有11条与代谢相关的途径,其中碳水化合物代谢途径相关的最多,达2 492 个基因,在所有代谢通路中也是最多的。与遗传信息处理通路相关的有4条代谢途径,以转运(1 531)和折叠、分类和降解(1 301)途径为主。环境信息处理通路上仅有2条代谢通路,膜运输代谢途径相关基因(50)最少。涉及尾叶紫薇花香物质合成的相关代谢通路中,有344个基因注释到类异戊二烯生物合成相关途径,其中注释到萜类物质合成关键的萜烯合酶基因有56个,萜类化合物骨架生物合成相关基因148 个;有520 个注释到苯类/苯丙烷类物质合成代谢途径,其中苯丙烷生物合成基因有283 个;有922 个基因注释到脂肪酸衍生物合成代谢途径,涉及脂肪酸和不饱和脂肪酸生物合成的基因有235个(表3)。
表2 尾叶紫薇Unigene的KEGG分类Tab.2 KEGG functional categories of L.caudata unigene
表3 尾叶紫薇花香物质合成相关基因Tab.3 Biosynthesis of floral scent in L.caudata
2.3 尾叶紫薇全长转录组中SSR位点分布特征分析
在全长转录组39 087个去冗余的Unigene中,搜索发现有16 425个SSR位点,这些位点分布在12 060条序列中,出现频率为42.02%,即30.85%的序列含有SSR 位点,平均每5.02 kb 出现1 个SSR 序列,复合型SSR数量1 766个,有3 141条序列含有1个以上的SSR位点。
2.3.1 尾叶紫薇全长转录组中SSR 重复类型 进一步分析发现所得的16 425 个SSR 位点中,单核苷酸重复到六核苷酸重复的基元类型均有出现(表4)。其中分布最多的为二核苷酸重复和三核苷酸重复,分别占所有SSR 位点的41.95%和31.58%,出现频率分别为17.63%和13.27%;其次为单核苷酸重复类型,所占比例为23.33%,出现频率为9.80%;重复类型最少的是五核苷酸,仅占0.48%,出现频率为0.20%。从平均分布距离看,尾叶紫薇全长转录组中,二核苷酸的SSR位点平均分布距离最近,平均每11.96 kb出现一个二核苷酸重复类型的SSR 位点,五核苷酸的SSR 位点平均分布距离最远,平均每1 043.25 kb出现一个五核苷酸重复类型的SSR位点。
表4 尾叶紫薇全长转录组SSR重复类型的分布特征Tab.4 Distribution characteristics of SSR repeat type in full-length transcriptome of L.caudata
2.3.2 尾叶紫薇全长转录组SSR 重复基序类型 尾叶紫薇SSR 位点共包含93 种重复基元,单核苷酸到六核苷酸重复的基序类型分别为2种、4种、10种、25种、20种和32种。各个核苷酸重复基元出现频率最高的分别是:(A/T)n、(AG/CT)n、(AGG/CCT)n、(AAGG/CCTT)n、(ACAGT/ACTGT)n、(AGAGGG/CCCTCT)n,在各自重复基元类型中所占比例分别为96.03%、83.63%、27.51%、15.34%、18.99%、16.33%。在93 种重复基元中,(AG/CT)n的出现频率最高,占总SSR 总数的35.08%,其次是(A/T)n占比22.40%、(AGG/CCT)n占比8.69%、(AAG/CTT)n占比7.70%、(AGC/CTG)n占比6.32%。
2.3.3 尾叶紫薇SSR 位点重复次数及长度分布 SSR 多态性与SSR 序列长度紧密相关,而长度变化范围又由SSR 的重复次数决定。尾叶紫薇各重复基序类型在不同重复次数存在明显差异,重复次数主要分布在5~15 次(表5)。整体来看,随着重复次数的增加,各类型SSR 位点数均随之减少。重复次数频率最高的是重复6 次,共有3 173 个SSR 位点(19.32%),其次是重复5 次(2 874,17.50%)、重复10 次(2 108,12.83%)、重复7 次(2 012,12.25%),重复15 次以上的总计有747 个SSR 位点,占总SSR 数量的4.55%。
表5 尾叶紫薇全长转录组SSR重复次数分布Tab.5 Distribution of SSR repeat frequency in full-length transcriptome of L.caudata
尾叶紫薇全长转录组中SSR 长度分布在10~86 bp,平均长度为16.84 bp。不同重复类型的尾叶紫薇SSR 位点平均分布距离差异较大,平均长度差异也较大,单核苷酸重复类型最短,平均长度仅12.08 bp,六核苷酸重复类型最长,平均长度可达31.65 bp,二核苷酸到五核苷酸重复类型的SSR 平均长度分别为17.97,18.07,22.10,27.47 bp。SSR长度大于或等于20 bp的有4 247个,占比25.86%,12~19 bp的有9 967个,占比60.68%,小于12 bp的有2 211个,占比13.46%。
2.4 尾叶紫薇SSR引物设计与检测
利用Primer 3对含有SSR 位点的Unigene进行引物设计,为11 581个SSR位点成功设计引物,预期的扩增产物以二核苷酸(32.54%)和三核苷酸(32.61%)为主随机选取52 对引物并以尾叶紫薇DNA 为模板进行PCR 扩增,检测产物发现,有40 对引物(表6)能产生与目的片段大小相同、单一、清晰的条带,有效扩增率为76.92%(图5),其中成功扩增出目的条带的PB.19288.1是尾叶紫薇中涉及花香物质合成的萜烯合酶基因。
表6 尾叶紫薇SSR引物序列Tab.6 SSR primer sequences of L.caudata
图5 尾叶紫薇SSR引物PCR扩增电泳Fig.5 PCR amplification electropherogram of L.caudata SSR primer
3 结论与讨论
随着测序技术的进步及成本的降低,三代测序技术的测序读长较二代测序技术更长,使遗传背景复杂并缺乏基因组信息的园林植物快速开展分子生物学相关研究成为可能。本研究基于SMRT 技术对尾叶紫薇花朵测序获得39 087 条非冗余、高质量全长转录本,平均长度(2 109 bp)、N50(2 427 bp)、N90(1 363 bp)均优于尾叶紫薇二代转录组数据(1 634 bp,2 249 bp,827 bp)[2],对尾叶紫薇基因全长克隆,功能基因的研究及分子标记开发提供更为全面的数据。
在无参考基因组的情况下,尾叶紫薇全长转录组Unigene 共有38 559 条序列在7 大数据库获得功能注释,占总序列数量的98.64%,功能主要注释在细胞进程及代谢进程。植物挥发性成分主要可分为萜类、苯/苯丙素类和脂肪酸衍生物3 大类,已有研究发现尾叶紫薇花挥发性成分主要为脂肪醇类及萜类[2]。在尾叶紫薇全长转录组中,挥发性物质合成代谢通路相关基因达1 876 个,注释获得参与萜类骨架生物合成基因、萜烯合酶基因及脂肪酸衍生物代谢通路基因等,可为进一步探究尾叶紫薇香气释放分子机制提供参考。
检索尾叶紫薇全长转录组Unigene 发现了16 425 个SSR 位点,SSR 的出现频率为42.02%,发生频率为30.85%。发生频率高于紫薇的17.32%[20]、紫薇‘金幌’的20.03%[21]、蜡梅的12.35%[22]、山茶的19.52%[23]。搜索序列总长度为82 416.42 bp,平均每5.02 kb 出现1 个SSR 序列,即分布密度为1/5.02 kb,与木本植物分布距离相比,高于紫薇的1/5.11 kb[20]、牡丹的1/9.24 kb[24]、三角梅‘小叶紫’的1/11.99 kb[25],低于大花四照花1/2.88 kb[26]、枇杷花1/4.87 kb[27],可见尾叶紫薇SSR位点数量较多,分布较为密集。
核苷酸重复类型是SSR 位点的重要特征之一,在对尾叶紫薇各类型SSR 重复类型统计发现,尾叶紫薇以二核苷酸重复和三核苷酸重复类型为主,二者之和占SSR总数量的73.53%,其中二核苷酸重复类型最具优势,这与紫薇[20-21]、短丝木犀[28]、长梗杜鹃[29]、油梨[30]、灰毡毛忍冬[31]的研究结果一致。在大多数的植物中,二核苷酸重复和三核苷酸重复是SSR 主要重复基序类型的现象较为常见,除了上述植物以二核苷酸重复为主外,桉树[32]、棉花[33]、五莲杨[34]等三核苷酸重复类型最多。这种物种不同出现重复基序数量不同的现象,与基因的差异表达、进化程度或突变频率有关[32,35]。
SSR 的多态性与其长度有紧密联系,一般认为12 bp 以下多态性低,12~19 bp 多态性中等,SSR 长度大于或等于20 bp时多态性较高[31]。尾叶紫薇高多态性的SSR 有4 247个,占比25.86%,中等多态性的有9 967个,占比60.68%,即尾叶紫薇SSR位点有86.54%,具中等及以上的多态性,具有良好的多态性潜能,在尾叶紫薇甚至紫薇属植物分子标记研究中应用价值高。
成功为11 581个位点设计SSR引物,占比70.51%,随机抽取合成的52对引物中,有40对引物能在尾叶紫薇中获得目的条带,有效扩增率为76.92%,扩增效率较高,初步验证了1 对涉及尾叶紫薇花香物质合成基因的SSR引物有效性,但开发出的SSR标记在紫薇属植物的通用性仍需进一步研究。
研究结果为尾叶紫薇功能基因研究,SSR 标记和尾叶紫薇遗传背景提供基础数据,丰富了紫薇属植物的分子标记类型,为紫薇属植物的分子研究,如紫薇属植物的种质资源开发与保护、遗传多样性分析、基因定位、分子标记辅助香花育种、遗传图谱构建等提供科学依据。