APP下载

小黑杨基因组的初步组装及SSR信息分析

2019-02-14周玉敏李开隆由香玲

植物研究 2019年1期
关键词:基序碱基核苷酸

周玉敏 王 遂 刘 轶 李开隆 由香玲*

(1.湖北生态工程职业技术学院,武汉 430200; 2.东北林业大学林木遗传育种国家重点实验室,哈尔滨 150040)

小黑杨(Populussimonii×P.nigra)是中国林业科学院林业研究所黄东森等人于1960年以取自北京地区的小叶杨(PopulussimoniiCarr)为母本,取自前苏联巴什基尔共和国首都乌法的花枝的欧洲黑杨(P.nigraL.)为父本,人工杂交培育的新品种。小黑杨喜光,喜冷湿气候,常生长于土壤肥沃、排水良好的沙质土壤上,在我国黄河以北各省区均有分布;其生长速度快,树干通直圆满,树高可达20 m;同时,其适应能力较强,对低温、干旱、盐碱,营养亏缺等逆境均有一定程度的抗性。小黑杨木材材质优良,均匀细致、色白、心材不明显,适做造纸、纤维等工业原料,又可供建筑、家具及农业使用,是我国北方地区重要的经济绿化树种[1~2]。

由于小黑杨的最初来源为集团选择的两个集团杂交种子,在杂交的过程中,基因的自由组合与染色体的连锁交换,使其子代间产生了丰富的基因型与表型。经过半个多世纪的引种与推广,我国不同省份区域的科研工作者筛选出了多个适合当地立地条件的小黑杨品种[3~4]。然而,随着种植区域的扩大,许多地区对引进的小黑杨品种信息缺失;有的地区并未进行引种试验而将其他区域的所谓优树直接引入;同时,已有的小黑杨良种经过半个多世纪种植,品质与抗性均有所下降。近年来,小黑杨的新增种植面积逐年减少,市场占有率持续下降。因此,重新对已有小黑杨品种进行划分,将品种与表型等性状相关联,建立小黑杨品种数据库,具有重要的现实意义。

简单重复序列(Simple Sequence Repeats,SSR)标记是近年来被广泛使用的一种以微卫星序列多态性为基础的分子标记技术,人们利用SSR两端序列的高度保守性,设计特异引物,通过PCR将其扩增出来进而利用电泳区分不同个体序列长度的差异,具有高度重复性、丰富的多态性、共显性、高度可靠性等优点。在林木的生产实践中,良种的选育是育种工作者主要追求的目标,常规的良种选育方法主要针对表型进行选育,其结果周期长,稳定性差,易受环境影响;而利用分子标记将表型选择转换为基因型选择,做到有的放矢,可以极大地缩短育种周期[5]。但由于林木基因组信息相对匮乏,准确可靠标记的获得并不容易。目前,SSR分子标记技术已广泛用于杨树品种鉴定及遗传多样性分析[6~8]。黄烈健等人在132对SSR引物中筛选出了多对与杨树木材密度,纤维长、宽,纤维丝角等相关联的SSR标记,为标记辅助育种奠定了基础[9];梁海永等人利用10对SSR引物,将10个杨树品种分为3大类[8];张新叶等人基于EST序列,设计了48对全新的SSR引物以区分杨树品种[10];宋跃朋等人利用16个杨树无性系比较了10对Genomic-SSR引物和10对EST-SSR引物的遗传差异[11]。从技术的角度讲,早期杨树的SSR鉴定分析多使用通用引物,特异性较差,而随着二代测序技术的普及和三代测序价格的下降,生物体基因组测序拼接的成本显著降低,通过全基因组测序,人们可以较为精准地了解物种的基因组序列信息,这在很大程度上推动了SSR的快速发展[12]。

为了对小黑杨进行SSR序列识别和信息分析,本研究将首先利用二代测序技术对小黑杨基因组进行denovo测序,获得小黑杨基因组组装的初步结果,进而分析SSR序列信息,为今后利用SSR标记进行小黑杨品种划分、表型性状关联等奠定基础。由于小黑杨是由青杨派的小叶杨和黑杨派的小黑杨杂交而来,其基因组含有两种杨树派系的遗传信息,因而得到的SSR序列信息也可以用来进行青杨派和黑杨派杨树的遗传分析。同时,拼接得到的小黑杨基因组信息,也为今后小黑杨的研究提供了参考。

1 材料与方法

1.1 样品取材与基因组DNA提取

于2017年6月25日在黑龙江省哈尔滨市东北林业大学校园内选择一株长势良好、无病虫害的小黑杨,取其成熟叶片若干,存于液氮中备用。参考BioTeke新型快速植物基因组DNA提取试剂盒(BioTeke,DP3111)说明书进行小黑杨基因组DNA提取操作。将得到的gDNA送华大基因科技服务有限公司(武汉,中国),构建insert size约为250 bp的小片段文库,基于Illumina HiSeq X Ten平台,进行PE151测序。

1.2 数据质控

利用FastQC(v0.11.5)软件,对公司返回的去除了接头和引物序列的raw data进行测序质量统计。根据得到的结果,通过NGSQCtoolkit(v2.3.3)套件对原始数据进行过滤,同时使用FastUniq(v1.1)去除PCR重复[13],最终得到符合拼接要求的clean data。

1.3 基因组序列拼接

使用Edena(v3.131028)对小黑杨基因组进行初步组装,设定组装得到的contig长度不小于500 bp,同时对得到的contig序列进行统计[14]。选取长度不小于2 000 bp的contig与NCBI的Nt库(更新于2017年9月17日)进行Blastn比对,其中max_target_seqs设定为20,evalue为1e-5,相似性阈值设定为不小于60%,对比对到的物种进行统计分析。

1.4 SSR序列识别与分析

将Edena组装得到的小黑杨基因组进行过滤,保留长度大于等于2 000 bp的contig,用cd-hit去除冗余,再利用MIcroSAtellite identification tool(MISA)软件进行SSR序列的识别和统计。对SSR的限制条件设定为1个碱基重复不小于10次;2个碱基重复不小于6次;3个碱基重复不小于5次;4个碱基重复不小于5次;5个碱基重复不小于5次;6个碱基重复不小于5次。同时,两个微卫星之间距离小于100 bp时,2个微卫星组成1个复合微卫星。

1.5 计算资源

本研究计算平台为东北林业大学高性能计算机集群。

2 结果与分析

2.1 数据质控

FastQC对raw data的统计结果显示,华大基因实际交付的去除接头和引物的raw data信息采集大小为42.49 Gbp,reads长度150 bp,GC含量为40%,碱基整体质量较好,达到了合同要求。reads单碱基质量分布盒形图结果显示,reads前几个碱基质量较差,这可能是测序引物刚刚与reads结合,测序不稳定的结果;而reads后几个碱基质量也下降较快,这主要是随着reads的延伸,酶效率的下降,造成复制错误累积而造成的。而每个位点的碱基含量统计结果也显示,前几个碱基A与T,G与C含量并不相等,说明reads前几个碱基准确性较低。因此,在数据过滤时,我们截去了reads 5′端10个碱基和3′端5个碱基,进而以4个碱基为窗口,从5′端向3′端滑动,当平均质量小于15时,将其切除。由于在小黑杨DNA文库构建的过程中经过了PCR来提升DNA浓度,测序结果中会含有PCR重复,这对基因组的拼接并没有帮助,因此使用FastUniq将重复去掉。最终,我们得到了29.64 Gbp的clean data,reads长度135 bp,GC含量依然为40%。

2.2 基因组组装

前期的流式细胞仪检测和k-mer分析均显示,小黑杨基因组与毛果杨(Populustrichocarpa)相近,约为418 Mbp。即使是过滤后的clean data其测序深度也达到了70x,远高于一般的简化基因组和重测序,使其拼接结果可信度更高。根据小黑杨基因组小于500 Mbp,用于拼接的reads质量较好,且拼接结果主要用于SSR等分析的特点,因此选用Edena进行组装。Edena是一款基于overlaps-graph-based的denovo组装软件,其使用简便,运行速度快,无需输入插入片段长度和k-mer等参数,避免了对不同k-mer值的循环尝试,特别适合小基因组的初步组装。由于本研究主要是为SSR分析,且仅构建了一个小片段文库,因此在组装基因组时,直接将小于500 bp的contig忽略。经过拼接,最终得到了366 876条contig,总计大小为368.96 Mbp,其中最长的contig为49.87 Kbp,平均contig为1.01 Kbp,N50为1.05 Kbp,GC含量为37.09%。

为了检测gDNA提取时是否混有细菌等污染,同时对拼接结果进行初步分析,我们将contig长度不小于2 000 bp的22 634条序列与最新的Nt数据库进行比对。对所有的query物种注释信息进行统计。结果显示,比对注释到的物种共有240个,总计17 804次。其中注释得到最多的是毛果杨,共有12 010次成功比对,其次是胡杨(Populuseuphratica),有3 038次成功比对,而比对数最多的前10个物种的总注释数占全部注释物种次数的92.08%(表1)。从注释的结果看,小黑杨基因组与毛果杨高度相似,其次是胡杨,与其为黑杨派与青杨派的杂交种起源相符。

表1小黑杨基因组比对注释统计

Table1GenomealignmentsandannotationsstatisticsofPopulussimonii×P.nigra

物种名称Species name注释次数Number of annotations毛果杨Populus trichocarpa12010胡杨Populus euphratica3038葡萄Vitis vinifera387毛白杨Populus tomentosa202美洲黑杨Populus deltoides168核桃Juglans regia156巴西橡胶树Hevea brasiliensis136大叶钻天杨Populus balsamifera111蓖麻Ricinus communis96桃Prunus persica90

2.3 SSR序列的识别分析

由于小黑杨为青杨派与黑杨派的杂交种,因此具有较高的杂合度。这有可能导致在基因组组装的过程中,有的姐妹染色单体不能合并,造成组装结果偏大,序列可能存在冗余。同时,长度较短的contig可能是重复区域,且在引物设计上存在困难。因此,在进行SSR识别之前,最好先进行序列过滤,对非冗余的序列进行分析。利用cd-hit对长度不小于2 000 bp的contigs合并,得到21 788条非冗余contig,再利用MISA进行识别分析。结果显示,在10 969条含有SSR的contig中,共识别得到18 111条SSR。其中SSR数量较多的基序类型是一、二、三核苷酸重复,数量分别是13 207,2 960,1 644,依次占总SSR数目的72.92%,16.34%,9.08%。而五、六核苷酸重复类型所占比例较少,仅有53条和44条,分别占SSR总数的0.29%和0.24%(表2)。

表2小黑杨SSR序列信息

Table2InformationofSSRsequencesinPopulussimonii×P.nigra

SSR类型SSR type数量Number百分比Percentage(%)重复基序种类数Motif type number单核苷酸Mononucleotide1320772.924二核苷酸Dinucleotide296016.3412三核苷酸Trinucleotide16449.0857四核苷酸Tetranucleotide2031.1267五核苷酸Pentanucleotide530.2940六核苷酸Hexanucleotide440.2444

从得到的结果看,不同核苷酸基序种类及重复次数差异较大。在考虑到碱基互补配对原则的情况下,单核苷酸基序主要为A/T重复,且重复次数多为10~13次,而C/G基序出现频率较低;二核苷酸基序重复次数最多的是AG/CT,重复次数多在6与10之间;三核苷酸基序重复次数最多的为AAT/ATT,多数重复5~7次;四核苷酸重复次数最多的为AAAT/ATTT,其重复5次的共有68条;五、六核苷酸基序重复次数最多的分别是AAAAG/CTTTT与AAAAAT/ATTTTT。同时,根据SSR位点信息,利用Primer3批量设计了12 838对引物,供实验使用。由于篇幅原因,拼接组装得到的基因组文件,过滤后的去冗余contig序列文件及SSR位点详细信息与其统计文件及引物相关文件,均保存在http://www.wangsui.net.cn/resource/database/public/plant/Populus/xiaohei/survey/SSR/目录下,供下载。

3 讨论

以SSR为分子标记进行品种鉴定和多样性分析已经有二十余年的历史了,早期人们多使用通用引物在不同品种甚至不同物种中进行鉴定,引物特异性较差,常常合成的大多数引物不能很好地扩增目的序列;随着技术的进步,人们可以对一些片段的两端序列进行测定,EST-SSR开始兴起,但其序列信息也仅局限于cDNA两端的短片段;近年来,测序技术的突飞猛进,使得通过全基因组测序而获得大片段的物种基因组序列,进而根据序列信息筛选SSR成为可能。从本研究的结果来看,构建价格极低的小片段文库进行全基因组测序,拼接得到准确度较高的contig,再分析SSR信息,不仅可以得到更多的信息,准确性也大大提高。本研究提供的序列过滤,拼接,SSR识别及引物设计构成了一个较为完整的pipeline,使用方便,对计算资源的要求也不高,适合有条件的实验室依据自身平台在更多的物种上展开分析。

杨树是在全球广泛分布的重要经济树种,更作为木本模式植物,于2006年率先完成了全基因组测序[15]。杨树相关的研究因此得到了快速发展。然而,由于杨树派系众多,不同派系,不同品种的杨树之间基因组差异巨大,仅依据毛果杨(Populustrichocarpa)基因组序列进行分析,可能会存在一定偏差。本研究通过二代测序技术,对小黑杨基因组进行了初步组装,利用去冗余的contig序列进行SSR分析,设计引物并将全部信息公布在实验室网站。为今后小黑杨的品种划分、表型性状关联及基因组相关研究奠定基础,同时也为青杨或黑杨派杨树的遗传分析提供了一定的参考。

猜你喜欢

基序碱基核苷酸
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
带TRS基序突变的新型冠状病毒威胁更大
NaV1.5钠通道C末端IQ基序的重组质粒构建及蛋白制备
芥蓝Aux/IAA家族基因生物信息学与表达分析
应用思维进阶构建模型 例谈培养学生创造性思维
通过合成生物学可改造非豆科植物进行固氮(2020.8.8 iPlants)
中国科学家创建出新型糖基化酶碱基编辑器
Acknowledgment to reviewers—November 2018 to September 2019
生命“字母表”迎来新成员