甘薯近缘野生种Ipomoea Littoralis全基因组Survey分析
2019-12-14霍恺森曹清河王珧陈艳丽朱国鹏
霍恺森 曹清河 王珧 陈艳丽 朱国鹏
摘 要Ipomoea littoralis是甘薯的近缘野生种之一,对其全基因组的研究可为甘薯种质资源的创新提供参考,同时为全基因组精细图谱的绘制打下基础。本研究通过二代高通量测序技术(Illumina Hiseq 2500),测序深度约为60?,经过滤后得到22.45 G数据,结合生物信息学手段估算基因组大小、杂合率、重复序列和GC含量等基因组特征。预估基因组大小经修正后為676.27 Mb。K-mer分析结果得出I.littoralis基因组中重复序列所占比率为60.98%,杂合率为0.81%;初步组装结果,contigs N50为0.684 kb,总读长为0.538 Gb,scaffolds N50为12.09 kb,总读长为0.602 Gb;GC平均深度及含量分布出现分层现象。本研究首次报道I.littoralis的基因组特征信息,为进一步全基因组深度测序提供参考。
关键词 甘薯;基因组调查;Ipomoea littoralis;种质资源中图分类号 S531 文献标识码 A
Genome Survey Analysis of Relative Wild Species Ipomoea Littoralis in Sweetpotato
HUO Kaisen1,2, CAO Qinghe2, WAND Yao1, CHEN Yanli1*,ZHU Guopeng1
1. College of Horticulture, Hainan University, Haikou, Hainan 570228, China; 2. Xuzhou Institute of Agriculture, Xuzhou, Jiangsu 221131, China
Abstract Ipomoea littoralisis one of the wild relatives of sweet potato. Its genome-wide research can provide reference for the innovation of sweet potato germplasm resources and for the mapping of the whole genome.This study used a second-generation high-throughput sequencing technology (Illumina Hiseq 2500) with a sequencing depth of approximately 60? and filtered to obtain 22.45 G data. Bioinformatics was used to estimate genome size, heterozygosity, repeat sequence and GC. The predicted genome size was 676.27 Mb. The K-mer analysis showed that the ratio of repeats was 60.98%, and the heterozygosity rate was 0.81%. The contigs N50 was 684 kb after preliminary assembly. The total reading length was 0.538 Gb, scaffolds N50 was 12.09 kb, and the total reading length was 0.602 Gb. The average depth and content distribution of GC were stratified.
Keywords sweet photo; genome survey;Ipomoea littoralis; germplasm resources
DOI10.3969/j.issn.1000-2561.2019.10.012
甘薯[Ipomoea batatas(L.) Lam]是旋花科(Convolvulaceae)甘薯属(Ipomoea)植物,在亚、非、拉美等热带及亚热带地区广为栽培,是一种重要的粮食、蔬菜、工业原料作物及新型能源作物[1]。而Ipomoea littoralis作为甘薯的近缘野生种之一,可能携带大量的优异基因,对甘薯种质资源的创新具有重要意义。植物的基因组反应了生物的全部的、特定的遗传信息,从根本上决定了遗传物质的传递。基因组含量又称为C值,是指一个物种单倍体核的DNA含量[2]。同一物种的基因组含量是稳定的, 也是各个物种固有的特征参数[3]。相对于缺乏基因组数据的非模式资源植物来看,基因组特征的研究是分子机理研究和植物基因资源开发的前提[4]。在对基因组大小的检测技术从复性动力学估算法[5],到脉冲凝胶电泳法[6],到流式细胞法[7],再到现在的高通量测序K-mer估计法[8]。随着测序成本的降低,令越来越的植物的基因组测序成为可能,目前主要的平台包括Roche 454,ABI SOLiD以及Illumina HiSeq 2500等,近年来Illumina HiSeq 2500凭借较低的成本已应用于多个物种的测序工作[9]。目前,在番薯属中已知三裂叶薯(Ipomoeatriloba)、三浅裂野牵牛(Ipomoea trifida)、甘薯(Ipomoea batatas)、马鞍藤[Ipomoea pes-caprae(L.)]以及日本牵牛(Ipomoea nil)的基因组大小信息,而对于I.littoralis基因组信息未见报道。本研究通过高通量测序技术(Illumina HiSeq 2500),结合K-mer分析法,对I.littoralis的基因组大小及其特征进行评估,填补I.littoralis基因组信息的空白。为后续全基因组的测序策略以及精细基因图谱的绘制打下基础,同时也为近源野生种的基因资源利用提供参考。
1 材料与方法
1.1材料
实验材料I.littoralis(2n=2x=30)由国家种质徐州甘薯试管苗库提供,采集栽种后植株的幼嫩叶片,液氮速冻后超低溫冰箱保存。
1.2方法
1.2.1 基因组DNA的提取及检测 采用改良CTAB法提取I.littoralis叶片基因组DNA(参照苏一钧等[10]),通过紫外分光光度计(NanoDrop)和1%琼脂糖凝胶电泳检测基因组DNA质量。
1.2.2 文库构建及测序 将检测合格的DNA样品,通过超声波破碎仪(Covaris)随机打断成长度为250 bp的片段,后经末端修复、加A尾、加测序接头、纯化、PCR扩增等步骤完成整个文库制备。将构建好的文库委托北京诺禾致源科技股份有限公司,通过Illumina Hiseq 2500平台进行PE测序,将得到数据结果进行过滤,去除低质量的序列获得有效数据用于后续基因组大小及其他基因组特征的分析。
1.2.3 K-mer统计分析 在得到测序后的有效数据后,基于K-mer分析法对基因组的大小、杂合率、重复序列及GC含量等信息进行预估。采用K值为17[11]进行估算分析,通过对数据进行17 nt的连续分割,假设从每条序列中逐碱基取出的所有K-mer能够遍历整个基因组,并且K-mer深度频率分布服从泊松分布。即可通过所有测序数据中逐碱基取K-mer,并且统计K-mer频数分布,作出K-mer深度分布曲线和深度乘积曲线,从而获得 K-mer深度估计值。利用公式:基因组大小=K-mer总数/K-mer期望深度预估基因组大小。
基于贝叶斯模型和K-mer所有的频率数和深度属性,可以得到并且通过迭代来修正,由此反映基因组的杂合率和重复序列的情况。
1.2.4 基因组初步组装 将所有小片段库测序得到的reads截断成更小的序列片段,通过他们之间的重叠关系构建de Brujin图;简化de Brujin图去掉无法继续连接的分支、低覆盖度的分支,并且利用reads信息化简重复序列在de Brujin 图的分叉通路,对于少量的杂合位点,采用随机选择策略,合并杂合位点;得到一个简化后的de Brujin图,在每个分叉位点将序列截断,得到了最初的contigs。将所有文库测序得到的reads比对回初步得到的contigs,利用reads之间的连接关系和插入片段大小信息,将contigs组装成scaffolds。将有效数据与原始序列进行对比,获得碱基深度后,以10 kb为窗口,在序列上无重复前进,从而绘制GC depth点图。
2 结果与分析
2.1测序数据统计及K-mer分析预测基因组特征
通过Illumina Hiseq 2500高通量测序平台对I.littoralis进行测序后,在去除低质量的数据后,得到22.45 G,测序覆盖度为59.87 ?,有效数据用于后续分析及初步组装。
将22.45 G测序数据用于K-mer分析,K值取17,获得其频率分布(图1)。如图1A,将17-mer的深度作为横坐标,将出现的频率作为纵坐标;如图1B,将17-mer深度作为横坐标,将各个深度下K-mer种类数频率作为纵坐标。如图1所示17-mer分布曲线在深度为39附近有一处纯合峰,即对应横坐标为K-mer期望深度。
通过公式:基因组大小=K-mer总数/K-mer期望深度,得出其基因组大小为683.94 Mb,经修正后为676.27 Mb。17-mer分布曲线出现较为明显的拖尾现象。由数学计算可得,Ipomoea Littoralis杂合率为0.81%,重复序列比例为60.98%。
2.2基因组数据初步组装结果
通过SOAP-denovo软件对有效数据进行denovo组装,选取K=41得到最佳拼接效果,即N50值最恰当(N50为将reads按照从长到短排列后依次相加,当为总长度一半时最后加上的reads长度)[5]。组装结果如表1所示,获得contigs N50为732 bp,其中最大长度为31 860 bp,总长为466 199 686 bp;经过进一步组装后得到Scaffold N50为501 226 bp,最大长度为53 296 bp,总长为521 635 265 bp。如图2所示,I.littoralis的Contig分布具有1个明显的峰值,结合17-mer的结果,通过分析判断出I.littoralis是峰值在27左右的纯合峰。
注:在上述统计结果中,只对大于100 bp的scaffold进行统计;contig统计是针对组装好的长度大于等于100 bp的scaffold内部的contig 进行的统计。
Note: In the above statistical results, only the scaffold larger than 100 bp is counted; the contig statistic is the statistics of the contig inside the scaffold assembled with a length of 100 bp or more.
2.3GC含量及深度分析
通过基因组中碱基组成,鸟嘌呤(G)、腺嘌呤(A)、胞嘧啶(C)、胸腺嘧啶(T)的相对含量,在全基因组尺度上一般用GC含量(GC-content)表示[12]。
对经过组装的Contig进行GC含量的统计,结果如图3所示,测序不具有明显的GC偏向,未出现细菌污染的情况,GC含量分布主要集中在40%。其中I.littoralis的GC含量分为低深度区域和高深度区域两个部分,其中低深度区域约为高深度区域的一半。这可能由于在组装过程中,过高的杂合率导致两条同源染色体单条组装,导致GC含量出现异常。
2.4基因组大小与其他番薯属植物比较
甘薯(I. batatas)基因组预估值为1.58 Gb[13];三浅裂野牵牛(I. trifida)基因组预估值为526.4 Mb,三裂叶薯(I. triloba)基因组预估值为495.9 Mb[14],马鞍藤[I. pes-caprae(L.)]基因组预估值为1041.65 Mb[15]。本研究预估I.littoralis基因组大小修正后约为676.27 Mb。其中,甘薯基因组大小较大,这可能是由于栽培种甘薯为遗传背景复杂所导致。而I.littoralis基因组大小略大于三浅裂野牵牛和三裂叶薯;有学者认为,物种的进化包括了DNA含量的增加与减少,强调指出物种进化与DNA含量的关系是复杂的[16]。此外,也有资料明确表示,在相近物种中,进化的物种基因组出现压缩是自然界常观察到的现象[17]。Price等[18]认为的在一个种内不同亚种或品种间核DNA值存在不一致的情况,这也为甘薯的物种亲缘远近关系的研究提供了新的思路。
A:Contig 覆盖深度和长度分布图;B:Contig 覆盖深度和数量分布图。
A: Contig coverage depth and length profile figure; B: Contigcoverage depth and quantity distribution.
3 讨论
基因组大小又称DNA C值,是比较和进化基因组学的基础,通过不同物种基因组大小的比较与分析,对基因组大小的变化规律具有参考意义。C值大小与染色体体积呈正相关。C值越小则染色体体积越小,细胞核与细胞体积就越小,细胞增殖时间也相对变短,分生组织生长速度便会加快,幼苗生长速度快,竞争能力增强,世代时间有可能缩短,呈现不同的生活周期类型的可能性增大,生态适应性增大,也就是植物的入侵性越强[19]。也有一些研究表明,通过比较濒危植物和其非濒危的近亲之间的基因组大小的关系发现,基因组越大的物种,其濒危程度越高[20]。由此推测,I.littoralis可能具有较强的适应能力。
流式细胞术是目前应用较为广泛的基因组大小测定方法,在毛竹(Phyllostachys edulis)[21] 、五节芒(Miscanthus floridulus)[22]等植物中都有应用。随着高通量测序技术的发展,为基因组评估与测定提供了更快捷的方法。曹清河等[23]应用二代测序与三代测序相结合的方式完成了Ipomoea trifida的全基因组测序,并完成了精细基因图谱的绘制。本文采用的二代测序Illumina HiSeq 2500平台,通过K-mer分析法根据全基因组测序片段的K-mer深度分布预估该物种基因组大小、杂合率、GC含量等信息。相比传统的流式细胞术测定基因组大小,高通量测序的方法可获得更全面准确的基因组信息,进一步了解杂合率、GC含量等基因组信息。
I.littoralisGC含量在30%~47%。而研究表明过高(>65%)或者过低(<25%)的GC含量会造成高通量测序时的测序偏差错误,甚至影响拼接数据的准确性[24]。通过基因组survey分析有利于选取适合的基因拼接方式,根據杂合率的大小可将基因组分为微杂合基因组(0.5%≤杂合率<0.8%)、高杂合基因组(杂合率≥0.8%)以及高重复基因组(重复序列比例≥50%)[25],过高的杂合率将会拼接质量产生影响。本研究中I.littoralis的杂合率高达0.81%,属于高杂合基因组。因此,在组装过程中可考虑使用WGS(whole-genome shotgun)+Bac-to-Bac和NOVOheter的策略。
参考文献
[1] 曹清河, 李雪华, 戴习彬, 等. PEG-6000 模拟干旱胁迫对甘薯近缘野生种Ipomoea trifida (Kunth) G. Don 幼苗生理生化指标的影响[J]. 西南农业学报, 2016, 29(11):2536-2541.
[2] 李蔚, 刘莉莎, 李仁, 等. 十字花科蔬菜基因组含量的测定与分析[J]. 植物遗传资源学报, 2011, 12(1):103-106.
[3] 杨勇, 陈克成, 孙天恩. 对几种百合科植物基因组大小的评价[J]. 武汉植物学研究, 1996, 14(3): 199-203.
[4] 王雪, 周佳熠, 孙会改, 等. 新疆沙冬青基因组调查测序与基因组大小预测[J]. 植物遗传资源学报, 2018, 19(1):143-149.
[5] Frenkel N, Roizman B. Herpes vimplex virus: genome sizeand redundancy studied by renaturation kinetics[J]. Journalof Virology, 1971, 8(4): 591-593.
[6] Chen H, Keseler I M, Shimkets L J. Genome size of Myxococcusxanthus determined by pulsed-field gel electrophoresis[J]. Journal of Bacteriology, 1990, 172: 4206-4213.
[7] De Vita R, Cavallo D, Eleuteri P, et al. Flow cytometricapproach to study genome size variation in eurasiatic greentoadsof the Bufo viridis complex[J]. European Journal ofHistochemistry, 1997, 41(s2): 175-176.
[8] Chen W, Hasegawa D, Arumuganathan K, et al. Estimationof the whitefly Bemisia tabaci genome size based on k-merand flow cytometric analyses[J]. Insects, 2015, 6(3):704-715.
[9] Shangguan L, Han J, Kayesh E, et al. Evaluation of genomesequencing quality in selected plant species using expressedsequence tags[J]. PLoS One, 2013, 8(7): e69890.
[10] 苏一钧, 王娇, 戴习彬, 等. 303 份甘薯地方种SSR 遗传多样性与群体结构分析[J]. 植物遗传资源学报, 2018,19(2): 243-251.
[11] Huang S S, Li R Q, Zhang Z H, et al. The genome of thecu-cumber, Cucumis sativus L[J]. Nature Genetics, 2009,41(12): 1275-1281.
[12] 黄族豪, 杨承忠. 动物线粒体基因组GC 含量分析[J]. 四川动物, 2015, 34(1): 107-110.
[13] Srisuwan S, Sihachakr D, Martín J, et al. Change in nuclearDNA content and pollen size with polyploidisation in thesweet potato (Ipomoea batatas, Convolvulaceae) complex[J].Plant Biology, 2019, 21(2): 237-247.
[14] Michigan State University. Sweetpotato genomics resource[EB/OL]. (2016-06-13) [2019-04-12]. http:// sweetpotato.plantbiology.msu.edu/.
[15] 霍恺森, 赵冬兰, 陈艳丽, 等. 甘薯属耐盐植物马鞍藤基因组大小及特征分析[J]. 植物遗传资源学报, 2019, 20(3):728-735.
[16] 杜波, 王丁, 张先锋, 等. 长江江豚基因组大小测定[J]. 动物学报, 2006, 52(4): 731-737.
[17] 王如平, 刘伟, 曹祥荣. 毛冠鹿基因组大小的研究[J].扬州大学学报(农业与生命科学版), 2008, 29(4): 23-25.
[18] Price H J, Chambers K L, Bachmann K. Geographical andeco-logical distribution of genomic DNA content variation inmicroseris douglasii (Asteraceae) [J]. Botanical Gazette,1981, 142(3): 415-420.
[19] 郭水良, 陈国奇, 毛俐慧. DNA C-值与被子植物入侵性关系的数据统计分析——以中国境内有分布的539 种被子植物为例[J]. 生态学报, 2008, 28(8): 3698-3705.
[20] Vinogradov A E. Selfish DNA is maladaptive: evidencefrom the plant Red List[J]. Trends in Genetics, 2003, 19(11):609-614.
[21] 李潞滨, 武静宇, 胡陶等. 毛竹基因组大小测定[J]. 植物学通报, 2008, 25(5): 574-578.
[22] 邓果特, 刘清波, 蒋建雄, 等. 五节芒基因组大小测定[J].植物遗传资源学报, 2013, 14(2): 339-341, 346.
[23] Wu S, Kin H L, Cao Q H, et al. Genome sequences of two diploidwild relatives of cultivated sweetpotato reveal targets forgenetic improvement[J]. Nature Communications, 2018, 9(1):4580..
[24] Aird D, Ross M G, Chen W S, et al. Analyzing and minimizingPCR amplification bias in Illumina sequencing libraries[J]. Genome Biology, 2011, 12(2): R18.
[25] 伍艷芳, 肖复明, 徐海宁, 等. 樟树全基因组调查[J]. 植物遗传资源学报, 2014, 15(1): 149-152.