泡桐高密度分子遗传图谱的构建
2019-09-05李文杨赵振利范国强
李文杨,王 娟,赵振利,范国强
(1.信阳农林学院 林学院,河南 信阳 464000;2.河南农业大学 泡桐研究所,河南 郑州 450002)
林木生长缓慢,世代周转慢,遗传杂合性高,绝大多数重要的林木经济性状为数量性状,生长发育易受到环境影响,多数性状的遗传控制机制还未了解[1],而分子标记技术的出现提高了植物遗传分析的准确性和有效性,对科学快速地鉴定林木种质资源及遗传多态性、遗传图谱的构建、目标性状连锁标记等相关研究具有重要意义。分子标记以 DNA 多态性作为遗传标记基础,反映 DNA 水平上的遗传变异,目前已经发展到第3代基于单个碱基差异的分子标记技术,主要是单核苷酸多态性(Single nucleotide polymorphism,SNP)的标记[2]。简化基因组测序技术中的限制性酶切位点相关 DNA 测序(Restriction-site associated DNA sequencing,RAD),是利用限制性内切酶对基因组进行酶切,并对酶切后产生的 RAD 标记进行高通量测序。由于 RAD 标记是全基因组范围的呈现特异性酶切位点附近的小片段 DNA 标签,代表了整个基因组的序列特征,因此通过对RAD标记测序能够在大多数生物中获得成千上万的 SNP 标记,该技术具有操作简单、不受基因组的限制、实验成本较低等多个优点,已广泛应用于植物和动物的遗传学和基因组学研究中[3-5]。
遗传图谱的构建是林木分子育种研究的重要内容,以分子标记为基础构建遗传图谱,是最直接快速获取植物基因组和遗传变异信息的方法。目前杨树Populus alba、桉树Eucalyptus、落叶松Larix kaempferi、柳树Salix viminalis等有较高经济价值的林木种质资源相继构建了自己的遗传图谱[6-9]。泡桐Paulownia隶属于玄参科Scrophulariaceae泡桐属Paulownia,落叶乔木,原产自中国,已有 2 000 多年的栽培史,目前已广泛分布于世界各地。泡桐是重要的速生用材和园林绿化树种,而且因其材质轻、易加工、纹理美观还被广泛用于建筑、家具及工艺品的制作。目前关于泡桐的研究大多集中在新品种培育、抗逆性等方面[10-13],而分子遗传基础和发育进化方面的研究却相对较少,尤其泡桐遗传连锁图谱国内外还未见报道。本研究利用 RAD-seq 简化基因组测序技术,获取丰富的 SNP标记,构建泡桐的高密度遗传连锁图谱,为泡桐比较基因组学研究、分子标记辅助育种和从分子水平上探究泡桐属植物生长、发育、遗传系统进化等提供研究基础。
1 材料与方法
1.1 试验材料
采用的试验材料来自河南农业大学泡桐试验基地,选用两种杂交组合:母本毛泡桐Paulownia tomentosa(P1_M2_RA)和父本白花泡桐Paulownia fortunei(P2_B2_RA)杂交,母本白花泡桐(BF1A)和父本毛泡桐 (BM2A)杂交,规定毛泡桐×白花泡桐为正交。选用4个亲本以及正反交获得的子一代(F1)群体(正交F1代91株,反交F1代90株)中挑选181株子代个体作为作图群体。
1.2 试验方法
1.2.1 DNA的提取
采摘泡桐4个亲本和 181 个子代个体的新鲜叶片,提取每个样品总 DNA ,提取方法参照 Paterson 等的 CTAB 法[14]。
1.2.2 RAD文库构建及测序
用限制性内切酶EcoR1消化样品基因组 DNA,并在酶切片段两端加 Solexa 接头 P1 Adapter(P1 接头包含4 个部分:与 PCR 扩增的前引物结合的互补序列;与 Illumina 测序引物结合的互补序列;用来对样品进行跟踪的 4~5 bp 的 Barcode;相应的限制酶切位点),对连接 P1 接头的DNA 片段进行 pooling,并随机打断,收集长度在350~550 bp之间的片段;在回收片段两端加P2 接头。P2 接头为分叉的 Y 型接头,可阻止未连接P1 接头的片段扩增;选择连接了P1接头的 RAD tag进行扩增;1.5%的琼脂糖凝胶电泳,纯化回收350~550 bp DNA后,并稀释到1 nmol用于测序,构建好的185个样品(4个亲本和181个子代)的RAD测序文库产量和质量检测合格(所有样品的测序数据碱基质量值通过Q20和Q30检测)后,利用Illumina Hiseq2000测序平台进行混合测序,采用pair-end双端测序,确定样本中亲本平均的测序深度为10X,F1代样品平均测序深度为0.8-1X,测序长度为100 bp。
1.3 数据分析
RAD 数据分析参考陈祥平等[15]的方法。先将所有样本混合测序的数据按 MID barcode 分离开;再对原始数据进行质量控制(Quality control,QC);接着进行 SNP 位点的识别(SNP Calling)和对 SNP 标记进行基因型分型(Genotyping),在本阶段分析中获得亲本所有可能的 SNP 位点,再将子代的 SNP 位点与亲本的位点进行比对,如果匹配则保留该个体此位点的 SNP 信息。从亲本中确定得到的 SNP 应满足测序深度(depth)≥8 且≤200 以及质量值Q≥20 的条件。
使用 Rainbow 2.02[16]对亲本 RAD 数据进行拼接,去除小于200 bp的拼接contig,SOAP2.02[17]把亲本的RAD reads定位到contig 上,并用 SOAPsnp进行 SNP的筛选,过滤掉测序深度(depth)大 于200的 序 列。用 Stacks version 0.999 8软件对作图群体进行基因型分析[18]。群体 genotype 的过滤条件为:1)得到的标记符合卡方检验(P<0.01);2)缺失率少于 20%;3)2个亲本的基因型具有多态性,并且都是纯合基因型。
1.4 连锁分析与图谱构建
统计经X2检验(P<0.01)后在子代中符合孟德尔遗传定律分离的SNP位点数,去除其中相似的位点(100 bp坐标内只保留一个位点),最后得到的标记用于作图,做两点连锁分析,计算两两标记之间的重组率和LOD(Logarithm of odds)值,根据不同的LOD值进行聚类分析,构建连锁群,LOD值的选择以获得重组的连锁群符合泡桐染色体数目为准,作图函数为Kosambi,算法为回归算法[19]。采用 Joinmap version 4.0软件,在 PC 计算机上进行泡桐遗传图谱的构建。
1.5 基因组长度估计和图谱覆盖度估计
遗传图谱构建完成后,对各个连锁群的遗传数据进行统计,统计的参数有标记数、每个连锁群的长度、标记间最大和最小图距及标记间平均距离等。根据Chakravarti 等[20]和Postlethwait 等[21]提出的方法估算基因组长度,其平均值作为图谱预期长度(Ge)。利用公式估算图谱的基因组覆盖度:图谱的基因覆盖度(Cof)=图谱观测长度(Goa)/图谱期望长度(Ge)。
2 结果与分析
2.1 RAD 测序及初始数据过滤
原始数据为 219.14 Gb,经过数据过滤后共产出有效数据201.343 Gb。185 个样品的测序质量较高,Q20≥96.49%,GC含量正常。其中,亲本平均 reads 数为 26.405 M,子代的平均 reads 数为12.23 M。将所有过滤后所得的RAD tag利用SOAP2软件与参考序列进行序列比对,并统计比对信息,结果发现:亲本白花泡桐分别有14 630 584条和21 333 202条双末端RADtags比对到基因组,3 183 020条和5 612 901条单末端RADtags被比对到参考基因组,总共有81%和74.82%的reads比对到参考基因组序列上;亲本毛泡桐分别有11 149 680条和16 259 650条双末端RADtags以及3 679 989条和3 734 350条单末端RADtags比对到基因组,总共有69%及75.02%的reads比对到白花泡桐参考基因组上;在181个子代中,RADtags比对到基因组的比对率都在72%以上,最高比对率为82.94%。
2.2 个体SNP检测及基因分型
测序得到原始数据拆分过滤后,对泡桐双亲和子代的测序序列进行聚类比对分析,获得了每个单株的标记开发结果,其中在P1_M2_RA中开发出126 974个SNP,其中纯合SNP有101 262个,纯合率为79.75%;在P2_B2_RA中开发出117 277个SNP,其中纯合SNP有54 036个,纯合率为53.92%;在BF1A中开发出273 173个SNP,其中纯合SNP有85 011个,纯合率为68.88%;在BM2A中开发出195 414个SNP,其中纯合SNP有65 688个,纯合率为33.61%;F1代SNP纯合率平均值为47.64%,SNP杂合率平均值为52.36%。利用一致性序列,按照过滤条件(如碱基的质量值大于等于 20、SNPs之间至少5 bp间隔、测序深度大于等于6、拷贝数小于等于 1.5),将与参考序列比对的多态性位点条挑选出来,得到各个样品的SNP信息,再将所有个体的SNP整合在一起,得到整个群体高质量的基因型,共551 894个多态SNP位点,最后对群体基因型进行过滤,获得 5 015 个分离位点。
2.3 遗传连锁图谱的构建
5 015个标记位点中去除相似的位点(100 bp坐标内只保留一个位点),最后得到3 785个标记位点,使用 joinmap 4.0构建遗传图谱,并手动去除了相似标记,最后保留3 545个标记用于作图,作图群体个体数为178个,以LOD 等于13到20指标进行聚类分析,所有标记位点划分为20个连锁群(部分染色体连锁遗传图见图1),图谱总长度为2 050.77 cM。
以连锁群为单位,利用Joinmap version 4.0软件获得连锁群内标记的线性排列,多点分析估算相邻标记间的遗传距离。由表1可以看出,各个连锁群的两点标记间的平均距离变化范围是0.39~1.55 cM,连锁图的平均图距为0.58 cM。各个连锁群上标记数目变化范围是87~282个SNP,其中标记数量最多的连锁群是LG1,标记数量最少的连锁群是LG20,20个连锁群中标记密度最大的是2.57个SNP/cM,位于LG1上。在形成的 20个连锁群上连锁位点覆盖的遗传距离从 67.89 cM 至 134.49 cM,平均为 102.54 cM,连锁群最长的是LG20,最短的是LG19。每一连锁群上含有的 SNP连锁标记数从最少 87个到最多 282 个。标记间平均间距最大的连锁群为LG18,平均间距为1.50 cM。从构建的2个亲本遗传图谱连锁群的数量来看,F1代连锁图包含了20个连锁群。
2.4 基因组长度的估计和图谱覆盖度的估计
图1 部分泡桐染色体连锁遗传图Fig.1 Genetic linkage map of Paulownia chromosome
图谱标记数量和 LOD 值的选取将共同影响基因组大小的估计。本研究得到的遗传图谱的实际长度为2 050.77 cM;采用 Postlethwait 等人[21]提出的方法计算得到的泡桐遗传连锁图谱预期长度为2 051.93 cM;根据 Chakravarti等人[20]提出的方法计算得到的泡桐遗传连锁图谱预期长度为2 076.64 cM。2种算法取平均值后最终得到的泡桐遗传连锁图谱预期长度为 2 064.29 cM,图谱覆盖度为 99.35%。
3 讨论与结论
在利用分子标记构建连锁图谱时,作图群体的选择很重要。林木生长周期长而且生产上多采用无性繁殖,所以泡桐的作图群体的选择不能像农作物作图中常用的近交系和高世代材料,而且泡桐的基因组比较大,重复的序列较多,大大限制了泡桐连锁图谱的研究发展。我国的泡桐遗传育种研究多围绕着毛泡桐×白花泡桐(简称毛×白)的杂交育种进行的,先后选育出了20多个优良毛×白F1 无性系,但对杂交亲本及F1无性系的遗传学基础研究很少。叶金山等[22-23]发现毛×白正反交具有同等重要的杂交育种意义,毛×白正反交F1 无性系在树高、胸径、材积等性状的遗传变异各方面表现完全相同或无显著差异,并且毛×白正反交 F1无性系自然接干性状的遗传变异表现完全相同或无显著差异。本研究选用毛泡桐和白花泡桐正反交作为亲本及杂交F1代建立作图群体,为探索毛×白正反交 F1 杂种优势的形成奠定遗传学基础。
表1 泡桐连锁遗传图谱统计Table 1 Genetic linkage map of Paulownia
泡桐为异花授粉植物,易杂交,不同的杂交组合后代表现出丰富的变异,有利于杂种优势良种。利用传统的分子标记技术可以推测出物种的杂合度,但由于标记覆盖率低,得到的结果缺乏实际的应用价值[24]。RAD测序结合SNP标记开发技术能够全面揭示泡桐的杂合特性,从而更加有效地利用杂种优势。本研究通过对泡桐每个样品进行SNP比对,发现白花泡桐SNP纯合率均低于毛泡桐,SNP杂合率均高于毛泡桐,4个亲本的SNP纯合率平均值为56.67%,SNP杂合率平均值为43.33%;F1代SNP纯合率平均值为47.64%,SNP杂合率平均值为52.36%,说明以白花泡桐和毛泡桐为亲本的杂交配合力较高,子代重组率多由白花泡桐贡献,杂交子代群体中杂合基因型较多。这与我国林木育种专家研究发现毛泡桐×白花泡桐的子代具有明显的杂种优势的结果一致,如毛白33的苗高和地径分别比母本大21.3% ~72.7%和14.3%~ 69.0%,比父本分别大4.9%~49.1%和0~ 41.3%[25];陕桐3号和陕桐4号具有速生、材质好、抗性强等优点[26]。
通常遗传连锁框架图基本要求标记间平均距离在 20 cM左右;若要进行基因定位,则要求标记的平均间隔在 10~20 cM 之间或更小;若要用于 QTL 定位,其平均距离须在 10 cM 以下。王源秀等[27]利用 SSR 和 SRAP分子标记技术构建的响叶杨×银白杨遗传图谱中估算杨树基因组总长度为2 695.56 cM,图谱的基因组覆盖度为93.34%。王磊等[28]以 ‘红茄梨’和 ‘晚秀梨’杂交 F1 代中已结果的 81 株单株为试材,构建了包含 187个 SSR 标记,分布在 18 个连锁群上的遗传连锁图谱,图谱总长为 964.82 cM,标记平均间距为 5.16 cM。林艳等[29]构建的加勒比松遗传图谱共包含199个标记,总长度为1 734 cM,标记平均间距10.6 cM。刘列钊等[30]构建的甘蓝型油菜高密度 SNP 遗传图谱中用于 QTL 分析的图谱包括 2 756 个 SNP 位点,覆盖甘蓝型油菜基因组 1 832.4 cM,标记之间平均距离为 0.66 cM。刘凯等[31]构建的该图谱覆盖小麦21条染色体,有6 244个标记,其中SNP标记 6 001 个,DArT 标记 216 个,SSR 标记 27 个;染色体总长度为 4 895.29 cM,两标记间平均距离为0.78 cM。本研究利用RAD测序技术,从毛泡桐和白花泡桐及杂种 F1 181个子代群体中筛选出551 894个多态SNP位点,构建了一张包含 3 545个标记的泡桐高密度遗传连锁图谱,所有标记分布于20个连锁群,符合泡桐单倍体的染色体数目(n=20),图谱总长度为2 050.77 cM,标记间平均距离为 0.58 cM,图谱对泡桐基因组的覆盖度达到99.35%。与前人研究的木本植物还是农作物的遗传图谱相比,作图群体数量和使用的标记数量都更丰富,构建的遗传图谱更精密。
泡桐是我国特有的重要经济林树种,在我国林木遗传育种研究中占有重要地位,本研究构建的泡桐高密度遗传图谱,为今后进行泡桐基因组学、分子标记辅助育种等研究提供了一个好的平台。但是,本研究中SNP分子标记能否与泡桐的性状关联,能否通过某一遗传标记性状的遗传规律来验证构建的遗传图谱,还需要进一步开展目的性状相关基因的定位,采用构建载体和基因导入等技术手段,为泡桐种质创制与新品种培育提供理论依据。