甘蓝SNP标记开发及主要品种的DNA指纹图谱构建
2018-07-25李志远于海龙方智远杨丽梅刘玉梅庄木吕红豪张扬勇
李志远,于海龙,方智远,杨丽梅,刘玉梅,庄木,吕红豪,张扬勇
(中国农业科学院蔬菜花卉研究所,北京 100081)
0 引言
【研究意义】结球甘蓝(Brassica oleraceaL. var.capitata)简称甘蓝,在中国各地广泛栽培。截止至2015年,中国审(鉴、认)定或登记的甘蓝品种共计 247个[1-5],其中大部分为一代杂种。近年来,市场上的甘蓝品种不断增多,种植面积不断增大。但是,在种子市场上同名异物及同物异名的情况时有发生,甚至一些不合格种子混入市场,造成巨大的经济损失。因此,对品种进行快速准确鉴定,对于假种辨别和产权纠纷具有重要作用。【前人研究进展】早期的品种鉴定手段主要依赖于形态学鉴定,这种方法耗时较长且易受环境影响。随着分子生物学的发展,分子标记技术的出现为品种鉴定提供了新的手段。分子标记技术具有周期短、不受环境条件影响、可进行高通量测试分析等优点,已经在品种鉴定、种子纯度鉴定等方面得到广泛应用[6-7]。随着生物技术的进步,陆续有基于RFLP、AFLP、SSR、SNP等分子标记用于DNA指纹图谱的构建。其中,SNP分子标记是国际植物新品种权保护联盟(UPOV)BMT分子测试指南中构建DNA指纹数据库的推荐标记之一[8]。相对于传统标记,利用SNP标记构建的指纹图谱具有数量多、分布广泛、稳定性高、易于快速且高通量分型的特点[9-10]。分子标记技术在甘蓝品种指纹图谱构建中得到了广泛的应用,薄天岳等[11]通过SRAP、RAPD 2种分子标记方法,构建了甘蓝品种‘争春’、 ‘寒光2号’及其各自亲本的DNA指纹图谱,并将其用于种子纯度鉴定。宋顺华等[12]利用AFLP标记对来自全国的44份甘蓝品种进行分析,并构建了其指纹图谱。陈琛等[13]利用5对SSR标记构建了6个秋甘蓝品种及其亲本共18份材料的指纹图谱。王庆彪等[5]利用20对SSR标记构建50份中国甘蓝代表品种DNA指纹数据库并阐述了甘蓝SSR-DNA指纹鉴定的应用和技术流程。【本研究切入点】目前,甘蓝品种鉴定中常用的指纹图谱是基于AFLP、SSR等分子标记。但是,传统AFLP、SSR指纹图谱存在标记数量有限、检测位点少,位点的突变率高、对变异反应比较敏感等缺点。SNP标记作为第三代分子标记,具有数量多、分布广泛、二态性、易于快速且高通量的进行基因分型等优点。SNP标记已经在玉米[14]、油菜[15]、香菇[16]等作物指纹图谱构建中得到应用,但在甘蓝类蔬菜中尚未有基于 SNP标记的指纹图谱。【拟解决的关键问题】本研究基于甘蓝高代自交系的重测序数据开发SNP标记,利用KASP技术对主要甘蓝品种进行基因分型[17],根据分型结果筛选筛选在染色体上均匀分布、多态性信息较高的SNP位点作为核心标记,并利用核心SNP标记构建甘蓝品种指纹图谱,为甘蓝品种真实性、特异性鉴定提供重要依据。
1 材料与方法
1.1 供试材料
试验于2016年12月至2017年5月在中国农业科学院蔬菜花卉研究所甘蓝遗传育种实验室进行。
指纹图谱构建:从国内主要育种单位搜集(鉴定、登记)市场上推广的主要代表品种59个(电子附表1)。
核心SNP标记验证:在上述59个主要甘蓝品种中挑选15个已推广的品种,及5个未推广的新组合。每个品种或组合取3粒种子,将种子混合构成人工虚拟混合群体。
1.2 DNA提取
将59个主要代表品种的种子放于培养皿中,采用纸上发芽,放置于25℃恒温培养箱中,催芽5—6 d。取子叶和下胚轴,每份样品中取若干个体,共计0.5 g,采用改良 CTAB法[18]提取 DNA,使用冷冻干燥机将样品DNA抽干后置于-80℃保存。
将人工虚拟混合群体种子混合催芽,然后按单个幼苗提取DNA。
1.3 KASP标记开发及检测
对50个甘蓝高代自交系进行重测序,所测的自交系涵盖了不同茬口(春、秋、越冬)、不同熟性(早、中、晚)及不同球型(扁、圆、尖)的材料,具有很好的代表性。利用重测序数据与参考基因组(02-12)[19]进行比对,开发SNP位点。对获得的SNP位点按以下条件进行筛选:(1)位点的未测通材料数<20;(2)多态性在40%—60%;(3)在染色体中均匀分布;(4)位点前后各50 bp不存在其他变异。对于筛选获得的SNP位点,截取其前后各50 bp序列,交由LGC公司开发设计KASP引物。
PCR反应体系(10.14 µL)为KASP Master mix 5 μL、KASP Primer mix 0.14 μL和模板DNA(20 ng·μL-1)5 μL。PCR反应条件为第一轮94℃ 15 min;94℃20 s,61—55℃ 60 s,10个Touch Down循环(每个循环降低0.6℃);第二轮94℃ 20 s,55℃ 60 s,26个循环。使用荧光微孔板检测仪检测 PCR产物,用LGC公司开发的SNPviewer软件读取检测数据。所用KASP Master mix 购自英国 LGC公司,货号为KBS-1016-012。
1.4 数据处理
根据分型结果计算出各个标记的等位基因频率,然后利用软件PIC_Calc 0.6计算各标记的多态性信息含量(polymorphism information content,PIC),计算公式为PIC = 1-∑fi2,其中fi为i位点基因频率。依据SNP标记具有的二态性特点,将分型数据转化为二元编码数据,将野生型(与参考基因组一致)表示为(1,0),突变体表示为(0,1),将杂合基因型表示为(1,1),缺失碱基位点记为(999,999),对每份材料进行基因型统计,利用NTSYSpc2.1软件进行相似系数计算及基于UPGMA算法的聚类分析[15]。
1.5 核心SNP位点的挑选及其在品种鉴定中的应用
根据基因分型结果,筛选出多态性信息含量>0.35、无基因型数据缺失、在9条染色体上均匀分布的SNP位点作为构建甘蓝品种指纹图谱的核心位点。
利用核心SNP标记位点,对人工构建的虚拟混合群体进行SNP标记分析,并与已有SNP-DNA指纹图谱进行比对,判定虚拟混合群体的60个样品的分型结果是否与指纹图谱数据库中相应品种对应。
2 结果
2.1 甘蓝SNP标记的开发
对50个甘蓝高代自交系进行重测序,平均测序深度为5×。将重测序数据与参考基因组02-12进行比对,共获得SNP位点2.54×106个。筛选位点多态性介于40%—60%、未测通材料数<20的SNP位点,共获得2.59×104个。进一步筛选在9条染色体上均匀分布、位点前后各50 bp不存在其他变异位点的SNP位点,最终获得500个SNP位点用于下一步试验,平均每条染色体上55.6个。500个SNP位点中有442个成功转化为KASP标记,转化成功率为88.4%。
利用KASP平台对59个甘蓝品种进行基因型检测,442个KASP标记全部成功分型。在442个标记中,有25个标记的未分型材料数>5,为保证结果准确性,在后续分析中将这25个标记去除。在59个甘蓝品种中,全部标记的杂合位点比例大于30%的品种有57个,占所有品种的96.6%(图1)。其中,品种‘豫生早熟牛心’的杂合位点比例最高,为 67.8%;‘秦甘78’杂合位点比例最低,为18.8%。所有SNP标记在全部品种中多态性信息含量(PIC)处于 0.12—0.38,PIC值大于0.35的位点占所有位点的63.5%,其中PIC值为0.37的位点最多,有157个(图2)。
2.2 核心SNP位点的挑选及DNA指纹图谱的构建
综合考虑基因分型结果,筛选PIC值大于0.35、无基因型数据缺失、在9条染色体上均匀分布的SNP位点作为构建甘蓝品种指纹图谱的核心位点,最终获得50个SNP位点用以构建主要品种的指纹图谱(表1)。50个核心SNP位点中,位点Bol2-56的PIC值最高,为0.38;位点Bol8-11的PIC值最低,为0.35;平均PIC值为0.36,表现为中度多态性。
将59个主要品种的核心位点分型结果转化为二元编码数据,得到主要甘蓝品种的指纹图谱(表2)。参考甘蓝SSR-DNA指纹鉴定技术流程,品种间差异位点数≥2则可判定为不同品种。利用50个核心SNP位点构建的指纹图谱,各品种间差异位点数均≥2,因此,利用该DNA指纹图谱可对甘蓝品种进行有效区分。
图1 417个SNP标记的多态性信息含量分布情况Fig. 1 Distribution of polymorphism information content in 417 SNP markers
图2 基于417个SNP标记的59个主要甘蓝品种的杂合基因型比例Fig. 2 Heterozygous genotype ratio of 59 main varieties based on 417 SNPs
2.3 主要甘蓝品种的聚类分析
根据50个核心位点的分型结果,利用NTSYS软件对59个供试品种进行聚类分析(图3)。结果表明,育成品种两两间的遗传相似系数为0.43—0.98。其中,‘秦甘 78号’与‘争春’的遗传相似系数最小,为0.43,二者之间存在41个差异标记,这说明二者亲缘关系最远。而‘中甘21’与‘中甘628’的遗传相似系数最大,为0.98,二者之间的差异标记仅有2个,说明它们的遗传背景很相似。分析‘中甘21’与‘中甘 628’的系谱发现,二者的父本完全相同,母本都是圆球春甘蓝材料。
在遗传相似系数0.60处,可将所有供试品种分为两大类群。第一大类群共包含33个品种,在遗传相似系数0.64处可划分为3个亚类,‘中甘8号’、‘晚丰’等11个品种为第1亚类;‘春丰’、‘博春’为第2亚类;第3亚类包含‘春甘2号’、‘争春’等在内的20个品种。第二大类主要为圆球或近圆球类型甘蓝,共25个品种,在遗传相似系数0.61处可划分为2个亚类,将其命名为第4亚类与第5亚类。其中,第4亚类包含21个品种;第5亚类包含5个品种。聚类分析的结果与供试品种的来源有很强的相关性,例如:山西省农业科学院育成的惠丰系列甘蓝、河南省
农业科学院育成的豫甘系列甘蓝、江苏镇江农业科学研究所育成的瑞甘系列甘蓝,上述单位培育的一系列甘蓝品种之间呈现较近的亲缘关系,聚类分析时聚在一起。结果表明,SNP聚类结果与供试品种的表型性状和地理来源相一致,能准确的反映供试品种的亲缘关系。
表1 用于构建指纹图谱的50对核心引物Table 1 The information of 50 core primers for fingerprinting
续表1 Continued table 1
续表1 Continued table 1
续表1 Continued table 1
2.4 核心标记在品种鉴定中应用
通过人工构建的虚拟混合群体对DNA指纹图谱
的核心位点进行验证,利用50个核心SNP标记对虚拟混合群体进行基因分型检测,并与已构建的 DNA指纹图谱进行比对。基因分型结果显示:虚拟混合群体中来源于同一品种的3个样品其分型结果完全相同,这说明核心SNP标记具有较好的重复性。虚拟混合群体中有45个样品(15个品种)的分型结果与DNA指纹图谱中相应品种完全对应。剩余的15个样品(5个新组合),与指纹库中材料均表现出较大差异(差异位点数>2),在指纹库中无对应品种。结果表明,利用50个核心SNP标记可实现对甘蓝品种真实性和特异性的有效鉴定。
表2 中国59 份主要甘蓝品种的SNP-DNA 指纹图谱数据库Table 2 SNP-DNA Finger-printing database of 59 main cabbage varieties from China
续表2 Continued table 2
续表2 Continued table 2
续表2 Continued table 2
图3 59个主要甘蓝品种的SNP聚类分析图Fig. 3 Cluster analysis dendrogram based on SNP for 59 main cabbage varieties
3 讨论
3.1 主要甘蓝品种的代表性
目前,中国甘蓝种植面积约90万hm2[20-21],在蔬菜周年供应中占据重要地位。中国甘蓝品种选育开始于20世纪50年代、70年代以后得到快速发展。目前市场上审定推广的甘蓝品种大都为一代杂种,一代杂种的种植面积占总种植面积的90%以上[21]。
本试验中所选用的 59个甘蓝品种全为一代杂种。在59个甘蓝品种中,年推广面积曾达到1×104hm2以上[23]且目前还有大面积种植的品种就有十几个,如‘京丰一号’、‘8398’、‘中甘21’、‘晚丰’、‘庆丰’、‘中甘15’、‘中甘11’、‘春丰’、‘争春’、‘西园四号’等,这些品种占到国内甘蓝种植面积的 60%—70%[24]。本试验中所选的59个主要甘蓝品种涵盖了不同球型(圆球、扁球、牛心型)、不同栽培季节(春甘蓝、秋甘蓝、越冬甘蓝)及不同熟性(早、中、晚熟),这些品种具有广泛的代表性。
3.2 基于SNP位点构建DNA指纹图谱
DNA指纹图谱技术(DNA-Fingerprinting)是由英国科学家Jeffreys于1986年开发,具有快速、准确等优点,是鉴别品种、品系的有力工具,已广泛应用于很多作物的品种资源多样性和纯度鉴定研究,陆续将RFLP、AFLP、SSR、SNP等标记技术用于构建DNA指纹图谱。其中,SSR指纹技术由于其重复性好、简单易于操作、且大多数为共显性标记,常用于品种鉴定分析,已在水稻[25]、玉米[26]、柑橘[27]、甜瓜[28]等多种作物中得到应用。在甘蓝中,基于SSR标记已建立了50个代表品种的指纹图谱,并制定了 SSR分子标记法进行甘蓝品种鉴定的技术规程(标准号:NY/T 2473-2013)。但SSR标记在实际使用中也暴露出一些不足,如标记数量有限、检测位点少,位点存在一定的突变率、对变异反应比较敏感等。SNP指纹技术是继RFLP和SSR之后发展起来的第3代标记技术,具有数量多、分布广泛、稳定性高、易于快速且高通量地进行基因型分型等优点[8]。与 SSR相比,SNP是基于单核苷酸的突变,突变频率更低,遗传稳定性更高。SNP标记是构建 DNA指纹数据库的推荐标记之一,但是目前甘蓝中尚没有基于SNP标记的指纹图谱。因此,构建基于SNP标记技术的指纹图谱对于甘蓝品种特异性和真实性鉴别、种子纯度鉴定具有重要意义。
随着SNP检测技术的不断进步,SNP标记的检测成本也逐步降低。相对于SSR标记,目前高通量大样本的SNP标记检测已显现出优势。今后随着品种数量的增多、品种指纹图谱数据库的进一步丰富,高通量的SNP检测技术在新育成品种的真实性、特异性鉴定方面将具有非常广阔的应用前景。
3.3 利用核心标记构建SNP-DNA指纹图谱
指纹图谱核心标记的选择视物种基因组的复杂程度、标记类型、标记检测技术、品种数量等情况而定。匡猛等[29]利用36对SSR引物作为核心标记,构建了32个棉花主栽品种的指纹图谱。王立新[30]在小麦品种鉴定中提出使用21对核心引物、84对备用引物进行指纹研究。王庆彪等[5]使用 20对核心引物构建了 50个甘蓝品种的EST-SSR指纹图谱,利用其中8对多态性较好的引物便可将50个品种全部区分开。因此对于不同物种,构建指纹图谱的核心标记数量应视物种基因组复杂程度而定。SSR标记数量丰富、多态性高、呈共显性,可鉴别杂合子和纯合子,可用少量标记鉴别大量物种。与SSR标记不同,SNP标记虽然稳定性高但呈二态性,单个标记的多态性信息含量较低,鉴别相同数量品种所需要的标记数多于SSR标记。本研究中,筛选出了50个核心SNP位点用于主要甘蓝品种的指纹图谱构建,由于SNP标记的二态性,理论上每个标记可区分的杂交种数 N1=3,本研究中选取得50个标记可区分的最大杂交种数N=3^50=7.18×1023,出现相同指纹图谱的概率P=1.39×10-24。因此,理论上而言,利用50个核心SNP标记构建甘蓝主要品种的指纹图谱是完全可行的。
SNP-DNA指纹图谱的构建方式也与SNP检测方法有关。目前常用的SNP检测及分型的方法主要有以下几种,基于凝胶电泳检测的等位基因特异性PCR[31]、单链构象多态性[32]、酶切扩增多态性序列法[33]等;高通量自动化检测的直接测序法、DNA芯片技术[34]、竞争性等位基因特异性PCR[17]等。等位基因特异性PCR、酶切扩增多态性序列法等SNP检测方法由于其操作繁琐、准确率较低,不适用于构建指纹图谱。目前,利用 DNA 芯片技术是检测 SNP 的最常用方法,已在玉米[14]、油菜[15]等作物的指纹图谱构建中得到应用。利用 DNA芯片技术可直接进行指纹图谱构建,不需要进行核心标记筛选,但该方法制作DNA指纹图谱的成本较高。相比于DNA芯片技术,利用KASP技术进行SNP检测的成本较低,其成本与检测的SNP位点数呈正相关。从发展趋势来看,近年来随着甘蓝基因组重测序的陆续开展,越来越多的SNP标记得到开发,加上SNP标记相比SSR标记的一些优势,将来会更多地依赖于SNP标记进行品种的特异性、真实性鉴定。本研究中,利用KASP技术进行SNP检测并筛选出50个核心SNP位点用于构建59个主要甘蓝品种的指纹图谱,随着育种技术的发展、育成品种数量的增多,也有可能还需要增加 SNP标记,尤其是与重要农艺性状紧密关联的SNP标记,以更准确、高效地检测出品种的真实性、特异性。同时,希望可以为新品种保护授权提供前期的鉴定工作,利用指纹图谱对品种进行初步鉴定,最终结合田间表型鉴定判定品种的特异性、真实性。
4 结论
利用50份甘蓝高代自交系重测序数据进行比对,共开发2.54×106个SNP位点。将442个SNP位点成功转化为KASP标记,并从中开发出一套适用于中国甘蓝品种指纹图谱构建的核心SNP组合,构建了中国59个甘蓝品种指纹图谱数据库。通过人工构建模拟群体验证,证明核心SNP组合可实现对甘蓝品种真实性和特异性的有效鉴定。