基于高密度遗传图谱的芝麻籽粒品质相关性状QTL 定位
2023-10-18崔承齐刘艳阳杜振伟江晓林郑永战梅鸿献
崔承齐,刘艳阳,杜振伟,武 轲,江晓林,郑永战,梅鸿献
(河南省农业科学院 芝麻研究中心,河南 郑州 450002)
芝麻(Sesamum indicumL.)属胡麻科胡麻属,是我国重要的特色油料作物[1]。芝麻种子含油量45%~60%,蛋白质含量15%~25%,还含有丰富的维生素和独特的抗氧化物质,如芝麻素和芝麻林素等[2-3]。研究表明,由于抗氧化物质的存在,芝麻油具有降血压、降胆固醇、保护脑神经的作用[4-6]。因此,芝麻不仅被应用于优质食用油生产和食品加工,也被广泛应用于医疗保健等方面。近年来,随着人们对芝麻膳食及其保健功效认识的不断提高,市场对含油量高、抗氧化物质含量高的优质芝麻需求急剧增加。因此,提高芝麻种子含油量和抗氧化物质含量,改善芝麻食用品质已经成为芝麻育种的重要目标之一。
作物品质性状是典型的复杂数量性状,受多基因控制,且基因间、基因与环境间存在广泛的互作[7-9],传统育种方法难以实现对这些复杂性状的高效遗传操作。大量研究证明,传统育种和分子标记辅助选择相结合是改良复杂农艺性状的有效方法[10-12]。数量性状位点(Quantitative trait loci,QTL)是进行重要农艺性状分子标记辅助选择的先决条件。目前,在主要农作物上利用连锁分析和关联分析定位了大量控制重要农艺性状的QTL[13-20],为目标性状的分子标记辅助选择和遗传改良奠定了坚实的基础。芝麻作为小作物研究相对滞后,由于缺乏分子标记和参考基因组信息,长期以来一直限制着重要农艺性状的遗传解析[21]。危文亮等[22]利用20对简单重复序列(Simple sequence repeats,SSR)标记、43 对相关序列多态性(Sequence-related amplified polymorphisms,SRAP)标记及16 对扩增片段 长 度 多 态 性(Amplified fragment length polymorphisms,AFLP)标记在2 个环境下重复检出8个与含油量显著关联的标记。LI 等[23]利用112 对SSR 标记,通过关联分析检测到19 个标记与含油量关联,24个标记与蛋白质含量关联。随着测序技术的快速发展和芝麻参考基因组的释放[24-26],单核苷酸多态性(Single nucleotide polymorphism,SNP)等高通量标记被成功应用于芝麻遗传连锁作图和全基因组关联分析[3]。WEI 等[27]利用1 805 413 个SNP 标记,通过全基因组关联分析检测到549个与产量、品质等性状关联的信号。吴坤等[28]利用包含1 230 个标记的高密度遗传图谱定位了21 个与白芝麻籽粒油脂、蛋白质及芝麻素含量相关的QTL。目前,虽然在芝麻上已经鉴定到了一些与品质性状相关的QTL/基因[22-23,27-31],但由于其数量性状的复杂特性,在不同群体或环境间检测到的很多QTL 重复性差,大大限制了品质性状的遗传解析。鉴于此,利用豫芝4 号和孟加拉小籽为亲本构建了F2:3、BC1和BC1F2等3 个不同世代群体,对其脂肪、蛋白质、芝麻素和芝麻林素含量等4 个品质性状进行QTL 定位,并在不同世代群体和不同环境间相互验证以提高定位的准确性,为芝麻品质性状的分子标记辅助选择和改良提供依据。
1 材料和方法
1.1 群体构建
豫芝4 号是河南省驻马店市农业科学院于20世纪90年代选育的芝麻品种,多年来在黄淮流域芝麻产区广泛种植,千粒质量3.1 g,含油量和蛋白质含量分别为55.9%和21.14%;孟加拉小籽引种自孟加拉国,千粒质量1.6 g,含油量和蛋白质含量分别为46.8%和19.26%。以豫芝4 号为母本,孟加拉小籽为父本配制F1组合,自交构建F2群体,同时以豫芝4 号为轮回亲本进行回交,构建BC1群体,然后分别在F2和BC1群体中随机选取150 个单株自交衍生出F2:3和BC1F2家系用于表型鉴定。
1.2 田间试验和表型鉴定
2014 年冬季在海南省三亚市(2014SY)种植BC1群体;2018 年分别在河南省南阳市(2018NY)、驻马店市平舆县(2018PY)、漯河市(2018LH)3 个试验点种植150 个BC1F2家系;2019 年和2020 年分别在海南省三亚市(2019SY 和2020SY)种植150 个F2:3家系。田间试验均为单行区,2.5 m 行长,2 次重复,随机区组排列,正常田间管理。植株正常成熟后,BC1群体按单株收获,BC1F2家系和F2:3家系每小区选取5株进行混收,充分晾干、脱粒,并进行品质检测。
利用DA7200 型近红外分析仪进行脂肪、蛋白质、芝麻素、芝麻林素含量的测定[32],每份样品重复测定3 次,取平均值。分别以F2:3家系和BC1F2家系各重复平均值代替F2单株和BC1单株的表型值进行QTL分析。
1.3 标记开发及基因分型
采用改良的CTAB 法[33]提取亲本及群体植株的DNA,利用Illumina HiSeq 2000平台对BC1群体DNA进行特异位点扩增片段简化测序(Specific-locus amplified fragment sequencing(SLAF-seq),然后参照MEI 等[21]的方法开发SLAF 标记,具体方法如下:首先利用BWA 软件将BC1群体和双亲的高质量测序序列比对到Zhongzhi No.13 version 1.0 参考基因组[25],获得28 731个在双亲间存在多态性的SLAF标记;然后根据基因型编码规则,筛选获得28 731 个符合aa×bb型的SLAF标记;其次过滤掉在双亲中深度小于10×的SLAF 标记,再过滤掉子代群体中缺失率>10%的SLAF 标记;最终获得3 548 个高质量SLAF标记用于后续图谱构建。
SSR 标记开发:首先基于Zhongzhi No.13 version 1.0 参考基因组序列,利用MISA 软件检测全基因组SSR 位点,然后筛选豫芝4 号和孟加拉小籽之间的差异SSR 位点,获得1 024 个均匀分布在基因组上的SSR 序列,再利用PRIMER 3 软件进行引物设计,在双亲间进行多态性验证,获得351个具有多态性的SSR标记用于后续图谱构建。
PCR 扩增及扩增产物检测参考WEI 等[34]的方法,PCR 反应条件:95 ℃预变性4 min;94 ℃变性30 s,55~57 ℃退火45 s,72 ℃延伸1 min,进行30 个循环;循环结束后,72 ℃延伸7 min,10 ℃保温10 min。扩增产物经非变性聚丙烯酰胺凝胶电泳进行分离,采用9%凝胶,电泳缓冲液为0.5 倍TBE,180 V 恒压电泳1.5 h。电泳结束后,进行银染,清水冲洗,在凝胶成像系统上照相并记录基因型数据。
1.4 遗传图谱构建及QTL定位
参照MEI 等[33]的方法,利用JoinMap 4.0 软件,结合上述3 548个SLAF 标记和351个SSR 标记进行BC1群体的高密度遗传图谱构建,最终共有3 294 个SLAF 标记和347 个SSR 标记上图;在351 个SSR 标记中随机选取166个均匀分布在基因组上的标记进行F2群体的图谱构建,获得一张包含152 个标记的遗传图谱。
利用QTL IciMapping 4.2 软件的完备区间作图法对芝麻的脂肪、蛋白质、芝麻素、芝麻林素含量进行QTL 检 测,LOD(Logarithm of odds)阈 值 设 为2.5[35]。将至少在1 个环境中表型变异解释率大于10%的位点定义为主效QTL;在同一连锁群定位于5 cM 内并且加性效应方向一致的QTL 定义为相同QTL[33]。QTL 命名方式是以字母“q”开头表示QTL,后接性状名称的缩写,再接连锁群的编号,最后是该染色体上控制此性状的QTL 序号(q+性状名称缩写+连锁群编号+QTL 序号)[36],脂肪、蛋白质、芝麻素、芝麻林素含量的缩写分别为OC、PC、Smin、Smol。
2 结果与分析
2.1 芝麻品质性状的表型描述统计
用于连锁作图的BC1、BC1F2和F2:3群体在不同环境下脂肪、蛋白质、芝麻素、芝麻林素含量均值描述统计结果如表1。3个群体不同环境下,脂肪含量和蛋白质含量变异系数分别为2.22%~5.75%和5.40%~16.93%,而芝麻素含量和芝麻林素含量变异系数分别是16.49%~25.57%和12.20%~33.36%,说明芝麻素含量和芝麻林素含量更易受环境影响。除了个别环境外,4 个品质性状的峰度和偏度绝对值均小于1,基本符合正态分布或近似正态分布,表明这些性状都是受多基因控制的数量性状,适于用QTL定位的方法进行遗传基础剖析。
对BC1F2和F2:3的品质性状表型数据平均值进行相关性分析(表2),发现脂肪含量与蛋白质含量呈极显著负相关,而与芝麻素、芝麻林素含量呈极显著正相关;芝麻素含量与芝麻林素含量呈极显著正相关;蛋白质含量与芝麻林素含量呈极显著负相关;另外,蛋白质含量仅在F2:3群体中与芝麻素含量呈极显著负相关,而在BC1F2群体中与芝麻素含量相关性不显著。
表2 BC1F2 和F2:3 2个芝麻群体品质性状之间的相关性Tab.2 Phenotypic correlation coefficients of seed quality-related traits in sesame BC1F2 and F2:3 populations
2.2 芝麻品质性状的QTL定位
2.2.1 F2:3群 体4 个 品 质 性 状 的QTL 定 位 利 用QTL IciMapping 4.2 软件的ICIM-ADD 作图模型对F2:3家系的脂肪、蛋白质、芝麻素、芝麻林素含量等4个品质性状进行QTL 定位,共检测到16个QTL,分别 位 于LG01、LG03、LG05、LG07、LG08、LG10 和LG13连锁群上(图1、表3),LOD值为2.55~10.28,解释相应表型变异的5.08%~27.12%,其中9 个QTL 的表型变异解释率达到10%以上,被认为是主效QTL。
图1 芝麻F2:3、BC1和BC1F2群体脂肪、蛋白质、芝麻素、芝麻林素含量的QTL定位Fig.1 QTLs detected for oil content,protein content,sesamin content and sesamolin content in sesame F2:3,BC1 and BC1F2 populations
表3 芝麻F2:3、BC1、BC1F2群体4个品质性状的QTL定位Tab.3 QTLs for traits related to seed quality detected in sesame F2:3,BC1,BC1F2 populations
与脂肪含量相关的QTL 有5 个,解释表型变异的5.08%~27.12%,其中定位在LG10 连锁群上的主效QTLqOC_10-1在2 个环境被同时检测到,分别解释9.62%和27.12%的表型变异;主效QTLqOC_8-1仅在1 个环境被检测到,解释表型变异的11.76%。微效QTLqOC_5-1在2 个环境被重复检测到,解释表型变异的5.08%~7.77%。与蛋白质含量相关的4个QTL 解释表型变异的9.67%~11.87%,其中主效QTLqPC_5-1、qPC_7-1和qPC_8-1仅在1 个环境被检测到,分别解释表型变异的10.32%、10.24%和11.87%。与芝麻素含量相关的4个QTL解释表型变异 的7.60%~16.62%,其 中 主 效QTLqSmin_1-1、qSmin_1-2和qSmin_7-1的表型变异解释率分别为16.62%、16.18%和10.30%。与芝麻林素含量相关的1 个主效QTLqSmol_3-1解释表型变异的11.12%,2 个微效QTLqSmol_7-1和qSmol_13-1分别解释表型变异的7.64%和9.74%。
2.2.2 BC1和BC1F2群体4 个品质性状的QTL 定位
在BC1群体和BC1F2家系中共检测到35 个与品质性状相关的QTL,分布于除LG11 的12 条连锁群上(图1、表3);LOD 值是2.55~31.73,表型变异解释率为1.51%~26.75%,其中,14 个QTL 的表型解释率在至少1 个环境中达到10%以上,被认为是主效QTL。
与脂肪含量相关的12 个QTL 表型变异解释率为4.34%~13.64%,其中3个主效QTL分别是qOC_1-3、qOC_4-1和qOC_10-2。qOC_4-1和qOC_10-2均 在3个环境中被重复检测到,分别解释表型变异的8.08%~12.42% 和11.95%~12.60%;qOC_1-3仅 在1个环境中被检测到,解释表型变异的13.64%。
与蛋白质含量相关的5个QTL表型变异解释率为7.51%~11.74%,其中仅有1 个QTLqPC_7-2为主效QTL,解释表型变异的11.74%;微效QTL 位点qPC_4和qPC_10均在2 个环境被重复检测到,分别解释表型变异的7.51%~7.98%和7.53%~8.69%。
与芝麻素含量相关的10 个QTL 解释表型变异的1.51%~26.75%,其中qSmin_7-2和qSmin_8为主效QTL。qSmin_7-2在3 个环境被重复检测到,解释表型变异的4.24%~10.56%;qSmin_8在2 个环境被重复检测到,解释表型变异的13.36%~26.75%。
与芝麻林素含量相关的8个QTL表型解释率为5.77%~18.40%,其中主效QTLqSmol_5-2和qSmol_7-2均在2个环境被重复检测到,分别解释表型变异的11.44%~14.33%和5.77%~12.38%;其余6 个主效QTL 均在单个环境被检测到,解释表型变异的10.26%~18.40%。
2.2.3 QTL 共定位分析 将F2:3群体的16 个QTL 和BC1、BC1F2群体的35 个QTL 整合到同一遗传图谱(图1、表3),共发现10 个QTL 簇,分布于LG01、LG02、LG04、LG05、LG07、LG08、LG10 连 锁 群(表4)。
loci4 位于LG04 连锁群上,与脂肪和蛋白质含量相关联,包含主效QTL 位点qOC_4-1和微效QTL位点qPC_4。qOC_4-1定位于LG04 的5.21~6.09 cM区间,qPC_4定位于LG04的2.62~5.82 cM区间。
loci7 位于LG07 连锁群上,与芝麻素、芝麻林素含量相关联,包含3 个主效QTLqSmin_7-1、qSmin_7-2、qSmol_7-2和1 个 微 效QTL 位 点qSmol_7-1。qSmin_7-1和qSmin_7-2分别定位在LG07 的64.74~70.13 cM 和57.69~64.45 cM;qSmol_7-1和qSmol_7-2分 别 定 位 于LG07 的53.27~57.36 cM 和62.26~64.74 cM。
loci8 位于LG08 连锁群上,与脂肪和芝麻素含量相关。与脂肪含量相关的QTLqOC_8-2位于LG08 的24.96~25.24 cM;与芝麻素含量相关的主效QTLqSmin_8定位于LG08的22.11~25.24 cM。
loci10 位于LG10 连锁群上,与脂肪、蛋白质和芝麻素含量相关。与脂肪含量相关的主效QTLqOC_10-1和qOC_10-2分 别 位 于LG10 的34.38~49.03 cM 和34.95~45.88 cM 区间;与蛋白质含量相关的QTLqPC_10定位于LG10 的36.24~45.88 cM;与芝麻素含量相关QTLqSmin_10定位于LG10 的36.24~45.88 cM。
3 结论与讨论
芝麻脂肪、蛋白质、芝麻素、芝麻林素含量与品质密切相关,是芝麻品质育种的重要选择目标。张秀荣等[37]对48 份芝麻育成品种的品质性状进行分析发现:芝麻素含量和芝麻林素含量分别为1.87~8.42 mg/g 和0~1.93 mg/g;芝麻素含量与脂肪含量呈极显著正相关,与蛋白质含量呈极显著负相关。梅鸿献等[38]发现,芝麻素含量变异幅度为1.32~5.00 mg/g;芝麻素含量与脂肪含量呈显著正相关,与蛋白质含量不存在显著相关性。吴坤等[28]发现,芝麻素含量与脂肪含量呈显著正相关,与蛋白质含量呈显著负相关。在本研究中,芝麻素含量和芝麻林素含量分别是0.85~6.98 mg/g 和0.51~5.28 mg/g,与以往研究的变异范围基本相近;相关性分析表明,芝麻素、芝麻林素含量均与脂肪含量呈极显著正相关,与蛋白质含量呈极显著负相关(除BC1F2外),表明在提高芝麻脂肪含量的同时也可以提高芝麻素和芝麻林素的含量。
芝麻脂肪、蛋白质、芝麻素、芝麻林素含量受多基因调控,易受外界环境的影响,发掘芝麻品质相关的稳定主效QTL 是开展分子标记辅助选择育种的重要前提。同一分离群体在不同环境条件下鉴定到的QTL 数目、贡献率可能不完全一样[39],另外,控制同一性状的QTL 在不同环境或者不同遗传群体中的表达情况也可能不一致[40]。因此,多群体和多环境鉴定对于提高QTL 定位的准确性至关重要。虽然F2和BC1群体具有遗传信息丰富和分离广泛等优点,但低重复性限制了2类群体的应用,其对应的F2:3家系和BC1F2家系既有F2和BC1群体的遗传丰富性,又可以在一定程度上增加重复性。因此,本研究利用豫芝4号和孟加拉小籽构建的F2:3和BC1F2群体,分别在2 个和3 个环境中对脂肪、蛋白质、芝麻素、芝麻林素含量等4 个品质性状进行表型鉴定和多环境的QTL 定位。利用连锁作图共定位了51 个品质性状相关的QTL,分布在除LG11 外的其余连锁群上,LOD 值为2.55~31.73,表型变异解释率为1.51%~27.12%。芝麻脂肪含量的主效QTLqOC_4-1和qOC_10-2在3个环境被重复检测到,qOC_10-1在2 个环境被重复检测到;蛋白质含量的主效QTLqPC_7-1(F2:3群体)和qPC_7-2(BC1群体)定位区间相重合,为同一QTL 位点;芝麻素含量的主效QTLqSmin_7-2和qSmin_8分别在3 个和2 个环境被重复检测到;芝麻林素含量的主效QTLqSmol_5-2和qSmol_7-2均在2 个环境被重复检测到。上述鉴定的稳定主效QTL 可用于芝麻品质性状的分子标记辅助选择育种和遗传改良。
目前,利用连锁分析或者关联分析检测到了多个与芝麻脂肪、蛋白质、芝麻素、芝麻林素含量相关的QTL/SNP[22-23,27-31]。以S.indicumcv.Baizhima”[26]为参考基因组,本研究通过连锁分析定位到8 个QTL与已有QTL/SNP 位点相近或重合,如:与脂肪含量相关的qOC_10-2与吴坤等[28]检测到的Qpc-1相临近;与芝麻林素含量相关的qSmol_2-1和qSmol_2-2均与吴坤等[28]检测到的Qsc-8相重叠。WEI 等[27]鉴定到的脂肪含量相关SNP(LG11:11711506)定位到qOC_8-1附近;与芝麻素含量关联的SNP(LG3:15765268)和SNP(LG6:6879276)分 别 定 位 到qSmin_5-2和qPC_7-2附近或区间内;与芝麻林素含量 关 联 的SNP(LG1:16715677 )和SNP(LG4:8016804)分别定位在qSmol_3-1和qSmol_2-2区间内或附近位置。
通过比较QTL 的定位结果可以发现,不同性状相关QTL 存在共定位的现象,比如:脂肪含量相关QTLqOC_4-1与蛋白质含量相关QTLqPC_4的定位区间在连锁群LG04 上存在部分重叠,其中qOC_4-1的加性效应为正值,qPC_4的加性效应为负值;LG07 连锁群上的qSmin_7-1、qSmin_7-2、qSmol_7-1和qSmol_7-2的定位区间相近或重叠,加性效应均为负值;qOC_10-1与qOC_10-2定位区间基本一致,被认为是同一个QTL,它们与qPC_10和qSmin_10共定位于连锁群LG10 上,除了qPC_10的加性效应是负值外,其余位点的加性效应均为正值。这些结果从分子机制上印证了脂肪、蛋白质、芝麻素、芝麻林素含量之间相关性分析的结果,也反映其相关QTL 存在紧密连锁或一因多效的关系。