棉花产量相关性状QTL定位及候选基因筛选
2021-05-07贾晓昀朱继杰赵红霞王士杰王国印
贾晓昀,朱继杰,赵红霞,王士杰,李 妙,王国印
(河北省农林科学院 粮油作物研究所,河北省作物遗传育种实验室,河北 石家庄 050035)
棉花是世界上最重要的天然纤维作物,保证棉纤维的产量对纺织工业的稳定发展具有重要意义,高产稳产始终是棉花育种工作的重要目标[1]。陆地棉在棉纤维年产量中占比95%以上[2]。因此,研究陆地棉产量相关性状的分子遗传机制,有助于进一步培育高稳产棉花新品种。
单铃质量(Boll weight,BW)、衣分(Lint percentage,LP)、子指(Seed index,SI)和果枝数(Fruit branch number,FBN)等是棉花产量的重要数量性状,且性状之间存在复杂的相互影响[3-4]。因此,QTL定位是进行产量性状分子遗传机制挖掘的重要手段。Shen等[5]以陆地棉重组自交系为试验材料,基于一张包含110个SSR标记、总图距为810.07 cM的遗传图谱,定位到11个产量相关QTL;随后通过加密图谱标记,构建了一张包含156个SSR标记、总图距1 024.4 cM的遗传图谱,定位到26个QTL[6]。Wang等[7]以海岛棉F2群体为试验材料,构建一张包含337个位点、图距2 108.34 cM的遗传图谱,定位到21个产量相关QTL位点。Yu等[8]以海陆种间回交自交系群体为试验材料,构建一张包含392个SSR标记、总图距2 895 cM的遗传图谱,定位到39个产量相关QTL。Ning等[9]以陆地棉重组自交系群体为试验材料,构建一张包含279个SSR标记、总图距1 576.25 cM的遗传图谱,定位到61个产量相关QTL。Liu等[10]以陆地棉重组自交系为试验材料,通过构建一张包含2 051个位点、总图距3 508.29 cM的遗传图谱,定位到37个产量相关QTL。由于缺乏参考基因组信息、SSR等传统分子标记多态性较差、图谱构建过程费时费力等原因,前期的研究存在定位区间较大、染色体及基因信息不完整等不足之处。随着测序技术的进步,陆地棉参考基因组信息得以公布并不断完善[11-14]。Zhang等[15]以陆地棉重组自交系群体为试验材料,开发SLAF-SNP(Specific locus amplified fragment sequencing-Single nucleotide polymorphism)标记,构建一张包含5 521个SNP、总图距3 259.37 cM的高密度遗传图谱,定位到18个多环境稳定存在的单铃质量QTL位点,注释到344个基因。Su等[16]通过SLAF-seq技术,对355份陆地棉材料的衣分性状进行关联分析,得到12个高度关联的SNP标记,并推测基因Gh_A02G1268对衣分有重要影响。Ma等[17]对419份陆地棉材料进行重测序及关联分析,结果表明Gh_D02G0025可能是影响衣分的关键基因。Sun等[3]以10 511个SNP对719份陆地棉材料的产量性状进行关联分析,得到62个显著相关的SNP,并发现基因Gh_D03G1064和Gh_D12G2354可能对产量有重要作用。Song等[18]用CottonSNP63K芯片对276份陆地棉材料衣分性状进行关联分析,得到23个显著关联的SNP和15个QTL位点,并发现基因Gh_D05G0313和Gh_D05G1124在纤维发育阶段高调表达。由此可知,基于高质量的SNP标记和高密度遗传图谱,棉花产量相关的基因信息逐渐得到挖掘。然而,由于产量相关性状分子遗传机制的复杂性,现有的研究成果仍然不够充分,特别是对高稳产品种产量相关基因的挖掘较少。
冀丰914是由河北省农林科学院粮油作物研究所培育的高产、稳产棉花品种,于2015年通过国家黄河流域棉区审定(国审棉2015003),具有高产、稳产、丰产性好等突出特点[19]。为进一步探索高产、稳产棉花产量性状的分子遗传机制,本研究以冀丰914为母本、优质自交系冀丰817为父本构建F2和F3群体,基于GBS技术构建的包含11 488个SNP标记、总图距4 202.12 cM的高密度遗传图谱,对单铃质量、衣分、子指和果枝数等性状进行QTL定位,并对重点区域进行基因注释及候选基因筛选,以期获得更多产量相关的分子遗传信息,为新品种选育及基因功能研究提供基础。
1 材料和方法
1.1 试验材料
以自育国审品种冀丰914为母本,以优质自交系冀丰817(原系名:优系817)为父本,于2018年在河北石家庄组配杂交组合,收获F1种子,同年冬天在海南加代自交,收获F2种子。于2019年在河北石家庄播种F2,行长7.00 m,行距0.76 m,株距0.20 m,共15行、413个单株。于2020年在河北石家庄播种F3群体,行长5.00 m,行距0.76 m,株距0.20 m,3次重复。同当地大田管理。
9月底自然吐絮后,人工收获F2群体单株全株棉铃并计数,收获F3群体株行20铃,称取籽棉质量、计算单铃质量,轧花后称取皮棉和子指质量;收获前调查果枝数;F3群体性状数据为3个重复平均值。
1.2 GBS测序及遗传图谱构建
在F2群体中随机选取200个单株,采用CTAB法提取幼叶DNA[20],经质检后构建文库[21-22],选择MseⅠ和TaqαⅠ(Thermo scientific Fermentas)2种酶进行酶切,回收397~420 bp长度的酶切片段,通过Illumina HiSeqTM平台进行测序。通过BWA (Burrows-Wheeler Aligner, version 0.7.17)软件[23]对测序数据进行基因组比对,通过GATK (Genome Analysis Tool-kit, version 4.0.11.0)软件[24]检测SNP标记,通过MSTMap (Minimum spanning tree map, version update 2015)软件[25]构建遗传图谱。最终构建一张包含11 488个SNP标记、总图距4 202.12 cM的遗传图谱,标记间平均距离仅有0.37 cM。
1.3 分析方法
通过Excel 2016分析数据的基本统计量,通过SPSS 21.0分析性状相关性。
通过QTLIciMapping 4.0软件分析加性QTL[26-27],分析参数为:Step=1 cM,PIN=0.001,LOD值由1 000次迭代计算确定。
基于陆地棉TM-1参考基因组[13],注释QTL位点内的基因信息;通过KOBAS 3.0进行基因的KEGG通路分析和GO富集分析[28];根据陆地棉与海岛棉的转录组信息[14]分析注释基因表达量,筛选候选基因。
2 结果与分析
2.1 表型数据的基本统计量及简单相关性分析
表1为群体性状基本统计量。可以看出,冀丰914的各性状值均大于冀丰817。分离群体中,除2020年BW外,其他性状呈现双向超亲分布,峰度和偏度的绝对值小于1,说明性状呈正态分布,适合进行QTL定位分析。由变异系数发现,子指的变异系数最大,果枝数的变异系数最小,F2群体性状的变异系数大于F3群体。
表1 亲本及群体产量性状的基本统计量Tab.1 Basic statistics of the parents and population yield related traits
表2为4个性状之间的简单相关性分析结果。可以看出,子指与单铃质量之间存在极显著的正相关关系,与衣分之间存在极显著的负相关关系。因此,实现棉花单铃质量、衣分和子指3个性状的同步提高存在较大困难。果枝数与单铃质量、衣分、子指的相关性均不显著,说明果枝的多少对单铃质量、衣分、子指3个性状的影响较小。
表2 产量性状之间的简单相关性分析Tab.2 Correlation analysis among the yield related traits
2.2 定位到50个产量相关的QTL位点
本研究共在22条染色体上定位到50个产量相关的QTL位点,包括8个单铃质量QTL、20个衣分QTL、15个子指QTL和7个果枝数QTL(表3、图1)。8个单铃质量QTL分布于8条染色体,单个QTL对表型变异的贡献率为4.24%~9.79%,其中4个QTL的增效基因来源于冀丰914,包括qBW-A4-1、qBW-A5-1、qBW-A11-1和qBW-D10-1;qBW-A11-1可以同时在F2和F3群体中检测到;qBW-A12-1的贡献率为9.79%,增效基因来源于冀丰817。定位到20个衣分相关QTL,分布于14条染色体,其中A6、A13、D6、D10各分布有2个QTL,A7分布有3个QTL;单个QTL对表型变异的贡献率为2.82%~12.52%;冀丰914为其中15个QTL提供增效基因;qLP-A6-1能够在2个群体中检测到,贡献率分别为8.66%,4.72%,增效基因来源于冀丰914;qLP-A13-1的贡献率达到12.52%,增效基因来源于冀丰914。定位到15个子指相关QTL,分布于13条染色体,A5和D3各有2个QTL;单个QTL的贡献率为3.21%~12.96%;7个QTL的增效基因来源于冀丰914,冀丰817为另外8个QTL提供增效基因;qSI-D3-1的贡献率达到12.96%,增效基因来源于冀丰914。定位到7个果枝数QTL分布于5条染色体,D5分布有3个QTL;单个QTL的贡献率为4.00%~9.31%;冀丰914为其中2个QTL提供增效基因,冀丰817为另外5个QTL提供增效基因;qFBN-D10-1的贡献率为9.31%,增效基因来源于冀丰914。
表3 产量相关性状QTL位点信息Tab.3 Detail information about yield related QTL
2.3 优异QTL位点的基因注释及功能分析
基于参考基因组的注释信息,本研究对qBW-A11-1、qLP-A6-1、qLP-A13-1、qSI-D3-1和qSI-D3-2等5个稳定或主效QTL进行基因信息注释。在qBW-A11-1内注释到15个基因,在qSI-D3-1内注释到26个基因,其他QTL未注释到基因信息。KEGG通路分析发现,注释基因主要参与植物细胞壁形成、纤维素生物合成、植物激素信号转导、TCA循环、代谢及氨基酸生物合成等条目。GO功能富集分析发现,共有14个显著富集的GO条目(P<0.01),包括细胞膜组分、细胞壁合成、细胞分裂素响应及多种酶活性等,共涉及10个基因;根据陆地棉TM-1和海岛棉Hai 7124的转录组信息[14],选择根、茎、叶、花、不同发育时期的纤维和胚珠等组织,对这10个基因进行表达量分析,结果发现,在所有组织中,Ghir_A11G006820.1、Ghir_D03G004880.1、Ghir_D03G004930.1和Ghir_D03G004970.1的表达量均较低,Ghir_D03G005350.1的表达量均较高,Ghir_D03G005440.1在TM-1中的表达量高于Hai 7124(图2)。
3 讨论
产量是获得效益的基础,高产、稳产是棉花育种及生产的主要目标[1]。然而,由于植棉面积的减少,提高单产成为增加总产的重要保证,也是育种工作的重要挑战。据研究,品种改良对棉花单产增加的贡献率达到30%以上[29],而分子技术在育种方法中的应用将成为进一步提高单产的关键环节[1, 30]。因此,深入分析棉花产量及其构成因子的分子遗传机制,挖掘有效的分子标记及功能基因,是改良育种技术、提高育种效率、加快新品种培育的重要支撑[30]。本研究以高稳产国审棉花品种冀丰914为母本,通过构建F2和F3群体,结合高密度SNP遗传图谱,对产量相关的单铃质量、衣分、子指和果枝数等4个性状进行QTL定位及候选基因筛选,为进一步改良棉花产量性状奠定分子研究基础。
QTL定位是挖掘数量性状关键基因并进行综合性状分析的经典方法。Xie等[31]通过QTL定位,综合分析了小麦灌浆过程决定粒质量大小的关键因素;Zikhali等[32]在QTL定位基础上,精细定位了一个控制小麦开花的关键基因;Pan等[33]对10个玉米重组自交系的株型性状进行QTL分析,为研究玉米株型的分子遗传机制及理想株型育种奠定研究基础。在棉花中,Zhu等[34-35]精细定位了棉花鸡脚叶QTL,并得到关键候选基因GhOKRA;Xu等[36]通过经典的精细定位方法,将纤维长度QTLqFL-chr1缩小至0.9 cM区间内;Chen等[37-38]基于QTL定位结果,结合测序技术,成功得到了棉花零式果枝性状的关键基因;Ma等[39]在棉花株高相关QTL位点内得到了一个GhPIN3基因;Feng等[40]通过回交,将纤维强度QTLqFS-Chr.D02精细定位于550.66 kb范围内,得到2个候选基因。在棉花产量方面,Su等[16]在A02染色体上关联到一个衣分相关的候选基因Gh_A02G1268;Ma等[17]通过重测序技术,对产量相关的单铃质量、衣分、子指和衣指进行全基因组关联分析,得到Gh_D02G0025等候选基因;Sun等[3]分别在D03和D12染色体上关联到一个产量相关的候选基因Gh_D03G1064和Gh_D12G2354;Song等[18]在D05染色体上关联到2个衣分相关的候选基因Gh_D05G0313和Gh_D05G1124。本研究通过开展产量相关QTL定位,得到2个稳定性较好的QTL(qBW-A11-1和qLP-A6-1)和3个贡献率大于10%的QTL(qLP-A13-1、qSI-D3-1和qSI-D3-2);基于参考基因组注释信息,通过KEGG和GO分析,在qBW-A11-1和qSI-D3-12个QTL内共注释到41个参与植物激素信号转导、细胞壁生物合成、氧化还原酶活性等功能的基因,其中,编码肉桂酰辅酶A还原酶2类蛋白的Ghir_D03G005440.1基因位于qSI-D3-1区段内,该基因在陆地棉TM-1多个组织中的表达量均高于Hai 7124。研究发现,肉桂酰辅酶A还原酶是木质素合成的关键酶[41-42],木质素是细胞壁形成的关键物质,在种子发育过程中有重要作用[43-44]。因此,Ghir_D03G005440.1基因可能对棉花种子发育及大小有重要影响。
本研究定位到的50个棉花产量性状QTL中,56%(28/50)位点的增效基因来源于冀丰914,其中,75%衣分相关QTL(15/20)、2个稳定QTL和3个主效QTL的增效基因均来源于冀丰914。由此说明,冀丰914对产量性状有较强的遗传控制,高衣分是其实现高稳产的重要因素。然而,由于本研究所用试验材料为F2和F3群体,研究结果需要通过高代稳定群体结合多年多点试验进行验证。
本研究通过对陆地棉产量性状进行QTL定位,获得一个在陆地棉标准系TM-1中表达量较高的Ghir_D03G005440.1基因,该基因位于子指相关的QTL区段内,可能参与棉花种子发育调控,为深入挖掘高稳产棉花品种产量性状的分子遗传机制及关键基因提供了基础;初步表明高衣分是冀丰914实现高稳产的重要因素。