APP下载

棉花基因发掘与分子育种研究进展

2022-09-27孙正文谷淇深张艳王省芬马峙英

中国农业科技导报 2022年7期
关键词:位点种质测序

孙正文, 谷淇深, 张艳, 王省芬, 马峙英

(河北农业大学农学院,华北作物改良与调控国家重点实验室,河北 保定 071001)

棉花是我国重要经济作物和纺织工业原料,棉花全产业链涉及数千万产业工人、棉农等从业人员。棉花产业发展事关国计民生,提升棉花生产水平对促进农民增收、农业增效和乡村振兴具有重要意义。优良品种是作物生产的第一要素,针对棉花生产自然资源限制和不利生产条件等问题,开展种源“卡脖子”技术攻关,创制多抗、高产、优质、早熟的突破性棉花重大新品种是推进棉花产业提质增效和区域经济持续发展的重大需求。

种质资源和育种技术创新是培育突破性新品种的首要关口。目前,我国在棉花突破性种质资源重要经济性状精准鉴定和创新方面还有较大提升空间,育种上采用的大多还是2.0时代的杂交育种,3.0时代的分子育种在部分单位进行了研究和应用,亟需加快进入4.0时代的生物技术育种。本团队近年来在种质鉴定和基因发掘等方面取得了一系列研究进展,本文重点对其进行梳理总结,以期为棉花生物技术育种提供参考。

1 棉花种质资源鉴定和优异种质筛选

种质资源是农业科技创新与现代种业发展的重要物质支撑,为丰富棉花育种的遗传基础,提高育成品种的产量、品质及抗性水平,有待对大量陆地棉种质资源农艺性状和纤维品质性状等进行多环境鉴定,并结合SNP(single nucleotide polymorphisms,单核苷酸多态性位点)芯片、重测序等多种分子技术手段,综合评选优异种质资源。

Sun等[1]利用棉花SNP芯片对719份陆地棉种质进行了分子鉴定,获得10 511个高质量SNPs并进行遗传变异分析。这些SNPs 标记在整个基因组中分布不均匀,其中染色体Dt08 的SNP 最多(844),At04 的SNP 最少(97)。通过群体结构分析将这些种质资源分为2个亚群G1和G2,其中在G2 中有 360个独特的 SNPs,在 G1 中只有 68个独特的SNPs。这些结果表明,2个亚群体在分子水平上出现了遗传分化。Ma 等[2]利用代表7 362个陆地棉种质的419份(5.7%)核心种质进行基因组重测序,鉴定到3 665 030个SNPs,其中224 201个位于17 446个蛋白质编码基因内,70 959个位于上游或下游区域,其余3 369 870个位于基因间区域。这些SNPs位点为棉花重要性状的分子改良提供了丰富的遗传信息。群体结构分析表明,419份棉花分为 3个亚群,亚群之间 θπ 值为(3.13~3.72)×10-4,均高于已报道的地方品种(2.59×10-4)和改良品种(1.79×10-4),但低于水稻籼稻(1.6×10-3)、粳稻(0.6×10-3)和改良大豆(1.05×10-3),表明陆地棉种质总体上遗传多样性较低,这些种质资源为棉花育种提供了较为广泛的遗传基础。在优异种质资源筛选上,Sun等[3]基于719份陆地棉多年多点表型数据的综合评价,筛选出纤维长度(fiber length,FL)大于30.00 mm、纤维强度(fiber strength,FS)大于30.00 cn·tex-1的优异种质31 份,这些材料在至少6个环境中的品质达到了“双30”,马克隆值(fiber micronaire,FM)在3.5~4.9之间,其中W82-1的FL和FS在8种环境中均大于30.00。MSCO-12的FL平均值最高(33.74 mm);J02-508 的FS 平均值最高(33.94 cn·tex-1)。另外,Ma等[4]又通过对1 081份陆地棉种质进行重测序获得了2 970 970个高质量SNPs,对该群体进行遗传亲缘关系分析发现可分为3个亚群,这些种质资源为棉花改良提供了分子基础,也为优异亲本组配提供重要理论参考。

2 棉花现代品种基因组及结构变异

协同提高陆地棉品种的产量、品质和抗逆性是生物技术育种的重大目标,而棉花现代栽培品种参考基因组的缺乏以及潜在的农艺性状的基因组结构变异的遗传效应有待探明。因此,我国自育陆地棉现代品种农大棉8 号(Nongdamian 8,NDM8)和海岛棉Pima 90 的组装以及品种间结构变异的鉴定[4]为棉花重要性状改良提供了新的理论依据和资源。

基于单分子实时(single molecule real-time,SMRT)测序(覆盖深度为180.38 倍)和Illumina 双端数据校正(总覆盖率为233.75倍),10×Genomics(基因组)链接数据(覆盖深度232.90倍)以及Hi-C双端数据(覆盖深度125 倍)构建的基因组大小分别为2.29和2.21Gb,重叠群(contig)N50为13.15和9.24 Mb,染色体挂载率为99.57%和99.75%,编码基因80 124和79 613个,其中1 499和1 267个为预测的新基因,比较发现在棉种进化中,Copia和Gypsy转座子对农艺性状的分化起着重要作用。将海陆基因组比对,检测到31 296个变异/基因对在海岛棉组织中显著特异表达,5 815个插入缺失位于5 256个基因的外显子区,其中蔗糖合酶基因GbM_D13G2394存在2 bp 的缺失,在海岛棉品种Hai7124和3-79以及渐渗系NDM373-9和鲁原343中得以验证。发现NDM373-9 获得了来自海岛棉的171个外显子区结构变异,其中分别有34 和12个基因与已报道的抗病性和纤维发育有关,证明了海岛棉对改良陆地棉的育种价值。与已测序基因组TM-1进行比较,发现NDM8存在876 568个结构变异,其中28 626个变异能够在10~1 081个重测序种质中检测到。研究还发现,现代品种较早期品种获得了1 128个NDM8型结构变异,表明现代育种改良发挥了重要作用[4]。

3 棉花产量性状分子标记和基因发掘

提升棉花产量一直是育种的重要目标,但是棉花产量以及纤维品质性状均为数量性状,且易受环境影响,同步改良这些性状比较困难。利用分子标记结合关联分析对产量性状进行解析,可鉴定到大量相关的标记位点。

Sun 等[5]通过全基因组关联分析(genome-wide association studies,GWAS)鉴定了不同环境下陆地棉产量相关性状的SNP标记及候选基因。共鉴定出62个显著相关的SNPs,其中8个与铃重(boll weight,BW)关联的SNPs,6个与衣分(lint percentage,LP)关联,21个 SNPs 位点与籽指(seed index,SI),5个位点与衣指(lint index,LI)关联,7个位点与结铃数(boll number,BN)关联,进一步确定了27个候选基因,且每个基因至少包含1个SNP。Ma等[?]鉴定到与BW、LP、SI、LI 和单铃纤维重(fiber weight per boll,FWPB)5个产量相关性状显著关联的1 816个SNPs 位点,在 842个与 LP 相关的基因和 743个与LI相关的基因中,分别有16和9个基因包含非同义SNPs。其中在Dt02染色体上的峰值区域包含5个与LP相关的非同义SNP,3个位于编码四肽重复类超家族蛋白基因Gh_D02G0025内,富含TPR 结构域的蛋白在植物激素信号通路中发挥重要作用;转录组分析表明,Gh_D02G0025在 0 和 5 DPA(days post anthesis)纤维中具有较高的表达量,这些结果表明Gh_D02G0025可能会通过不同的激素信号通路参与纤维起始和快速伸长,并决定皮棉产量。Ma 等[4]通过重测序1 081 份陆地棉获得了304 630个结构变异(structure variation,SV),包括141 145个 插 入 、156 234个 缺 失 、39个 倒 位 、6 384个易位和828个重复。而棉花重要农艺性状结构变异的遗传效应尚不清楚。因此,利用SV数据对产量性状进行了GWAS 分析,共鉴定出97个与产量相关。产量性状(BW、LP、SI)的结构变异主要位于At染色体(22个)。其中对于重要的皮棉产量性状LP,Dt03的2个结构变异可显著提高LP,分别由37.49%提高到39.69%,37.47%提高到40.00%。

4 棉花品质性状分子标记和基因发掘

棉花的长度、强度、马克隆值等是评价棉花纤维品质的重要指标。利用大量的SNPs 标记对纤维品质性状进行了连锁分析及关联分析,检测到多个与棉花纤维品质性状相关的分子标记位点。

Sun等[1]利用基因芯片对719份陆地棉材料在8个环境鉴定的纤维品质性状进行关联分析,检测到20个与纤维长度相关的标记位点,其中染色体Dt11的i60962Gt位点可在6个环境下稳定检测到;与纤维强度显著相关SNPs标记18个,其中4个可在多环境下稳定检测到;另外鉴定到4、4、11个SNPs位点分别与马克隆值、整齐度和伸长率相关。在这些SNPs位点中,8个位点与纤维长度、强度同时关联,3个位点同时与纤维长度和纤维伸长率关联。Ma 等[2]利用重测序技术挖掘到366 万个高质量SNPs位点,并对419份陆地棉核心种质在12个环境下的纤维品质性状进行关联分析,共检测到3 136个与纤维长度、纤维强度、马克隆值、整齐度和伸长率相关的标记,其中有778个SNPs 标记可在至少2个性状上检测到。染色体Dt11上23.93~24.10 Mb 区域的30个SNPs 位点与多个性状同时关联,说明该区域存在协同调控棉花纤维品质性状的遗传位点,可用于分子标记辅助选择改良纤维品质。Gu等[6]以自育品种农大棉13号和农大601为亲本,构建了1套含有588个株系的重组自交系群体,基于重测序数据对该群体在8个环境的5个纤维品质性状进行QTL(quantitative trait locus)定位分析,共检测到66个优异位点,16个QTLs 可在多环境下稳定检测到,bin4537等13个标记与此16个位点紧密连锁(表1)。

表1 与稳定QTL紧密连锁的标记信息[6]Table 1 Marker information closely linked to stable QTL[6]

另外,通过重测序1 081份陆地棉材料获得的304 630个结构变异对主要的纤维品质性状进行了GWAS 分析[4],鉴定出160个与纤维品质性状(FL、FS、M)关联,其中139个位于Dt染色体,21个位于At 染色体。对于能够显著提高纱线经济价值的FL 性状,在Dt11 中检测到最高的关联峰,其中370 kb 区域(24.55~24.93 Mb)包含125个结构变异。在这些位点中,69个和56个分别使FL 显著增加0.71~0.99 和1.00~1.19 mm,使纤维从27或28 mm级增加到29 mm级。

目前已克隆很多纤维发育的基因(表2),如转录因子[7-8]、激素[9-10]、骨架蛋白[11-13]、脂肪代谢[9,14]、细胞壁成分[11,15]等相关基因。本团队利用连锁分析和关联分析也检测到与纤维发育相关的基因,如糖代谢相关基因Gh_D07G1799[1],与细胞代谢相关的伴侣基因Gh_D13G1792[1],与细胞骨架蛋白相关的gyp1p 家族蛋白基因Gh_A10G1256[2]和Ghir_D02G-002580[6],与 拟 南芥细胞伸长相关的KRP 家族蛋白基因Gh_D11G1929[2],与植物激素信号途径相关基因Gh_D02G0025[2]、Ghir_A03G020290[6];与 脂 质信号转导相关,编码棉花种子脂肪酸的基因Ghir_D02G010340[6],与细胞壁成分相关的基因Ghir_D02G011110[6]。

表2 纤维发育相关候选基因鉴定Table 2 Identification of candidate genes related to fiber development

5 棉花抗病性分子标记和基因发掘

黄萎病(Verticilliumwilt)是棉花生产上最重要的病害之一,严重影响着品质和产量。挖掘棉花抗病相关的分子标记和基因对棉花抗黄萎病遗传改良具有重要意义。目前,已发表多篇与棉花抗黄萎病相关的研究结果[16-17]。本团队以300多万个SNPs位点对401 份陆地棉核心种质黄萎病抗性进行关联分析[18],共检测到352个与黄萎病抗性相关的标记位点,其中在染色体Dt11上发现13个稳定存在的核心SNP标记位点,可用于分子辅助选择育种。

在棉花抗病相关基因报道中,内源激素介导的信号转导[19-20]、R基因[17,21-22]、次级代谢产物[23]等在抗病反应中发挥着至关重要的作用。本团队利用多组学、关联分析等方法,鉴定到多个与黄萎病抗性相关的基因(表3),如涉及抗病信号传导的脂肪酶基因GbEDS1[24-25]、蛋白激酶基因GbSTK[26]、亲环素基因GhCYP-3[27]、编码杂合的富含脯氨酸的细胞壁蛋白的GbHyPRP1[28]、G蛋白基因GhGPA[29]、编码植物L 型凝集素类受体激酶的GhLecRKs-V.9[18];R基因GbVe[30]、GbRVd[31];参与木质素单体的聚合编码漆酶的基因GhLAC15[32];影响苯丙烷途径中木质素和类黄酮代谢流的基因GhnsLTPs[33];与活性氧相关的基因GhPAO[34];硬脂酰-ACP-去饱和酶家族成员GhSSI2[35],谷胱甘肽硫转移酶簇GhGST[36],病程相关基因GhNCS[4]等。

表3 棉花抗黄萎病相关基因鉴定Table 3 Identification of cotton Verticillium Wilt resistance related genes

6 展望

传统育种方法改良作物性状已获得了巨大的成就,然而由于受到育种材料遗传背景狭窄、选择效率低等多因素约束,近年来我国重要作物品种选育工作已进入了平缓发展阶段。因此,加快育种技术创新势在必行。分子生物学催生的生物育种技术突破了传统育种的局限,使农作物育种更精确、更高效。现代生物技术在育种中的应用,必将加快育种速度,缩短育种年限,提高育种水平,同时也为棉花品种改良开辟新的道路。但由于我国的生物技术研究水平与发达国家相比还有差距,所以,急需加强我国棉花生物育种的源头创新,不断促进我国棉花产业的发展和进步。

猜你喜欢

位点种质测序
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
多环境下玉米保绿相关性状遗传位点的挖掘
华南地区最大农作物种质资源保护库建成
华南地区最大农作物种质资源保护库建成
新一代高通量二代测序技术诊断耐药结核病的临床意义
宏基因组测序辅助诊断原发性肺隐球菌
吉林省省级作物种质资源保护单位名单(第一批)
山东省省级农作物种质资源保护单位名单(第一批)
生物测序走在前
相信科学!DNA追凶是如何实现的?