基于遗传算法和熵权评价法的寒地水稻育种多目标优化设计
2022-01-10刘宝海聂守军高世伟刘宇强常汇琳张佳柠薛英会
刘宝海 聂守军 高世伟 刘 晴 刘宇强 马 成 常汇琳 张佳柠 薛英会 白 瑞
(1.黑龙江省农业科学院 绥化分院,黑龙江 绥化 152052;2.黑龙江八一农垦大学 农学院,黑龙江 大庆 163319)
黑龙江省稻作区是中国最北部的寒地稻作区,也是优质粳米生态区。作为黑龙江主要粮食作物的水稻,2018年种植面积约为378万hm,约占全国粳稻总种植面积50%,约占全国种植面积3 019万hm的12.5%,水稻总产量2018年达2 685.5 万t,约占全国水稻总产量的12.7%,在粮食生产和保障国家粮食安全方面起到了举足轻重作用。优良新品种的选育和应用为寒地水稻单产提高、总产持续增加、综合生产能力稳定提升做出了突出贡献。
育种目标是开展育种实践工作的前提、依据和指南,其制定的准确与否直接关系到育种工作的成败。多目标性状优化问题中,面临多个优化目标性状往往是不易兼顾的,几乎不存在一个解能够同时满足优化多个目标的最优函数。求解多目标优化问题实质就是在满足所有约束条件和各个目标函数条件下的1组最优Pareto解集,同时也需要对解进行评价选择,常见评价方法有基于效用函数冲突解决理论和理想点法等。随着VEGA、NSGA和NSGA-Ⅱ等方法相继提出,利用遗传算法求解Pareto解集迅速得到广泛应用,但主要应用于种植结构调整、水资源配置、机械设备制造和调度问题等方面。
水稻育种目标中高产和优质是永恒的主题,进入21世纪以来, 随着人们生活水平显著提高,育种目标也从单一高产转向优质、抗病和高产等复合性状目标。然而这些目标性状受遗传与环境影响,往往是互相矛盾且不易兼顾、难以量化统一协调的。目前,育种家设计育种目标时,较少考虑未来5~10年生产对品种特征的需求,且存在着经验定性较多而客观量化较少、性状单一局限突出而协调统一不足的问题。采用遗传算法进行多目标优化模型应用,已经被不少学者在多方面使用且效果良好,但应用此方法于水稻育种多目标优化设计,并结合熵权评价法对Pareto解集进行功效综合评价鲜见报道。本研究参照7个黑龙江省第二积温带主推水稻品种的22个农艺性状变量指标数据值,运用NSGA-II遗传算法与功效评价法,旨在优化设计适宜黑龙江省第二积温带水稻生产需求的育种多目标性状参数值方案,以期为寒地不同积温生态区水稻及大豆、玉米等作物新品种的育种多目标优化提供参考。
1 材料和方法
1.1 试验材料
本试验在黑龙江省绥化市北林区秦家镇(46°49′ N,126°57′ E)进行。选择2015—2019年黑龙江省第二积温带‘绥粳号’主推水稻品种,包括‘绥粳4号’(V)、‘绥粳15号’(V)、‘绥粳16’(V)、‘绥粳18’(V)、‘绥粳22’(V)、‘绥粳23’(V)和‘绥粳28’(V)共7 个品种,种子来源于黑龙江省农业科学院绥化分院。V品种2018年种植2.46万hm,占全省水稻播种面积的0.66%,V、V、V、V、V和V品种2019年分别种植14.36万、6.32万、68.21万、21.92万、0.25万和5.38万hm,各占全省水稻播种面积的3.77%、1.66%、17.93%、5.76%、0.93%和1.42%,7个品种累计占全省播种面积的32.13%。其中V种植面积全省第1位,V是黑龙江省首个香稻品种,其他5个品种均在不同年份被列为黑龙江省优质高产水稻品种植区划布局主推品种。
1.2 试验方法
1
.2
.1
试验设计试验采用田间种植品种比较试验设计。供试材料于2019和2020年的4月中旬苗床育秧播种,播种量为250 g/m。5月下旬栽插本田,每个品种10行,行长10 m,行距30.3 cm,株距13.3 cm,每穴3株苗。3次重复。田间施尿素200 kg/hm,磷酸二铵120 kg/hm,硫酸钾75 kg/hm。尿素使用比例为基肥∶蘖肥∶穗肥∶粒肥=5.0∶3.0∶1.5∶0.5,磷酸二铵为基肥施用,硫酸钾施用比例为基肥∶穗肥=6∶4。生长期水分管理以浅水间歇灌溉为主,8月末停水。田间不施农药。
1
.2
.2
数据采集采集指标主要包括:株高(x
)、剑叶长(x
)、剑叶宽(x
)、穗长(x
)、穴穗数(x
)、每穗粒数(x
)、每穗实粒数(x
)、千粒重(x
)、着粒密度(x
)、结实率(x
)、实际产量(x
)、谷粒长(x
)、谷粒宽(x
)、长宽比(x
)、垩白度(x
)、垩白米率(x
)、出糙率(x
)、整精米率(x
)、直链淀粉含量(x
)、胶稠度含量(x
)、蛋白质含量(x
)和食味品质分值(x
)。数据采集方法为:水稻成熟期,调查供试材料小区中间4行40穴穗数,计算平均穴穗数,按平均穴穗数选取有代表性10穴植株考种,采集株高、剑叶长、剑叶宽、穗长、每穗粒数、每穗实粒数、千粒重、着粒密度和结实率等性状,选择小区中间2 行去除行头0.5 m收获,自然风干后脱粒测定小区实际产量并折算单产,kg/hm。稻谷收获储藏1个月后,利用万深SC-E大米外观品质检测及稻米品质判定仪(杭州万深检测科技有限公司)测定谷粒长、谷粒宽、长宽比、垩白米率和垩白度,参照国家标准《优质稻谷(GB/T17891-2017)》测定出糙率、精米率、整精米率、直链淀粉含量、蛋白质含量和胶稠度含量。用日本静冈制机株式会社的QS-4000型高精度近红外线食味分析仪测定精米食味品质。
1
.2
.3
多目标优化1)确立目标变量关系函数。构建如公式(1)和(2)所示的以实际产量、食味品质分值为因变量,其他指标性状值为自变量的关系函数。
Y
=b
+b
x
+b
x
+…+b
x
(1)
T
=b
+b
x
+b
x
+…+b
x
(2)
式(1)~(2)中:Y
表示实际产量函数;T
表示食味品质函数;x
为待优化的自变量性状值;b
为常数项;b
为偏回归系数;p
表示某个自变量性状。2)构建多目标优化函数模型。种植水稻品种实际产量目标、精米食味品质目标越大越好,建立的目标优化函数如下述公式(3):
max=[f
(x
),f
(x
)](3)
式(3)中:f
(x
),产量Y
函数;f
(x
),精米食味品质T
函数;x
,待优化的性状变量。根据种植、加工和消费等主体对品种性状要求,制定约束条件如公式(4):
s.t.
=lb≤x
≤ub(4)
公式(4)中:lb和ub分别为变量x
的下限和上限约束。3)优化函数模型求解。本研究采用NSGA-II遗传算法,通过MATLAB编程,实现优化函数模型的求解。运用该算法求解步骤如下:首先,对模型构建中决策变量作实数编码,其中包括穗实粒数、千粒重、胶稠度含量、蛋白质含量和整精米率等。其次,随机产生N个个体初始种群,非支配排序后,通过选择、交叉和变异得到F子群。然后,F开始将父代与子代结合,作快速非支配排序和拥挤度计算,再选取合适个体形成新父代种群。最后,运用遗传算法基本操作产生新1代子群,依次类推,直到满足条件为止。
1
.2
.4
优化结果评价利用熵权综合评价法,结合实际解决问题需要,对最优Pareto解集进行评价,具体步骤如下:
1)设定m
个评价方案,n
个评价指标,各指标原始数据矩阵表示为公式:R
={r
}×(i
=1,2,3,…,m
;j
=1,2,3…,n
)(5)
式(5)中:r
,第i
个评价方案第j
个指标值。2)计算标准化数据如公式(6),确定如公式(7)的标准化数据矩阵P
:(6)
P
={p
}×(i
=1,2,3,…,m
;j
=1,2,3,…,n
)(7)
式(6)和(7)中:P
,第i
个评价方案第j
个指标综合标准化值;m
,评价单元数量。3)计算评价指标信息熵,可表示为公式:
(8)
式(8)中:e
,第j
个指标的信息熵。4)计算各指标权重,即熵权,可表示为公式:
(9)
式(9)中:ω
,第j
个指标的权重(熵权)。5)计算各指标隶属函数价值系数值b
,如公式(10)(指标均为正效益)、(11)(指标均为负效益)所示,从而确定功效矩阵B
。(10)
(11)
B
={b
}×(i
=1,2,3,…,m
;j
=1,2,3,…,n
)式(10)和(11)中:b
,第i
个评价方案第j
个指标的价值系数值。6)对Pareto解集方案综合评价,计算如公式(12)所示:
(12)
式(12)中:CI,第i
个方案第j
个指标评价下的综合评价指数值。1.3 统计分析
利用IBM SPSS Statistics 25.0软件,对采集的22 个性状指标变量平均值数据进行回归线性分析,确立目标变量关系函数。利用MATLAB(R2017a)软件编辑源代码,对筛选出的Pareto解集指标数据进行评价获取综合评价指数值(CI)。2019和2020年7 个品种22个农艺性状的指标值重复性好且变化趋较一致,故本研究主要利用2020年数据进行统计分析。
2 结果与分析
2.1 育种多目标变量函数模型构建
由表1可知,7个品种间谷粒长(x
)和谷粒宽(x
)2 个性状指标差异均达显著水平(P
<0.05),其他20个性状间差异均达极显著水平(P
<0.01)。其中株高(x
)、剑叶长(x
)、着粒密度(x
)、结实率(x
)、垩白度(x
)、垩白米率(x
)和出糙率(x
)在7个品种间的遗传变异多样性较丰富,剑叶宽(x
)、千粒重(x
)、谷粒长(x
)、谷粒宽(x
)、谷粒长宽比(x
)、蛋白质含量(x
)和食味品质性状(x
)在品种间遗传变异多样性较小。各性状指标值在品种间表现的较大差异性和相对稳定性,既利于供试品种特性参数指标充分表达,也能够保证目标变量函数模型构建可靠性。表1 供试品种农艺性状指标试验结果
Table 1 Test results of agronomic characters of tested varieties
品种Varietyx1x2x3x4x5x6x7x8x9x10x11 V186.0f24.0c1.3bc14.6e19.0d104.8c97.0cd26.3b7.2a92.6d9970.2b V289.7e21.0e1.5ab17.6d21.7b113.8b98.0c25.7c6.5b85.2f9019.0c V393.4d27.0a1.5ab17.0d18.3e118.4a96.9cd26.6b7.0a81.9g8333.3d V487.4f22.0d1.4b16.5d20.0c102.8c109.0a26.0b6.2c94.4b10375.0a V5101.9b23.6c1.2c18.9b16.0f100.9d94.1d26.6b5.3e96.1a8217.3de V6108.1a25.2b1.6a21.4a19.0d111.6b102.0b26.8b5.2f86.9e7917.3e V798.5c18.2f1.2c18.0c24.3a103.9c94.0d27.8a5.8d93.4c9989.3b均值Averag95.023.01.417.719.8108.098.726.56.290.19117.3 F364.46∗∗331.77∗∗6.50∗∗131.96∗∗163.35∗∗38.37∗∗52.98∗∗5.23∗∗107.75∗∗1009.83∗∗145.17∗∗品种Varietyx12x13x14x15x16x17x18x19x20x21x22 V15.4b2.7a2.0b0.1g1.0e80.1e71.7b17.5d73.6c6.5b83.0b V25.4b2.6ab2.1b1.2b5.5b81.9d68.4c18.7a71.0e6.6b80.0c V35.2b2.6ab2.0b0.6e4.0c82.4c67.3d17.8bc73.3c6.5b81.0c V45.4b2.6ab2.1b1.0c0.2f84.6a72.8a17.6c74.6b6.7ab80.0c V55.3b2.6ab2.0b0.3f2.5d82.0c71.9b17.9bc74.0bc6.5b84.0a V66.0a2.4b2.4a2.6a6.0a79.2f64.5e18.1b76.5a6.8ab84.0a V75.7ab2.4b2.4a0.8d2.5d83.4b72.3ab17.5d72.0d6.9a85.0a均值Averag5.52.62.10.93.181.969.817.973.66.682.4 F4.01∗3.86∗23.00∗∗475.67∗∗356.50∗∗158.02∗∗94.75∗∗11.61∗∗53.99∗∗5.50∗∗18.00∗∗
注:V,‘绥粳4号’;V,‘绥粳15号’;V,绥粳16;V,绥粳18;V,绥粳22;V,绥粳23,V,绥粳28。,株高,cm;,剑叶长,cm;,剑叶宽,cm;,穗长,cm;,穴穗数;,每穗总粒数;,每穗实粒数;,千粒重,g;,着粒密度,粒/cm;,结实率,%;,实际产量,kg/hm;,谷粒长,mm;,谷粒宽,mm;,长宽比;,垩白度,%;,垩白米率,%;,出糙率,%;,整精米率,%;,直链淀粉含量,%;,胶稠度,mm;,蛋白质含量,%;,食味品质。*和**表示5%和1%水平差异显著。同列不同小写字母表示不同品种处理在5%水平差异显著。下同。
Note: V,‘Suijing 4’;V,‘Suijing 15’;V,‘Suijing 16’;V,‘Suijing 18’;V,‘Suijing 22’;V,‘Suijing 23’,V,‘Suijing 28’., plant height,cm; , flag leaf length, cm; , flag leaf width, cm; , panicle length, cm; , panicles per clump; , grain number per panicle; , filled grain number per panicle; , thousand grain mass, g; , grain density, grain/cm; , seed setting rate,%; , actual yield, kg/hm; , grain length, mm; , grain width, mm; , ratio of length to width; , chalkiness, %; , chalky rice rate, %; , percentage of brown rice, %; , head rice rate, %; , amylose content, %; , gel consistency, mm; , protein content, %t; , taste quality.* and ** indicate significant difference at 0.05 and 0.01 levels.Different lowercase letters in the same line mean significant differences among varieties at 0.05 levels.The same below.
利用表1性状指标均值数据,分别以产量(Y
)和食味品质(T
)为因变量,其他20个性状值为自变量,构建多元回归模型线性方程,见公式(13)和(14),并对f
(x
)和f
(x
)回归模型方程拟合度分析,其相关系数值均为R
=1.00,说明模型与实际拟合度极好,试验误差极小,可解释全部响应变量的变化。f
(x
)=(13)
f
(x
)=(14)
f
(x
)回归方程中自变量有剑叶宽(x
)、穗长(x
)、穴穗数(x
)、穗实粒数(x
)、千粒重(x
)、结实率(x
)、出糙率(x
)、胶稠度含量(x
)和蛋白质含量(x
)。f
(x
)回归方程中自变量有株高(x
)、穗实粒数(x
)、结实率(x
)、谷粒宽(x
)、长宽比(x
)、出糙率(x
)、整精米率(x
)、直链淀粉含量(x
)、胶稠度含量(x
)和蛋白质含量(x
)。同时,根据种植、加工和消费等经济主体对品种性状的要求,建立制定约束条件如公式(15),公式中x
、x
、x
、x
、x
、x
和x
变量性状能够满足种植者对高产稳产“好种”的要求,x
变量性状能够满足加工企业要求整精米率高降低生产成本“好加工”的要求,x
、x
、x
、x
、x
和x
变量性状能够满足消费者对稻谷外观和理化指标食味优良“好吃”的要求。(15)
2.2 育种多目标优化结果
据公式(13)~(15),运用NSGA-II遗传算法寻优求解,并结合育种实践,筛选出某次运行得到的第1前端个体前沿分布(图1);获得Pareto解集x
及与方案对应的目标函数值f
(x
)、f
(x
)(表2)。在Pareto前沿面上,随产量指标值增大,食味品质指标值减少,呈向上凸起趋势,同实践中产量与品质相互负向影响情况相符合(图1)。50个方案中产量指标值在7 843.35~12 660.1 kg/hm,食味品质指标在85.15~95.98分,见表2。可筛选出相互干扰而达较高水平优化平衡的育种方案。图1 某次运行第1前端个体Pareto分布图
2.3 优化方案评价
由表3可知,确定育种多目标优化方案综合评价指数(CI)排序前10 位代号方案由高到低为20、24、34、35、3、44、10、37、32和4。这10个方案食味品质指标在90.85~93.54分(表2),均达国家1级米标准,且均大于表1中供试品种食味品质分值,但均不是食味品质分值最高的方案。同时,产量指标在9 916.28~10 959.79 kg/hm,均大于供试品种产量平均值(表1),但也均不是产量最高方案。说明这10 个优先方案,达到食味品质分值与产量及其构成因素较高水平优化目标。
表3 基于Pareto最优解的综合评价指数值及排序
Table 3 Index value and order of comprehensive evaluation based on Pareto optimal solution
排序Order综合指数CI方案Program排序Order综合指数CI方案Program排序Order综合指数CI方案Program排序Order综合指数CI方案Program10.727920140.628246270.526445400.4192120.725624150.628012280.511141410.4127730.720134160.627718290.509017420.3980840.719535170.590025300.462439430.38952350.71463180.588913310.455511440.38941560.713644190.587827320.45439450.37343070.661210200.554340330.453038460.36983180.659937210.553626340.452948470.36374790.656432220.546614350.448950480.363433100.65444230.543049360.448536490.357343110.645022240.54286370.43965500.35462120.643428250.536716380.437721130.635542260.533719390.430529
2.4 育种目标设计
由表4可知,10 个优化方案各性状变异系数值在0.01%~3.17%,说明这些参数值变化既有稳定性,也有差异性。育种实践过程中,应立足未来5~10年优质、高产和多抗水稻新品种需求,针对产量和品质等性状指标不易兼顾、难以量化统一协调的瓶颈问题,设计黑龙江省第二积温带水稻育种目标方案模型,即选育目标新品种性状参数值为:食味品质分值≥90.0分,产量9 916.28~10 959.79 kg/hm,株高94.0~96.0 cm,剑叶宽1.4~1.5 cm,穗长16.0~16.1 cm,穴穗数24.3~24.5穗,穗实粒数97.0~102.0 粒,千粒重24.5~24.9 g,结实率≥96%,谷粒长宽比2.4~2.5,出糙率≥81.4%,整精米率≥71.5%,直链淀粉含量15%~18%,胶稠度含量76.7~78.7 mm,蛋白质含量6.3%~6.6%。同时,育种实践中也要兼顾抗倒伏、抗病性指标要求,即水稻倒伏面积≤20%、倒伏倾斜角度≤30°,穗颈瘟病发病面积≤5%。
3 讨 论
3.1 育种目标对育种效果的影响
作物育种目标贯穿着整个育种过程,只有确定了准确合理的育种目标, 才能减少育种工作的盲目性, 增强主动性, 最大限度地利用现有种质资源, 提高育种效率。育种目标既需要科学的前瞻性, 又要有与当下生产需要紧密结合的实用性。就水稻常规有性杂交育种而言,当下实施的育种目标一般需要10年才能稳定下来,其呈现效果也将直接影响品种应用前景。据统计,2015—2019年黑龙江省优质高产水稻品种种植布局主推品种共69个,其中2013—2019年黑龙江省审定品种有40 个,约占全部主推品种的58%,占这期间全省206个审定品种的19%,剩余81%的品种极有可能因其性状指标不能满足生产需要而不能大面积推广。因此,只有以当下优良品种为基础,面对未来市场产业化生产需求,制定明确、合理的育种目标,适时推动育种实践,才能减少育种工作的盲目性和失效性,有利于集聚有限的资源,提高育种工作效率。
3.2 优化方法对育种目标设计的影响
遗传算法是一种模拟生物进化和遗传变异机制的概率优化方法,目前不少学者已经将智能算法与多目标优化相结合进行模型应用。遗传算法中有主要目标法、理想点法、线性加权法、最大最小法及目标达到法等多目标优化方法,这些方法各有优劣。使用多目标遗传算法可以获得无穷多个非劣解,如何从中选择出最符合实际需求的方案需要进行系统客观的评价。本研究提出一种将智能遗传算法与功效评价相结合的寒地水稻育种多目标优化评价方法,采用NSGA-II遗传算法对主要目标函数进行优化模型求解,根据实践需要选择某次Pareto解集后,利用熵权功效评价法对Pareto解集进行评价,能够获得符合优化问题实际需要的育种目标优化方案,完善了寒地水稻育种目标设计理论与方法。也可用于寒地不同积温生态区水稻新品种的育种多目标优化设计。
3.3 寻优方案对育种实践的影响
优选方案结果的实用性和可行性,关系到寻优结果是否具有实际推广价值。同时也需要对多个目标性状进行权衡利弊综合评价。本研究获得的黑龙江省第二积温带水稻育种目标方案模型,尤其是设计的10 个优化方案16 个目标性状参数值范围,与2018年黑龙江省种植推广面积最大的‘绥粳18’性状参数均值对照,株高增加6.6~8.6 cm,穗长减少0.4~0.5 cm,穴穗数约增加4穗,穗实粒数减少7~12粒,千粒重减少1.1~1.5 g,结实率增加1.6%以上,谷粒长宽比增加0.3~0.4,出糙率约减少3%,整精米率约减少1%,直链淀粉含量约减少2%,胶稠度含量增加2.1~4.1 mm,蛋白质含量减少0.1%~0.4%,产量变化范围-459~585 kg/hm,食味品质分值增加10 分以上。10 个寻优方案,较采用传统经验定性和单一量化育种目标方案,可避免主观评价误差,实现不易兼顾的多目标性状统筹设计,对于长周期水稻育种实践具有较强科学性、普遍性和实用性。本研究在建模过程中没有考虑抗病和抗倒伏等目标性状,存在一定局限性,同时也没有利用目前生产上大面积推广或潜在具有生产推广可能性的品种,进行模型验证,今后还有待对此做进一步分析。
4 结 论
本研究面向未来5~10年寒地水稻育种需求,针对目前寒地水稻育种多目标优化设计方法较少,尤其是产量、品质等性状指标互相矛盾且不易兼顾、难以量化统一协调的问题,以黑龙江省第二积温带7个主推水稻品种22个农艺性状值为参照,运用NSGA-II遗传算法与和熵权综合评价法,优化设计出适宜黑龙江省第二积温带水稻生产需求的育种目标性状参数值方案共10个。优化方案显示,水稻的食味品质分值达90.9~94.5分,较供试品种均值增加8.5~13.0分,产量9 916.3~10 959.8 kg/hm,较供试品种产量均值增加799.0~1 842.5 kg/hm,其他16个性状参数值均有相应量化调整,可以获得更加合理的育种方案。综上,遗传算法和熵权评价法结合可用于不同寒地生态区水稻新品种多目标科学量化设计并提高育种效率。