郭予元院士在植物保护数理统计学上的学术贡献
——纪念郭予元院士诞辰90周年
2023-02-03周益林范洁茹梁革梅陆宴辉
周益林, 聂 晓, 刘 伟, 范洁茹, 梁革梅, 陆宴辉
(中国农业科学院植物保护研究所,植物病虫害生物学国家重点实验室, 北京 100193)
数理统计学是随着人类社会发展和管理的需要而从应用统计学发展起来的一个分支学科,它是一门通过运用多种模型与技术分析、社会调查与统计分析来收集数据与处理数据的方法,对科技前沿、国民经济中复杂或者重大的问题以及社会和政府中的大量问题进行定量分析的学科。此学科从卡尔·皮尔逊(Karl Pearson)[1]于20世纪初创立以来,作为一个实用性极强的学科已广泛应用于社会各个领域,其在植物保护学科领域中的大量应用始于20世纪60年代,特别是70年代计算机及其相关工程技术的快速发展,大大促进了数理统计在植保学科特别是昆虫生态学、植物病害流行学及病虫害监测预警等领域中的广泛应用。郭予元院士作为数理统计学在植保学科的应用研究先驱者之一,从20世纪50-80年代就开始在这方面做了大量工作,为数理统计在植物保护学科中应用研究以及教育普及工作作出了重大贡献。
1 郭予元院士在植保数理统计理论和方法中的重要贡献
20世纪60年代郭予元院士在宁夏永宁农校工作期间,计算器/计算机还不普及,大量的数理统计的计算工作还需要依赖手工计算,其中相关分析是在病虫害调查数据分析中经常使用的重要方法之一。简单的相关系数比较容易计算,但多重相关分析由于公式复杂,其手工计算过程比较麻烦,为了简化这一过程,郭予元院士根据分解线性回归方程的原理,创造性地提出了一种紧凑计算法。这种方法不论有多少要分析的因素,都无需查找特殊的公式就可简捷地把各种相关系数算出来[2]。在此基础上郭予元院士于1985年又进一步提出了紧凑消去法解多元回归联立方程的计算方法,这两种计算相关系数和回归系数的紧凑消去法的特别之处在于把几阶矩阵的中间计算过程串联在一起,减少了手工抄写,大大提高了计算速度,节省了计算时间,而且涉及的因子越多,其优点更加突出,同时计算过程中便于检验,能避免出错[3]。郭予元院士(1981年)通过对科技期刊上已发表的求致死中量的若干实例数据研究分析发现,在统计分析杀虫剂的致死剂量中采用多项式配线精确度一般优于常用的机值分析法,特别是在数据点偏离剂量-死亡线的情况下,机值分析法误差大且结果很不可靠。但是采用多项式配线的最大问题是运算过程太麻烦,远远比不上机值分析法简便快捷,尽管英国著名统计学家罗纳德·费希尔(Ronald Fisher)[4]在1938年提供的正交多项式表可加快系数变换后的配线速度,但是这种方法解决不了系数复原的简化问题,进行高次方程的系数复原非常费事。郭予元院士根据正交多项式编制了系数复原表,使整个配线过程全部表格化,成功解决了这一问题[5-6]。同时他还通过进一步数据分析提出了以上两种方法适用的数据特征和各自的局限性。
在20世纪80年代初,在比较高端、有统计功能的计算器如Casio fx-180p、Casio fx-3600p等还不普及的情况下,郭予元院士(1983年)就开发出基于单变量函数式普通电子计算器直线回归分析程序,由于这类早期型号的计算器(如Casio fx-120)只带有一个存储器,还不能实现真正意义的统计学分析如直线回归分析,他巧妙地利用这单一存储器创造性地通过对该类型号计算器编程实现快速连续运算,约1 min可直接求出直线回归的截距、斜率和回归误差[7]。这一绝妙的思路和方法成为他以后利用Casio fx-180p、Casio fx-3600p等型号计算器进行统计学分析方法编程的开端,由此可以看出郭予元院士深厚的数理统计功底和功夫。随着Casio fx-180p系列型号计算器的推出和普及,郭予元院士基于此系列型号计算器开发出几乎涵盖植保学科领域常用的数理统计学方法或模型的编码程序,如分组资料的平均数和方差计算、方差同质性分析、自相关和偏相关系数计算、机值法求LD50及卡方检验、Leslie矩阵最大特征值和特征向量、逻辑斯蒂曲线拟合及K值求法、3~5次方程求根、病虫害各种空间分布型拟合(正态分布、二项分布、泊松分布、负二项分布、奈曼A分布、泊松-二项分布等)、谐波分析、生态位和病虫危害指数等参数计算。从郭予元院士这些编码程序可以看出,他把此型号系列计算器的2程序存储区共38步可用的功能发挥到极致,只可惜这些程序编码当时都没有在公开期刊或杂志发表,只保留在郭先生的工作笔记和课程教案中,或者参加过他的数理统计培训班或上过他的昆虫生态学课程的学生或学员的笔记中有部分保存,这也是非常遗憾的事情,本文在此展示两个例子(正态分布和谐波分析),以体会下这些编码程序的精妙思路及它的美学之处。
例子1的正态分布由法国数学家亚伯拉罕·棣莫弗(Abraham De Moivre)于1733年首次提出,后由德国数学家Gauss率先将其应用于天文学研究,故正态分布又叫高斯分布,该分布是许多统计学方法的基础,应用范围广泛。其公式如下:
上式中π为常数,μ为数学期望,σ2为方差,随机变量x服从参数为μ、σ2的正态分布或高斯(Gauss)分布。
例子2的谐波分析在18世纪和19世纪已经奠定了良好的基础,傅里叶等提出的谐波分析方法仍被广泛应用。尽管此分析方法起源于电磁学领域,但也可用于对病虫害时间序列的分析和模拟预测,满足一定条件(Dirichlet条件)的、以T为周期的时间周期函数f(x),在连续点处,可用下述三角函数的线性组合(傅里叶级数)来表示:
上式称为f(x)的傅里叶级数,a0为直流分量,r为谐波次数,ar和br为谐波幅度,L为最大谐波次数,x为等距值。
Casio fx-180p求a0,ar,br: 1 Kin 5 MODE 0 INV PCL P1Kout 6 M+ MR sin*ENT Kin+3 Kin 4=Kin+1 MR cos*Kout 4=Kin+2 INV RTN INV P2Kout 5÷÷Kout 2=INV HLT Kout 1=MODE·INV KAC INV Min 2πm/n Kin 6 INV M-n Kin 5 P1y1RUNy2RUN····AC INV P2→arRUN→brKout 3÷N→a0。
郭予元院士早期在数理统计学理论和方法方面的贡献中其“正交多项式配线求杀虫剂的致死中量”和“多元回归分析的因子相关选择法”两项成果分别获得了1983年宁夏技术改进奖二等奖和宁夏优秀科技成果奖三等奖。
2 郭予元院士在植保数理统计学应用研究中的重要贡献
20世纪50年代中期郭予元院士在宁夏回族自治区试验农场做稻瘟病(病原菌Pyriculariaoryzae)发生规律、预测预报和防治研究的时候,就开始在试验研究中应用相关的数理统计学方法。他从调查稻瘟病发生规律入手,在田间调查和病菌孢子捕捉技术收集数据基础上,采用多元回归分析方法对多年稻瘟病病情和气象资料进行分析,通过对分析结果的实地验证,证实关键时期雨量和雨日的乘积与稻瘟病发生程度极显著相关,由此制定了预测稻瘟病病情和确定最佳防治时间的中长期预测模型,此模型可准确测报稻瘟病的发生,有效地指导对该病的防治。当时,采用数理统计方法定量化研究病虫害规律并建立病虫害预测模型的研究在国内是非常少见的,只可惜限于当时客观条件,这些有重要意义的结果大多都没能在相关学术期刊上正式发表[8]。
1982年底郭予元院士调入中国农业科学院植物保护研究所,此后在植物保护研究所工作的35年间,在他的引领下他和团队的老师及学生使用数理统计的方法解决了不少植保学科数据分析中的难题、障碍和科学问题,取得许多丰硕的研究成果,为数理统计在植保学科中的应用作出了重大贡献。此文鉴于篇幅所限,在此只介绍郭予元先生在害虫生命表和种群动态及多病虫危害产量损失和防治指标两个方面的研究工作。
2.1 害虫生命表和种群动态的研究
20世纪80年代开始郭予元院士和团队的研究人员就开展了麦田黏虫Mythimnaseparata生命表的研究,在对黏虫发育阶段致死因子K值和种群趋势指数分析的基础上,首次采用了欧式距离相似程度的方法分析其关键因子,筛选出了影响黏虫种群的关键因子为蛹的被寄生和1~3龄幼虫的被捕食,这2个因子是造成一代黏虫年度间变动的主要原因。此研究采用的欧式距离分析法比前人常用的图解法、b值分析法、r2值分析方法等所得结果更精确,还可避免采用逐步回归分析存在的缺陷,即不能排除选中高负值r的因子可能性(这种情况是不符合生物学逻辑,即由此因子造成的死亡率越高,最终残虫率也越高,是不合理的)[11]。1989年郭予元院士和团队的研究人员通过田间试验首次建立了麦长管蚜Sitobionavenae(目前已更名为荻草谷网蚜Sitobionmiscanthi)田间自然种群的生命表,此研究在对麦长管蚜各代种群趋势指数分析的基础上,采用聚类分析中的距离系数方法对影响麦长管蚜种群的影响因子K值进行了分析,明确了影响种群波动的主要因素是天气条件和天敌,低龄若蚜主要受风雨影响,高龄若蚜和成蚜则受天敌和风雨共同作用[12]。随后还建立了棉铃虫Helicoverpaarmigera自然种群生命表,通过关键因子分析明确了影响全年棉铃虫种群数量变动的关键因子是2龄期被寄生,年度间关键因子是5龄期被捕食,明确了化学防治对种群I值的影响,给出了相应的化学防治策略[13]。1994年通过对田间麦无网长管蚜Metopolophiumdirhodum系统调查,分析了该蚜虫的时空分布格局和动态变化,通过对生态位的定量分析,明确了麦无网长管蚜、禾谷缢管蚜Rhopalosiphumpadi和麦长管蚜的种间竞争关系,在用相关分析和通径分析明确麦无网长管蚜种群消长关键因子的基础上,通过多元回归分析法建立了基于关键因子的预测模型[14]。
2.2 多病虫害危害产量损失及复合防治指标
20世纪80年代开始郭予元院士以及团队的科研人员还开展了棉铃虫对棉花的危害和防治指标的研究,组建了不同年份、不同肥料水平及不同代棉铃虫为害棉花的产量损失率模型,在这项研究过程中采用协方差分析成功地解决了模型之间的斜率和截距差异性比较,明确了不同模型的适用性范围和稳定性差异,最终分别建立了适用于三种情况,即高产二代或中产二代或高产、中产、低产三代及低产二代的棉铃虫损失率估计模型[15]。1988年通过田间自然虫源辅助人工控制培养研究了4种麦蚜混合种群对小麦产量的影响,此研究采用偏相关分析方法,成功地解决了穗数对小麦产量的影响及不同蚜种对小麦产量的影响问题,从而明确了4种蚜虫混合种群中麦长管蚜和禾谷缢管蚜对产量有明显影响,并通过多元回归分析方法获得了复合蚜量的动态防治指标[16]。郭予元院士等于1994年通过田间开放式小区试验,巧妙地采用了回归最优设计的“206”田间试验设计,对河南省二代棉铃虫和叶螨(朱砂叶螨Tetranychuscinnabarinus和截型叶螨T.truncatus的复合种群)为害棉花的复合防治指标进行了研究,在数据分析中用偏相关分析发现黄萎病对叶螨有一定干扰作用,因此通过协方差方法排除了黄萎病的干扰,并用主成分分析明确了棉铃虫和叶螨的一次和二次型数值,尤其是二者的交互作用,建立了棉铃虫和叶螨复合为害的二次曲线方程,并组建了一系列复合防治指标[17]。另外在棉铃虫预测预报研究方面,在华北棉区用扫网法和目测查虫法调查麦田一代棉铃虫幼虫发生,用比较法和生命表分析法预测二代棉铃虫在棉田的发生程度和虫口密度,经1991年-1994年应用检验,其预测结果均与实际发生情况吻合[18]。
3 郭予元院士在植保数理统计学教学和普及中的重要贡献
郭予元院士值得一书的还有他在植保数理统计学的教学和普及方面的重要贡献。多年来他通过在全国各地举办植保数理统计培训班和研究生授课,大大提升了我国从事植保学科的一代又一代科技人员在试验设计、科学地统计和分析试验数据的水平,解决了一些科研和生产及相关的数理统计中的重大问题和复杂问题,为科学地预测和防治病虫害以及提高我国植保的科学水平都起到重要的作用。
3.1 植保数理统计学培训班
20世纪80年代初郭先生在实际研究和工作中发现,由于我国教育体系受文化大革命的影响,植保领域的研究人员特别是从事病虫害预测预报等方面的年轻工作者普遍存在数理统计知识薄弱的问题,严重制约植保学科领域科学研究的发展和研究水平的提升。他把自己多年来坚持自学的数理统计知识和经验总结整理出适用于植保科学试验研究的一套统计分析方法—《植保数理统计学方法》,并自己刻板油印,先后在我国7个省20多个农业科研和推广单位举办多次数理统计讲习班,不但使当时许多植保科研和推广人员的研究论文数据分析的科学性得到明显提高,更重要的是培养了一大批懂数理统计的植保领域的专家和学者,这些人员至今还活跃在各自的研究领域并发挥着重要的作用。
郭予元院士油印本的《植保数理统计学方法》内容广泛,不仅涵盖了当时植保学科领域所有能用到的基本统计学方法,如回归分析、相关分析和通径分析、曲线方程拟合、病情发生趋势预测方法、列联表分析法、聚类分析和判别分析、t检验和方差分析、正交试验、卡方分析、协方差分析、空间分布型和抽样技术、病虫危害特性和防治指标等,还包括了当时一些刚刚出现的数学或统计新兴领域的方法如模糊数学、灰色理论等,还有一些不太常见的统计学方法或当时比较新的田间试验设计方法如题总相关分析、岭回归方法、灰色突变长期预测模型、回归正交旋转设计等也在培训班中多有涉及。一些学员或学生在学习后就很快在自己研究中应用,如有学员1989年在小麦白粉病(病原菌:Blumeriagraminisf.sp.tritici)田间药剂防治试验中就采用了回归正交旋转设计,这种试验设计的优点是试验处理少,获得的信息多,精确度高,而且计算简便,从药剂试验结果看,它不但能获得每种药剂的防效大小和药剂之间交互作用的有无,更重要的是可以获得每种药剂用量与病情之间的关系模型,从而在防治时可根据实际情况,计算出最适用药量[19]。
郭予元院士授课通俗实用,所用的实例都是植保领域田间试验或病虫害发生流行的相关数据实例,每次上课都根据学员的实际情况举例,而且在课堂上实时采用Casio fx-3600p、Casio fx-180p计算器编程,进行实际操作计算,使学员能学到数理统计的真本领,尤其重要的是他在授课时不但教各种统计学方法的使用,还特别强调使用时需要注意的问题,为此他还专门整理油印了相关的材料如《病虫测报中的几个问题》《棉虫试验的几种统计分析方法》等供学员学习。比如在《病虫测报中的几个问题》中就强调了预报因子在选择时不能只凭生物学逻辑或简单相关系数挑选因子,一定还要注意因子之间的自相关性和主次关系;在对有重复使用的数据进行回归分析时,不但要检验回归的显著性,还要检验重复之间失拟的显著性;在《棉虫试验的几种统计分析方法》中强调了数据转换的问题以及数据转换与数据分布型的关系,例如在对棉蚜Aphisgossypii田间种群量数据进行方差分析时,应先把数据转换成对数值,这是因为棉蚜在田间是聚集分布的。统计分析数据转换和数据分布型在当前依然是植保数理统计中的薄弱环节或被忽视的问题。
郭予元院士不但通过举办培训班传授数理统计知识,国内植保同行或学生也经常通过信件向他请教相关问题,郭先生都是有问必答,甚至亲自帮助不少老师处理和分析他们的试验数据。如1986年前后新疆植保站的荣丽君老师就数次给郭先生写信请教多年度害虫为害产量损失数据的分析和模型的组建问题,郭先生都一一回信做了解答,而且还亲自对他的试验数据进行了统计分析,通过采用协方差的分析方法,解决了黄地老虎Agrotissegetum、冬麦地老虎Caradrinaauguroides、麦长管蚜、棉铃虫和牧草盲蝽Lyguspratensis等5种害虫不同年份模型差异性的检验问题,并建立了适用不同情况或条件下相关虫害为害产量损失的损失估计模型,相关的文章也在学术期刊上及时发表[20-22]。
3.2 昆虫生态学研究生课程
郭予元院士10多年来一直担任中国农业科学院研究生院《昆虫生态学》课程的主讲老师,他的课程授课内容丰富、涵盖范围广,包括昆虫种群的时间动态、空间模式、种间关系以及群落生态系统等诸多方面,其课程内容的最大特点是每个讲授内容或章节都有实际的例子,而且如果涉及数理统计内容,都有课堂实时分析计算,使同学们不但学到了昆虫生态学的理论知识,而且还学到数理统计的实战方法,并在自己的科研中很快就能得到应用。特别是在讲授种群的空间图式(正态分布、泊松分布、均匀分布、二项分布和负二项分布、奈曼A型分布、泊松-二项分布等P-E分布型)、种群增长模型(逻辑斯蒂曲线、指数增长曲线、Gompertz曲线、幂函数曲线、差数指数曲线、差数幂函数曲线、双曲线、麦肯齐模型等)、种间关系(竞争模型、捕食模型等)以及这些模型的拟合和检验时,郭先生都有实际的植保例子供学习和分析,最有特色的是在课堂上用他开发的基于计算器编程的程序进行实时计算,这种教学方法和模式,大大提升了同学们昆虫生态学知识和相应的数理统计学知识水平。
4 郭予元院士团队对数理统计在植保领域应用后续工作的影响
郭予元院士在植物保护研究领域特别是发展棉铃虫综合防治策略和技术体系、有效解决生产抗性棉铃虫的种群治理问题和促进农作物病虫害综合防治理论的创新等方面做出重要贡献,在他的带动和引领下,年轻的一代植保科研工作者,尤其是研究团队继承和发扬他们这一辈老科学家思想和精神,青出于蓝而胜于蓝,在棉花害虫研究领域做出了世界水平研究成果,在这些科学研究中也大量地使用了数理数据统计的方法,其研究结果先后在《科学》《自然》等国际著名期刊发表。例如棉铃虫研究团队通过对我国北方6省过去10年100多个样点棉铃虫在多种作物上卵(多代)和幼虫发生数据的回归分析发现,我国华北地区大规模种植Bt棉,不仅降低了棉花上棉铃虫的数量,而且减轻了周边其他非转基因农作物(玉米、大豆和花生)上的棉铃虫为害程度。这项研究结果是世界首个针对转基因作物抗虫性进行的大规模长期跟踪研究,该论文曾作为2008年《科学》杂志的封面文章[23];进一步的研究工作又发现虽然大范围种植Bt棉大大降低了棉铃虫发生和危害,但另一类害虫盲蝽种群在棉花中快速上升,通过对长期多点收集的数据进行模型拟合,结果显示,Bt棉种植比例与该害虫的种群密度呈线性正相关,与盲蝽杀虫剂的使用次数呈非线性指数增长关系,通过对种群密度与多因子包括杀虫剂的使用次数、主要气象因子温度、降雨等的回归和相关分析表明,该害虫的种群密度增长主要是种植Bt棉带来的棉铃虫杀虫剂打药次数减少造成的。另外研究团队对我国华北大范围种植Bt棉后该害虫在棉花、苹果、葡萄、桃、梨、枣等作物上的发生危害严重度多年多点发生数据的模型模拟发现,其危害严重度与Bt棉的种植比例也呈指数增长关系,该研究论文2010年再次登上《科学》杂志[24]。2012年研究团队又阐明了Bt棉种植后由于打药次数减少导致的天敌昆虫种群和棉蚜种群等的变化趋势,论文发表于《自然》杂志[25],同年该研究入选“中国科学十大进展”。这篇论文在数据分析中也采用了数理统计的多种方法如多因子方差分析、逐步回归、相关分析、直线或曲线模型拟合等方法。
郭予元院士不仅在植保科研上做出了巨大的贡献,而且在数理统计学的理论和方法研究、数理统计在植保研究领域的应用以及数理统计学知识的教学普及和推广方面做出了重要的贡献。近年来随着数理统计学本身的发展,如广义线性模型、加性模型、混合效应模型、随机系数模型等发展,同时一些重要数理支持软件的发展和改进如SAS、SPSS等,特别是开源软件R软件的快速发展,随着大数据、机器学习、AI人工智能技术时代的来临,相信郭予元院士奠基和引领的植保数理统计学必将在植保领域发挥越来越重要的作用,并产出更多更大的研究成果。