基于PCA优化—BP神经网络算法的农田土壤养分评价
2019-06-20任文裕周慧平杨树青胡睿琦
宛 恒,任文裕,周慧平,杨树青,胡睿琦,刘 月
(1.内蒙古农业大学水利与土木建筑工程学院,呼和浩特 010000;2.内蒙自治区水利水电勘测设计院,呼和浩特 010000;3.内蒙古恒源水利工程有限公司,呼和浩特 010000;4.悉尼科技大学人工智能中心, 悉尼 2007)
0 引 言
土壤养分是植物生长发育和影响生态环境的主要因素,是评估土壤肥力水平的核心指标,对于土地的长期可持续发展,承担着重要作用[1,2]。受自然因素与人为因素的综合作用,土壤类型不同的地块,相应的养分也存在着较大差异,表现出突出的时空分布特征。这种特征的存在,对于植物群落规模、物种构成、植物分布等存在着不容忽视的影响力[3-7]。由此,探析土壤养分水平高低问题,可以为施肥作业提供科学的指导依据,能够为提高肥料、养料利用率提供支持。在农业生产活动中,分析土壤各项指标,针对土壤养分水平进行评价,可以更好地协调土壤养分。
科左中旗属于典型的半干旱地区,实行必要的节水措施是当地未来农业可持续发展的必然方向。滴灌是国际上公认的节水效果较好的灌溉技术之一,能够显著提高水资源利用效率,是国家大力推广的主要节水灌溉技术之一[8]。据本团队前期科研成果显示,科左中旗实施滴灌后耕地上减少了水肥、农药的施用量以及病虫害的发生[9]。在传统沟畦灌较大灌水量作用下,使设施土壤受到较多的冲刷、压实和侵蚀,若不及时中耕松土,会导致严重板结,通气性下降,土壤结构遭到一定程度破坏,而滴灌属微量灌溉,水分缓慢均匀地渗入土壤,对土壤结构能起到保持作用,并形成适宜的土壤水、肥、热环境。所以,较之传统灌溉方式,滴灌技术能保持土壤结构。膜下滴灌技术将覆膜技术与滴灌技术相结合,为作物生长营造更适宜的土壤环境,在提高水肥利用效率的同时,改善作物品质、提高作物产量[10]。目前,对本研究区膜下滴灌土壤养分的评价工作基本没有开展,因此,本文在田间试验的基础上,进行滴灌条件下农田土壤养分综合评价。
近年来国内外采用数学方法与土壤学相结合的方法对土壤养分评价取得了一定的进展,早期有田兆顺等[11]、Webster R等[12]分析华北平原的特性和形成,提出了土壤分类中的数值方法;目前在土壤评价中采用的主要方法有灰色关联法、标准综合级法、指数和法、PCA算法[13,14]、多元线性回归分析法[15]、模糊数学综合评价法[16]、层次分析法[17]、BP神经网络法[18]等,将土壤学知识与数学方法有机结合,成果甚显。但多数方法存在着一定的主观性,应用效果较差。应用最典型最普遍的方法是模糊数学综合评价法,该法虽然能够比较全面地反映土壤养分等级情况,它对土壤养分等级的分界进行过渡性模糊描述,以隶属度表示土壤养分的隶属关系,避免了指数评价方法在分类指数上的人为影响,但计算比较繁琐,存在土壤养分类别判断不准确或结果不可比的问题。BP网络具有强大的非线性映射能力,但其自身收敛速度慢、易陷入局部极小值等缺点仍未解决。若不对原始样本数据进行预处理与特征提取,一方面使识别结果准确性降低,另一方面使BP神经网络的结构复杂化,而主成分分析法可解决这些问题。如将主成分分析(PCA)和BP模型优点相结合,可有效提高BP神经网络识别率,减少训练时间,结果更为简化,收敛速度更快,评价精度更高且泛化能力强[19]。本文将PCA和BP神经网络模型相结合,对科左中旗膜下滴灌土壤养分进行评价,成果将为未来膜下滴灌农业生产可持续发展提供理论基础。
1 材料与方法
1.1 研究区概况
科左中旗位于东经121°08′-123°32′,北纬43°32′-44°32′,属于典型的温带大陆性季风气候,多年平均降水量342~392 mm,多年平均蒸发量2 027 mm。最大冻土深180 cm,无霜期150~160 d,平均气温5.2~5.9 ℃,多年平均风速3.9 m/s,多年平均日照时数2 802.1~2 884.8 h。研究区全部种植玉米,玉米品种为伟科702,种植方式采用35 cm小行距偏心播种,延米宽1.2 m,直径16 mm滴灌带铺设在地膜下进行覆膜灌溉,一体化农机施入基肥。
1.2 土样采集
在采样作业中关注样点的代表性、综合样点地形与利用方式等,有针对性地预设24个土壤取样点(见图1,试验区土地均匀平整),使用GPS精确定位。于2015年与2016年的10月取样,样点深度为0~20 cm,设置2次重复。所有采样在1 d之内完成,以减少室外因素对试验造成的误差。
图1 滴灌示范区采样点布置Fig.1 The sampling point layout of drip demonstration area
1.3 测定项目及方法
各指标测定方法为:全氮用凯氏蒸馏法,碱解氮用碱解蒸馏法,全磷用氢氧化钠熔融—钼锑抗比色法,速效磷用碳酸氢钠浸提—钼锑抗比色法,全钾采用原子吸收法,速效钾用分光光度计法,有机质采用重铬酸钾容量法,土壤pH值用玻璃电极法测定。
1.4 数据处理
采用SPSS 19.0进行描述性分析,将采样数据采用样本均值加减3倍标准差识别特异值,用K-S检验法进行非参数检验,显著性水平设定为α=0.05,对土壤养分各指标进行T检验,探讨统计学意义;应用主成分分析提取土壤养分特征元素,对原输入空间进行重构,并据各主成分的贡献率确定网络结构,从而有效解决了BP神经网络预测精度下降的问题;在此基础上应用Matlab进行数据录入、统计和分析,综合单因子评价结果,进行土壤养分的综合评价。
2 结果与分析
2.1 土壤养分经典统计分析
变异系数(CV)的大小反映总体内部各样本之间的变异程度,CV<10%为弱变异性,10%≤CV≤100%为中等变异性,CV>100%为强变异性。由表1可知:pH变异系数最低,为2.9%; pH、全钾为弱变异性,离散程度较小,其余土壤养分指标均为中等变异。各土壤养分变异程度依次为:速效磷>速效钾>碱解氮>有机质>全氮>全磷>全钾>pH。表1显示:变异系数最低与最高值指标与2015年相同;样本总体变异程度为速效磷>速效钾>碱解氮>全磷>有机质>全氮>全钾>pH。偏度和峰度反映样本的正态分布特点,综合连续2 a土壤养分经典统计分析发现,在5%的检验水平下,土壤养分各指标均服从正态分布;中位数与均值之间相近,说明连续2 a土壤养分各指标离群点较少,具有一定的广泛性和代表性。
表1 2015年与2016年研究区土壤养分经典统计特征Tab.1 The classical statistical characteristics of soil nutrients in the study area,2015 and 2016
T检验结果显示(见表2):2 a全钾、速效磷和pH值差异上具有统计学意义(P<0.05);2016年全钾、速效磷大于2015年,2015年的pH值大于2016年的pH值;其他指标未发现统计学意义。
表2 2 a土壤养分指标T检验结果Tab.2 Indicators of soil nutrient in the T-test in 2015 and 2016
2.2 土壤养分单因子评价
单因子评价法中,取某一评价因子的多次监测极值或平均值,与该因子的标准值相比较。依据《全国第二次土壤养分分级标准》,基于土壤养分三级标准,得到结果(见表3)。通过连续2 a土壤养分各指标的平均值可以发现,全氮、全钾、碱解氮、速效钾、有机质含量与pH的丰缺状况均在中高以上,符合土壤养分三级标准;全磷与速效磷含量等级较低,未达到土壤养分三级标准,原因是当地重氮肥而轻磷肥,导致磷元素含量处于低水平,建议当地加大磷肥施用量,确保土壤养分处于较高水平,为作物的高产创造最适宜的环境。由单因子结果可知,2015年与2016年当地土壤养分整体情况良好。
表3 2015年和2016年土壤养分检测结果Tab.3 Results of soil nutrient test in 2015 and 2016
2.3 主成分分析(PCA)与BP神经网络模型综合评价
2.3.1 主成分分析(PCA)
由于原数据样本较大,导致计算复杂,而且有些区域样品信息很弱,与其他指标间相关性较低,因而所得的统计数据反映的信息在一定程度上有重叠,并且变量太多会增加计算量和增加分析问题的复杂性,因此在进行土壤养分等级定量分析的过程中,涉及的变量越少,得到的信息量越多。所以应本文需求选取主成分分析法(PCA),PCA算法是解决这类问题的理想工具,是在众多指标中进行遴选,找出少量具备代表性的综合指标,以较少变量为基准,来反映原来变量信息,在确保原信息损失偏低的状态下,降低变量具体数量。在具体操作中应用这种分析技术,其主成分多选定为m(m
式中:λ为不同主成分相应特征值参数;k为选定主成分数量;i为全部主成分数量。
在选定主成分数量上,要求在降低具体数量的同时,还可以包含更多的信息。在方差贡献率上,以不低于设定阈值为标准来界定具体主成分数量[21]。据此,2015年与2016年土壤养分指标的PCA运算结果见表4,可知2015年前4项主成分累积贡献率为84.411%;2016年前4项主成分累积贡献率为86.234%。2015年、2016年前4项主成分均综合了土壤养分的大部分信息。
表4 2015年与2016年研究区土壤养分PCA解释主变量Tab.4 Explain the main variable by PCA of soil nutrients in the study area,2015 and 2016
通过碎石图,可以进行最佳主成分数量界定。在图2、图3中,横坐标具体描述的是主成分数量,纵坐标具体描述的则是特征参数。在λ>1且关注方差贡献率的条件下,来确定最佳主成分数量。由图2、图3可知,前4个主成分,其特征值相对较大。
图2 2015年研究区土壤养分PCA碎石图Fig.2 Gravel figure through PCA of soil nutrients in the study area,2015
图3 2016年研究区土壤养分PCA碎石图Fig.3 Gravel figure through PCA of soil nutrients in the study area,2016
由主成分的载荷矩阵旋转之后的载荷系数(见表5),结合2015年研究区土壤养分PCA得分图(见图4)可知,前3个成分,具体为PC1、PC2、PC3,其所包含信息量占整体信息量的比例为41.35%、19.03%和13.71%,2015年研究区土壤养分第1主成分PC1与有机质高度正相关,即在PC1坐标正向,PC1取值越大,有机质值越大,PC1可命名为有机质。第2主成分PC2与速效磷高度负相关,即在PC2坐标正向,PC2取值越大,速效磷值越小,PC2可命名为速效磷。第3主成分PC3与速效钾高度正相关,即PC3正向坐标上取值越大,速效钾值越大, PC3可命名为速效钾。第4主成分PC4与pH高度正相关,即在PC4正向坐标上取值越大,pH值越大,PC4可命名为pH。综合分析可以认为,2015年土壤养分主要元素以有机质、速效磷、速效钾和pH为主。
表5 2015年研究区土壤养分主成分旋转后的载荷矩阵Tab.5 Component load matrix of soil main nutrient after rotation in the study area,2015
图4 2015年研究区土壤养分PCA得分图Fig.4 The score of PCA of soil nutrients in the study area,2015
由主成分的载荷矩阵旋转之后的载荷系数(见表6),结合2016年研究区土壤养分PCA得分图(见图5)可知,前3个成分,具体为PC1、PC2、PC3,其所包含信息量占整体信息量的比例为30.50%、21.65%和15.46%,2016年研究区土壤养分第1主成分PC1与全磷高度正相关,即在PC1坐标正向,PC1取值越大,全磷值越大,PC1可命名为全磷。第2主成分PC2与全氮高度正相关,即在PC2坐标正向,PC2取值越大,全氮值越大,PC2可命名为全氮。第3主成分PC3与全钾高度正相关,即PC3正向坐标上取值越大,全钾值越大,PC3可命名为全钾。第4主成分PC4与pH高度正相关,即在PC4正向坐标上取值越大,pH值越大,PC4可命名为pH。综合分析可以认为,全氮、全磷、全钾、pH这4个主要因素是2016年土壤养分的特征元素。
表6 2016年研究区土壤养分主成分旋转后的载荷矩阵Tab.6 Component load matrix of soil main nutrient after rotation in the study area,2016
图5 2016年研究区土壤养分主成分分析得分图Fig.5 The score of PCA of soil nutrients in the study area,2016
2.3.2 BP神经网络模型
Back Propagation(BP)神经网络模型在实践操作中应用较多,该网络模型具体以输入层、输出层与一定数量的隐含层构成。这类模型在传递函数上,多采取的是Sigmoid函数,可以逼近任意连续函数,具有很强的非线性映射能力,而且网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定,灵活性很大,所以它在许多应用领域中起到重要作用。借助这种技术,可以实现非线性评价模型的构建,可以较为有效地减小人为界定权重时随意性较大问题,有助于更好保障评价活动的科学性与评价结果的准确性[22]。依据PCA运算结果,提取2015年及2016年特征元素,采用BP神经网络模型进行土壤养分评价。2015年土壤养分以有机质、速效磷、速效钾、pH作为评价指标,2016年土壤养分以全氮、全磷、全钾、pH作为评价指标。
相关研究表明,为增强网络模型自身性能与泛化水平,以收集到数据为准,通过随机方式将其分为训练、检验与测试3种类型样本[23]。训练样本对于人工神经网络的准确性十分重要,训练样本数量过低,则会影响模型的适用性,不能对养分状况进行明确的判别[24]。神经网络的一个缺点是过拟合,本研究采用的方法是把数据划分成3份[Training(训练)、Validation(验证)及Test(测试)],监测是否过拟合,并且只有training数据参加训练,其他2部分数据不参加训练,用于检验。通过采用Matlab软件,2015年和2016年各抽取216个样本,分为192个训练样本,24个检验样本,以切实保障BP网络模型的质量与应用效果。此外,网络模型在层级设计上,具体表现为输入与输出层以及若干隐含层[25]。依据隐含层选取原则,将土壤养分等级模型的隐含层数定为1;土壤养分评价BP网络模型中,其目标输出具体表现为土壤养分等级,输出节点数设定为1,由于神经网络运算的过程中选择Sigmoid函数作为传输函数,它的输出值被限定在0~1之间,所以需对输出值进行预处理,确定各等级的期望输出值为0.1、0.3、0.5、0.7和0.9。其中隐含层内节点数结合研究对象及隐含层节点一般选取区间(10,15),本文设定隐含节点为14。将人工神经网络模型编程针对本研究区要求进行改进,使其满足研究区土壤养分评价的要求。
以训练好的BP神经网络模型对检验样本进行仿真,得到土壤养分BP神经网络预测和实际曲线分布图进行对比(见图6、图7),可以发现2者趋势一致,2015年、2016年BP预测R2值分别为0.989、0.987,拟合效果较好,说明此神经网络的仿真效果优异,可以对研究区2015年、2016年的土壤养分进行综合评价。
图7 2016年BP神经网络预测和实际曲线分布Fig.7 BP neural network forecast and actual curve distribution for 2016
用训练好的BP神经网络模型对通辽市科左中旗滴灌条件下土壤养分进行综合评价(见表7)。结合单因子评价结果可知,BP神经网络法所计算出的土壤养分等级是十分合理的。2015年土壤养分主要元素评价为三级的占50%,2016年土壤养分主要元素评价为三级的占75%。这2 a中,土壤养分水平相对较近,这种状况的出现,与区域种植、灌溉等存在着关联。
表7 基于BP神经网络的研究区土壤养分评价综合指标Tab.7 Comprehensive index of soil nutrient evaluation in research area based on BP neural network
3 结论与讨论
3.1 结 论
(1)经典统计分析结果显示,在5%的检验水平下,土壤养分各指标均服从正态分布;中位数与均值之间相近,说明连续2 a土壤养分各指标离群点较少,具有一定的广泛性和代表性。
(2)基于PCA算法的土壤养分特征元素筛选结果为2015年为土壤有机质、速效磷、速效钾与pH,2016年为土壤全氮、全磷、全钾、pH。
(3)在PCA算法筛选出的土壤养分特征元素基础上,结合单因子评价结果,应用BP神经网络模型对科左中旗滴灌土壤养分特征元素评价结果为良好,土壤养分状况较优。
3.2 讨 论
(1)作者本人收录在《东北四省区节水增粮高效灌溉技术研究与规模化示范学术成果交流会汇编》中的论文[26]采用了在土壤养分评价方面应用较为广泛的传统方法——模糊数学法,与本文采用的方法进行对比分析,结果发现,模糊评价结果与本研究结果相同,结果可信。模糊综合评价法能够比较全面地反映土壤养分等级情况,它对土壤养分的分界进行过渡性模糊描述,以隶属度表示土壤养分的隶属关系,避免了指数评价方法在分类指数上的人为影响,但计算比较繁琐,存在养分类别判断不准确或结果不可比的问题[27]。而将PCA与BP神经网络模型相结合进行土壤养分的综合评价,运算精度较高且速度快,容易操作,其通用与客观性较为突出,并且2者相结合的评价方法更加适用于样本较多、因子复杂的评价中,通过PCA法筛选特征元素,再采用BP神经网络模型进行评价人为因素影响也较小,能够客观给出相应的评价结果,且能够规避人为因素参与中存在的随意性较大问题。
(2)根据已有研究成果发现[9],科左中旗未进行膜下滴灌前的土壤养分等级与当前土壤养分等级相似,可见实施滴灌没有对土壤养分产生较为明显的影响,土壤养分整体情况仍较好。张淑娟等[22]发现在小尺度采样的情况下进行光谱分析,采用主成分分析和人工神经网络相结合的方法建立土壤有机质预测模型,其测量值与预测值的相关性较高,相关度为0.796 2,相对误差较小,其平均值为1.88%,表明该方法预测土壤有机质含量是可行的;许坤鹏等[28]得到基于主成分分析建立的BP神经网络模型可直接从土壤理化参数估算土壤水分扩散参数,基本解决了较大区域土壤水分扩散参数不容易获取的问题。将PCA与BP神经网络相结合运用到解决土壤学问题中,是可行、可靠的,并且成果也更为客观、精确。
(3)本研究只对膜下滴灌条件下土壤养分进行了评价,需在后期工作中对其他灌溉模式下土壤养分进行监测评价,以及研究膜下滴灌除节水以外会对土壤产生的影响,为科左中旗土壤管理提供参考,为未来当地持续进行节水滴灌提供科学支持。