APP下载

基于BP神经网络草原土壤Cu含量预测

2019-11-08史红飞侯建伟卢志宏

草业科学 2019年10期
关键词:优度测试数据层层

史红飞,侯建伟,卢志宏,杨 勇

(1. 铜仁学院,贵州 铜仁 554300;2. 内蒙古自治区草原勘察规划院,内蒙古 呼和浩特 010051)

随着对草原矿产资源的开发利用,重金属元素随着粉尘、地表径流、地下暗河流动而扩散,造成矿区周围草地的重金属污染[1]。土壤Cu含量的增加,随食物链富集,最终以奶、蛋、肉等形式被人类消费;有研究表明,Cu含量超标可以影响神经、呼吸和内分泌系统[2-3],因此快速监测土壤Cu含量对草原牧业生产,尤其是矿区周边地区的监测具有重要的意义。

土壤是一个动态、开放和复杂的生态系统,更是动植物和人类基本的自然资源,土壤理化性质、生物因素及它们之间的结构和组成决定土壤的平衡和功能[4]。影响土壤重金属含量的因素复杂多样,包括气候因素(湿度、温度)、理化性质(pH、硬度、结构)、生物因素(植物、微生物)及成土母质等[5-6]。

土壤有机质是土壤组成的关键参数,能够影响重金属元素的组成,可以显著的络合铜等元素[4,7]。有机质含量和重金属元素之间存在较高的相关性,R = 0.649,R = 0.41[7-8]。研究发现,溶解性有机质中Cu含量是黏土的4倍[9],溶解性有机质对Cu的富集作用最为显著[10],紫色水稻(Oryza sativa)土壤颗粒有机质对Cu的富集系数为3.35[11];李秋言和赵秀兰[11]土壤有机质含量和Cu含量存在极显著相关关系,认为有机质是促进Cu富集的关键因素,因此可以尝试利用矿区周围土壤有机质含量预测Cu含量。

土壤性质与影响因素之间是一种极其复杂的非线性关系[12-13]。BP神经网络通过模仿人类大脑的思维模式而实现对复杂的非线性的系统进行学习和分析,广泛应用于识别、分类和预测[14]。利用土壤有机质含量预测金属含量具有可行性,但未见报道,大量工作集中在光谱反演方面,成功应用神经网络模型进行了模拟和预测[3,15]。为此,尝试应用有机质含量、pH耦合Cu含量建立BP神经网络模型,探索重金属元素预测的途径和方法。

1 研究区概况与试验设计

1.1 研究区概况

研究区位于内蒙古锡林浩特西北方向[16],属于典型草原气候,夏季高温多雨,冬季寒冷干燥,年降水量为336.9 mm;年平均气温0.3 ℃,年蒸发量高于降水量,为1 600~1 800 mm。2010 - 2013年锡林浩特主导风向为南西南风,出现频率为11.5%,冬季高达20%;秋季静风频率高达17%。土层较薄,为25~35 cm,为典型栗钙土。主要植物有大针茅(Stipa grandis)和羊草(Leymus chinensis),盖度35%左右[1,17]。

1.2 试验设计

将胜利煤田周边作为研究区域,在8个方向采集样品,因矿区西北方向建有大型风力发电场,为避免风力发电场内部小气流可能产生的影响而未采集样品,故设置7个采样方向[16],每隔0.5 km取样,共计70个取样点[16-17],每处按照S形采集5个位置的表层(0 - 10 cm)土样,混合、装袋,风干,室内研磨、过筛后测定有机质、pH值和Cu含量,Cu含量采用碘量法测定。

2 研究方法

2.1 BP神经网络模型

BP神经网络因其拥有完整的数学推导过程,是目前最为完善的神经网络模型,可以无限逼近任意复杂的非线性函数[14,16],随着网络复杂程度的增加,可以模拟更加复杂系统的变化过程,但是模型的学习时间增加,获得较高预测精度模型的时间也增加。神经网络信号通过连接权函数传递,包括误差正向和反向传递,经过不断调整,逐渐逼近目标误差[18]。

2.2 模型构建

在Matalab2014a上编写多隐含层BP神经网络模型,有机质含量和pH为输入向量,Cu含量为目标向量,训练集数据、验证集数据和测试集数据的比例为70∶15∶15[19-20]。最优网络的选取采用试凑法,设置隐含层层数1 - 10,重复100次;随着隐含层层数的增加,筛选最优网络的时间成倍增加,1 - 5层隐含层模型顺利运行,6层隐含层以上的网络筛选过程中因计算机内存不足而死机,因此反复运行10次。

在建模前,首先进行归一化,消除不同量纲之间的差异,使网络能够更好地学习,公式如下:

式中:xi和为第i个指标归一化前后的值,xmax为该指标的最大值,xmin为最小值。模型学习速率lr =0.000 1,学习精度goal = 0.004,最大训练次epochs =1 000,输入层和隐含层之间使用tagsig传递函数,隐含层与输出层之间使用logsig传递函数,采用L-M优化算法进行优化,模型精度评价指标采用拟合优度(R2),值越大,模拟效果越好[16,18]。R2计算公式如下:

3 结果与分析

3.1 训练数据的拟合优度

随着隐含层层数的增加,训练数据的拟合优度呈先增加后降低的趋势,在隐含层层数为4的时达到最大,R2= 0.706 8。双隐含层模型的决定系数最低,第6层的大于第5层的,第7层的小于第8层的,不同隐含层模型的拟合优度并非单调变化(图 1)。

图1 训练数据的拟合优度Figure 1 R-squared of training data

3.2 测试数据拟合优度

随着隐含层层数的增加,测试数据的拟合优度呈先增加后降低的趋势,在隐含层层数为4的时达到最大,R2= 0.674 2,在第5层时出现拐点,在第6层时略小于第4层(R2= 0.655 9),随后呈下降趋势 (图 2)。

3.3 隐含层节点数

隐含层节点数是一个非常重要的参数,容易引起过拟合现象。随着隐含层层数的增加,最优网络的节点数呈上升趋势,第5和7层略有下降。第4层的节点数和第3、5、7层的节点数十分接近(图 3)。

图2 测试数据的拟合优度Figure 2 R-squared of test data

图3 隐含层节点数Figure 3 Node numbers of hidden layer

3.4 不同模型拟合能力

BP神经网络模型的拟合优度一般包括训练网络和测试网络,训练网络的拟合优度大于测试网络,随着隐含层层数和节点数的增加,网络容易出现过拟合现象;本研究采用试凑法筛选最优网络的过程中,设置了训练网络拟合优度大于等于测试网络的拟合优度条件,试图将所有数据进行测试,通过整体的拟合优度来评价Cu含量预测模型的拟合能力。如图4所示,4层隐含层的网络拟合优度高于其他隐含层的;在保证精度要求的前提下,尽可能降低网络隐含层的节点数,可以初步认为4层隐含层网络预测Cu含量是可行的。

3.5 不同模型的比较

图4 不同模型的拟合与预测效果Figure 4 Fitting and prediction results for different models

训练数据、测试数据和全部数据的拟合优度随隐含层层数增加而增加(表1),在第3层时最大,随后呈下降趋势,在第6层时出现波动。3层隐含层模型测试数据的拟合优度较低,5、6层隐含层模型全部数据的拟合优度较低,4层隐含层模型的3组拟合优度均较高,进一步根据试凑法筛选模型的次数来考虑,4层模型的规模适当,建模数据拟合系数R2> 0.70,测试数据拟合系数R2> 0.65,因此认为,4层隐含层BP网络模型在模拟和预测草原Cu含量较为合适。

4 讨论与结论

露天开采破环原有景观格局,重金属大面积扩散造成污染;粉尘等物质随尘降作用影响原有生态系统,使植被逐年减少[19],使开采区、排土场及其周边1.5 km植被盖度显著下降[20],周边约1 km范围土壤有机质含量下降[21];距锡铜矿中心越近,有机质含量越低[21];胜利一号露天矿周边土壤有机质含量较采矿前有所升高[22]。同时,露天开采形成的粉尘降低植物光合速率,影响植物生长,甚至导致植物死亡,改变群落结构,影响土壤微生物活动,进一步影响有机质形态,导致土壤有机质含量和土壤pH发生改变。

表1 不同模型的评价参数Table 1 The evaluation parameters of different models

土壤中的重金属元素可以被土壤有机质、黏土矿物、铁锰氧化物和碳酸盐矿物等吸附[23],构成了一个极为复杂的耦合系统;土壤Cu含量达到一定浓度时才具有光谱特征[24],Thomas和Stefan[25]指出,重金属元素含量和高光谱波段线性关系明显时,神经网络和多重现性模型相比,前者优势并不明显;神经网络在处理已知的非线性问题时才有满意的表现,神经网络并不依赖于统计分布[26]。李启权等[27]指出,神经网络方法可以相对准确、快速地获取区域土壤异质性空间分布;李耀翔等[28]指出,应用近红外光谱建立BP神经网络模型可以有效地大面积快速预测森林土壤碳含量。本研究利用土壤有机质含量和pH建立BP神经网络模型,取得了较好的预测效果(R2= 0.67),大于Thomas等利用高光谱预测Cu含量的拟合优度(R2= 0.45),但是低于其对Pb、Hg、Sb(R2> 0.93)预测精度。

一般来说,一层隐含层的神经网络就能满足需要,模拟任意连续型函数,而复杂的系统通过增加隐含层层数和节点才能取得理想效果;但是增加隐含层层数和节点数,使网络规模、复杂程度增加,收敛速度减慢,容易出现过拟合现象,使预测精度降低[29];采用试凑法筛选模型,可供筛选的模型随隐含层层数的增加而呈指数级增加,筛选最优模型花费的时间较长[16]。本研究隐含层层数范围设置为1~10,根据经验公式[30],每层节点数设置为2~12,重复100次。5层以上网络可供筛选的模型超过了卢志宏等[16]筛选4层网络的规模,效率极低,7层以上网络因计算机内存不足而出现死机现象,实际可供筛选的模型减少。深度神经网络可以大规模提高隐含层层数,目前多应用于自动控制、图像识别等领域,因此需要进一步将深度神经网络应用到土壤矿物质含量预测方面。

王泽平[31]认为,3层隐含层BP神经网络在水质时精度最高,多隐含层网络不逊色于遗传算法优化的BP神经网络模型;卢志宏等[16]认为3层BP神经网络模型在预草原N/P时效果最好。本研究综合考虑拟合优度、可供筛选模型数量,计算机配置能够完成的可能性,认为4层网络最为合适,可以耦合土壤有机质含量和pH来预测草原表层土壤Cu含量,为草地重金属监测提供简单快速的方法。

猜你喜欢

优度测试数据层层
勘 误 声 明
如何正确运用χ2检验
——拟合优度检验与SAS实现
层层批示≠层层落实
层层请示≠层层重视
测试数据管理系统设计与实现
基于多级优度评价方法的导弹武器系统效能评估
女人味,层层绽放
抽丝剥茧 层层递进
基于自适应粒子群优化算法的测试数据扩增方法
空间co-location挖掘模式在学生体能测试数据中的应用