基于增强回归树的水藻预测分析
2015-01-04佘玉萍陈淑清
佘玉萍,陈淑清
(莆田学院 信息工程学院,福建 莆田 351100)
基于增强回归树的水藻预测分析
佘玉萍,陈淑清
(莆田学院 信息工程学院,福建 莆田 351100)
河流水质的预测分析在保护河流水源和维护河流生态有着重要意义。由于基于多元线性回归没有处理数据缺失值的能力和决策树模型无法有效处理水质多变量的问题等原因,故两者均达不到有效预测水质影响因素的目标。本文采用的增强回归树模型能够处理缺失值和避免过度拟合问题,可以有效地对水质的藻类进行预测分析并得出综合影响测试河流中综合影响7种藻类繁殖的主要因素。实验分析结果表明,采用的增强回归树模型优于多元线性回归模型。
增强回归树(BRT);水质;预测分析
1 问题的提出
藻类的产生及其过度繁殖对河流生态环境的破坏是一个比较严重的问题,有害藻类不仅破坏河流中的生物,也在破坏水质,如果能够监测并在早期对藻类的繁殖进行预测分析对提高河流水质是非常重要的,针对这一问题的预测目标,本文以来自于ERUDIT[1]的水质数据为例,该数据集有200个样本,该样本是一年时间内在欧洲的几条河流的不同河段和不同季节收集的数据,对于每个水样,测定了它们的不同化学性质(3个名义变量和8个水质指标)以及7种(变量a1~a7)有害海藻的存在频率,其中数据的各变量名与含义如表1所示。
利用数学模型对水质中藻类的繁殖进行预测的研究国内外已有先例,早在1968年加拿大湖泊专家Vollenweider[2]就提出了利用多个营养指标进行水体营养程度的预测,近年来国内学者也采用了不同的方法进行预测研究,如李星[3]等人采用多元线性回归预测水库水的的藻类生长潜力,姚志红[4]等人的基于改进遗传算法的藻类神经网络识别以及黄浙丰[5]采用时序神经网络对多藻类进行预测研究,近年来,决策树方法已多次被国内外学者应用到水质相关的研究中,Chen[6]应用决策树和非线性统计回归方法预测了荷兰海岸线的叶绿素浓度的变化趋势,夏晓瑞等[7]采用决策树的方法对太湖蓝藻水华预警进行了信息提取。
表1 样本数据的变量及其含义
回归树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的、潜在的信息,具有良好的预测精度,模型的输入与输出关系明确,结果直观且易于分析,统计学、数据挖掘和机器学习中的回归树训练,使用回归树作为预测模型来预测样本的分类,目前,在水质方面采用回归树进行预测分析的文献还不多见,尤其是使用增强回归树进行预测的文献就更少,因此,应用增强回归树模型,对水质中的藻类来进行分析,可以弥补其他模型的局限性,为藻类的分析提供更好的预警支持。
2 预测分析的方法与实验结果分析
增强回归树(BRT)[8-10]是基于分类回归树算法(CART)的一种自学习方法,该方法通过随机选择和自学习方法产生多重回归树,能够提高模型的稳定性和预测精度,在运算过程中,多次随机抽取一定量的数据,分析自变量对因变量的影响程度,剩余数据用来对拟合结果进行实验,最后对生成的多重回归取均值并输出,目前,分类回归树已经被应用到物种分析[11],BRT方法提高了计算结果的稳定性和精度,得出自变量对因变量的影响荷载,以及其他自变量取均值或不变的情况下,该自变量与因变量的相互关系,利用algae随机取样的200个样点数据,调用Elith编写的BRT方程包进行增强回归树分析[12]。
增强回归树的算法如下:
2)循环步骤①到步骤④,b=1,…..,B:
①计算剩下的
④得到新的回归树
3)输出增强回归树
f^(x)=fB(x)
根据上述的增强回归树方法,依次对7种藻类进行增强回归树模型的实验测试,分别得到7个增强回归树,其次,综合考虑测试河流中的7个藻类同时形成的影响因素,建立了第8个增强回归树,由于篇幅关系,省略了独立分析藻类a2~a7的影响因素的增强结构图,以下给出的分别是藻类a1的增强回归树结构(如图1所示)和a1~a7七种藻类的增强回归树(如图2所示),并根据所有的增强回归树列出了对各种藻类的主要的3个影响因素,如表2所示。
图1 藻类a1的增强回归树结构
图2 a1~a7的7种藻类的增强回归树结构
表2 影响不同藻类的主要因素
根据增强回归树模型的实验数据可以得到以下结论:测试河段中的7种藻类的形成及其繁殖的主要影响因素不尽相同,所以要抑制测试河段中特定藻类形成及其过量繁殖,可以相应提高其对应的前3个主要影响因素的含量,上次实验数据还得出一个结论,除了藻类a7中河流的规模(size)对其有较重要的影响,且对藻类a3和a5也有影响,尽管不是主要的影响因素,而河流的流速(sPeed)和季节(season)均未出现在模型中,可见这两个名义变量对被测试不同河段的流速和不同季节的7种藻类形成和繁殖均没有影响。
3 模型的选择与评价
在模型的评价实验中,选用典型的多元线性回归模型与所采用的增强回归树模型进行对比分析,并采用标准化的平均绝对误差(NMSE)来评判不同模型,得到如图3所示的交叉验证图。
根据好的模型对应较低的NMSE值,从输出结果可以看出,除了藻类a7,增强回归树的不同版本之间(cv.rPart.v1,cv.rPart.v2和cv.rPart.v3)对其他6种藻类分析的差异在统计上不显著,与多元线性回归模型(cv.lm.v1)相比,大部分情况下,增强回归树模型有显著的优势,此外,从交叉验证的结果图还可以得出,多元线性回归和增强回归树模型均较难得到藻类a7的较好预测,而其他藻类的估计结果则相对较好,藻类a1的估计结果最佳。
4 结语
影响河流水质的影响因素很多,本文利用增强回归树对被测试河流的数据集中7种藻类的8个水质指标和3个名义变量进行了实验分析,BRT模型对河流中藻类的预测分析具有一定的参考价值,从实验结果上看,BRT模型直观明了,根据树形图的结构容易预测变量的影响程度;另一方面,本文采用的BRT模型对数据的要求较低,能处理缺失值,不排除对特定数据的缺失值的不同处理方法,也在一定程度上影响了模型的精度,本文对水藻的分析是以欧洲的几条河流在一年时间内不同河段和不同季节的水质数据为基础,数据较粗糙,较适合分析同质或者相似河流,但尚未考虑同时分析不同地理区域的不同质河流之间的关系,当然,针对不同河流的影响因素的不同,具体预测分析时,建议采用不同的模型同时进行分析,或者采用现有模型的组合模型进行预测。
图3 7种藻类关于多元线性回归与增强回归树的交叉验证图
[1] httP://www.erudit.org.[EB/OL](1998-03-06)[2015-02-20].
[2] VOLLENWEIDER R A.The Scientific Basis ofLake EutroPhication,with Particular Reference to PhosPhorus and Nitrogen as EutroPhication Factors[R].Pairs:Organisation for Economic CooPeration and DeveloPment,Technical RePort DAS/DSI/68.127.OECD,1968:159.
[3] 李星,何宇飞,杨艳玲,等.采用预测模型预测水库水的藻类生长潜力[J].哈尔滨商业大学学报(自然科学版),2008,24(1):36-39.
[4] 姚志红,费敏锐,孔海南,等.基于改进遗传算法的藻类神经网络识别[J].上海交通大学学报,2007,41(11):1801-1805.
[5] 黄浙丰.基于时序神经网络的藻类水华预测模型研究-北京水系多藻类生态动力学模型[D].杭州:浙江大学,2011.
[6] Chen,Q.,Mynett,A.E.,Modelling Phaeocystis globosa Bloom in Dutch Coastal Waters by Decision Trees and Nonlinear Piecewise Regression[J].Ecological Modelling,2003,176:277-290.
[7] 夏晓瑞,韦玉春,徐宁,等.基于决策树的Landsat TM/ETM+图像中太湖蓝藻水华信息提取[J].湖泊科学,2014,26(6):907-915.
[8] De'ath G.Boosted trees for ecologicalmodeling and Prediction[J].Ecology,2007,88(1):243-251.
[9] Elith J,Leathwick JR,Hastie T.A working guide to boosted regression trees[J].Journal of Animal Ecology,2008,77(4):802-813.
[10] Prasad A M,Iverson L R,Liaw A.Newer classification and regression tree techniques:bagging and random forests for ecological Prediction[J]. Ecosystems,2006,9(2):181-199.
[11] 曹铭昌,周广胜,温恩生.广义模型及分类回归树在物种分布模拟中的应用与比较[J].生态学报,2005,25(8):2031-2040.
[12] Elith J,Leathwick JR,Hastie T.A working guide to boosted regression trees[J].Journal of Animal Ecology,2008:1-15.
责任编辑:吴旭云
Forecast and Analysis of Algae Based on Boosted Regression Tree
SHE YuPing,CHEN Shuqing
(School of Information and Engineering,Putian University,Putian 351100,China)
Forecast and analysis ofwater quality of rivers Play an imPortant role in the Protection ofwater sources and themaintenance of ecology.Because themultivariate linear regression can not dealwith themissing values and themodel of decision trees can not deal with multiPle variables ofwater data,the goal of forecasting the influencing factors ofwater quality can not be achieved effectively.In this PaPer,the boosted regression tree(BRT)model is used to solve the Problem of themissing values and avoid over fitting,which availably forecasts themain factors influencing the reProduction of seven algae of the tested rivers.ExPeriments indicate that BRT Performs better thanmultivariate linear regression.
boosted regression tree(BRT);water quality;forecast analysis
TP39
A
1009-3907(2015)06-0020-04
2015-03-13
福建省重点实验室开放课题(2014KL02)
佘玉萍(1982-),女,福建莆田人,讲师,硕士,主要从事数据挖掘研究。