数据挖掘算法在水质评价预测中的应用
2018-01-06吴旭东冯璐远陈正军李映曦
吴旭东+冯璐远+陈正军+李映曦
摘要:该文采用决策树、BP神经網络、Logistic回归和基于径向基的RBF神经网络四种算法来建立水质评价预测模型,并对结果进行了分析。预测结果显示,基于径向基的RBF神经网络在四种算法中是最合适的方法,预测准确率较高,建议推广和使用。
关键词:神经网络;决策树;水质模型
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)35-0003-02
1 概述
水是人类赖以生存的重要物质,它是不可缺少、不可替代的重要资源。随着我国工业化进程的加快和经济的迅速发展,水污染日益严重已经成为制约我国实施可持续发展战略重要因素。水环境问题已经成为众多专家、学者研究的重点问题,目前国内外研究水环境质量的评价方法非常多,有关文献讨论水质评价的方法有几十种,呈现出非常活跃的态势。由于水环境中的各种元素的不确定性和水体的未知性,传统的确定性评价方法已经很难适应研究。有些水质模型虽考虑了影响水质变化的诸多因素,模拟预测效果较理想,但往往较复杂并需要大量基础资料和数据,使得研究的进一步开展和应用受到限制。而目前,较常见的情况是根据水体当前的水质情况、污染物的迁移特点和流域内污染物的排放情况来预测水质未来的变化趋势,为水质污染预测寻找一种合适的模型是非常必要。
2 相关理论分析
2.1 决策树
决策树是应用的最广的归纳推理算法之一,它是一种逼近离散值函数方法,对噪声有很好的健壮性且能够学习析取表达式。决策树一般都是自上而下的来生成的,并用了贪婪的搜索遍历方法进行遍历。每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。常用的决策树算法包括C&RT算法、ID3经典算法、C4.5算法、C5.0算法、CHAID算法、QUEST算法。
决策树的基本算法是贪心算法,它以自顶向下递归的各个击破方式构造决策树,最著名的决策树算法为ID3算法。ID3算法主要针对属性选择问题,是决策树学习方法中最具影响和最为典型的算法。该方法使用信息增益度选择测试属性。
2.2 基于径向基的RBF神经网
最基本的RBF神经网络的构成包括三层,分别为输入层、隐层(中间层)和输出层。其中输入层由一些源点(感知单元)组成,它们将网络与外部环境连接起来,仅起到数据信息的传递作用,对输入信息不进行任何变换;隐层神经元的核函数(或称作用函数)取为径向基函数,对输入信息到隐层空间之间进行非线性变换,通常具有较高的维数;输出层是线性的,为输入层的激活模式提供响应。
设隐层、输出层上的神经元数分别为,,输入模式记为,,输出记为,。本文取径向基函数为Gauss函数,隐单元输出则为
式中:为隐层第个神经元的输出值;为隐层第个神经元的中心,由隐层第个神经元对应于输入层所有神经元的中心分量构成,;为隐层第个神经元的宽度,与相对应;为欧氏范数。
输出层神经元的输入输出关系表达式是:
式中:为输出层第个神经元的输出值;为输出层第个神经元与隐层第个神经元间的权值。RBF神经网络的参数在此主要是指网络的中心、宽度、和调节权重。
3 实验过程
收集和提取一组用户基本数据,对数据进行预处理,如图1所示。
影响水质状态的指标主要有:1) 溶解氧(DO):衡量水体的自净能力(传感器网络自动采集);2)温度:水温随着天气的变化(传感器网络自动采集);3) PH值:反映水质的酸碱程度(传感器网络自动采集);4)氨氮:代表水中营养性污染物的含量(手持传感器手动采集);5)氧化还原电位(ORP):水溶液氧化还原能力的测量指标(手持传感器手动采集);6)当前环境因素(天气,水体环境状况)。其中1-250条记录为训练样本,251-300条记录为测试样本数据。通过建立各种模型来寻求一套最合适的评价方法,预测准确率较高的模型。
基于水质评价量化指标抽取DO、PH、NH、SD等四个关键指标,建立水体环境质量评价量化模型,实现水质智能化识别。依据依照《地表水环境质量标准》(GB3838-2002)中规定,地面水使用目的和保护目标,中国地面水分五大类:Ⅰ类—主要适用于源头水,国家自然保护区;Ⅱ类— 主要适用于集中式生活饮用水、地表水源地一级保护区,珍稀水生生物栖息地,鱼虾类产卵场,仔稚幼鱼的索饵场等;Ⅲ类— 主要适用于集中式生活饮用水、地表水源地二级保护区,鱼虾类越冬、回游通道,水产养殖区等渔业水域及游泳区;本文取前三类水质进行研究,对水质进行实时预测、分类和仿真。
3.1 利用决策树建立模型
利用决策树算法建立数据流,快速建立整体数据流图,决策树的核心算法采用C&RT模型算法。此算法的优点是可以启用交互会话作为模型的构建选项,生成的模型之前可以编辑树,使用专家模式可以使用生成树和修剪树。
SD<=9.8且PH>6.75为III类水质;当9.8
通过样本数据建立了决策树模型,从250-300条记录测试数据使用此模型,得到以下结果,预测结果准确率为76%,方差为0.021,标准差为0.144,均值标准误0.02。
3.2 利用BP神经网络建立模型
使用数据挖掘软件,应用BP神经网络算法的水质评价预测模型,输入变量是基于水质评价量化指标DO、PH、NH、SD,建立水体环境质量评价量化模型,实现水质智能化识别。使用1-250条记录为训练样本数据,251-300记录为测试样本数据。
如图3所示,BP神經网络模型根据DO、PH、NH、SD等四个关键指标的含量来判断水质处于哪个级别。通过样本数据建立了神经网络训练模型,从250-300条记录测试数据使用此模型,得到结果,预测结果准确率为68.852%,方差为0.103,标准差为0.321,均值标准误0.045。
3.3 构建预测Logistic回归模型
使用数据挖掘软件,应用Logistic回归算法来构建水质评价预测模型,输入变量是基于水质评价量化指标DO、PH、NH、SD,建立水体环境质量评价量化模型,实现水质智能化识别。使用1-250条记录为训练样本数据,251-300记录为测试样本数据。
如图4所示,Logistic回归算法模型根据DO、PH、NH、SD等四个关键指标的含量来判断水质处于哪个级别。通过样本数据建立了神经网络训练模型,从250-300条记录测试数据使用此模型,得到结果,预测结果准确率为70%,方差为0.011,标准差为0.105,均值标准误0.015。
3.4 利用RBF神经网络建立模型
使用数据挖掘软件,应用RBF神经网络算法的水质评价预测模型,输入变量是基于水质评价量化指标DO、PH、NH、SD,建立水体环境质量评价量化模型,实现水质智能化识别。使用1-250条记录为训练样本数据,251-300记录为测试样本数据。测试结果与误差,其中预测误差中,准确率为88.23%,错误率为11.76%,Kappa统计为0.7692,平均绝对误差0.11,均方根误差为0.2291。从结果来看该模型的自学能力较强,模型精度高,误差范围小,适合水质预测评价模型的需要。
通过以上数据比较分析,RBF神经网络算法的预测效果明显优于决策树算法、Logistic回归算法和BP神经网络算法。RBF神经网络通过多次模型的学习来完善算法模型,RBF神经网络快速收敛的特性使得它非常适合水质预测模型的建立,并且可以进一步跟踪探索水质变化过程中的规律。而决策树算法和Logistic回归无论是从对样本的要求上,还是从预测的精度来说都不具备神经网络的优点,所以,应用结果表明,利用RBF神经网络进行水质预测是可行的,可为水质模拟预测提供一种有效的新方法,建议在水质预测中推广和应用。
参考文献:
[1] 王海英,曹晶.基于L-M神经网络优化算法的池塘水色判别系统的初步建立[J].渔业现代化,2010,37(5):19-21.
[2] 申艳.BP神经网络在河流水质评价中的应用[J].中国科技纵横,2011(9):68-69.
[3] 胡海清,周小丽,宋毅. LM-BP神经网络在水质预测的应用[J].微型电脑应用,2011,27(9):44-46.
[4] 王冬生,李世华,周杏鹏. 基于PSO-RBF神经网络模型的原水水质评价方法及应用[J].东南大学学报:自然科学版,2011,41(5):1019-1023.endprint