基于神经网络的城市内湖水华预警综合建模方法研究

2017-05-23郑剑锋焦继东孙力平天津城建大学环境与市政工程学院天津300384天津市水质科学与技术重点实验室天津300384

中国环境科学 2017年5期

郑剑锋,焦继东,孙力平,2(.天津城建大学环境与市政工程学院,天津 300384；2.天津市水质科学与技术重点实验室,天津 300384)

环境生态

郑剑锋1,2*,焦继东1,孙力平1,2(1.天津城建大学环境与市政工程学院,天津 300384；2.天津市水质科学与技术重点实验室,天津 300384)

针对城市内湖水华产生过程存在复杂性、时变性、不确定性等特点,运用内集-外集、粗糙集约简和RBF神经网络模型,通过水华藻生物量阈值界定、风险概率计算、预警等级划分、预警因子识别和神经网络预测模型的研究,提出一种城市内湖水华预警综合建模方法.以天津清净湖为例,利用pH值、水温等12项水质指标监测数据,确定清净湖水华的叶绿素a浓度阈值为70.98µg/L,依据水华风险概率划分5个水华预警等级,并确定水温、溶解氧、高锰酸盐指数和TDS为水华预警因子.利用RBF神经网络技术构建清净湖水华预警模型,验证结果显示,模型预测精度达85.7%,表明该方法能较好地用于城市内湖水华预警模型构建.

水华；风险概率；预警等级；预警因子；预警模型

水华灾害是当今世界上重大的水环境问题.近年来,太湖[1]、滇池[2]、巢湖[3]等湖泊水华频发,水环境和生态系统健康受到极大影响.与自然湖泊相比,城市内湖相对封闭,水体自净能力差,加上城市剧烈的人类活动影响,其富营养化及由此带来的水华问题更为突出[4].水华预警是对水华灾害实行分级防御的一种有效方法,其目的是在水华灾害发生前,根据实时风险状态评估和历史警报统计分析,判别水华发生的可能性,预先进行警示,继而有针对性地做出预先性防控措施.然而,由于水华产生过程具有突发性、复杂性、时变性等特点[5-6],其准确预测一直是环保工作者面临的难题.

水华预警模型主要分机理模型和非机理模型.机理模型是以生态动力学为理论基础[7-8],用以模拟与预测水生态变化,如WASP[9-10]、QUALⅡ[11-12]、MIKE[13]模型,但机理模型通常结构复杂、参数众多.非机理模型属数据驱动模型是利用数学模型定量描述水华指示性指标与环境因子间的关系,如回归模型[14-15]、决策树模型[16-17]、神经网络模型[18-19]等,由于非机理所需模型参数少、建模和计算过程快速简便,在实际工作中更受青睐.其中,神经网络技术具有强大的非线性问题处理能力、自学习功能强等特点,在国内外富营养化和水华预警中广泛应用[20],但在实际建模中常面临以下问题:①水华发生机理和临界特征尚不明确,如何表征水华风险及其风险等级尚未有定论;②驱动水华产生的环境因子众多,如何从众多环境因子中识别主要驱动因子作为水华预警因子,亦缺乏成熟统一的研究方法;③水华是水生态系统中营养物质长期累积的结果,是由量变到质变、由渐变到突变的状态阶跃过程,这要求数学模型能够体现这种非连续的、阶跃式的特征,选取合适的神经网络模型是建模的关键.

本文旨在综合利用内集-外集模型、粗糙集约简算法和RBF神经网络模型等一系列数学方法,提出一套完整的水华预警建模方法.以天津清净湖为例,对此方法进行应用与验证,以期为城市内湖水华预警提供一种科学的建模方法.

1 数据与方法

1.1 研究区概况

天津清净湖位于117°44′39″～117°45′40″E、39°8′38″～39°9′41″N,距渤海海岸线不足 1km,水面面积 2.58km2,平均水深 2m,蓄水量约 560万m3,水体含盐量在 3‰～14‰范围,属滨海地区混盐型浅水湖泊.清净湖兼具景观、娱乐和雨洪调蓄等功能,由于洁净水资源严重匮乏,清净湖补水主要来自雨水、过境水等低质水源,加上水体相对封闭、自净能力差,清净湖一直面临富营养化加剧及由此带来的水华问题,5-10月以铜绿微囊藻为优势藻的片状水华在局部水域时有发生.

1.2 数据采集

本课题组于2013年5月至2014年12月对清净湖水质进行采样测试分析(1、2月冰封期暂停),每月采样2-4次,共取得51组数据.指标包括pH值、水温、照度、溶解氧、透明度、氨氮、总氮、正磷酸盐、总磷、高锰酸盐指数、TDS和叶绿素a共12项水质指标,其中pH、水温、溶解氧、光照强度、透明度和TDS于现场测定,氨氮、总氮、正磷酸盐、总磷、高锰酸盐指数和叶绿素a带回实验室分析测定[21].

1.3 研究方法

1.3.1 内集-外集模型内集-外集模型由黄崇福提出,是针对自然灾害风险评估中实际存在的信息不完备困难,基于小样本案例信息扩散评估思想,用于计算样本事件的可能性-概率分布,以表达小样本情况下概率估计的模糊性[22-23].该模型以小容量灾害事件观测样本 X={xi|i=1,2,…,n}为对象,记 U={u1,u2,…,um}为样本 X的离散论域,xi向ui的靠近程度记qij,由式(1)定义:

式中:xi为观测值,uj为控制点,Δ为步长.令Ij=[uj-Δ/2,uj+Δ/2],使用式(1)对给定的样本X计算出各样本点游离或漂入区间Ij的可能性ijq−或ijq+,从而在区间论域 I={Ij|j=1,2,…,m}和离散概率论域P={pk|k=1,2,…,n}上计算出灾害事件Ij发生的概率 pk的可能性πIj(pk),其全体ΠI,p={πIj(p)}是一个可能性-概率分布,也称为可能性-概率风险.

1.3.2 粗糙集约简粗糙集由 Pawlak于提出,是一种描述不确定性和不完备性的数学方法[24].知识约简是粗糙集理论的核心内容之一,是在保持原始决策表的条件属性和决策属性间依赖关系不发生变化前提下,删除不相关冗余属性,提取最能反映系统特征的属性,使知识系统达到最简化.粗糙集约简以信息系统为研究对象,表示为S= {U,A,V,f},其中 U 为论域,A 为属性集,A=C∪D, C∩D=∅;C、D分别为条件属性集和决策属性集; V为A的值域; f是U→V的信息函数,它为每个对象的每个属性赋予一个信息值.具有条件属性和决策属性的知识表达系统称为决策表,决策表中的属性并非同等重要,其中某些属性是冗余的,若存在属性子集 Q∈C,对于决策属性D的分类能力不变,且Q相对D独立,则Q称为C的D相对约简.相对约简的计算可采用区分函数,区分函数的极小范式中的所有合取式就是属性集C的所有D相对约简.

1.3.3 RBF神经网络径向基函数RBF神经网络是以函数逼近理论为基础的单隐层前溃网络,隐含层采用对局部响应的径向基函数作为激励函数,具有结构简单、训练速度快和与初始权值无关等优良特性[25].在 RBF神经网络结构中,X=[x1, x2,…,xn]T为网络的输入向量;wij为第 i个输入单元与隐层第 j个神经元相连的权值.设RBF网络的径向基向量为R=[r1,…,rj,…,rm],其中rj为基函数,一般为高斯函数,如式(2)所示.

式中:Cj为网络第j个节点的中心向量;bj为节点j的基宽参数,且为大于零的数.隐层与输出层连接的权向量为 U=[u1,u2,…,um],输出层为线性函数,如式(3)所示.

RBF神经网络的学习过程分为两个阶段:①根据输入样本决定隐含层各节点的基函数中心向量和基宽向量;②在确定了隐含层的参数后,利用最小二乘原则求出隐含层和输出层之间的连接权值.

2 模型设计

本研究将水华预警建模过程分三步,分别为水华概率与等级划分、预警因子识别和模型建立.

2.1 水华概率与预警等级划分

水华是水体中藻生物量由量变向质变跃迁过程,当水体中的藻生物量达到或超过某阈值时就会产生水华[26],故本研究以水华藻生物量阈值作为确定水华风险概率的依据.理论上水华藻生物量阈值应由水华爆发临界时刻的藻生物量确定,但实际中很难获取水华临界时刻的藻生物量.本研究以水华爆发首日的藻生物量为替代样本,采用内集-外集模型确定水华的叶绿素a浓度阈值,依据水华阈值计算水华风险概率,并划分水华预警级别,主要步骤为:

Step 1:以清净湖水华发生首日叶绿素a浓度观测值X={xi|i=1,2,…,n}为研究样本;

Step 2:构建内集-外集模型对水华进行模糊风险分析,得到水华发生的可能性-概率分布πIj(p);

Step 3:对可能性-概率风险模糊集进行非模糊化处理,根据式(4)计算各区间的平均概率;

Step 4:以平均概率最大的区间的下限作判断水华发生的叶绿素a阈值,记作It.

Step 5:引入水华风险概率 η,假定当水体中叶绿素a浓度YChl-a≥It时,水华风险概率η=1,即水华事件发生的概率为 100%;当叶绿素 a浓度YChl-a＜It时,水华风险概率按式(5)计算.

Step 6:依据水华风险概率划分水华预警等级,同时对水华预警等级进行赋值,见表1,以此表达水华风险含义.

表1 水华预警等级的划分Table 1 Divisioncriterion of early-warning grades of water bloom

2.2 水华预警因子识别

驱动水华产生的环境因子众多,各因子之间存在一定的相关性,部分因子信息具有一定的重复性,这会给水华预警建模带来诸多干扰,水华预警因子识别是水华预警建模的重要内容.本文采用的粗糙集约简模型对驱动水华产生的环境因子进行识别,作为水华预警模型输入变量,具体步骤如下:

Step 1: 选取水华监测指标数据集,形成原始决策表S={U,A,V,f};

Step 2: 基于水体叶绿素a指标监测数据,根据式(5)计算水华风险概率,并依据表1对水华预警等级进行赋值,从而获得决策属性的信息熵,形成决策属性集D;

Step 3: 利用粗集理论数据离散化方法[27]对水华监测指标数据进行5级离散,得到条件属性集C;

Step 4:依照粗糙集约简算法[28]删除冗余条件属性及重复信息,得到简化决策表,从而得到水华的主要影响因子,作为水华预警因子.

2.3 基于RBF神经网络的水华预警模型

以上述水华预警因子作为神经网络模型的输入向量 Z=[z1,z2,…,zl],以水华预警等级赋值为模型的输出向量 Y=[y1,y2,…,yl],构建基于RBF神经网络的水华预警模型,具体建模与解算步骤:

表2 水华风险的可能性-概率分布与平均概率Table 2 Water bloom risk represented a possibilityprobability and average-probability distribution

Step 1:以水华预警因子的5级离散数据(2.2节中约简后的条件属性集C)为输入向量Z的样本,以水华预警等级赋值(2.2节中决策属性集D)为期望输出向量T的样本,组成建模所需的样本集P;

Step 2:网络初始化,即从样本集 P中选取 k个训练样本(k＜P)作为聚类中心Ci;

Step 3:将输入的训练样本集合按最近邻规则分组,按照Zp与中心Ci之间的欧氏距离将Zp分配到输入样本的各个聚类集合中,然后采用竞争学习规则重新调整聚类中心 Ci,如果新的聚类中心不再发生变化,则所得Ci即为RBF神经网络的最终基函数中心,否则返回进行下一轮的中心求解.

3 模型应用与讨论

3.1 模型建立

监测期间,清净湖发生了 12次局部水华.由于样本数据概率分布的函数形式未知,且容量仅为12个的小样本,依据其进行的概率估计必然不准确.根据2.1节所述方法,设定区间个数为5个,控制步长为 9.08,构建基于内集-外集的水华藻生物量阈值界定模型,求解模型得到水华风险的可能性-概率分布,并根据式(4)计算水华发生首日的叶绿素 a浓度落在各区间的平均概率.由表2可知,水华发生首日的叶绿素 a浓度落在[70.98,80.06)区间内的概率最大,说明此区间能够反映清净湖水华发生首日的藻类生物量的规律.由此本研究将叶绿素a浓度70.98µg/L作为清净湖水华的藻生物量阈值.

表3为2013年5月至2014年12月水质监测数据,共51组.依据式(5)计算水华风险概率,并依照表1对清净湖水华预警等级进行赋值.

清净湖12项水质监测指标数据均为连续型数据,对其进行 5级离散预处理,分别用 C1, C2,…,C12表示.以 12项水质指标作为条件属性C,以水华预警等级赋值为决策属性 D,建立清净湖水华风险原始决策表,决策表由 12个条件属性、1个决策属性和51组样本组成,见表4.按照2.2节所述方法,精简属性集,获得最优约简集合为C2,C4,C9,C11,即水温、溶解氧、高锰酸盐指数和TDS为清净湖水华的主要影响因子,作为清净湖水华预警因子.

表3 水华风险概率计算结果Table 3 Water bloom risk probability of Qingjing Lake

以水温、溶解氧、高锰酸盐指数和TDS作为神经网络模型的输入向量,以水华预警等级赋值为模型的输出向量,构建基于RBF神经网络的清净湖水华预警模型.采用2013年5月20日至2014年5月13日的37组数据对RBF神经网络模型进行训练,训练样本为粗糙集约简后的属性值 C2,C4,C9,C11(表 5)输入模型进行训练,输出层为水华风险决策属性值D(表5).

选用高斯函数为径向基函数、输出层为线性函数的单隐层RBF网络,RBF神经网络的中心采用自组织学习的方法确定,对所有输入样本用K-means聚类算法进行聚类来确定各隐层节点中心,隐层到输出层间的权系数采用最小二乘法求解.在网络运算过程中,根据网络特点,通过改变其扩散系数Spread来调整网络的模拟精度,最终选择拥有模拟值最接近真实值的那个扩散系数的网络作为最终网络.

3.2 模型验证

基于上述模型,对2014年5月27日至12月 24日清净湖水华预警等级进行预测,并采用同期观测值进行对比验证,结果见表6.模型验证结果显示,14组验证数据中,正确12个,误判2个,模型预测正确率达85.7%.在模型验证中,出现2次误判,但没有出现跨级误判,且均为对低风险的误判,对高风险的预测准确,6次高风险的预测全部正确.通过实例验证,证实了该建模方法的可行性.

表6 模型验证Table 6 Results of model validation

3.3 讨论

神经网络作为一种数据驱动模型,本质是从大量数据中提取其中蕴含的规律,需要全面的环境参数信息及长系列水质监测数据,然而目前大多水体缺乏长期监测数据,且监测指标不全面,信息缺失给建模工作带来极大困难.本研究将样本数据经过离散聚类预处理,大大降低了建模数据量的需求,但在模型验证中,出现2次对低风险水华的误判,其主要原因仍是由低风险下样本数据不足导致.因此,在模型建立后,仍需后续样本数据对模型参数进行修正.

基于神经网络的水华预测模型,常出现对异常峰值预测失灵的情况,本研究利用预警等级赋值的方法对峰值数据进行了“坦化”,基本解决了峰值预测失灵的问题,这是本模型对高风险水华预测精度良好的原因.然而,利用“坦化”处理后的数据构建模型,会对中等警度预测产生干扰.对于这个问题,可尝试通过建立分段式神经网络预警模型予以解决.

在实际中,水体藻生物量指示性指标常会出现由环境异常引起的突变情况,如人工打捞、降雨等.本模型无法解决这些突发因素的影响,故可以考虑给模型增加人工修正量.该人工修正量依赖于实时监测和工作人员的丰富经验,估算环境突变对叶绿素 a浓度水平的影响,并将其作为修正量叠加到模型输出上,对预测结果进行修正.

神经网络属数据驱动型模型,故本模型对水华爆发后的强度与发展趋势预测能力不足.对于这个问题,可以通过加密水华爆发后水质监测频次,利用水华爆发后的加密样本数据对模型进行修正.更科学的方法是通过建立二维生态系统动力学模型,从空间和时间上对水华爆发后的强度与发展趋势进行模拟与预测.

4 结论

4.1 本文提出了一种可应用于城市内湖水华预警的综合建模方法,包括水华风险概率计算、预警等级划分、预警因子识别和RBF神经网络预警模型.提出了基于内集-外集模型的水华藻生物量阈值的界定方法,引入水华风险概率概念提出水华预警等级划分方法,借助粗糙集约简方法对水华预警因子进行识别,构建了基于RBF神经网络的水华预警模型.

4.2 以天津清净湖为例,对此方法进行了应用与验证.确定叶绿素a浓度70.98µg/L为清净湖水华的藻生物量阈值;将清净湖水华风险划分为 5个等级,分别为无警、轻微警、轻度警、中度警和重度警;率定水温、溶解氧、高锰酸盐指数和TDS为清净湖水华预警因子;建立了基于RBF神经网络的清净湖水华预警模型,模型预测精度达85.7%,表明该模型能较好地应用于清净湖水华预警模型.

[1] 孔繁翔,马荣华,高俊峰,等.太湖蓝藻水华的预防、预测和预警的理论与实践 [J]. 湖泊科学, 2009,21(3):314-328.

[2] 王华,杨树平,房晟忠,等.滇池浮游植物群落特征及与环境因子的典范对应分析 [J]. 中国环境科学, 2016,36(2):544-552.

[3] 王雪蕾,王新新,朱利,等.巢湖流域氮磷面源污染与水华空间分布遥感解析 [J]. 中国环境科学, 2015,35(5):1511-1519.

[4] 王小艺,唐丽娜,刘载文,等.城市湖库蓝藻水华形成机理 [J]. 化工学报, 2012,63(5):1492-1497.

[5] Coad P, Cathers B, Ball J E, et al. Proactive management of estuarine algal blooms using an automated monitoring buoy coupled with an artificial neural network [J]. Environmental Modeling & Software, 2014,61:393-409.

[6] 陈云峰,殷福才,陆根法.水华爆发的突变模型-以巢湖为例 [J].生态学报, 2006,26(3):878-883.

[7] JΦrgensen S E. Structural dynamic model [J]. Ecological Modeling, 1986,31:1-9.

[8] Kirchner W B, Dillon P J. Comment on an empirical method of estimating the retention of phosphorus in lakes [J]. Water Researches, 1975,2(1):182-183.

[9] Wool T A, Ambrose R B, Martin J L, et a1. Water Quality Analysis Simulation Program (WASP) Version6. 0, DRAFF: User’s Manual [M]. Georgia: U S Environmental Protection Agency-Region, Atlanta. 2001:22-28.

[10] 张质明,王晓燕,李明涛.基于全局敏感性分析方法的 WASP模型不确定性分析 [J]. 中国环境科学, 2014,34(5):1336-1346.

[11] Vivian P, Roberto J C. Qual2E model for the Corumbata´ıRiver [J]. Ecological Modelling, 2006,198:269-275.

[12] Mehmet Y, Erdal K, Ridvan B. Simulation of river streams: Comparison of a new technique with QUAL2E [J]. Mathematical and Computer Modelling, 2007,46:292-305.

[13] 常旭,王黎,李芬,等.Mike 11模型在浑河流域水质预测中的应用 [J]. 水电能源科学, 2013,31(6):58-62.

[14] Cracknell A P, Newcombe S K, Black A F, et al. TheABDMAP (algal bloom detection,monitoring and prediction) concerted action [J]. International Journal of Remote Sensing, 2001,22(2/3): 205-247.

[15] 郑剑锋,李付宽,孙力平.滨海地区混盐水体富营养化主因子识别与分析-以天津市清净湖为例 [J]. 环境科学学报, 2016, 36(3):785-791.

[16] Chen Q, Mynett A E. Predicting phaeocystisglobosa bloom in Dutch coastal waters by decision trees and non-linear piecewise regression [J]. Ecological Modeling, 2004,176:277-290.

[17] 曾勇,杨志峰,刘静玲.城市湖泊水华预警模型研究-以北京“六海”为例 [J]. 水科学进展, 2007,18(1):79-85.

[18] Wei B, Sugiura N, Maekawa T. Use of artificial neural net-work in the prediction of algal blooms [J]. Water Research, 2001,35(8): 2022-2028.

[19] 蔡煜东,汪列,姚林声,等.水质富营养化程度的人工神经网络决策模型 [J]. 中国环境科学, 1995,15(2):123-127.

[20] 卢小燕,徐福留,詹巍,等.湖泊富营养化模型的研究现状与发展趋势 [J]. 水科学进展, 2003,14(6):792-798.

[21] 国家环境保护总局水和废水监测分析方法编委会.水和废水监测分析方法 [M]. 4版.北京:中国环境科学出版社, 2002.

[22] Huang C F. Demonstration of benefit of information distribution for probability estimation [J]. Signal Processing, 2000,80(6): 1037-1048.

[23] 黄崇福.内集-外集模型的计算机仿真检验 [J]. 自然灾害学报, 2002,11(3):62-70.

[24] Pawlak Z, Skowron A. Rudiments of rough sets [J]. Information Sciences, 2007,177(1):3-27.

[25] 葛哲学,孙志强.神经网络理论与 MATLAB R2007实现 [M].北京:电子工业出版社, 2007.

[26] 张家瑞,曾勇,赵彦伟.白洋淀湿地水华暴发阈值分析 [J]. 生态学杂志, 2011,30(8):1744-1750.

[27] 赵军,王国胤,吴中福,等.基于粗集理论的数据离散化方法[J]. 小型微型计算机系统, 2004,25(1):60-64.

[28] 李元萍,李元良.粗糙集约简算法的研究与实现 [J]. 矿业研究与开发, 2008,28(4):48-50.

A modeling approach for early-warning of water bloom risk in urban lake based on neural network.

ZHENG Jian-feng1,2*, JIAO Ji-dong1, SUN Li-ping1,2(1.School of Environmental and Municipal Engineering, Tianjin Chengjian University, Tianjin 300384, China；2.Tianjin Key Laboratory of Aquatic Science and Technology, Tianjin 300384, China). China Environmental Science, 2017,37(5)：1872～1878

Formation process of water bloom was complicated, time-varied and uncertain. So far water bloom prediction of urban lake was still difficult. An integrated modeling approachby using interior-outer-set, rough sets reduction algorithm and RBF neural network model was proposed for early-warning of water bloom risk. Interior-outer-set model was employed to define the threshold of chlorophyll a for predictingwater bloom risk, and a method was put forward for calculating the risk probability of water bloom.Rough sets reduction algorithm was used to identify the keydriving factors ofwater bloom. An early-warning model of water bloom risk was developed based on RBF neural network model. Feasibility of themodeling approach was proved though the application in Qingjing Lake. The results indicated thatthe threshold value of chlorophyll a was 70.98µg/L; water bloom risk was divided into five grades based on the risk probability of water bloom; fourwater quality indexes including water temperature, dissolved oxygen, permanganate index and total dissolved solids were identified as the indicators of water bloom. Result of model validation showed that the RBF neural network model's accurate rate exceeded 85%, and could be applied to early-warning of water bloom risk in Qingjing Lake.

water bloom；risk probability；risk grade；key driving factors；early-warning model

X524

1000-6923(2017)05-1872-07

郑剑锋(1976-),男,讲师,博士,浙江杭州人,主要研究方向为水污染控制理论与技术.发表论文20余篇.

2016-10-30

天津市自然科学基金(15JCYBJC49100);天津水质科学与技术重点实验室开放基金(TJKLAST-ZD-2015-01)

* 责任作者, 讲师, jianfen1605@163.com