遗传神经网络在累积性环境风险评价中的应用
2012-12-28陈凯,黄蕾,方强
陈 凯,黄 蕾,方 强
(污染控制与资源化研究国家重点实验室,南京大学环境学院,江苏 南京 210046)
·环境预警·
遗传神经网络在累积性环境风险评价中的应用
陈 凯,黄 蕾,方 强
(污染控制与资源化研究国家重点实验室,南京大学环境学院,江苏 南京 210046)
以太湖流域常州段为研究对象,构建了累积性水环境风险评价指标体系,利用主成分分析法选取输入变量,并应用MATLAB建立遗传神经网络综合评价模型。运用遗传算法对BP神经网络的权值和阈值进行优化,将遗传算法全局搜索能力和BP算法局部搜索能力相结合,提高了收敛速度和精度。应用模型对2004—2009年常州市累积性水环境风险进行了综合评价,结果表明,2004—2009年风险综合指数总体上处在中级与高级之间,累积性水环境风险较大;2008—2009年风险综合指数不断增大,趋于低级;农业和畜禽养殖业等面源风险源、污水处理和风险管理投资等控制机制以及人口和环境敏感目标等风险受体是造成太湖流域常州段累积性水环境风险较大的主要原因。
遗传神经网络;累积性环境风险评价;太湖流域
近几十年来,随着太湖流域经济的快速发展和人口规模的迅速扩大,社会经济和环境保护之间的矛盾日益尖锐,太湖水污染日趋严重[1]。频繁发生的水污染事件对太湖流域水环境风险评价提出了更高要求。累积性环境风险是指人类开发活动中潜在的会对人类健康、生态环境产生危害的行为,这种风险一般并不立刻显现,而且比较隐蔽,但对人类健康、生态环境却具有长远的影响[2]。
目前,国内针对区域累积性水环境风险的综合评价研究不多[3,4]。黄晓容等利用层次分析法构建了重庆三峡库区渐变性水环境污染事故预警指标体系[3];李万莲从水生态系统的社会—经济—自然属性角度构建了蚌埠城市水生态环境评价指标体系,并用层次分析法进行了预警分析[5];郭松影等从水安全风险的角度出发,建立了水安全风险评价指标体系,并应用系统动力学方法建立了水安全风险评价模型[6];王立刚等根据中国农区水体环境质量的实际情况,提出了农区水体环境质量预警指标体系[7]。
当前国内主流的评价指标筛选和综合评判方法包括层次分析法、专家咨询法、主成分分析法、灰关联分析法、墒值法等[8]。这些方法在实际应用中具有极大的主观性,处理非线性问题能力较差,且缺乏自学习、自适应能力。BP神经网络(Backpropagation Neutral Network)虽然是处理非线性问题的有效工具,但也存在一些缺陷:学习收敛速度很慢,容易陷入局部最小点,网络结构不易确定等[9]。遗传算法(Genetic Algorithm,GA)具有全局搜索能力,同时具有较强的鲁棒性和自适应性[10],将GA与BP神经网络相结合,用于优化网络的初始连接权值和阈值,可以提高算法的全局搜索能力和局部搜索能力,使结果性质得以极大地改善[11]。笔者利用遗传神经网络模型,对2004—2009年太湖流域常州段的累积性水环境风险等级进行评价,找出影响常州段累积性水环境风险的主要因素。
1 遗传神经网络模型的构建方法
BP神经网络由 RMENLHART、MCCLELLAND等研究并设计,基于误差反向传递算法的一种多层前馈型神经网络[11],对解决非线性问题有着独特的优势,同时它还具有很强的输入输出非线性映射能力和易于学习、训练的优点[12]。遗传算法是模仿自然界生物进化机制发展起来的随机全局搜索和优化方法,它借鉴了达尔文的进化论和孟德尔的遗传学说,本质上是一种高效、并行、全局搜索的方法[13]。应用遗传算法优化BP神经网络的步骤见图1。
笔者采用浮点数编码方式,将权值和阈值连在一起组成染色体,染色体的长度S=R×S1+S1×S2+S1+S2。
式中:R——输入数量;S1——隐含层结点数;S2——输出数量。
染色体i的适应度值fi用其对应的网络误差Ei的倒数表示。遗传算子操作方面,选择基于归一化的优先选择法(normGeomSelect),以排序策略为基础,进行选择操作。由于笔者采用实数编码方法,因此采用浮点型的算术交叉(arithXover)进行交叉操作[14]。变异操作采用非均匀变异(nonUnif-Mutation)[14],对原有的基因值作一随机扰动,以扰动后的结果作为变异后的新基因值。
2 基于主成分—遗传神经网络的累积性水环境风险评价实证研究
2.1 指标体系的构建
环境污染事件是在环境风险场的复合作用机制下形成的,环境风险场包括风险源、环境风险控制机制、风险受体3个因素,它们共同决定了水环境风险的水平[2]。笔者从风险源的危险性、控制机制的有效性以及风险受体的易损性3个方面入手,构建太湖流域累积性水环境风险评价指标体系,如表1所示。指标分为正影响指标和负影响指标:正影响指标值越大,风险综合指数越大;负影响指标则反之。
表1 太湖流域累积性水环境风险评价指标体系
续表1
2.2 数据的获取和处理
笔者选取2004—2009年常州市累积性水环境风险评价指标数据进行评价,指标数据如表2所示。数据主要来自《常州市统计年鉴 2006—2010》、《江苏统计年鉴2006—2009》和《常州市区环境状况公报2005—2009》。指标的最大值、达标值和最小值的选取主要根据国际、国家、行业和地方法规和标准,并结合常州市的社会经济发展情况和太湖治理要求综合考虑设定。
表2 常州累积性水环境风险评价指标数据
由于BP神经网络的隐含层一般采用Sigmoid转换函数,要求输入数据的值在0~1之间[15]。因此,不同量纲、没有可比性的各项指标数据需要进行标准化处理。笔者采用极差标准化方法。
对于正影响的指标采用公式:
对于负影响的指标采用公式:
式中:Ri——指标量化值;Xi——各指标实际值;Ximax——指标最大值;Ximin——指标最小值。对于正影响指标,若其实际值大于最大值,指标量化值为1,若其实际值小于最小值,指标量化值为0;负影响指标反之。
2.3 主成分分析
主成分分析法(Principal Component Analysis,PCA)是利用降维的思想,把多指标转化为少数几个综合指标,即主成分,而这几个主成分可以反映原来多个变量的大部分信息的一种统计方法[16]。该法不仅可以反映原有指标的信息量,而且可以解决指标之间信息重叠和权重选取问题,从而达到降维并减少计算量的目的。由于神经网络模型的精度和泛化能力易受输入样本变量的影响,利用主成分分析方法可以消除变量间的相关性,对输入空间进行重构,消除重叠信息,提取主导因素,优化网络结构,提高模型精度[17]。
利用SPSS软件对指标数据进行主成分分析,得到旋转后的主成分贡献率如图2所示。4个主成分的累积方差贡献率为98.631%,因此可用这4个主成分因子来代替18个指标作为输入变量。主成分因子2中Y3、Y4有较大载荷,即反映畜禽养殖业TN和TP排放量的信息;主成分因子3中Y10、Y16有较大载荷,即反映环保投资占GDP比重和水环境功能区水质达标率的信息;主成分因子4中Y2有较大载荷,即反映农药使用强度的信息;主成分因子1中剩余13个变量有较大载荷,即反映了除畜禽养殖业外的风险源信息、初级控制机制信息和除主成分因子4中Y2(反映农药使用强度的信息)外的风险受体信息。求得各项主成分因子的得分函数,进而得到各主成分因子的得分矩阵和各主成分因子的最小值、达标值和最大值。之后进行标准化处理,得到位于(0,1)之间的主成分输入数据,如表3所示。
表3 归一化后主成分因子数据
2.4 遗传神经网络模型的构建
应用MATLAB神经网络工具箱和遗传算法工具箱(GAOT)编写程序,实现遗传神经网络模型的构建。模型构建步骤如下。
2.4.1 BP网络设计与遗传算法参数设定
根据Kolmogorov定理,对含一个隐含层的3层BP网络,只要隐含层神经元数目足够,便能以任意精度逼近有界区域上的任意连续函数[18]。因此,笔者建立的是3层BP网络。输入层神经元数目取决于输入矢量的维数[19],即为4。隐含层神经元个数的确定尚没有绝对准确的方法,一般通过经验公式和试错法获得[15]。笔者根据Kolmogorov定理,经多次测试后发现(2n+1)个隐含层神经元数(n为输入层神经元数)可以使模型学习和预测效果最佳,因此确定隐含层神经元数为9。输出层包含一个神经元,即风险综合指数P。根据各主成分因子数据(归一化后)的最小值、达标值、最大值,设定风险综合指数范围和相应的风险等级,如表4所示。
表4 水环境风险评价分级标准
隐含层和输出层神经元的传递函数分别取tansig函数和purelin函数。选取以学习率可变的动量BP算法traingdx函数进行网络训练。设定学习率为0.01,误差为 0.000 1,循环次数为 3 000次。所构建的BP网络模型结构如图3所示:
种群的规模大小直接影响到遗传算法的收敛性,过小容易收敛到局部最优解,过大则会造成计算速度降低,一般设定在10~200之间[13]。经过多次试验后选定种群规模设定为190;进化代数设定为500代。按照HOUCK关于GAOT工具箱的设定,归一化优先选择的参数设定为[0.08],算术交叉的参数设定为[2 0],非均匀变异的参数设定为[4 gen 3][14]。
2.4.2 训练和检验样本的生成
由于环境风险评价的神经网络研究尚处于起步阶段,没有一个通用的评价标准,因此笔者参照有关文献的选取方法[10,13],根据所用样本数据的最大值、达标值、最小值之间的区间,进行3次样条内插,设定风险等级,构建41组训练样本和6组检验样本(包括各项指标标准化值和综合指数值)。
2.4.3 网络训练和检验
单独用BP神经网络进行训练时,当网络训练到第441次时,达到了系统误差se<0.000 1的停止条件,而用遗传神经网络训练时仅需要127步即可达到(见图4、图5)。6组检验样本测试结果表明,该网络对每一组测试样本的相对误差不超过0.05,由此可以认为网络模型训练成功。
3 结果
应用构建好的遗传神经网络模型,将常州市2004—2009年的指标标准值输入,得到太湖流域常州段累积性水环境风险综合指数级别,如表5所示。
表5 累积性水环境风险等级评价结果
4 结论
(1)总体上来看,2004—2009年太湖流域常州段的累积性水环境风险评价等级徘徊在中级与高级之间,除2006和2009年外,风险综合指数均低于0.2,累积性水环境风险较大。这与《太湖流域及东南诸河水资源公报》(2004—2009)中太湖常州段(竺山湖)水质均劣于V类的实际情况基本相符,说明运用遗传神经网络模型进行累积性水环境风险评价是可行的。
(2)从趋势上来看,2004—2007年风险综合指数呈波动变化,趋势并不明显。其中,2006年风险综合指数大幅增加,这主要是由于农药使用强度、畜禽养殖业TP年排放量、单位GDP的废水排放量和单位GDP的COD排放量降低以及城镇生活污水集中处理率和环保投资占GDP比重增加所致。2007—2009年,除人均日生活用水量、老年人口所占比重和畜禽养殖业TP年排放量明显增加外,其他指标大都有所好转,尤其是城镇生活污水集中处理率和水环境功能区水质达标率有了较大幅度提高,风险综合指数不断增加,到2009年达到低风险级别。这表明2007年太湖蓝藻事件之后所采取的应对措施是有效的。
(3)从评价等级上来看,2005和2007年的风险综合指数分别处于高风险等级。2005年与2004年相比,17项指标相差不大,风险综合指数都较低;而农药使用强度有了大幅增加,导致2005年的风险等级下降。这说明农业面源风险是导致2005年常州市水环境处于高风险的主要原因。2007年的风险综合指数远低于其他年份,主要是由于水环境功能区水质达标率、环保投资占GDP比重大幅下降和人口密度大幅增加有关。这说明次级控制机制有效性降低、风险受体易损性增加是导致2007年水环境处于高风险的主要原因。
(4)从各项指标达标情况来看,化肥施用强度(折纯)、农药使用强度、畜禽养殖业TP和TN年排放量、城镇生活污水集中处理率、环保投资占GDP比重、人口密度、老年人口所占比重、水环境功能区水质达标率等9项指标均低于达标值。因此,农业和畜禽养殖业等面源风险源、污水处理和风险管理投资等控制机制以及人口和环境敏感目标等风险受体是造成太湖流域常州段累积性水环境风险较大的主要原因。
[1]沈建军,李柏山,许海萍.太湖水污染原因分析及治理措施[J].环境科学导刊,2009,28(2):27-29.
[2]毕军,杨洁,李其亮.区域环境风险分析和管理[M].北京:中国环境科学出版社,2006:17-94.
[3]黄晓容.重庆三峡库区水环境污染事故预警指标体系研究[D].重庆:西南大学,2009:1-46.
[4]毕军,曲常胜,黄蕾.中国环境风险评价现状及发展趋势[J].环境监控与预警,2009,1(1):1-5.
[5]李万莲.蚌埠城市水生态环境预警研究[J].环境科学导刊,2008,27(5):43-46.
[6]郭松影,周直,高成卫.水安全风险评价系统研究[J].中国水运,2007,7(10):48-50.
[7]张根明,向晓骥,王殊伟.基于BP神经网络的中部六省可持续发展能力研究[J].国土与自然资源研究,2006(4):24-25.
[8]杨帆.突发性水污染事故预警指标筛选及体系构建研究[D].北京:北京林业大学,2009:39-41.
[9]张德丰.MATLAB神经网络应用设计[M].北京:机械工业出版社,2009:262.
[10]蔡嗣经,陈海燕,郑明贵.基于遗传神经网络的北京市能源可持续发展能力评价[J].辽宁工程技术大学学报:自然科学版,2009,28(1):5-8.
[11]刘树锋,陈俊合.基于神经网络理论的水资源承载力研究[J].资源科学,2007,29(1):99-104.
[12]李明,李雪铭.基于遗传算法改进的BP神经网络在我国主要城市人居环境质量评价中的应用[J].经济地理,2007,27(1):99-103.
[13]雷英杰,张善文,李续武,等.MATLAB遗传算法工具箱及应用[M].西安:西安电子科技大学出版社,2005:2.
[14]HOUCK C,JONES J,KAY M.A genetic algorithm for function optimization:A Matlab Implementation[Z].
[15]杨秋林,张淑贞.基于BP神经网络的水环境承载力评价[J].国土与自然资源研究,2009(4):70-72.
[16]陈希,周娜娜.遗传神经网络在铁矿石需求预测中的应用[J].天津科技大学学报,2010,25(6):67-70.
[17]张石,张瑞友,汪定伟.基于PCA-BPNN方法的中长期电力负荷预测[J].控制工程,2010,17(6):800-802.
[18]陈柳,马广大.大气中SO2浓度的小波分析及神经网络预测[J].环境科学学报,2006,26(9):1553-1558.
[19]欧阳钧,王爱枝.基于Matlab的BP神经网络在大气污染物浓度预测中的应用[J].环境科学与管理,2009,34(11):176-180.
Application of Accumulative Environmental Risks Assessment Based on Genetic Neural Network Model
CHEN Kai,HUANG Lei,FANG Qiang
(State Key Laboratory of Pollution Control and Resource Reuse,School of the Environment,Nanjing University,Nanjing,Jiangsu 210046,China)
An assessment index system for accumulative water environmental risks was established according to the situation of Changzhou,part of Taihu lake basin.Principal component analysis was used to select input variables.Then,MATLAB was used to establish a comprehensive neural network model for evaluation.In this model,genetic algorithm was used to optimize the weight and threshold of network in order to improve the constringency rate and accuracy by taking advantage of both the overall searching ability of GA and the local search of BP.This model was applied to evaluate the index system for accumulative water environmental risks in Changzhou during 2004 to 2009.The results showed that during 2004 to 2009,Changzhou's composite index of accumulative water environmental risk was between intermediate level and severe state;the risk composite index was on the rise during 2008 to 2009,and tending toward lower level;non-point risk sources caused by agriculture and livestock farming,risk control mechanism such as sewage treatment and,investment of risk management and risk receptors including people and environment-sensitive targets were the main reasons which led to the high accumulative environmental risks in Changzhou.
genetic neural network;accumulative environmental risks assessment;Taihu lake basin
X824
A
1674-6732(2012)-02-0001-06
10.3969/j.issn.1674-6732.2012.02.001
2011-06-20;
2011-08-08
国家水体污染控制与治理科技重大专项项目(2009ZX07527-008,2009ZX07528-005);江苏省环境监测科研基金项目(916);中美国际合作项目(2010DFA91910)。
陈凯(1987—),男,本科,从事环境风险分析与管理方向的研究。