灰色聚类法在水质评价中的应用
2014-06-26安宇翔
安宇翔
(河北省水利水电勘测设计研究院,天津 300250)
目前水质评价的方法很多,包括概率统计法[1]、模糊评价法[2]、物元分析法[3]、灰色聚类评估法、综合指数法[4]、支持向量机分类法[5]、人工神经网络分析法等。其中灰色聚类评估法应用最为广泛。地表水水质受当地水文、地质、气候、社会经济活动等众多因素影响,同时水质评价是建立在有限样本的监测数据之上,由此可以把水质环境系统当作一灰色系统进行研究。
灰色聚类是灰色理论与聚类思想的有机结合,按不同聚类指标的属于不同灰类的白化权函数,将聚类对象归入事先定好的不同灰类之中。
高邮湖地跨江苏高邮市、宝应县、金湖县和安徽天长市,是江苏省第三大湖,水域总面积760.67km2,是淮河入江水道的组成部分。其水域宽阔,为渔业养殖、生活生产用水提供了得天独厚的自然条件。湖内自然生长近20种淡水鱼类、4~5种虾类,湖底有3~4类贝壳。由于受上游水质影响及养殖业发展、渔业和农业用药的污染,湖水水质有恶化的趋势。本文选择该湖有代表性的几项指标,按照GB3838—2002《地表水环境质量标准》水质分级标准,根据2010年实测数据序列,探讨基于动态权重的灰色聚类方法在高邮湖水质评价中的应用[6]。
1 指标权重的确定
灰色聚类综合评价的关键在于白化权函数的选择与指标权重的选取。本文在指标静态权重的基础上,采用基于相对均值变幅的动态权重,并与静态权重组合,从而得到最终的随指标实际取值不断变化而变化的权重。
1.1 静态指标权重确定
采用投影寻踪法[7]计算各指标的静态权重,投影寻踪方法是处理高维数据的有效方法之一。其将高维数据按投影向量投影到低维空间,排除与数据结构及其特征无关的或关系很小的变量的干扰,并根据数据在投影空间的散布程度或局部凝聚程度来分析各评价指标的权重。其主要步骤如下:
1.1.1 投影指标函数的构建
将 m 维规格化的数据 {x (i,j)|i=1,2, …,n;j=1,2,…,m}综合成以 p={p(1),p(2),…,p(m)}为投影方向的一维综合投影值G(i):
其次,根据{G(i),i=1,2,…,n}的一维数据散布图进行辨识,要求投影值 G(i)应尽可能使类间大地提取{x(i,j)}中的变异信息,从而尽可能多地携带大坝基岩监测数据的变异信息,而变异信息可以由 G(i)标准差 SG来度量;同时要求类内密度尽可能大,因此投影指标函数可以用式(2)表示:
其中,SG是投影值 G(i)的标准差,则
1.1.2 投影指标函数的优化及求解
综上可知,投影寻踪算法的最后结果是求解关于式(5)的最优化问题,即
显然,这是一个非线性寻优问题,常规的搜索方法很难得到最优解,可以采用实数编码的加速遗传算法(RAGA)来达到寻优的目的。由上面计算得最佳投影方向p归一化后即可得到可指标的权重:(j=1,2,…,m)。
1.2 动态指标权重的确定
由于水质是随着各指标数值的不断变化而变化,因此本文尝试运用基于指标变化幅度来计算指标的动态权重。 设实测序列为 x′(i,j),则其相对于均值的变幅程度为:
1.3 组合动态权重
根据最小相对信息原理,将静态权重与动态权重进行组合,即可得到组合动态权重wij。
2 灰色聚类分析方法
2.1 数据标准化处理
设有i个时间序列对象样本,每个对象有j个指标,每个指标 k 个灰类。 设有实测值{x′(i,j)|i=1,2,…,n;j=1,2,…,m},第 j个指标的第 k 个灰类的阈值为(j=1,2,…,m;k=1,2,…,s)。 由于各聚类指标的量纲不同,数量级也不同,因此需要对数据进行标准化处理。
本文采用均值化,如式(8)。
式中 x′(i,j)为第 i个对象的第 j个指标的实测值;x(i,j)为第 i个对象的第 j个指标的标准化数值。
同理,对选用的水质评价标准,即第j个指标的第k个灰类的阈值进行标准化处理,如式(9)。
2.2 确定白化权函数
根据GB3838—2002《地表水环境质量标准》(表2)水质分级标准,采用中心点线性白化权函数,即根据聚类指标各灰类的阈值将水质分为k类。对于数值越小越好的指标 (如氰化物、总磷)。
属于第I(j=1)级水质的白化权函数为:
属于第Ⅱ~Ⅳ(j=2,3,4)级水质的白化权函数为:
属于第Ⅴ(j=5)级水质的白化权函数为:
对于数值越大越好的指标(如溶氧量),其白化权函数应相应调整,如:
2.3 确定聚类权重
对于指标定权聚类,设各指标的权重为wj(j=1,2,…,m)。
2.4 求解聚类系数与评判结果
各对象的聚类系数向量为:
根据聚类系数向量按最大隶属原则可判断对象所属的灰类。
3 实例分析
根据高邮湖2010年实测1~12月份各指标数据,选取有代表性的指标:营养盐及有机污染综合指标的溶氧量、无机阴离子指标氰化物、一般重金属指标铜、重金属指标汞、有机污染物指标挥发酚、生物指标类大肠菌群6个指标,根据公式(8)将其标 准 化 处 理 得 到 标 准 化 决 策 矩 阵 (xij)12×6。 以GB3838—2002《地表水环境质量标准》作为水质评价的标准,将水质分为5个级别,即5个灰类,各灰类的阈值如表1。
表1 水质评价标准
由此可以按式(10)~式(13)确定各指标属于不同灰类的白化权函数,根据式(1)~式(5),采用MATLAB编程,调试RAGA参数,可得当种群N=300,交叉概率Pc=0.8,变异概率Pm=0.2,加速次数为20时,得到指标的静态PP法权重为:=(0.0132,0.2383,0.2593,0.0432,0.0831,0.3629)。
根据式(6)计算得到个指标的动态权重,在运用式(7)可得到最终的组合动态权重wij,如表2。
表2 各对象指标动态权重
根据白化权函数及动态权重,可以求得最终的聚类系数与评价结果,并与静态权重计算结果比较如表3。
表3 两种权重计算结果比较
比较表3中的结果可知,静态权重与动态权重的评价结果大部分是一致的,说明动态权重用于灰色聚类综合评价是可行的。不同之处在于2010年2月份、6月份与8月份。其中2月份动态权重判断的级别优于静态权重,观察2月份实测值可知,该项各指标均在Ⅱ级水范围之内,且类大肠菌群实测值为12个月份中最低值,故将其作为Ⅱ级水更合理。6月份与8月份,动态评判的结果劣于静态评判,观察6、8月份的实测数据可知,6、8月份的溶氧量均较小,而类大肠菌群数量则比较多,将其划分为IV级水更符合实际。同时由表3可以看出,动态水质评价5~9月份水质均为IV级水,是一个连续的过程,5~9月份是用水的高峰期,农业生产在此期间对水质的影响在该阶段最为显著,水质级别更符合当地的实际情况。
4 结语
在投影寻踪算法确定指标静态权重的基础上,采用基于均值相对变幅确定各项指标的动态权重,实现了权重随时间的动态变化,并最终将其应用到灰色聚类综合评判之中。实例结果表明该方法是可行的、合理的。动态权重可以避免了静态权重的缺点和不足,水质指标的权重可以随着指标实测数据的变化动态调整,更能充分挖掘实测数据所提供的潜在信息,使评判的结果更趋于合理。
[1]高灵财,吕明明,等.“十五”期间牡丹江河流段水质评价方法的探索与研究[J].环境科学与管理,2009,34(5):167-169.
[2]凌敏华,左其亭.水质评价的模糊数学方法及其应用研究[J].人民黄河,2006,28(1):34-36.
[3]樊引琴,刘婷婷,等.物元分析法在黄河水质评价中的应用[J].水资源与水工程学报,2013,24(2):166-169.
[4]申献辰,杜霞,等.水源地水质评价指数系统的研究[J].水科学进展,2000,1(3):260-265.
[5]陈琳,刘俊民,等.支持向量机在地下水水质评价中的应用[J].西北农林科技大学(自然科学版),2010,38(11):221-225.
[6]陈振翔,李小路,等.高邮湖水环境污染防治对策研究[J].污染防治技术,2012,25(3):70-73.
[7]张欣莉.投影寻踪新算法在水质评价模型中的应用[J].中国环境科学,2000,20(2):187-189.