APP下载

基于SVM的洋河张家口段水质评价

2018-08-31郭美叶

水利科技与经济 2018年1期
关键词:模式识别张家口水体

郭美叶

(河北省张家口水文水资源勘测局,河北 张家口 075000)

1 概 述

水是人类生存发展和维系生态系统正常运转的基质[1],也是地球陆地表层生物、物理、化学能量与物质迁移转化最活跃的场所之一[2],水环境质量对环境变化及人类活动的响应十分敏感。在全球变化的背景下,水质量受环境污染、气候变化、水侵蚀、人类不合理开发利用的干扰愈来愈烈。水体质量评价主要反映了水体的生物、化学、物理等综合条件状况,为水质量的优化管理提供依据。

随着机器学习、神经网络等现代数据挖掘算法的应用与推广,就水环境质量评价方法而言,逐渐由传统的模糊隶属度函数评价法转化为模式识别法。学者对灰色GM模型、可拓分析、BP和RBF神经网络等评价方法进行了尝试,并取得一定成果[3-6]。但传统评价方法注重回归分析和时间序列模型分析,不能全面、科学地反映各项要素之间内在机理,损失信息量较大,难以取得较好的评价效果,而神经网络方法又不能很好解决小样本、非线性、高维数和局部极小等问题[7]。支持向量机(Support Vector Machine,SVM)作为一种新的机器学习方法,避开了从归纳到演绎的传统过程,实现了从训练样本到预报样本的“转导推理”[8],而且其采用的风险最小化准则有效克服了神经网络的固有缺陷,已被很多学者运用于图像解译、语音识别、文本分离,并取得了良好效果。据此,本研究尝试运用SVM分类模型,以陕西省为例,对其水质发展趋势予以模拟与评价,以期为陕西省土地生态规划提供实践经验和理论依据。

2 材料与方法

2.1 研究区概况

洋河为桑干河支流之一,是北京官厅水库重要水源。其贯穿张家口多个县区,流域跨度介于E113°50′~E116°30′,N39°30′~N42°10′。区域属于低山向阶地、盆地过渡区,海拔在500~800 m之间,高程相差不大。由于地形抬升和盆地效应,在迎风坡段降水较丰,多年均降水量为330~400 mm。洋河张家口段水源补给主要为降水和地下水,由于区域暖干化趋势加剧,地表水域萎缩、水流活性下降。近年来,随着张家口城镇化、工业化发展日趋深入,工业三废、农用污水、生活废物排放增多,对地表径流、地下水造成一定污染,当前眉县段渭河水质质量堪忧。

2.2 采样分析

为了便于全面掌握洋河张家口段水环境质量概况,按照全局性、均匀性、一般性的布点原则,并且考虑河段附近的土地利用类型、工业分布、支流状况等,在河段干流上设置45个监测面。监测时间为2016年10月,在每个监测点约10 m2的范围进行随机采集3~5水体样本,混合均匀后带回实验室进行化验分析,同时应用GPS仪记录样点的经纬度坐标。监测的指标有溶解氮(DO)、高锰酸钾指数(COD)、氨氮(NH4-N)、总磷(TP)、总氮(TN)。其中按照《水质高锰酸盐指数的测定》(GB/T 11892-1989)对各项指标测定, DO以硫酸钾湿氧化法测定,COD以草酸钠法测定,氨氮(NH4-N)以纳氏剂分光光度法,TP以碳酸氢钠浸提—钼锑抗比色法,总氮以半微量凯氏法测定[9]。

2.3 支持向量机算法

支持向量机(Support Vector Machine,SVM)是由Vapnik[10]提出的基于统计学习理论的一种新的机器学习方法,其利用某一种预先选择的非线性映射将输入向量映射到一个高维特征空间, 并在该高维特征空间构造出最优分类超平面, 最后利用该超平面进行拟合或分类。SVM评价分析则是利用其回归算法。对于样本数据[xi,yi],其中i= 1,2 …,n,n为样本数据总数,xi∈Rn为样本输入,yi∈R为样本输出期望值。SVM的回归函数描述如下:

f(x)=ω·φ(x)+b

(1)

φ∶Rn→G,ω∈G

对优化目标函数求极值:

(2)

式中:C为惩罚系数;Remp(f)为损失函数;设定ε不敏感函数为损失函数,则ε定义如下:

Lε(d,y)=|f(xi)-yi|-ε

(3)

其中,|f(xi)-yi|>ε

(4)

s.t.yi-[ω·φ(xi)+b]≤ε+ξi

(5)

将上式带入SVM回归方程,即可得到相关样本输出值,即:

(6)

由于SVM理论只考虑高维特征空间的点积运算K(xi,x)=φ(xi)·φ(x),不直接使用映射函数,所以式(6)表达为:

式中:K(xi,x*)为核函数。

常用的核函数有:线性核函数、多项式核函数、RBF核函数和Sigmoid核函数等。

2.4 基于支持向量机模式识别水体质量评价模型

应用支持向量机算法对16个监测样点的水质进行模式识别,其关键在于基于水体测定的单一指标丰度与水质等级之间的联系构造分类规则,建模过程如下:

Steep1:依据地表水环境质量分级标准(GB 3838-2002)[11]确定区域水体单一指标与水体质量的综合评价分级准则,见表1。由于该分级标准为国家标准,因而具有广阔的适用性和客观性、规范性。另外,以DO、COD、NH、TP、TN等单一指标组建的水体质量评价体系代表了水体绝大部分性质,能够较好地反映水体综合质量。

表1 地表水环境质量的分级标准Table 1 The classification standard of five kinds of the evaluated soil nutrients

Steep 2:基于样本地表水环境分级标准生成样本数据与确定模型准则。样本数据的生成应用runif函数,在各等级区间进行内插,每个区间生存100组数据,其中每一个等级内均包含该等级内水体单一指标数据。各单一指标如果隶属于同一类别,则表明该水质也属于这个级别,以此确定模型准则,这是应用支持向量机算法进行水体质量模式识别的主要内涵。

Steep 3:模型参数优化选择。 客观来讲,模型参数对于模型的精度有着显著影响,为了提供保证评价效果,对模型参数调优是极有必要的。由于该SVM模型属于非线性分类,需要确定惩罚因子cost和核参数gamma。根据训练误差最小原则,选取最优cost为16,最优gamma为2,见图1。

图1 SVM模型表现与参数Fig.1 The performance and parameters of SVM

Rank一二三四五一1000000二0100000三0010000四0001000五000199

Steep 4:模型精度评价。表2中,对角线中数字为分类正确的样本数,矩阵中其他数字为分类错误的样本数。SVM算法内含判别函数,能够直接显示模型分类精度的结果,SVM模型对各级水化学肥力的判别正确率为999.9%。综合而言,SVM模型分类精度较高,具有良好的模式识别能力,能够用于对新的样本数据进行分类评价。

Steep 5。将训练好的水质评价模型对研究区16组水养分数据进行识别,以综合评价研究区水化学质量。

2.5 其他数据处理与空间制图

水体化学指标描述性分析与相关性分析在SPSS19.0中进行。基于支持向量机模式识别的水体质量评估模型的数据生成在R3.3.1中运用runif函数完成,模型构建与分类识别R3.3.1软件中Support vector machine包中进行。此外,将SVM机器学习模型评价识别的洋河张家口段16个水样点进行分类。

3 结果与讨论

3.1 水体单一指标描述统计分析

3.2 水体各项监测指标间相关性分析

见表4。

表3 水化学指标描述统计Table 3 Descriptive statistics of soil chemical indicators

表4 水体化学指标相关性分析Table 4 The relationships between water chemical indicators

相关性分析能够帮助我们推断水体中各物质之间迁移转化机理及其来源是否相同。皮尔逊(Person)相关分析表明(表4),DO与COD、 DO与NH、 DO与TN、DO与TP呈正相关关系,并在0.01水平上(双侧)达到极显著程度,说明它们的水污染源相近,可能由工农业污染、生活排污产生。由于DO是COD的重要的物质源,因此DO与COD之间的相关系数高达0.935。TN与DO在0.01水平上是反向关系,表明它们具有逆向分布特性,与营养元素之间的化学过程有关。

3.3 应用随机森林的洋河张家口段水体质量评价

应用SVM的模式识别是在因变量的几个分类水平明确的条件下,依据多个自变量性质表现,通过判别每个自变量的类别归属,进而达到对因变量模式类别区分的目的。本研究中,因变量为水体质量,其具有(I、II、III、IV和V)5个类别特征,自变量为DO、COD、NH、TP、TN。16个水体样点评价结果见图2。

图2 16个水质样点评价结果Fig.2 The evaluation result of 16 water quality samples

由图2可知,洋河张家口段水体质量等级分布不均匀。16个监测点中,2个点水质属于I等,5个点属于II等,6个点属于III等,3个点属于1V等,0个点属于V等。总体来说,洋河张家口段水体质量一般,仍须加强保护。

4 结 论

应用指出向量机模式识别将水体质量评价转化模式识别问题,支持向量机中的核函数能够模拟各指标与肥力量级间的多分类非线性映射关系,经过充分训练获得水质量级识别能力,不仅解决了线性不可分的问题,还确保了评价结果的客观性。在模型构建中,机器学习模型维数扩充灵活,能够根据需要调节自身形态特征与属性特征,因而具有广阔的适用性。

研究经验表明,基于中国地表水环境质量分级标准与支持向量机分类算法的水体质量评价模型,训练精度高、运算速率快,非线性识别能力好,能够应用于水体质量评价的研究中。

猜你喜欢

模式识别张家口水体
农村黑臭水体治理和污水处理浅探
多源污染水体水环境质量提升技术应用
中国农业发展银行张家口分行
生态修复理念在河道水体治理中的应用
中国农业发展银行张家口分行
UPLC-MS/MS法结合模式识别同时测定芪参益气滴丸中11种成分
广元:治理黑臭水体 再还水清岸美
第四届亚洲模式识别会议
加大张家口草原生态建设支持力度
可拓模式识别算法中经典域的确定方法