基于Free Search的投影寻踪模型的全国主要流域重点断面水质评价
2020-05-22孙天一王晨越刘宏伟
孙天一,王晨越,刘宏伟,王 斌
(东北农业大学 水利与土木工程学院,哈尔滨 150030)
0 引 言
水资源是基础性的自然资源和战略性的经济资源,是人类生存和经济社会发展不可替代的基本要素,良好的水质对于实现国家和社会的可持续发展具有重要意义。当前,中国水资源面临的形势仍十分严峻,水资源短缺、水利用效率低、水生态环境恶化等问题正日益突出,已成为制约中国经济社会可持续发展的主要瓶颈,掌握河流、湖泊等水体的水质状况并对其进行合理评估显得尤为重要。近年来,随着研究方法的不断创新,涌现出了多种水质评价方法。其中常被采用的是单因子评价法,即将实测水质指标数据与《地表水环境质量标准(GB 3838-2002)》中的基本项目标准限值进行对比,从而选取单个指标评价最差的类别作为水质最终评价结果,目前,中国环境监测总站即采用这种方法评价全国主要流域重点断面水质状况。单因子评价法简便快捷,评价结果直观,当监测数据有保障时,能够快速对水质情况做出实时判断。然而,这种利用多个指标进行评判、最后只选取一项指标对应类别的评价方式过于片面,没有兼顾各个评价指标的权重,夸大了单项指标对水质的影响,且忽略了各等级间存在的界限模糊性,在应用中可能会产生与现实不符的水质评价结果。
投影寻踪(Projection Pursuit,PP)的基本思想是将高维数据投影到低维(通常为1-3维)的子空间上,从而寻找能够反映原高维数据的结构或特征的投影,以达到研究高维数据的目的[1]。引入投影寻踪方法不但可以解决水质评价的多指标综合评判问题,还可以对各种水质指标对水质评价的影响程度进行合理分析,这对于制定及校核水质等级标准具有现实意义。构造与优化投影指标函数是应用投影寻踪方法的关键,这项工作较复杂,也在一定程度上限制了投影寻踪方法的广泛应用。在采用投影寻踪方法评价水质时,以往学者采用过遗传算法、蚁群算法、粒子群算法、蛙跳算法、狼群算法、蜂群算法、差分进化算法、萤火虫算法等优化投影指标函数[2-9]。自由搜索(Free Search,FS)是KalinPenev等提出的一种基于群体的优化算法,具有参数少、编程实现简便、寻优能力高等优点[10],文章在传统投影寻踪方法基础上,建立基于自由搜索的投影寻踪水质评价模型(Projection Pursuit Model for Assessment of Water Quality based on Free Search,PPFS模型),将水质评价的多指标问题综合成单一指标形式,继而建立一个简单的、可与水质实时评价对接的回归模型,以期为我国主要流域重点断面水质评价工作提供参考和借鉴。
1 水质综合评价的PPFS模型
1.1 数据预处理
设水质标准等级值及各水质指标的样本集分别为y和X=(x1,x2,……,xn)=(xki)q×n,其中q为水质指标的样本数目,k=1,…2,…,q,以下同;n为水质评价指标数目,i=1,2,……,n,以下同。由于各水质评价指标的量纲及指标值的变化范围都不尽相同,为保证评价结果的可靠性和精度,采用下式对数据进行标准化处理:
(1)
式中:xi为水质指标样本中第i个指标的均值;si为si水质指标样本中第i个指标的标准差。
1.2 构造投影指标函数
(2)
式中:z为投影值;a(i)为投影方向分量。
为了保证投影值对因变量具有很好的解释性,可令z的标准差Sz尽可能大,同时使z与y相关系数的绝对值|Rzy|也尽可能大,据此,投影指标函数可构造为maxF(a)=Sz|Rzy|。
1.3 优化投影指标函数
设FS中动物个体每步探查行走的位置为投影方向,采用下面的数组进行编码:
(3)
式中:T为限制步伐数,t=1,2,……,T;n为搜索空间维数,i=1,2,……,n;A为第j个动物T步探查时的位置矩阵;at为第j个动物第t步探查时的位置;m为动物群体大小,j=1,2,……,m;atij为第j个动物第t步探查时第i维的位置分量。
1.3.1 算法初始化
采用随机化初始策略:
atij=aimin+aimax-aiminrandomij(0,1)
(4)
式中:aimin、aimax为第i维搜索空间的边界;randomij(0,1)为介于[0,1]之间的随机数,以下同。
1.3.2 探查
通过下式探查行走,更新动物个体位置:
atij=a0ij-atij+2?atijrandomij(0,1)
(5)
式中:atij=Rij(aimax-aimin)randomtij(0,1),Rij∈[Rmin,Rmax]。
在探查行走过程中,动物个体的行为可以表示为:
Ftj=F(atij),
Fj=max(Ftj)
(6)
信息素Pj按下式更新:
Pj=Fj/max(Fj)
(7)
敏感性Sj按下式更新:
Sj=Smin+Sj
(8)
式中:Sj=(Smax-Smin)randomj(0,1),Smin=Pmin,Smax=Pmax。
最后,选择和决策下1次探查行走的开始位置:
(9)
式中:l=1,2,……,m。
1.3.3 算法终止
算法判断是否满足设定的终止条件,如果满足说明已经搜索到可以接受的最优解,则输出寻优结果,不满足则继续探查搜索。
1.4 建立数学模型
将寻优得到的最佳投影方向的估计值a*代入式(2),得到各样本投影值z,根据z与y的散点图可建立相应的数学模型。
2 实例分析
中国环境监测总站对全国主要水系(松花江、辽河、海河、淮河、黄河、长江、珠江、海南岛内河流、浙闽河流、西南诸河、内陆河流、太湖、巢湖、滇池、其它大型湖泊等)的约100-150个重点断面进行了水质自动监测,监测指标包括酸碱度(pH)、溶解氧(DO)、高锰酸盐指数(CODMn)和氨氮(NH3-N)4项,并将水质评价结果以周报等形式发布。由于中国环境监测总站采用单因子法对水质进行分级,水质评价结果为评价时段内某单个指标所处的最高等级。文章选取2018年第52周(12月24日-12月30日))的水质监测数据进行建模与分析,由于仪器故障、河流断流等原因,存在未监测断面和2个缺少CODMn、NH3-N指标数据的断面,因此,最后选取143个断面的水质监测数据,运用PPFS模型评价水质等级。
2.1 水质等级划分标准
根据《地表水环境质量标准GB3838-2002》,选择pH、DO、CODMn、NH3-N4个水质指标的等级划分标准,全国主要流域重点断面水质指标的等级划分标准,见表1。
表1 全国主要流域重点断面水质指标的等级划分标准
2.2 PPFS模型评价水质等级
将表1每个等级区间的边界值作为一个样本值,在各等级区间内利用均匀随机数随机产生5个样本值,构成评价指标样本集,与对应水质等级值(即将Ⅰ类、Ⅱ类、Ⅲ类、Ⅳ类、Ⅴ类5个等级分别赋值为1、2、3、4和5)共组成31个样本点,考虑到五类水质等级划分的pH标准均为6-9,对水质等级的划分结果没有影响,因此不考虑pH的贡献。根据PPFS建模过程前3个步骤,利用这些样本点数据进行分析,寻优得到的最佳投影方向a*为(-0.5337,0.5931,0.6029)。由于最佳投影方向各分量绝对值的大小实际上反映了各种水质指标对水质评价的影响程度,分量绝对值越大则与之对应的水质指标的影响程度就越大,因此,最佳投影方向表明NH3-N、CODMn、DO对水质影响程度依次减小。将a*代入式(2)得到各样本投影值的计算值z,并绘制出z与y之间的散点图,水样投影值z与水质等级y的散点图,见图1。
图1 水样投影值z与水质等级y的散点图
根据z与y之间散点图的分布趋势性,采用三次曲线来描述投影值与水质等级之间的关系,所得水质评价的PPFS模型见下式:
y=-0.00483z3+0.0027z2+1.1144z+2.9383
(10)
将各断面的NH3-N、CODMn、DO的实测值的投影值,将其带入上式,即可评价个断面的水质等级。
经统计,在所选取的143个断面中,有63个断面的水质评价结果与单因子评结果相同,另有80个断面的水质结果与单因子评价结果不同。在相同和不同的评价结果中,分别选取15个断面为例,制成2个表格:PPFS模型计算值与单因子评价值不同的结果对比,见表2;PPFS模型计算值与单因子评价值一致的结果对比,见表3。
表2 PPFS模型计算值与单因子评价值不同的结果对比
表3 PPFS模型计算值与单因子评价值一致的结果对比
续表3 PPFS模型计算值与单因子评价值一致的结果对比
从表2和表3结果可以看出,单因子评价方法的评价结果是离散的水质等级,对水质级别的分辨率较粗,即使同属于同一级别的水质,它们对应的各水质指标值常常相差显著,而在现实的水质评价工作中,水质等级值一般是连续的实数值。PPFS模型的评价过程不需人为干预,所得结果仅与输入的指标监测数据有关,水质评价结果是更连续的实数值,且能够考虑DO、CODMn、NH3-N对水质评价的综合影响,对于制定和检验水质等级划分标准也具有参考意义。
3 结 论
投影寻踪方法直接面向样本数据,并且能够避免因高维点稀疏分布而导致的一系列问题,可以找到样本间的内在规律,能够在一定的程度上解决非线性的高维问题;自由搜索算法的全局搜索能力好,收敛速度较快,寻优精度较高,能够快速精准地找到数据的最佳投影方向。因此,可以耦合投影寻踪和自由搜索2种算法构建水质评价模型。单因子水质评价模型的计算结果大多是一些离散的水质等级值,分辨率较粗。文中提出PPFS模型对水质的评价结果为连续实数值,且根据最佳投影方向各分量的绝对值的大小可进一步分析各水质指标对水质等级影响的程度,据此可检验水质评价标准的合理性。实例的计算结果表明PPFS可用于评价全国主要流域重点断面的水质。