葫芦岛市六股河水生态健康状况评价
2024-04-03宋鹏超
宋鹏超
(辽宁省葫芦岛水文局,辽宁 葫芦岛 125000)
近几年,随着经济的发展,人们对于生活环境的要求变得越来越高,特别是在追求生态、自然生态方面上。因此,必须牢固梳理“安全、景观、资源、环境”的理念建设生态型河道,从而实现兼顾生态、景观与环境的功能性河道,将水资源利用、滨河景观、防洪安全与河道整治相结合,建设以“清、疏、建、拆、绿、管”为主要内容的综合型河道。
六股河发源于葫芦岛市建昌县玲珑塔乡北娄子山,源头海拔高程1092m,全长153km,于宽邦镇大河西村入绥中县,成为兴城市和绥中县的界河,其河长64km,于小庄子乡大渔场流入渤海。六股河水系整体呈南北宽,东西窄,形似牵牛花,该水系地势西北高,东南低,平均海拔高程200m,沿岸土壤以黄色为主,流域内多种植果树,大田,河床组成以卵石,粗沙为主,河网由若干小溪构成,中上游有马道子中型水库一座,中下游有龙屯大型水库一座,小(1)、小(2)型水库六座均分布于中下游。各种引水设施及用水工程沿岸分布,以灌溉及生活供水为主。六股河水资源对葫芦岛市经济发展和城市建设起着重要支撑作用,水生态健康状况直接关系着城市未来发展。因此,研究评估六股河水生态健康状况,对河流水生态保护和水资源管理提供参考依据。
1 改进的随机森林算法
1.1 传统算法
随机森林算法(RF)是一种具有较强数据挖掘、泛化以及非线性模拟能力的智能算法,该算法由多个决策树组成森林,通过分类预测投票获取最终的评价结果及分类,其特点是利用有放回的随机抽样方式对每个决策树产生训练集,同时每个节点划分时利用当前一定个数的属性进行决策,可以更好地保证问题的客观性[1]。
对于每个节点划分的待优选属性集Di(i=1,2,…,n),可以随机选择当前可利用的F个属性,最佳分类属性可以按照信息增益率进行确定,如果样本i占集合D的比例为P,其信息熵Entropy(D)可以表示为:
(1)
样本集合T在特征A作用下被转变成k个部分,该条件下的信息熵Entropy(DA)、信息增益Gain(D,A)、信息值SplitEntropy(D,A)和信息增益率GainRation(D,A)的计算式为[2]:
(2)
(3)
(4)
(5)
1.2 改进算法
采用随机森林算法在评价水生态健康时可能会存在数据不平衡和属性特征重要性不足的问题。因此,研究提出一种改进的随机森林算法(IRF),通过将节点属性随机选择与信息值相结合来保证优化方案的合理性。根据信息值计算属性特征的重要度,按照信息值将属性空间划分成强、弱相关部分,在此基础上选择节点属性。其中,目标类别属性Y与属性X之间的相关性一般利用信息值(IV)描述,其表达式为:
(6)
式中:Pi为目标类别Y=y在属性X=xi时的概率,Pi′为目标类别Y≠y在X=xi时的概率;n为类别数量。
2 实例应用
2.1 建立评价体系
为了防止出现信息重复冗余的情况,选取的参评指标数量不宜过多,并且要最大程度地反映多个维度[6]。文章充分考虑各层面影响因素,将各影响因素划分为四大类,并进一步筛选出各类影响指标,从而更好地分析河流水生态健康状况如表1所示。
表1 六股河水生态健康评价体系
2.2 划分等级标准
根据葫芦岛市生态水系规划报告和健康河流诊断指数相关研究,将河流水生态健康划分成病态、微病态、亚健康、微健康、健康5个等级,对应的指数依次为1、2、3、4、5,各指标等级标准如表1所示。
2.3 计算分析
对六股河2018—2020年水生态健康状况考虑利用改进的IRF算法进行评价,按照以下流程进行计算分析:
1)选择检验和训练样本。为了评价水生态健康状况,利用健康指数调控模型输出,并生成300组样本[7]。将评价标准分成5个等级,每个评价标准生成60组样本,其输出模式及样本组数如表2所示。
表2 设计样本组与期望输出
2)数据预处理。为消除各指标数量级或量纲不同而带来的不可通透性,必须先归一化处理各指标初始数据。对于正向(越大越优型)、负向(越小越优型)指标的预处理公式如下:
(7)
式中:x、x′为初始数据和归一化值;xmax、xmin为指标阈值的上限与下限值。
3)建立IRF模型。采用自带的工具集合和Matlab软件构建RF模型,对随机选择节点属性时利用信息值优化模型。模型输入为训练样本经预处理后的数值,输入项18个,输出为目标输出健康指数,输出项1个,从而建立18-1映射关系的模型,改进随机森林算法的关键就是有效处理该映射过程。研究以相同的方式建立传统算法(RF)和神经网络模型(ANN-RBF),通过比较运算效率判定IRF算法的效率和适用性[8]。
4)训练检验。本研究通过训练、检验样本对IRF、RF和ANN-RBF模型利进行运算,采用运行时间(RT)、最大(MREA)和平均(AREA)相对误差绝对值评价模型的运算效果及性能。对比分析模型运行100次的各性能指标,并以运算100次时CPU消耗的时间作为运行时间。为了达到最优的运算性能,采用网格搜索法来测试每个模型的主要影响参数(决策树、分裂特征数、期望误差和径向基函数),并对比分析各模型性能参数如表3所示。
表3 不同模型性能评价
5)模型性能评价。从运行时间、最大、平均相对误差绝对值上比较各模型的优缺点,结果表明IRF模型具有较强的泛化能力和高计算精度,并且运算速度更快,有助于节省运算的资源和时间。因此,对六股河水生态健康评估改进的IEF模型具有较好适用性与可靠性。
6)实例分析。统计收集2018—2020年六股河相关指标数据如表4所示,将归一化处理后的数据输入已训练好的IRF模型,应用Matlab软件计算评价2018—2020年六股河水生态健康状况如表4所示。
表4 2018—2020年六股河水生态健康状况
结果表明,2018—2020年六股河水生态健康总体呈现出好转趋势,健康指数从2018年的2.25不断增大到4.42健康状况从微病态转变成微健康水平。葫芦岛市政府及环保、水利等部门按照“一年初见成效、三年大变样、五年基本完成”的总体目标,针对六股河实施了一系列生态治理措施,恢复了河道自然行洪能力,维护与恢复河流生态、美化环境、改善水质及遏制沙尘。对河道沿岸重点保护地段进行堤岸工程治理,达到生态宜居城镇标准;实施沿河整修工程,按现代化城镇规划标准维修、加固、改造破损严重的沿河、跨河建筑物;实施河道两岸绿化工程,全面提升河流水质和沿岸景观,实现河道景观、功能与生态的统一,将六股河打造成“水清、岸绿、景美”的城乡水环境,经调查分析治理成效显著[9-12]。因此,文章评价结果准确反映了六股河近几年水生态实际变化情况,改进的随机森林算法对河流水生态健康状况评价具有较强适用性与可靠性。
3 结 论
文章针对传统算法可能存在的数据不平衡和属性特征重要性不足的问题,提出一种改进的随机森林算法评价2018—2020年六股河水生态健康状况。结果表明,2018—2020年六股河水生态健康总体呈好转趋势,从最初的微病态逐渐转变成微健康水平,这主要与近几年葫芦岛市针对六股河实施一系列的生态治理措施有关。评价结果可以准确反映了六股河水生态实际变化情况,改进的随机森林算法对河流水生态健康状况评价具有较强适用性与可靠性,可以为河流水生态保护和水资源管理提供指导参考。