APP下载

基于大数据构建污染源在线监控数据有效性评估模型研究

2019-11-22王晓东李瑞强张巍郭雪征

绿色科技 2019年16期

王晓东 李瑞强 张巍 郭雪征

摘要:为规范污染源监管,落实排污单位主体责任,提高污染源在线监控数据质量,确保在线监控数据全面、准确、客观、真实。以乌海及周边地区在线监控数据为试点,通过数据挖掘和机器学习算法,构建了异常检测和有效性智能评估模型,以识别在线监控数据的异常模式,评估在线监控数据有效性,切实发挥在线监控数据的效能,更好地服务于生态环境保护监管。

关键词:在线监控数据;数据预处理;异常检测;有效性智能评估

中图分类号:TP274 文献标识码:A 文章编号:1674-9944(2019)16-0174-02

1引言

污染源在线监控系统作为环境监管的重要手段,对提升环境监管水平有着重要作用,全国各地大量建设运行,基本实现对在线监测污染物排放情况的实时监控、及时响应处置的效果。污染源在线监控数据的有效性直接关系到污染源在线监控系统作用的发挥,如何利用大数据技术,构建有效性评估模型,对不同粒度(污染源排口,企业)的数据进行有效性分析具有重要意义。

2在线监控数据有效性分析基本情况

污染源在线监控数据应客观真实的反应污染源企业污染物排放情况,与污染源及污染治理设施运行状况等企业生产实际状况息息相关。目前,为保障污染源在线监控数据的有效性,国家及地方出台了一系列的标准和规范性文件,内容涵盖自动监测系统建设、运行维护、质量控制以及自动监测数据有效性审核等方面。但是,这只是从管理层面做出的规定,在线监测设备实际运行情况及产生的数据是否符合规定的理想状态还得依靠现场检查。而现场核查检查以比对监测为主,受人力和物力的制约,此项工作开展的频次和所覆盖的范围都受到了限制。部分省市采用技术手段保障在线监测数据的有效性,辽宁、山东等地采取动态管控,以确保污染源自动监控数据真实、准确,深圳利用动态跟踪系统对在线监控数据进行有效性审核,内蒙古自治区、江苏省通过建设工况监控系统进一步保障在线监控数据的有效性、真实性。利用大数据手段,从数据分析、建模等方面进行在线监控有效性分析的还未见报道。

3模型构建方法

本文主要以内蒙古自治区乌海及周边地区重点监控企业为研究对象,通过对废水在线监控小时数据、废气在线监控小时数据以及污染源企业的基本信息、排口信息进行分析,构建污染源在线监控数据有效性评估模型。

3.1数据预处理

本文采用探索性数据分析,对研究对象的数据进行评判,依据评判结果,进行数据的处理。探索性数据分析(EDA),是指在尽量少的先验假定条件下对数据进

行分析,从数据本身出发去发掘与描述数据特征,并使用多种可视化手段表达数据特征,使数据易于被理解和检视,是一种强有力的数据分析与评判手段。

数据在不同时段经常出现缺失值、极端值,主要原因包括设备故障、网络中断、监测异常等。在建模之前,拟合缺失值、异常值的分布,主要采用以下2种缺失值插补算法进行处理。

3.2构建数据有效性评估模型

数据有效性评估模型主要包括异常检测和有效性智能评估功能模块。通过将污染源基本信息和废气、废水在线监控等数据输入到异常检测模块中,对样本进行分类(正常样本和异常样本);异常检测模型的结果作为有效性评估模型的输入,对企业在线监控数据有效性进行分析建模,构建有效性智能评估模块,对不同粒度(污染源排口粒度,企业粒度)的數据进行有效性评估。

3.2.1构建异常检测模块

异常检测是通过学习系统、应用程序或者用户等的正常行为习惯,建立特征模式库,然后将用户当前行为特征与模式库中的特征进行比较,以此来发现异常行为。

本文中主要通过箱线图、K-Sigma、残差统计等方法,找出与大部分对象存在明显差异的数据点。

3.2.1.1基于箱线图的异常值检测

箱线图(Boxplot)也称箱须图(Box-whiskerPlot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息。

具体含义如下,首先计算出第一四分位数(Q1)、中位数、第三四分位数(Q3)。中位数就是将一组数字按从小到大的顺序排序后,处于中间位置(也就是50%位置)的数字。同理,第一四分位数、第三四分位数是按从小到大的顺序排序后,处于25%、75%的数字。令IQR=Q3-Q1IQR=Q3一Q1,那么Q3+1.5(IQR)Q3+1.5(IQR)和Q1-1.5(IQR)Q1-1.5(IQR)之间的值就是可接受范围内的数值,这两个值之外的数认为是异常值。在Q3+1.5IQR(四分位距)和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mildoutliers),在外限以外的为极端的异常值(1i)的异常值extremeoutliers。这种异常值的检测方法叫做Tukey,smethod。

3.2.1.2基于K-Sigma的异常值检测

基于K-Sigma的异常值检测方法是基于数据分布的一种异常值检测方法。首先判断出数据的分布模型,比如某种分布(正态分布、泊松分布等)。然后根据原始数据(包括正常点与离群点),算出分布的参数,从而可以代入分布方程求出概率。例如正态分布,根据原始数据求出期望和方差,然后拟合出正态分布函数,从而求出原始数据出现的概率;根据数理统计的思想,概率小的可以当做离群点。

3.2.2建设有效性智能评估模块

3.2.2.1时间窗口确定

根据异常检测模块的检测结果,确定智能评估模块的时间窗口,由当前时间T,往前推N个时间片,确定分析窗口为T-N至T可以根据分析需要,灵活调节N的长短。

3.2.2.2异常概率建模

3.3结果输出

基于异常检测和有效性智能评估模型,对研究对象的在线监控数据进行建模分析,通过模型算法,输出最终结果,表1是部分废气排口在线监控数据有效性指数,表2是部分废水排口在线监控数据有效性指数。

4结语

本文开创性地通过构建异常检测和有效性智能评估模型,对企业在线监控数据有效性进行评估,提出了一种构建数据有效性评估模型的方法,并给出了模型构建的可行技术,为构建数据有效性评估方法提供了参考。下一步,将在实践中通过运用大数据技术、深度学习技术,不断完善评估模型有效性分析的准确性,更好地服务于环保各项业务。