关于环境监测数据中的异常数据分析与处理
2016-04-10雷敏珊张金碧
*雷敏珊张金碧
( 1.广州市番禺区环境监测站 广东 511483 2.广东诚浩环境监测有限公司 广东 511483)
关于环境监测数据中的异常数据分析与处理
*雷敏珊1张金碧2
( 1.广州市番禺区环境监测站 广东 511483 2.广东诚浩环境监测有限公司 广东 511483)
环境监测数据是环境管理与环境执法的主要依据,数据准确、可靠与否直接影响环境执法与环境管理的公正性与合理性,因而正确鉴别和处理异常数据是环境监测工作中的关键环节,鉴此,本文对环境监测异常数据的类型、产生原因、鉴别与处理方法进行了分析。
环境监测数据;异常数据;分析;处理
引言
环境监测数据是环境管理、环境执法的基石,离开了准确可靠的数据支持,环境管理与环境执法也失去客观有效的依据。但环境监测数据的获得要经历采样、运输、储存、分析、数据处理等多个环节,任何一个环节的差错都可能导致监测数据异常,所以正确分析和处理异常数据在环境监测工作中非常重要。环境监测异常数据一般是指环境监测中的失实数据,即显著偏离环境实际质量、无法准确反映环境污染状况的数据。但要从大量监测数据中鉴别并剔除异常数据并非易事,有些看似异常的数据背后可能隐藏着不为人知的因素,贸然剔除会失去深入了解和挖掘这种因素的机会,因此必须从技术上找到产生异常数据的原因,然后再采取正确的处理方法。
1.环境监测异常数据的类型与形成原因
(1)环境监测异常数据的类型
异常数据分为离群数据、不合理数据、不符合实际的数据。所谓离群数据是指与全部监测数据平均值相差较大、按一定规则或经验判为无效的数据,例如《饮食业油烟排放标准(试行)》(GB 18483-2001)第6.5节规定,5次采样分析结果中的任何数据小于最大值的1/4,则为无效数据。不合理数据是指不符合日常监测逻辑的数据,例如环保治理设施进出口污染物浓度倒置。不符合实际的数据是指与长期监测结果形成的共识差距较大的数据,例如环境质量监测中的污染物浓度较高,而排污口浓度却较低。
(2)环境监测数据异常的原因
如前所述,环境监测数据异常的原因与形成数据的过程有关,也就是由采样误差、运输与存储过程中样品受到污染、分析误差引起,当然也包括其他一些原因。采样误差是由采样不规范、采样位置不符合标准引起。运输与存储过程中样品受到污染主要是由存放样品容器受到污染、样品存放过久而变质、储藏条件不符合要求、样品交叉污染等原因引起。分析误差包括仪器未检定、试剂失效、分析过程受到污染等原因。其他原因如监测工况不符合要求、采样时间不符合规范等。当然,异常数据有些确实反映环境质量的实际变化情况,还有些是由于监测误差和代表性不足所引起,更有一些无法明确数据异常的确切原因。
2.环境监测异常数据的鉴别与处理
(1)环境监测异常数据的鉴别方法
①基于历史数据的鉴别。各级环境监测站会对其管理区域的环境质量进行长期跟踪监测并积累了大量数据,同时也掌握了各种监测数据的规律,凭此可判断数据是否异常。因为历史数据能反映污染物时空分布与变化规律、各种污染物与工艺流程的关系等情况。例如河道闸口下游不远处的采样点,若赶上开闸期间采样就可能导致SS异常偏高。
②基于监测因子之间的逻辑关系的鉴别。各种监测因子之间存在一定的逻辑关系,例如污染物处理设施进出口浓度之间正常情况下应当是出口浓度低于进口浓度,如果数据倒置就可能存在异常。同一份样品不同监测指标之间也存在一定关系,例如水环境监测中各监测项目之间存在比较固定的关系,DO与CODCr之间为负相关,BOD5与CODCr、CODMn与CODCr、NH3-N与CODCr之间均为正相关,偏离这个规律的数据可能存在异常。又如空气自动监测系统也存在类似关系,PM2.5与PM10之间一般有相近的变化规律,当其中一个站点某一时段PM2.5突然下降,而PM10并无明显变化时,PM2.5数据可能异常,例如下雨使空气潮湿而堵塞滤芯。
③基于相关统计资料和物料衡算的鉴别。受监测条件、技术手段等因素的限制,加上有些企业排污设施不完善,废水流量测量不准确,这种情况下可利用同类监测对象的统计资料进行类比分析,因为产品相同、工艺条件相似的生产企业,其排放的污染物成分、数量及变化趋势有相似的规律可循,再结合物料衡算和其他环境要素的分析,则有助于鉴别监测数据的准确性。
④基于数理统计方法的鉴别。上述鉴别方法,主要针对监测数据平均值异常或个别监测数据偏离较远的情况,当监测数据平均值正常而个别监测数据有一定偏离时,这些数据是否异常可通过数理统计方法进行鉴别。这方面的研究和方法比较多,例如拉依达(Pauta)法、肖维纳(Chauvenet)法、格拉布斯(Grubbs)法、狄克逊(Dixon)法、奈尔(Nair)法、t检验法、偏度-峰度法等。决定采用哪种方法之前,先应确定样本的分布类型,再采用适当的方法进行鉴别。一般取样合理、合乎规范的数据应符合正态分布,否则要考虑取样问题,例如数据是否来自同一样本、数据量是否足够、监测过程是否稳定等。确定数据是否符合正态分布,《数据的统计处理和解释正态性检验》(GB/T 4882-2001)介绍了图方法、矩检验、回归检验和特征函数检验。图方法是比较常用的方法,利用正态概率纸进行检验,如果观测值累积分布函数近似为一条直线,说明数据符合正态分布。当样本数量3≤n≤50时,可采用Shapiro-Wilk检验(简称W检验);n≥50时,可采用偏度-峰度(skewness kurtosis)法。下面将结合实例介绍数理统计方法的应用。
(2)环境监测异常数据的处理方法
如果监测数据异常是由企业排污和环境质量变化所引起的,就不能随便删除,而应就异常原因进行分析和说明,并将超标数据反映给环境管理部门,以督促企业进行整改。如果由于监测误差、代表性差而引起数据异常,应对数据进行处理,这些数据不能和其他正常数据放在一起分析。当监测数据数量≥5个时,应将异常数据剔除,只要剩余有效数据≮3个,就用剩余数据进行分析评价;如果剩余有效数据<3个,应采取补充监测措施。如果不能确定监测数据异常的原因,就必须对污染源重新监测,并严格控制监测工况、仪器设备和环境因素等条件,以确保监测数据可追溯。
(3)环境监测异常数据的数理统计分析与处理实例
表1为某河道天然水样总氮监测的一组数据,试检验数据是否符合正态分布,然后分别采用拉依达法、格拉布斯法、狄克逊法、t检验法判断离群值。
表1 天然水样总氮监测数据(mg/L)
①正态性检验。由于n=10<50,所以采用W检验方法。计算公式如下:
式中xi为按x1≤x2≤…≤xn排序的样本数据;ai为待估常量,可查表计算;X为样本数据平均值。
经计算W=0.860>0.842=Wp,P=0.077>0.05,接受正态性假设。
③格拉布斯法。确定置信概率α=0.05。算术平均值=0.2604,剩余误差△X7=0.0156,标准偏差σ=0.0071。查表临界值T0(10,0.05)=2.176,T0σ=0.01546。因△X7>T0σ,按格拉布斯准则应剔除。对剩下9个数据进行同样检验,无异常值检出,故只剔除7#数据。
④狄克逊法。确定置信概率α=0.05。将10个数据由小到大排列。然后按Dn=(Xn-Xn-1)/(Xn-X2)和Dn'=(X2-X1)/(Xn-1-X1)计算高端离群值和低端离群值,结果Dn=0.3636,=0,即Dn>Dn'。查表获得临界值D095(10)=0.53。因Dn<D095(10),无异常值检出。
⑤t检验法。确定置信概率α=0.05。将10个数据由小到大排列。暂时去除Xn后算得'=0.2587,σ'= 0.004796,∣Xn-'∣=0.01733。临界值K(10,0.05)=2.43,所以K(10,0.05)σ'=0.01165。因∣X1-'∣>K(10,0.05) σ',所以判定0.276为异常值,应予剔除。对剩下9个数据进行检验,剔除0.268。再对剩余8个数据进行检验,无异常值检出,所以共剔除0.276、0.268两个数据。
综上,t检验法最严格,其次为格拉布斯法,拉依达法和狄克逊法较宽松。实际上小样本时选择格拉布斯法和t检验法较优。
3.结语
“错误的数据比没有数据更糟糕”,所以提供准确可靠的环境监测数据远比仅仅提供数据要重要的多。为了提高环境监测数据质量,一方面要提高监测人员的职业素养,减少技术误差;另一方面也要加强数据审核工作,并通过建立数据追溯制度,及时发现问题并找出数据异常的原因,以便不断改进和完善监测工作,并为环境管理和环境执法提供科学有效的依据。
[1]李志明.环境监测数据审核及异常数据的处理[J].新疆环境保护,2013,35(2):41-44.
[2]牟永铭.环保验收监测异常数据的分析与处理[J].环境监测管理与技术,2013,25(2):4-6.
[3]蔡同峰.现场监测数据审核方法及异常数据的判别研究[J].环境科学与管理,2014,39(10):60-62.
[4]张发兵,张明旭,韩中豪等.大样本水环境监测数据中异常数据的筛选方法研究[J].中国环境监测,2007,23(2):54-57.
[5]管擎宇.环境空气自动监测数据审核中异常数据判断和处理[J]. 环境监控与预警,2016,8(5):59-63.
[6]王秋璐,周燕遐,陈斐等.基于SPSS的数理统计方法在海洋重金属环境背景值计算中的应用[J].海洋通报,2012,30(1):100-103.
雷敏珊(1984~),女,广州市番禺区环境监测站,研究方向:环境监测与监测数据综合分析工作。
张金碧(1985~),女,广东诚浩环境监测有限公司,研究方向:环境监测与实验室管理工作。
(责任编辑 王恒)
Abnormal Data Analysis and Processing of Environmental Monitoring data
Lei Minshan1,Zhang Jinbi2
(1.Environmental Monitoring Station in Panyu District of Guangzhou,Guangdong,511483 2.Guangdong Chenghao Environmental Monitoring Co.Ltd,Guangdong,511483)
The environmental monitoring data is the main basis of environmental law enforcement and environmental management, whether t he data is accurate and reliable or not directly affect the impartiality and rationality of environmental law enforcement and environmental manageme nt, thus correctly identifying and processing abnormal data is the key link of environmental monitoring work, for which reason, this paper takes analy sis of the types, causes, identification and treatment methods of the environmental monitoring abnormal data.
environmental monitoring data;abnormal data;analysis;processing
T
A