APP下载

不一致性检验法对细颗粒物监测数据中异常大值的检验

2016-08-01蒙,乐群,张

绿色科技 2016年12期
关键词:监测数据站点样本

罗 蒙,乐 群,张 新

(华东师范大学 地理科学学院/地理信息系统教育部重点实验室,上海 200241)



不一致性检验法对细颗粒物监测数据中异常大值的检验

罗 蒙,乐 群,张 新

(华东师范大学 地理科学学院/地理信息系统教育部重点实验室,上海 200241)

摘要:根据目前国内关于细颗粒物监测数据质量控制方面研究很少的现状,使用Barnett总结出的正态样本不一致性检验法以及Verma模拟出的超大样本临界值,对可吸入颗粒物小时监测数据进行了异常值检验。所用数据为环保部发布的可吸入颗粒物小时监测数据,数据时长为一年半左右,结果表明:各种检验法中以N1和N4为代表的偏差/尺度型统计量和平方和型统计量较适合PM2.5监测数据的异常值检验;N1检验法比N4检验法更不容易受临界值插值误差的影响。

关键词:PM2.5;小时监测数据;异常值检验;不一致性检验

1引言

在诸多空气污染物中,细颗粒物(PM2.5)因其直径甚微,吸入后可直接进入肺部,对人类身体健康造成较大威胁,近年来受到社会各界的广泛关注。目前我国已在多数城市设立了PM10和PM2.5的监测站点,并计划将监测网络覆盖至所有地级以上城市,监测方式由过去的人工称重测量(振荡天平法)逐渐演变为现在的自动监测(β射线法)[1]。然而,我国目前的监测网络还不够完善,数据积累时长较短,站点少且分布不均匀,数据质量较差。在监测过程中,由于受仪器故障、人为测量失误、恶劣天气、数据传输故障等因素影响,监测数据会出现异常值,往往表现为异常大值、负值,或数值异常起伏、长时间平缓监测结果[2]或PM2.5浓度大于PM10[3],若在分析过程中不加以仔细甄别,势必会对研究结果造成较大影响,甚至得出错误的结论。

在统计学领域,异常值的检验始终是一个重要而复杂的问题。Bendre给出了指数分布样本中屏蔽效应(masking effect)的范例,其中屏蔽效应是指异常值检验中常常发生的一种因为有其他异常值存在而导致某些异常值无法被识别的现象[4]。关于正态样本异常点的研究成果最为详尽,如Barnett在处理符合正态分布的样本时,认为明显偏离样本分布特征的值是异常值,检验这些异常值的方法被称为不一致性检验(discordancy test)[5]。为了拓展检验法的应用范围,Verma利用蒙特卡洛方法对15种不一致性检验法(以N1-N15指代)在7个显著水平下(α=0.3,0.2,0.1,0.05,0.02,0.01,0.005)的临界值表,以及临界值随样本量n变化的插值公式,将检验法的应用范围扩大到容量最多为30000的超大样本,极大地拓展了检验法的应用范围[6~10]。

由于PM2.5小时监测数据样本容量很大,许多只适用于小样本的异常值检验法难以应用于长时段的监测数据,而Verma的工作刚好拓展了不一致性检验的应用范围,使其可以应用于最多长达3年左右的小时监测数据时间序列。针对目前国内细颗粒物监测数据质量较差、关于异常值检验方面研究较少的现状,以Verma改进的正态样本不一致性检验方法为基础,通过对比选出最适合的PM2.5小时监测数据特征的检验方法,主要检验数据中存在的异常大值错误数据。

2数据来源和方法

2.1资料

选用数据为中国环境保护部公布的PM2.5和PM10小时监测数据,共有363个城市的1575个国家空气质量自动监测站点,数据收集起止时间为2013年11月至2015年5月,其中有两段较长时段的数据因网络故障没有收集(2013年11月26日12时至2013年12月5日15时,2015年2月7日11时至2015年3月2日6时),作为缺测时段处理。因PM10缺测率较高,仅对PM2.5监测数据进行异常值检验,而将PM10数据作为异常值人工检视的参考数据。

2.2方法

重点探讨监测序列中的出现的异常大值,故略去了各方法检测最小值一侧的统计量。在检验之前首先剔除所有超过测量范围的错误值。考虑到PM2.5监测数据往往不符合正态分布[11,12],先对原始序列进行自然对数转换,再进行异常值检验。

表1  6种Barnett正态检验法的概况

3结果与分析

3.1检验效果评估

为更好地评估检验法的检验功效,我们从1575个时间序列中选出有代表性的8个含异常值站点进行个例分析(表2)。这些异常值通常数值很大,或前后一段时间内序列比较平稳,只在异常点处有尖峰,或异常大值持续数个至数十个小时,与异常值相邻的时次往往存在缺测,这些特征都与正常序列有较大差别。为比较异常值与正确大值记录的区别,同时也选取了两个由污染过程导致的PM2.5高浓度序列作为对比,其一是喀什地区市环境监测站在2015年5月的一段监测序列,期间发生一次强沙尘暴;其二是株洲天台山庄在2014年1月31日凌晨发生的一次强污染过程,1月30日为大年除夕夜,在全国其他很多站点都发现该时段出现大监测值,因此认定这是大规模燃放烟花爆竹导致的污染。

表2 个例分析站点及其异常值情况

注:*该时段内除异常值外,其余时次为缺测

表3 各检验法对10个个例站点异常值检出情况

注:括号中为检出右侧异常大值的个数

将6种方法应用于所有站点,检验结果见表4,可见,仍然是N1与N4的检验结果最接近人工检视发现的异常值数;N9对多异常值站点漏检严重;N6存在较多误检,但对于一些存在多个异常值的站点又存在漏检;N14检出了大量的异常小值,虽然也检出了许多异常大值,然而大部分是误检,许多真正的异常值并没有被检出;N15则存在较多的误检,检验效果介于几种方法之间。因此认为N1和N4是最适合PM2.5小时监测数据的异常值检验方法。N1和N4的异常值检出数比人工检视少,这是因为异常值中有一部分处于次序样本的中部,即这些异常值不在样本最大值一侧,无法被不一致性检验法识别。这部分异常值多属于样本局部的跳变,可用滤波等其他方法予以排除,不予详细讨论。

表4 各检验法对全部站点的异常大值检验结果

3.2最佳检验方法

排除4个不适合的检验法后,再来详细对比N1与N4的检验效果。图1为1%显著水平下对各站应用N1方法检验最大值项是否为异常值的情况。图2与图1类似,为相同条件下N4方法的情况。可见,虽然N1和N4的检验结果较为接近,但TN1与临界值的距离要远远大于TN4与临界值的距离,而当统计量与临界值十分接近时,容易受检验方法误差和临界值插值误差等因素影响,被检出的异常值可能难与正常的大值记录区分,从而发生误检或漏检情况。TN4与临界值十分接近是由其算法决定的,当样本容量较大时,去掉一项对整体样本的离差平方和影响较小,因此TN4一般是小于1且非常接近于1的分数,且与临界值的偏差通常小于0.01。

图1 各站点应用N1检验法时最大值x(n)是否为异常值的检验结果与相应的统计量TN1和临界值

通过人工检视N1与N4的检验结果发现,N1检出值比N4稍多,误检正确值的情况多于N4,但N1漏检明显异常值的情况远远少于N4,由于误检正确情况可以经由人工检视进行排除,而漏检则无法进行补救,故N1比N4更好。综合来看,N1是最佳检验方法。

图2 各站点应用N4检验法时最大值x(n)是否为异常值的检验结果与相应的统计量TN4和临界值

4讨论与结论

N1方法虽然能检验出大部分异常值,但会受到样本容量、统计量和临界值的制约,对异常大值的检验能力存在最低阈值,低于阈值的异常值无法被识别。例如,若样本均值和标准差过大,则由表1可知,其对应的能识别的最小x(n)也偏大,因此在实际应用中,需要对原始数据的基本统计特征有一定了解后才能应用该方法,对于样本均值和标准差过大的站点可能会因检验阈值过高而漏掉部分异常值,此时不宜使用N1检验法。

6种Barnett总结的正态样本不一致性检验方法中,N1和N4检验效果与实际情况最为接近;N6方法本身无法判断异常值出现在哪一侧,且易受屏蔽效应影响;N9能检验出只存在一个异常值的站点,但易受屏蔽效应影响无法检出存在多个异常值的站点;N14的统计量形式决定其会将左侧异常小值识别为异常值,与研究目的不符,不适合PM2.5的异常值检验;N15检验效果介于N1、N4和N6之间。N1与N4相比,N1误检情况多于N4,漏检情况少于N4,且统计量TN1与临界值的距离大于TN4与临界值的距离,检验结果不容易受到临界值误差的影响。综上所述,N1为最适合PM2.5小时监测数据的异常大值检验方法。

参考文献:

[1]潘本锋,汪巍,王瑞斌,等.我国PM2.5监测网络布局与监测方法体系构建策略分析[J].环境与可持续发展,2013,38(3):9~13.

[2]师建中,陈丹青.PM2.5监测数据质量主要影响因素和控制方法探讨[J].绿色科技,2012(5):179~180.

[3]潘本锋, 郑皓皓, 李莉娜,等. 空气自动监测中PM2.5与PM10“倒挂”现象特征及原因[J]. 中国环境监测, 2014,30(5):90~95.

[4]Bendre S M, Kale B K. Masking effect on tests for outliers in exponential models[J]. Journal of the American Statistical Association, 1985, 80(392): 1020~1025.

[5]Barnett V, Lewis T. Outliers in Statistical Data[M]. Chichester: John Wiley, 1978.

[6]Verma S P. Sixteen statistical tests for outlier detection and rejection in evaluation of International Geochemical Reference Materials: Example of microgabbro PM‐S[J]. Geostandards Newsletter, 1997, 21(1): 59~75.

[7]Verma S P, Quiroz Ruiz A. Critical values for six Dixon tests for outliers in normal samples up to sizes 100, and applications in science and engineering[J]. Revista Mexicana de CienciasGeológicas, 2006, 23(2): 133~161.

[8]Verma S P, Quiroz Ruiz A. Critical values for 22 discordancy test variants for outliers in normal samples up to sizes 100, and applications in science and engineering[J]. Revistamexicana de CienciasGeológicas, 2006, 23(3): 302~319.

[9]Verma S P, Quiroz Ruiz A, Díaz-González L. Critical values for 33 discordancy test variants for outliers in normal samples up to sizes 1000, and applications in quality control in Earth Sciences[J]. Revista Mexicana de CienciasGeológicas, 2008, 25(1): 82~96.

[10]Verma S P, Quiroz-Ruiz A. Critical values for 33 discordancy test variants for outliers in normal samples of very large sizes from 1000 to 30000 and evaluation of different regression models for the interpolation and extrapolation of critical values[J]. Revista Mexicana de CienciasGeológicas, 2008, 25(3): 369~381.

[11]Karaca F, Alagha O, Ertürk F. Statistical characterization of atmospheric PM 10 and PM 2.5 concentrations at a non-impacted suburban site of Istanbul, Turkey[J]. Chemosphere, 2005, 59(8): 1183~1190.

[12]Lu H C, Fang G C. Estimating the frequency distributions of PM 10 and PM 2.5 by the statistics of wind speed at Sha-Lu, Taiwan[J]. Science of the total environment, 2002, 298(1): 119~130.

收稿日期:2016-05-09

基金项目:国家重点基础研究发展规划973项目(编号:2012CB955803);华东师范大学大型仪器设备开放基金;华东师范大学研究生科研创新实践资助项目(编号:YJSKC2015-15)

作者简介:罗蒙(1989—),男,华东师范大学地理科学学院硕士研究生。

通讯作者:乐群(1967—),男,副教授,博士,主要从事气候数值模拟及城市大气环境方面的教学与研究工作。

中图分类号:X831

文献标识码:A

文章编号:1674-9944(2016)12-0129-04

Upper Outlier Detection of Fine Particulate Matter Monitoring DataUsing the Discordancy Tests

Luo Meng, Yue Qun, Zhang Xin

(SchoolofGeographicSciences/KeyLaboratoryofGeographicInformationScience,MinistryofEducation,EastChinaNormalUniversity,Shanghai200241,China)

Abstract:The quality control studies of fine particulate matter monitoring data in China is very limited at present.Based on the Normal Sample discordance tests summarized by Barnett and the critical values for super-large sized samples simulated by Verma, the outliers in fine particulate matter monitoring data had been detected.The hourly monitoring data of inhalable particles used here was released by Ministry of Environmental Protection of the People’s Republic of China.The data length is about one and a half year. Among the various detection method,the N1 and N4 test had the best results,which representeddeviation/spread statistics and sums of squares statistics,respectively.N1 was less vulnerable to the interpolation error of critical values than N4.

Key words:PM2.5; hourly monitoring data;outlier detection;discordance test

猜你喜欢

监测数据站点样本
用样本估计总体复习点拨
基于Web站点的SQL注入分析与防范
规划·样本
积极开展远程教育示范站点评比活动
随机微分方程的样本Lyapunov二次型估计
怕被人认出
浅谈环境监测垂直管理的优势
环保验收监测异常数据的分析与处理探讨
先进站点应与落后站点开展结对帮扶
“官员写作”的四个样本