拉伊达准则在交通调查数据处理中的应用
2016-06-20王天送孙明明
王天送,张 杰,孙明明
(郑州大学,河南 郑州 450000)
拉伊达准则在交通调查数据处理中的应用
王天送,张杰,孙明明
(郑州大学,河南郑州450000)
关键词:交通调查;统计数据;异常值;判别方法
0引言
交通调查是通过对多种交通现象进行调查,为交通规划、交通设施建设、交通环境保护等各方面服务。[1]交通调查获取的数据的准确性及可靠性对现实情况的把握、规划方案的制定、政策的实施影响深远。从数据获取的方法和技术来看,数据实际统计取样中,由于偶然误差的存在,所获得的数据存在一定的离散性;也有可能是统计者出现读错、记错、测错以及条件没达到要求就开始测量时出现个别离散性较大的数据,这些数据称为异常值或坏值[2]。例如用测速仪器测量车速,可能会因仪器的抖动造成数据采集的误差。而由人工采集而来的数据,在经多人收集、汇编等过程中出现异常值问题更为普遍。例如公交随车调查中可能由于调查人员的疲劳疏忽造成上下客流的错计、漏计等。若采集数据对调查人员有明显的利益关系,调查人员根据自身利益判断可能会故意改动数据。因此交通调查中必须对原始统计数据加以判断识别,剔除数据中存在的异常值,并且根据对调查过程的了解,参考已有经验确定数据整体置信水平,筛选之后的数据方可作进一步分析。
1异常值检验常用方法
判别异常值的准则有拉依达准则(3σ准则)、格拉布斯准则、迪克逊准则等,以下分别作简要介绍。
1.1拉依达准则
设对某指标值做等精度的独立统计,统计值X1X1X2……Xn。用以下公式分别计算测得值的平均值和残余误差:
(1)
(2)
(3)
式中:Xi——统计值;
Vi——残余误差;
N——测量次数;
σ——标准偏差。
根据贝塞尔公式对∑V2作如下变换:
(4)
(5)
须剔除不要。对所得数据依次判断剔除异常值,直到所有数据都不满足如上条件为止。判别异常值流程如下页图1(a)所示。
1.2格拉布斯准则
对某指标统计n次,一次统计值记为Xi(i=1、2,……n),检验Xi是否为异常值的格拉布斯准则如下:Xi按升序排列成顺序统计量,X(1)≤X(2)≤……≤X(n):计算格拉布斯统计量,包括下侧格拉布斯数g(1)和上侧格拉布斯数g(n)。
(6)
剔除异值步骤:(1)确定显著水平α(一般取0.05),由α和n(n为样本数)查表格拉布斯准则数T(n,α),如表1所示。(2)判断:若g(1)≥T(n,α),则X(1)为异常值,予以剔除:若g(n)≥T(n,α),则X(n)为异常值,予以剔除:判别流程如下页图1(b)所示。
表1 n,α相应的T(α,n)值表
1.3迪克逊准则
设对某指标值进行多次重复测量的监测数据样本排序X1X2……Xn,构建不同数据范围的极差比γ,如表2所示:
表2 观察数据极差比表
表3 α,n相应的D(α,n)值表
(a)
(b)
(c)
2三种剔除方法适用标准
在交通调查中,例如地点车速调查、居民日出行次数,样本数量通常较大,且已被多次实践证明服从正态分布[1][4][8]。根据正态分布特性,数据出现大偏差统计值的概率很小,只有5%的数据出现偏差大于两倍的标准差,0.3%概率的数据出现偏差大于三倍标准差。根据小概率原理,将用来判别异值标准的三倍标准差,称为统计上允许的合理误差限。在小样本测定中,其偏差超出合理误差限的测定值判定为异常值。
以上所述三种异常值判别准则都是以数据正态分布为前提,拉伊达准则公式简单,经过贝塞尔变换数据易于计算,无需查表,并且能够循环剔除多个数据。因此,大样本(n>50)异值判别用拉伊达准则最为简单,且能得到理想效果。相比而言,格拉布斯准则和迪克逊准则公式利用、查表繁琐,在小样本量中才能发挥其功效,一般认为迪克逊准则是格拉布斯的补充,两者没有较大差异[7]。此外,在样本量n≤10情况下,拉伊达准则通常失效,无法有效提出异常值。以下举例分析,选择10座城市居民日出行次数如表4所示,服从正态分布N(2.82,1.1),X11为待检验数据。在置信度为99.7%条件下X的置信区间为(0.75,4.89),因此,判断X11=11为异常数据。现在利用拉伊达准则判别X11=11是否为异常值。
表4 待检验数据组表
(1)在数据11组数据中,用拉伊达准则判别:
σ=2.515
(2)将数据X3清除,剩余10组数据,用拉伊达准则对X11做异常值检验:
σ=2.645
另外两种判别方法则能在10个数据中判别出数据X11为异常值。
3城乡公交百公里配车数据处理
在浙江省城乡客运一体化研究中,百公里配标准车辆作为重要评测指标,采取县市平行上报统计数据,避免通过上下级采集数据出现的人为修改,各地县市(区)有效统计数据(数据全面,无缺失值)如表5所示。虽然数据采取平行上报方式,但仍不免出现统计中数据失真情况,为准确把握浙江全省的城乡客运的发展状态,必须对统计数据做异常性判断,确定数据的可信度。
表5 各县市百公里标准车数值表(标车/百公里)
(数据来源:《城乡客运一体化指标体系及应用研究》)
(1)正态分布检验
数据利用Minitab软件进行正态分布检验,检验结果如图2所示,其中p=0.181>0.005,说明数据呈现良好的正态分布。
图2 正态分布检验
(2)异常值判别
拉伊达准则选取的置信水平为99.7%,误差范围宽泛,对本研究不适用,为得到更准确的数据,本文选取85%的置信水平,置信区间反映在正态分布中为±1.04σ,以此为判断标准,删除以下数据组(见表6):
表6 剔除数据数值表
4结语
各科领域涉及到数据的统计不可避免会出现异常值情况,在现有文献中大多关于物理化学等领域测量中的异常值问题,对交通调查统计数据的处理几乎没有。从数据的纯数学角度分析,数据来源是没有区别的。因此,本文总结分析了三种常见异常值判别方法的优缺点和使用条件;根据实际需要对拉伊达准则做计算简化,并用其判别一组交通调查数据的异常值。
参考文献
[1]王建军,严宝杰,张江.交通调查与分析[M].北京:人民交通出版社,2004.
[2]张德然.统计数据中异常值得检验方法[J].统计研究,2003(5):53-55.
[3]张敏.拉伊达准则与异常值剔除[J].郑州工业大学学报,1997(1):84-88.
[4]石飞,陆建.居民出行调查抽样率模型[J].交通运输工程学报,2004(5):72-75.
[5]邓勃.关于异常值的检验与处理[J].大学化学,1995(4):5-9.
[6]孙培强.正确选择统计判别方法剔除异常值[J].计量技术,2013(11):71-73.
[7]何平.剔除测量数据中异常值得若干方法[J].航空计测技术,1995(1):19-22.
[8]马莹莹,杨晓光.城市道路自由车速与车道宽度关联性分析[J].同济大学学报,2009(12):21-26.
摘要:文章针对交通调查统计数据的特点,介绍了拉伊达准则、格拉布斯准则、迪克逊准则三种常用的异常值剔除方法,并对拉伊达准则运算步骤做了推导简化;分析了这三种常见的异常值剔除方法的特点及适用范围,并通过一组居民日出行次数数据,比较了三者判别的差异;采用拉伊达准则,对浙江省城乡客运百公里配车数数据进行了应用分析,得出了较好的判别结果。
Application of Pauta Criterion in Traffic Survey Data Processing
WANG Tian-song,ZHANG Jie,SUN Ming-ming
(Zhengzhou University,Zhengzhou,Henan,450000)
Abstract:According to the characteristics of traffic survey statistics data,this article introduced three commonly used outlier removing methods of Pauta Criterion,Grubbs Criterion and Dixon Criterion,and conducted the derivation simplification on the operation steps of Pauta Criterion;analyzed the features and application scope of these three common outlier removing methods,and through a group of resi-dent daily travel times data,it compared the difference among these three discrimination;Pauta Criteri-on was adopted to conduct the application analysis on vehicle number data every one hundred kilome-ters of urban and rural passenger transit in Zhejiang,then the better discrimination result was obtained.
Keywords:Traffic survey;Statistics data;Outliers;Discriminating method
作者简介
中图分类号:U491.1
文献标识码:A
DOI:10.13282/j.cnki.wccst.2016.04.026
文章编号:1673-4874(2016)04-0096-04
收稿日期:2016-03-28
王天送(1988—),硕士研究生,研究方向:交通运输规划与管理。