EM方法对缺失数据的处理及对MNL模型的影响
2017-06-01李纲周海军郭姝娟左忠义
李纲, 周海军, 郭姝娟,左忠义
(1.大连交通大学 交通运输工程学院,辽宁 大连 116028; 2.大连海事大学 交通运输管理学院,辽宁 大连 116026)*
EM方法对缺失数据的处理及对MNL模型的影响
李纲1,2, 周海军1, 郭姝娟2,左忠义1
(1.大连交通大学 交通运输工程学院,辽宁 大连 116028; 2.大连海事大学 交通运输管理学院,辽宁 大连 116026)*
以印度尼西亚首都雅加达都市圈居民个人出行调查数据为例,研究EM数据修补方法对数据以及MNL模型的影响.首先,以原始数据为基础,通过人为删除和EM修补分别获得缺失数据和修补数据.其次,通过Z检验,验证EM修补后的数据更贴近原始数据特征.最后,以三组数据分别建立三组MNL模型,通过Z检验等对比分析,表明EM数据修补方法能很好地修正数据缺失对构建模型造成的偏差,为交通政策的制定提供良好的数据基础.
数据修补方法;期望最大化(EM)算法;MNL模型;交通方式划分;雅加达都市圈
0 引言
居民个人出行数据是城市交通规划、设计、控制和研究工作的重要基础,但由于调查中的各种原因,获得的个人出行数据通常是不完整的,这可能会给数据分析和研究结果带来不利的影响,所以利用数据修补方法对其进行矫正变得非常重要.韩卫国[1]等人叙述了数据的缺失方式和常用的修补方法,根据交通流量数据时间上的周期性和空间上的相关性,采用平均值方法、最大期望法和数据增量法等确定性和随机性方法修补缺失数据,分析了这些方法的优缺点,并对修补结果进行比较.邹晓芳[2]对交通流的故障数据进行有效识别及分析的基础上,利用自适应权重的两阶段故障数据修复组合模型,研究对故障数据进行修复的方法.Henrickson等[3]基于链式方程的多重插补对美国华盛顿州际公路车检器缺失数据进行处理,结果表明该方法对随机缺失、日缺失和月缺失数据的修补效果均优于传统线性回归法.目前对缺失数据修补方法的研究主要针对交通流检测缺失数据展开[4],但针对居民出行数据的修补仍极为有限.
1 数据修补理论
1.1 数据缺失原因
调查中数据缺失产生的原因主要由两个方面,其一是调查中由于各种因素形成的无回答,另外是在调查中得到不可使用的信息[5].
1.2 数据缺失机制
数据缺失机制描述的是获取到的数据集中变量值和缺失数据之间的关系,是将缺失数据视为一个随机变量并且有指定分布.其主要分为随机缺失,完全随机缺失和非随机缺失三种形式.本文假定数据为随机缺失[6].
1.3 数据缺失模式
数据缺失模式研究的主要内容是缺失数据 R 的分布.主要有单变量缺失、多变量缺失、单调缺失、任意缺失、文件匹配和因素分析六种模式[6].
1.4 EM修补方法
在统计上对数据缺失值的处理方法有三种:删除法,填补法和不处理.删除法对于缺失数据占较大比例时会导致错误的结论[7];而不处理的方法对一个没有任何认知的总体情况下是不实用的,于是如何填补缺失的数据成为大量研究的对象.
EM(expectation maximization)数据修补方法是以观测数据为基础,利用缺失数据与未缺失数据的内在联系等辅助信息以及缺失值的性质,给数据集中的缺失值提供一种预测分布的方法[8].一般分为E步和M步两个步骤:
p(θ/Y) 表示参数θ基于观测数据的观测后验分布;p(θ/Y,Z)表示添加数据Z后的关于θ的添加后验分布;p(Z/θ,Y)表示在参数θ和观测数据Y一定时,数据Z的条件分布.
假设θ(t)是经过t次迭代之后第(t+1)步开始时后验分布参数θ的估计值,则第(t+1)次的迭代为
E步:对p(θ/Y,Z)或者logp(θ/Y,Z) 关于Z的条件分布求期望值,目的是把Z积分掉:
(1)
M步:将E步中积分得到的Q(θ/θ(t),Y) 极大化,即求最大值,也即寻找一个值θ(t+1),使得:
(2)
经过以上的E步和M步就会形成一次迭代θ(t)→θ(t+1),θ(t+1)∈M(θ(t)),M(θ(t))是在整个参数空间内使得Q(θ/θ(t) ,Y)取得最大值的θ的每次迭代值所组成的集合.将E步和M步一直循环,直至│θ(t-1)-θ(t)│或者│Q(θ((t+1)/θ(t),Y)-Q(θ(t)/θ(t),Y)│充分小而停止循环[9].相对于多重修补法,EM修补在实际中更加容易操作[10].
2 个人出行数据修补
本次研究选择由JICA提供的印度尼西亚首都雅加达都市圈的居民个人出行调查数据作为研究基础数据,对其先分别随机删除实际中容易出现缺失值的4个变量,形成缺失数据,再运用EM方法修补得到修补数据,最后对三组数据进行对比分析.
2.1 完整数据
原始数据包括出行者特征和出行特征共37个变量,21 157条数据.
2.2 缺失数据
利用SPSS随机生成功能产生含有缺失值的数据集,即对原始数据中的年龄、性别、私家车的出行费用和出行时间分别随机选择10%,将其删除,形成缺失数据集.缺失数据集的样本数为13 943个,缺失率为34.1%.
2.3 修补数据
根据缺失数据的特性将其分为两部分分别进行修补,对出行者特性中的缺失数据,即家庭收入和出行者年龄,运用家庭类别、家庭成员数、每月支出、交通费用占支出比、职业、性别、个人收入变量进行修补.对出行特性中的缺失数据,即小汽车的出行时间和费用,利用过路费和停车费以及各种交通方式的出行费用和时间进行修补.
2.4 修补前后数据对比分析
将完整数据、缺失数据和修补数据进行比较,如表1所示:
表1 修补前后数据对比分析
从期望值可以看出修补数据要比缺失数据更贴近原始数据,标准差也是如此,说明修补数据离散度等统计特性比缺失数据更接近原始数据.
为更为准确的验证数据修补前后的整体差异,本文采用独立大样本情况下的两个总体均值之差的检验方法,即Z检验法对数据整体特征进行检验.
假设他们两两之间期望值无显著差异, 当两个方差未知,分别用样本方差替代,此时的检验统计量为:
(3)
表2 修补前后均值Z检验
完整数据和缺失数据在变量小汽车出行费用上Z值显著(Z>1.96),说明缺失对数据估计带来的明显偏差.缺失数据和修补数据在出行费用上差异同样显著,但完整数据和修补数据均无显著差异,这说明EM修补数据对缺失数据有很好地矫正作用,相比直接删除缺失数据,能更好地反映总体特征.
3 EM修补方法对MNL模型的影响
本次研究采用出行方式划分中的非集计多项Logit模型(MNL)为研究对象.MNL模型采用随机效用理论,即假设每个出行者都会选择效用最高的选择肢,其效用函数由两部分组成:
(4)
Unj为个人n关于选择枝j的效用;Vnj为能够观测到的因素构成的效用确定项;εnj为不能观测到的因素构成的效用随机项.假设每一个随机εnj项彼此独立且服从Gumbel分布,则第i个选择肢被选中的概率为:
(5)
Xik为交通方式i的第k个说明要素(所需时间、费用等);ak为待定参数;j为交通方式个数;Ui为交通方式i的效用函数;Pi为分担率[11].
3.1 MNL模型的对比分析
以原始完整数据、缺失数据和修补数据为基础,分别建立三个MNL模型,进行参数标定,结果如表3所示.
表3 三组数据模型参数对比
三个模型整体上标定效果都很好,且整体特征大体一致.以摩托车为参照,对于公交车、小汽车和出租车,这三种交通方式的常数项均99%显著.相对于摩托车,年龄越小的人越喜欢乘坐公交车,而年龄大的人更喜欢乘坐小汽车.家庭收入可以显示出收入高的人群更愿意乘坐小汽车和出租车,其次是摩托车,最后是公交车.
与缺失数据模型相比,部分修补数据模型参数的期望值更接近原始数据模型.从标准差看,完整模型到缺失模型变量参数离散程度变大了,缺失数据修补后,变量参数离散程度明显更接近原始数据,反映出EM方法对模型较好的修补性.
3.2 修补前后MNL模型参数差异性检验
从统计意义上对其两两分别进行模型参数估计值的差异的显著性检验,即Z检验,如表4所示.
以完整数据建立的模型和缺失数据建立的模型参数差异皆显著,说明数据缺失对模型标定已产生显著性地影响,产生了不可忽视的偏差.修补数据模型和缺失数据模型在各个变量上的参数都具有显著性差异,说明数据修补对构建MNL模型产生了积极的影响.修补模型与完整模型也存在差异,这可能是因为EM修补法作为单一修补方式未考虑修补方法本身带来的误差.修补数据和原始数据的参数估计差异与缺失数据和原始数据的参数估计差异大部分方向相反,说明EM修补有效地修正了缺失数据对模型估计值产生的偏差,修补趋势是趋于接近原始数据模型的,修补后的参数估计的标准差也证明了这一点.未来研究中,可以采用多重修补方法考虑数据修补所带来的偏差.
4 结论
经过对原始数据、缺失数据和修补数据的总体特征及以其分别建立的三个MNL模型参数的对比分析可知,在数据特征方面,EM修补方法对缺失数据所引起的偏差有较好的修正作用,可以在一定程度上还原原始数据的特征.比如在本文分析中,由于小汽车出行费用值的部分缺失,导致了整体出行费用均值显著偏低,EM修补方法很好地对其进行修正.数据缺失对数据的整体特征的估计产生显著性的影响,EM修补方法对其有明显的修正作用.
在模型构建方面,以缺失数据和修补数据所建的MNL模型的参数均与完整数据所建立的MNL模型参数有显著性的差异,但从参数差异显著性检验统计量Z值来看,修补数据和原始数据的差异与缺失数据和原始数据的差异方向相反,说明EM修补出有效地修正了缺失数据对模型估计值产生的偏差,修补趋势是趋于贴近原始数据模型的,由此可知,数据缺失对MNL模型的参数估计产生显著地偏差,而EM修补可以有效地缓解这一偏差.
无论从实践还是原理方面,相对于简单地删除缺失数据的处理方法,EM修补方法可以挽救大量有价值的信息,为交通政策的制定提供良好的数据基础.
[1]韩卫国,王劲峰,胡建军.交通流量数据缺失值的插补方法[J].交通信息与安全,2005(1):39- 42.
[2]邹晓芳.城市快速路交通流故障数据修复方法研究[D].北京:北京交通大学,2014.
[3]HENRICKSONK,ZOUY,WANGY.FlexibleandRobustMethodforMissingLoopDetectorDataImputation[J].JournaloftheTransportationResearchRecord,2015(2527):29- 36.
[4]钱超,陈建勋,罗彦斌,等.基于随机森林的公路隧道运营缺失数据插补方法[J].交通运输系统工程与信息,2016(3):81- 87.
[5]冯丽红.调查数据缺失值常用修补方法比较的实证分析[D].石家庄:河北经贸大学,2014.
[6]LITTLE,RUBIN.StatisticalAnalysiswithMissingData[M].NewYork:JohnWiley&Sons,Inc.,2002.
[7]KALTONGRAHAM.CompensatingforMissingSurveyData[M].AnnArbor:SurveyResearchCenter,1983.
[8]LIYB,LIZH,LIL.Missingtrafficdata:comparisonofimputationmethods[J].IETIntell.Transp.Syst.,2014(8)1:51- 57.
[9]庞新生.缺失数据插补处理方法的比较研究[J].统计与决策,2012(24):18- 22.
[10]李昌利,沈玉利.期望最大算法及其应用[J].计算机工程与应用,2008(29):61- 64.
[11]DUSˇANTEODOROVICANDMILANJANIC.TransportationEngineering-Theory,Practice,andModeling[M].London:Butterworth-Heinemann,2016.
EM Imputation to Missing Data and Its Effect on the MNL Model
LI Gang1,2,ZHOU Haijun1,GUO Shujuan2,ZUO Zhongyi1
(1.School of Traffic and Transportation Engineering,Dalian Jiaotong University,Dalian 116028,China; 2.College of Transportation Management,Dalian Maritime University,Dalian 116026,China)
This paper explores the influences of EM imputation on data and MNL models based on personal trip data collected in Jabodetabek metropolitan area, Indonesia. First, missing dataset and imputed dataset are obtained by manually deleting the cases of complete original data and EM imputation, respectively. Secondly, dataset by EM imputation is verified to be more close to the original dataset by statisticsZtest.Finally,theanalysissuchasZtestisconductedtocomparethreeMNLmodelsbuiltonoriginaldataset,missingdatasetandimputeddataset.TheresultrevealsthatEMimputationcaneffectivelycorrectthebiascausedbymissingdatainmodelingbuilding,whichcouldofferagooddatabaseforpolicymaking.
data imputation;expectation maximization (EM) algorithm;multinomial logit model;modal split;Jabodetabek metropolitan area
1673- 9590(2017)03- 0007- 05
2016- 10- 18
中央高校基本科研业务费专项资金资助项目(3132016213)
李纲(1982-),男,高级工程师,博士,主要从事交通规划和出行行为方面的研究E-mail:LIGangPE2012@hotmail.com.
A