基于决策树的居民出行模式分析
2016-09-26李纲马双郭姝娟左忠义
李纲,马双,郭姝娟,左忠义
(1.大连交通大学 交通运输工程学院,辽宁 大连 116028; 2.大连海事大学 交通运输管理学院,辽宁 大连 116026)*
基于决策树的居民出行模式分析
李纲1,马双1,郭姝娟2,左忠义1
(1.大连交通大学 交通运输工程学院,辽宁 大连 116028; 2.大连海事大学 交通运输管理学院,辽宁 大连 116026)*
以印度尼西亚首都雅加达都市圈的居民出行调查数据为例,从两方面进行研究:一是研究居民对辅助公共交通的使用情况,二是研究居民对出行模式选择的问题,并对两个子问题分别建立了两个决策树模型.研究结果确定了两个模型的重要影响因素,并进一步探讨了决策树各节点划分的规律,即揭示了上述各种影响因素的作用规律.
出行模式;决策树;Exhaustive CHAID;辅助公共交通;雅加达都市圈
0 引言
随着社会经济的发展,城市化进程的加快,机动车保有量持续地增加,同时由于土地资源的有限性,交通拥堵问题变得日益严重.促进城市交通结构的合理改变,是满足居民出行需求的同时改善城市交通状况的主要手段之一.而出行模式的研究,作为系统性研究交通供需平衡的一部分,是当前交通理论研究的重点问题之一.
出行模式的早期研究采用集计的方法,其主要优点是操作相对简单,但是模型的建立缺少明确的行为假说,缺少严密的统计方法.20世纪70年代以来,以McFadden为代表的学者引用经济学中的效用理论,以概率论为基础,将非集计模型推入实用阶段[1].Mitchell和Rapkin建立了活动分析法,Peter Jones将此方法建立模型进行首次实证检验[2].决策树算法是数据挖掘中一种主要的数据分类方法,它可以从一组无规则、无次序的样本中推理出影响因素的分类规则[3].交通领域中,决策树的算法正被逐渐地使用.Zhang et al建立了一个包含决策树技术,集计logit模型和结构方程模型的混合模型[4].国内利用决策树对居民出行进行了一定的研究.李庭洋等利用决策树中CART算法构建交通方式选择模型[5].王凤英和黄章树运用决策树方法对居民出行数据进行了分类规则挖掘[6].李颖等以南京市居民出行调查数据为样本实例,对个人属性与出行方式进行了相关性研究[7].
本文以实际大样本的个人出行调查数据为例,采用遍历卡方自动交互检验的算法(Exhaustive Chi-squared Automatic Interaction Detector,简称,Exhaustive CHAID)探索影响交通模式的影响因素以及其作用规律,以期从数据挖掘角度理解居民出行的交通模式选择行为.此方法的运用及成果可为政府今后制定合理的交通政策提供理论依据.
1 Exhaustive CHAID算法
决策树是一个类似于树结构的分析预测模型.根据树的不同层次,可以把树结构分为根结点(也称父结点)、分支结点以及叶子结点.从决策树的根结点到叶子结点的一条路径就对应着一条预测规则,完整的一棵树就对应着所有预测规则.在每个结点选择分类效果最好的决策属性对样本集进行划分,直至这棵树能准确地将样本集分类[8].
CHAID算法是构建决策树的一种方法,是一种利用χ2统计量来识别最优分裂属性的分类算法.其将样本集按所有自变量分别分类,形成多个二维交叉分类表.比较这些分类表的χ2统计量或最大似然估计值的大小,选取统计值最大的分类变量作为第一个分类变量;对已分好的最优二维表继续根据其余属性(自变量)对样本进行分类,即可得到多维交互表,从而生成决策树[9].
(1)
(2)
其中:fij为实际分布概率,fij=Yij/n,Yij为第i类X第j类Y的分布频数,n为总样本数.Fij为与fij对应的理论分布频数的估计值;Fij=(Yi./n)×(Y.j/n),Yi.为二维交叉分类表中第i行元素求和,Y.j为二维交叉分类表中第j列元素求和.
1991年Biggs等人提出了CHAID的改进算法——Exhaustive CHAID算法.Exhaustive CHAID在检测交互过程中对变量类别一直合并至只剩两个,最后比较这一系列的合并找出最强关联,选择最佳拆分点[10].本文通过SPSS软件实现这种算法.
2 数据采集
本文所用数据是由日本国际协力机构(JICA)在印度尼西亚首都雅加达都市圈采集的个人出行调查数据.样本率为3%,共调查了100 864个家庭,共1 082 979次出行.调查方式为上门入户调查.调查内容主要涉及家庭信息、个人信息和出行信息三方面内容.本次研究在上述样本的基础上随机抽取50 000条数据作为分析样本.经数据整理,去掉含有部分缺失值的数据,最终可利用46 592条数据.
样本中涉及到的辅助公共交通作为发展中国家极具特色的交通方式在雅加达也广泛存在,其主要形式有四种:人力三轮车(Becak),摩托出租车(Ojek),动力三轮车(Bajaj)和小型公交车(Minbus).这些交通方式没有固定线路(小公共汽车除外),随叫随停,起到了填补公共交通方式服务的缺失,为人们提供廉价的交通服务,提高居民出行的可达性.
3 模型分析
3.1是否选择辅助公共交通的模型分析
该决策树模型是以是否选择辅助公共交通作为因变量.在一次出行目的中,所用的所有出行方式只要有一种是辅助公共交通方式,就认为此次出行使用了辅助公共交通.该模型的具体设置如表1所示.
表1 是否选择辅助公共交通的模型设置表
通过Exhaustive CHAID算法测算,在输入的所有自变量中,出行时间、性别、年龄、家庭收入和交通费用占比对是否选择辅助公共交通起主要作用.风险值和标准误差反映模型的预测精度.风险值的计算方法是不正确分类的个案占总个案的比例.该模型风险值即预测错误的概率为29.3%,标准误差为0.002,表明该模型有比较好的预测精度.
具体决策树的结果由图1表示.出行时间位于最高父节点,是“是否选择辅助公共交通”模型的最大影响因素.由出行时间的统计分段可以看到,1 h之内的出行时间,对是否选择辅助公共交通工具最为敏感.超过1 h的交通出行则统一合并为一组,其选择辅助公共交通的比例大约为50%.在出行时间范围内,随着出行时间的增大,选择使用辅助公共交通的比例随之增加.
在出行时间第一层的影响下,性别和年龄对出行者是否选择辅助公共交通产生进一步的影响.对于性别来说,节点1、2、4、8,是按性别进一步细分的.总结得出的规律是:女性选择辅助公共交通的比例要高于男性.女性对交通舒适度的要求明显高于男性,这就使得对于一部分步行者来说,辅助公共交通作为替步工具是首选方式.对于年龄来说,节点3、5、7,是按年龄进一步细分的.总结得出的规律是:年龄在12~21岁左右的出行者,选择辅助公共交通的比例要高于其他年龄段的人群.
在第二层的基础上,模型的第三层继续细分.节点11(出行时间7~10 min,男性出行)下的节点26、27,按照交通费用占总支出的比例来分类,比例越大,使用辅助公共交通的概率越大.交通费用占比小于10%的,使用比例为7.9%,而大于10%的,为10.7%,可以看出两者比例差别不大,说明交通费用占比对是否使用辅助公共交通影响不大.节点12(出行时间7~10 min,女性出行)下的28、29,按家庭收入分类,收入越高,越会选择辅助公共交通.但是节点21与其不同.虽然也是按家庭收入分类,但是收入高反而使用的少.节点21代表出行时间在20~30 min,年龄大于30岁的个案.这表明在这两个条件下,收入高的人群会选择私人交通或其它公共交通多一些,而辅助公共交通工具因为有很多劣势所以选择的人不多.
图1 是否选择辅助公共交通的决策树模型
3.2影响出行模式选择的决策树模型分析
在一次出行目的中,所用的所有出行方式中,频率使用最高的几种出行方式的组合作为出行模式的分析单元.将各种出行模式重新分类,使用频率最高的9种出行模式列表如表2,占有效出行数据的93.9%.
表2 主要出行模式
考虑到步行(Walk)所占的数据比例较大为41.7%,不利于分析机动化的交通出行模式,因此分析中去掉步行方式.该模型的具体设置如表3:
表3 影响出行模式选择的模型设置表
Exhaustive CHAID算法测算显示,在输入的所有自变量中,小汽车拥有量、出行时间、年龄、性别和职业对出行模式的选择起主要作用.该模型风险值为50.9%,标准误差为0.003.
该决策树的模型结构由图2所示,小汽车拥有量对于出行模式的选择起到至关重要的作用.当家庭没有小汽车(节点1)的时候,出行者基本使用非小汽车出行方式,部分或全部使用辅助公共交通可以达到55.5%以上.而在家庭有一辆小汽车的情况下(节点2),小汽车使用比例达到40.8%,家庭有一辆小汽车以上的情况下(节点3),小汽车的使用比例达到69.8%.
图2 影响出行模式选择的决策树模型
在第一层的基础上,第二层按出行时间和年龄分类.节点1(汽车拥有量为0)以下的7个节点,节点编号从4~10,是按照“出行时间”来划分的.当出行时间非常少,小于10min时,选择摩托车(motorcycle)的比例最大,达50.2%.随着出行时间的增大,选择使用小型公交车的比例逐渐增大,在20~30 min出行时间区间达到最大值(50.6%),大于其它交通方式.随着出行时间的进一步增加,亦即出行距离增长,小型公交车的出行费用不再划算,所占比例减少.而小型公交车和公交车的组合以及公交车本身者两种出行模式随出行时间的增长,利用的比例越来越高,在89min以上这个区间,小型公交车(minibus)与公交车的组合出行模式是最多的选择.通过此决策树从中可以看出各种交通模式在雅加达的实际应用范围.
在第二层的基础上,性别和职业是第三层的分类变量.就性别来说,节点4、9、10、13按性别细分,总结这些节点的规律,发现男性选择摩托车(motorcycle)的比例最高,反映出男性更注重速度和时效.而女性选择小型公共汽车(minibus)的比例更高,反映出女性注重可达性的同时更在意安全.节点5、6、7、8按职业细分,这些节点共同的规律是,工人使用摩托车和小型公交车的比例较高,而像学生,家庭主妇,退休者等,选择使用小型公共汽车的比例更高,从中体现出出行者的个人出行偏好.
4 结论
基于决策树理论的出行模式研究是一种分析居民出行行为及影响因素的新途径.本文利用Exhaustive CHAID算法,建立决策树模型,以雅加达居民出行调查为例,研究个人出行行为中辅助公共交通方式的选择以及出行模式的选择的问题.研究结果表明出行时间、性别、年龄、家庭收入和交通费用占比对是否选择辅助公共交通起主要作用.小汽车拥有量、出行时间、年龄、性别和职业对出行模式的选择起主要作用.更为重要的是,这种方法以及所总结出的影响因素的作用规律可为城市交通结构的改善以及交通政策的制定提供一定的借鉴.
[1]陆化普.交通规划理论与方法[M].北京:清华大学出版社,2006.
[3]张睿.ID3决策树算法分析与改进[D].兰州:兰州大学,2010.
[4]JUNYI ZHANG,AKIMASA FUJIWARA,MAKOTO CHIKARAISHI.Comparative analysis of travel patterns in the developing cities based on a hybrid model[J].Journal of the Eastern Asia Society for Transportation Studies,2005(6):333- 4348.
[5]李庭洋,栾新,彭正洪.决策树学习算法在交通方式选择模型中的应用[J].武汉大学学报,2013,46(3):354- 358.
[6]王凤英,黄章树.基于决策树技术的福州市居民出行特征分析[J].重庆工商大学学报,2007,24(3):264- 268.
[7]李颖,相丽瑾,荀玲玉.数据挖掘在居民出行调查数据分析中的应用[J].交通科技,2016,24(1):164- 167.
[8]潘永丽.决策树分类算法的改进及其应用研究[D].昆明:云南财经大学,2011.
[9]宋春华.天津市参保精神分裂症患者住院费用分析[D].天津:天津医科大学,2012.
[10]狄晓敏,谢红薇.多疾病共同危险因素挖掘与MARS预测模型研究[J].计算机应用与软件,2013,30(10):36- 40.
Analysis of Travel Patterns based on Decision Tree Models
LI Gang1,MA Shuang1,GUO Shujuan2,ZUO Zhongyi1
(1.School of Traffic and Transportation Engineering,Dalian Jiaotong University,Dalian 116028,China; 2.College of Transportation Management,Dalian Maritime University,Dalian 116026,China)
To promote reasonable change of urban transportation structure,two aspects are focused by employing personal trip data in Jabodetabek metropolitan area, Indonesia.One is studying the usage of the paratransit,and the other is studying citizen travel patterns.Further,two decision tree models are built based on the above-mentioned aspects.The research results indicate the most significant factors to the two models,and explore the rules of the split value of decision tree nodes,i.e.,uncovering the rules of the above-mentioned influencing factors.
travel pattern; decision tree; exhaustive CHAID; paratransit; Jabodetabek metropolitan area
1673- 9590(2016)05- 0078- 05
2016- 07- 11
国家自然科学基金青年科学基金资助项目(71302085);浙江省自然科学基金青年科学基金资助项目(LQ13G010011);中央高校基本科研业务费专项资金资助项目(3132016213)
李纲(1982- ),男,讲师,博士,主要从事交通规划方面的研究
E-mail:LIGangPE2012@hotmail.com.
A