APP下载

基于潜变量SVM的出行方式预测模型

2016-12-15陈月霞查奇芬谢君平熊晓夏

关键词:样本量精度变量

陈月霞 陈 龙 查奇芬 景 鹏 谢君平 熊晓夏

(1江苏大学汽车与交通工程学院, 镇江 212013)(2江苏大学财经学院, 镇江 212013)



基于潜变量SVM的出行方式预测模型

陈月霞1陈 龙1查奇芬2景 鹏1谢君平1熊晓夏1

(1江苏大学汽车与交通工程学院, 镇江 212013)(2江苏大学财经学院, 镇江 212013)

为提高小样本下的出行方式选择模型的预测精度,提出了考虑低碳出行心理变量的支持向量机(SVM)算法.首先基于计划行为理论,考虑低碳出行心理因素,建立多原因多指标潜变量模型.然后将预测后的潜变量带入SVM分类器,构建了带潜变量的SVM选择模型.最后,利用交叉验证优化所建模型参数,并以长三角地区城市居民为研究对象实证检验了模型性能.实证结果表明,所建带潜变量的SVM选择模型具有较好的预测效果,比不带潜变量的SVM选择模型的精度提高了4.54%,比传统的带潜变量的混合选择模型提高了2.56%,同时验证了小样本下模型仍然具有很高的精度.本研究为出行方式选择模型和低碳出行方式选择研究提供了一定的理论参考.

混合选择模型;支持向量机;多原因多指标;计划行为理论;交叉验证算法

出行方式选择行为模型不断利用其他学科领域的理论进行完善和更新[1].一些学者将多原因多指标模型(MIMIC)或者结构方程模型(SEM)与传统离散模型Logit相结合,建立了潜变量与显变量共同作用的混合模型[2-3].

虽然预测精度得到一定的提高,但是模型估计过程复杂而繁琐.同时,随着研究的不断深入,变量增加,模型日趋复杂,就需要更多的样本数据来满足传统统计模型建立的需求,但实际上往往不能得到足够多的数据,导致模型无法建立.而支持向量机(SVM)模型是建立在小样本下的分类算法[4-5],同时模型的建立比较简单、智能,只需选择恰当的控制参数,就能实现较好的拟合效果,避免了上述传统统计方法的缺陷.

目前国外学者在交通领域主要运用SVM模型预测短期出行时间、客流和费用[6-7]等因素对出行选择的影响,国内不少学者已经尝试将SVM理论运用于中国城市居民出行模式识别和预测研究[8-9]中,但单纯的SVM模型的精度还有待提高.为了降低建模难度同时兼顾模型的预测精度,本文结合传统混合模型和SVM的优势,提出一种新的MIMIC-SVM选择模型来研究出行方式选择行为,并将此方法用于低碳出行研究领域.

本文以计划行为理论(TPB)为低碳出行心理研究框架,针对出行方式建立MIMIC模型.首先,将心理潜变量的拟合值作为解释自变量加入到支持向量机中,形成带潜变量的SVM选择模型.然后,采用实证数据对传统离散选择模型和不带潜变量的SVM选择模型的拟合精度进行对比验证.最后,对小样本下的模型性能进行检验.

1 实证数据来源与检验

1.1 出行方式分类

出行行为研究通常根据交通工具种类对出行方式进行分类,也有学者[10]在研究低碳出行时将出行方式分为低碳出行和非低碳出行两大类等,但是这些分类方式或过于精细或过于粗犷,不能满足本文研究要求.本文根据各类交通工具的个人碳排放强度[11]将出行方式重新划分为3个等级:① 碳排放强度0~10为低碳出行方式,包含步行、自行车和电动车;② 10~100为中碳出行方式,包含摩托车和公交车;③ 100以上为高碳出行方式,包含出租车和私家车.

1.2 数据来源

本文采用的数据来源于2015年长三角地区交通低碳出行行为问卷调查.问卷分为出行者信息调查、出行信息调查和出行态度调查3个部分.出行态度调查量表主要用于测量计划行为理论框架下通勤者低碳出行的心理变量.参考国内外有关出行方式TPB各变量的问题项[12],采用Likert五级量表构造TPB中4个基本变量Attitude, SN, PBC,Intension,其中1代表非常不符合,2代表不符合,3代表一般,4代表符合,5代表非常符合.根据文献[10,13]关于中国城市居民低碳出行行为影响因素研究结果,结合本文研究内容,得出5个特定变量(见表1),其他常用个人属性变量还有kid(有无小孩);bike(有无自行车);elecar(有无电动车);car(有无私家车)以及male(性别).

表1 数据库变量

本次问卷共发出3 200份,实际回收2 941份,回收率为91.91%,删除其中有明显矛盾、填写不完全的21个样本,最后得到2 660个完整样本数据.Stevens[14]建议一个变量大概需要15个样本支持,本文中每个MIMIC模型有12个变量,因此样本量均要求在180以上,而3个模型样本总量分别为1 389,726,545,满足模型建立的样本量要求.

1.3 数据检验

对于潜变量数据,本文从信度和效度2个角度进行检验.采用Cronbachα信度系数检验信度,平均方差提取值(AVE)检验收敛效度,主成分因子分析检验结构效度.检验结果如表2所示.

表2 数据检验结果

由表2可知,在探索性因子分析中,所有潜变量特征值大于1的主成分因子均唯一,其方差贡献率都在60%以上,且所有变量问题项的因子载荷都高于0.5.而在一阶验证性因子分析中,相应的变量与问题项之间均关系显著,且标准化路径系数都大于0.5,z值也都远大于2,证明该量表具有良好的结构效度.各变量的α系数只有SN为0.64,其他变量都在0.7之上,根据Nunnally等[15]的评判标准,均在可接受范围内,表明各变量的内在一致性较高.每个变量的AVE值均大于0.5,在0.52~0.7 之间,表明该量表收敛效度较好.

2 带潜变量的SVM选择模型

本文考虑到模型的复杂性以及样本量不足的可能性,将SVM模型运用到混合模型中,替代传统的离散选择模型.所建模型包含潜变量模型MIMIC和SVM模型,结构如图1所示.

图1 带潜变量的SVM选择模型

2.1 潜变量模型

定义反映潜变量关系的结构方程:

η=Λx+ζ

(1)

式中,η为n×1维低碳心理潜变量,本文中n=4,具体为Attitude, SN, PBC,和Intension;x为k×1维外生可观测变量向量,k=8,包括male, age, edu, income, kid, bike, elecar和car;Λ为n×k维未知待估计参数矩阵;ζ为测量误差.

测量方程为

y=Γη+υ

(2)

式中,y为q×1维潜变量η的可观测指标向量;Γ为q×n维未知的待估计参数矩阵;υ为误差项.对于误差项ζ和υ需满足

E(ζζT)=Ψ,E(υυT)=Θ,E(υζT)=0

(3)

2.2 SVM模型

记n个样本点集为{(xi,yi),i=1,2,…,n},其中xi={xi,ηi},xi为可观测变量,ηi为潜变量,考虑非线性SVM,引入松弛变量来修正优化目标和约束项,即

(4)

式中,C为惩罚因子.得到最终的最优分类函数如下:

(5)

式中,核函数选用径向基核函数(RBF).

3 实证研究

3.1 MIMIC模型

利用统计软件Stata14建立3类出行方式的MIMIC模型,拟合优度如表3所示.由表可知,3类出行方式选择模型的卡方自由度比值均在可接受范围1~3之间,并且近似均方根误差(RMSEA)、相对拟合指数(CFI)、塔克-刘易斯指数(TLI)和标准化残差均方根(SRMR)都在模型拟合度可接受范围内.

表3 模型拟合指标

通勤者社会经济属性与潜变量之间的关系非常复杂,在这里仅给出低碳出行方式中两者的关系情况,见表4.由表可知,在采用低碳出行方式出行的MIMIC模型中,每个个体属性变量都对一种或者几种潜变量产生显著影响.社会经济属性对低碳出行“行为态度”影响最大,受教育程度、月收入、是否有自行车和是否有电动车都对出行者采用低碳方式出行的态度有显著性影响,其中月收入为负影响,即收入越高越不支持低碳出行,这可能是因为随着收入的提高,出行者对出行方式的要求越高,倾向于舒适、快速的出行方式;相反,受教育程度越高,越认同低碳出行,且有低碳出行条件优势的通勤者比如拥有自行车、电动车等也支持低碳出行.此外,社会经济属性对低碳出行“行为意向”的直接显著影响最小,只有是否有电动车和否是有私家车分别对其有正、负显著影响,即有电动车的通勤者更愿意低碳出行,而有私家车的更倾向于开车出行,这可能是由于自身交通工具的限制造成的.社会经济属性对于其他2个潜变量的影响程度介于“行为态度”和“行为意向”之间.

表4 社会经济属性对潜变量的影响

3.2 SVM模型

考虑到输入变量之间差异较大,参照文献[8]将数据都规整到[-3,3]之间.本文的输出类别可转换成3个二类划分问题解决,每个分类对应的决策函数为

(6)

若fj(x)=1,则x属于第j类;若fj(x)=-1,则x不属于第j类.由此得到多分类问题的总判别函数:

(7)

式中,arg为选取指标函数.则本文中的低碳、中碳和高碳出行方式可分别表示如下:

(8)

为了避免盲目凑试,本文利用交叉验证来寻找SVM模型的最佳参数,再利用最佳参数训练模型进行预测.将分类精度作为评判模型性能的重要指标,计算公式如下:

(9)

式中,Q为模型分类精度;R为预测正确样本个数;N为预测样本总量.

利用Matlab 2014进行编程,将个人社会经济变量和第1阶段的MIMIC模型中的心理潜变量作为样本点带入建模,样本总量为2 660,前1 800个作为训练样本,其余860个作为测试样本.综合考虑计算时间和分类精度,将SVM参数设置如下:交叉验证系数H=5,惩罚因子-10≤C≤10,核函数参数-10≤σ≤10.程序执行结果显示最佳惩罚系数C为0.87,最佳核参数σ为0.21.此模型的训练样本分类精度为1 577/1 800=87.61%,测试样本的分类精度为723/860=84.07%.

4 模型性能测试

为检验本文所建带潜变量的SVM选择模型的可靠性和实用性,将其与带潜变量的传统Logit混合选择模型和不带潜变量的SVM选择模型进行比较,预测结果见表5.

表5 模型预测性能比较

可看出,带潜变量的SVM选择模型的预测正确率最高,带潜变量的传统Logit混合选择模型次之,不带潜变量的SVM选择模型的预测正确率最低.所建模型比不带潜变量的SVM选择模型的精度提高了4.54%,比带潜变量的传统Logit混合选择模型提高了2.56%.

表6中数据是以月收入敏感性分析为例,分析低碳出行方式比例变化规律.第1列为原有比例,后面3列分别为带潜变量SVM选择模型、带潜变量Logit混合选择模型以及不带潜变量SVM选择模型进行预测后的低碳出行在总样本中的占比,其中比例变化是指收入由低到高时低碳出行方式占比的减少量.由表可知,随着月收入提高,低碳出行方式的占比不断减少,在3个模型中,带潜变量SVM选择模型的减少幅度最大,与原有比例更接近,带潜变量的Logit混合选择模型次之,而不带潜变量SVM选择模型减少幅度最小.

表6 低碳出行方式占比与月收入间关系 %

由此可知,在大样本量下,带心理潜变量的选择模型的精确度要高于不带心理潜变量的选择模型,说明低碳心理潜变量的补充能进一步提高出行选择模型预测能力;而带心理潜变量的模型中,SVM选择模型的预测效果要优于传统的离散选择模型,且这种精度的提高有利于后续变量的敏感性分析研究.

以上对于模型精度的验证都是建立在样本量充足的情况下,在样本量大幅减少时,传统离散选择模型由于样本量要求可能无法完成建模和预测,而带潜变量的SVM选择模型仍然能够保持较高精确度.本文选择280个样本进行验证,其中200个样本用于训练,80个用于预测,结果见图2.

图2 小样本下的模型测试

由图2可知,在280个样本量的情况下,带潜变量的SVM选择模型仍然保持较高的训练精度和预测精度,分别达到86.0%和82.5%,与大样本下的模型性能相差不大.

5 结论

1) 本文基于计划行为理论,考虑低碳出行心理因素,建立了多原因多指标潜变量模型,然后将潜变量模型预测出的潜变量带入支持向量机分类器,构建了带潜变量的SVM选择模型,并利用交叉验证算法优化支持向量机模型参数.

2) 以长三角地区2 660个居民通勤调查样本为研究对象实证检验模型性能.实证结果表明本文所建模型具有较好的预测效果,比不带潜变量的SVM选择模型的精度提高了4.54%,比传统的带潜变量的Logit混合选择模型提高了2.56%,同时,进行了小样本下的性能测试,结果显示分类正确率仍然较高,所建模型能够为出行方式选择模型和低碳出行方式选择研究的提供一定的理论参考.

3) 本文所建模型在兼顾精度情况下,相对于传统预测模型,大大降低了样本量的要求,因此,实际建模时难度降低,同时在进行后续变量敏感性分析时,精度的提高使得分析更加准确,模型结果能比较直观地反映变化情况,有利于低碳出行相关政策的制定.

References)

[1]Ben-Akiva M, Mcfadden D, Train K, et al. Hybrid choice models: Progress and challenges[J].MarketingLetters, 2002, 13(3): 163-175.

[2]景鹏,隽志才,查奇芬.考虑心理潜变量的出行方式选择行为模型[J].中国公路学报,2014,27(11):84-92. Jing Peng, Juan Zhicai, Zha Qifen. Psychological latent variables into travel incorporating choice model[J].ChinaJournalofHighwayandTransport, 2014, 27(11): 84-92. (in Chinese)

[3]Jing Peng, Juan Zhicai, Gao Linjie. Application of the expanded theory of planned behavior in intercity travel behavior[J].DiscreteDynamicsinNatureandSociety, 2014, 2014: 1-10. DOI:10.1155/2014/308674.

[4]刘广东.基于支持向量机的地面驱动螺杆泵井工况诊断技术[J].排灌机械工程学报,2014,32(2):125-129. Liu Guangdong. Working conditions diagnosis of surface-driving progressive cavity pump wells based on support vector machine[J].JournalofDrainageandIrrigationMachineryEngineering, 2014, 32(2): 125-129. (in Chinese)

[5]朱周,路小波,卫朋,等.基于超像素和支持向量机的车辆阴影检测算法[J].东南大学学报(自然科学版),2015,45(3):443-447. DOI:10.3969/j.issn.1001-0505.2015.03.006. Zhu Zhou, Lu Xiaobo, Wei Peng, et al. Vehicle shadow detection algorithm based on superpixel and SVM[J].JournalofSoutheastUniversity(NaturalScienceEdition), 2015, 45(3): 443-447. DOI:10.3969/j.issn.1001-0505.2015.03.006.(in Chinese)

[6]Tsapakis I, Schneider W H. Use of support vector machines to assign short-term counts to seasonal adjustment factor groups[J].TransportationResearchRecord, 2015, 2527: 8-17. DOI: 10.3141/2527-02.

[7]Jiang X S, Zhang L, Chen X Q (Michael). Short-term forecasting of high-speed rail demand: A hybrid approach combining ensemble empirical mode decomposition and gray support vector machine with real-world applications in China[J].TransportationResearchPartC:EmergingTechnologies, 2014, 44: 110-127. DOI:10.1016/j.trc.2014.03.016.

[8]许铁,高林杰,景鹏,等.基于PSO-SVM的居民出行方式预测模型[J].交通运输系统工程与信息,2011,11(5):155-161. DOI:10.3969/j.issn.1009-6744.2011.05.023. Xu Tie, Gao Linjie, Jing Peng, et al. Prediction model of residents’ trip mode based on PSO-SVM[J].JournalofTransportationSystemsEngineeringandInformationTechnology, 2011, 11(5): 155-161. DOI:10.3969/j.issn.1009-6744.2011.05.023.(in Chinese)

[9]杨敏,丁剑,王炜.基于ARIMA-SVM模型的快速公交停站时间组合预测方法[J].东南大学学报(自然科学版),2016,46(3):651-656. Yang Min, Ding Jian, Wang Wei. Hybrid dwell time prediction method for bus rapid transit based on ARIMA-SVM model[J].JournalofSoutheastUniversity(NaturalScienceEdition), 2016, 46(3): 651-656. (in Chinese)

[10]金楠.大城市居民低碳出行方式选择影响因素研究[D].重庆:重庆交通大学交通运输学院,2013.

[11]陈月霞,陈龙,查奇芬.镇江城市交通微观主体碳排放测度[J].江苏大学学报:自然科学版,2015,36(6):645-649. Chen Yuexia, Chen Long, Zha Qifen. Carbon emissions measurement of urban traffic individual in Zhenjiang[J].JournalofJiangsuUniversity:NaturalScienceEditions, 2015, 36(6): 645-649. (in Chinese)

[12]Ajzen I. The theory of planned behaviour: Reactions and reflections[J].Psychology&Health, 2011, 26(9): 1113-11127. DOI:10.1080/08870446.2011.613995.

[13]刘蔚.城市居民低碳出行的影响因素及引导策略研究[D].北京:北京理工大学管理与经济学院,2014.

[14]Stevens J. Applied multivariate statistics for the social sciences[J].JournalofEducationalStatistics, 2015, 57(100): 68-69.

[15]Nunnally J C, Bernstein I H.Psychometrictheory[M]. New York: McGraw-Hill, 1967: 248-292.

Forecasting model of travel mode based on latent variable SVM

Chen Yuexia1Chen Long1Zha Qifen2Jing Peng1Xie Junping1Xiong Xiaoxia1

(1School of Automobile and Traffic Engineering, Jiangsu University, Zhenjiang 212013, China)(2School of Finance & Economics, Jiangsu University, Zhenjiang 212013, China)

In order to improve the prediction accuracy of the travel mode choice model under small samples, a support vector machine (SVM) algorithm considering the low carbon travel psychological variables is proposed. Based on the theory of planned behavior (TPB), considering low carbon travel psychological factors, latent variable models with multiple causes and indicators are established. Substituting the forecasted latent variables into the SVM classifier, a SVM selection model with latent variables is then proposed. The mixed selection parameters are obtained using cross validation optimization, and the model performance is validated based on urban residents’ data in Yangtze River Delta region. Empirical results show that the established SVM selection model with latent variables has a better prediction accuracy, improved by 4.54% compared with the SVM without latent variables, and 2.56% by the traditional model with latent variables. Results prove that the model still has a high precision with small samples. This study provides a theoretical reference for the travel choice model and low carbon travel choice research.

mixed selection model; support vector machine(SVM); multiple indicators and multiple causes; theory of planned behavior; cross validation algorithm

10.3969/j.issn.1001-0505.2016.06.034

2016-05-08. 作者简介: 陈月霞(1982—),女,博士生;陈龙(联系人),男,博士,教授,博士生导师,chenlong@ujs.edu.cn.

国家自然科学基金资助项目(71373105, 61573171, 51208232)、江苏省“六大人才高峰”资助项目(2015-JY-025)、江苏省高校科研创新计划资助项目(CXZZ12_0663).

陈月霞,陈龙,查奇芬,等.基于潜变量SVM的出行方式预测模型[J].东南大学学报(自然科学版),2016,46(6):1313-1317.

10.3969/j.issn.1001-0505.2016.06.034.

U491.1

A

1001-0505(2016)06-1313-05

猜你喜欢

样本量精度变量
医学研究中样本量的选择
抓住不变量解题
也谈分离变量
航空装备测试性试验样本量确定方法
基于DSPIC33F微处理器的采集精度的提高
Sample Size Calculations for Comparing Groups with Binary Outcomes
GPS/GLONASS/BDS组合PPP精度分析
SL(3,3n)和SU(3,3n)的第一Cartan不变量
改进的Goldschmidt双精度浮点除法器
分离变量法:常见的通性通法