基于深度学习的慢行交通方式选择行为预测模型
2022-02-12陈文强王雪梅
陈文强,王雪梅,王 涛,高 超,李 琼
(1.长安大学 运输工程学院,陕西 西安 710064, 2.陕西汇德通市政工程有限公司,陕西 西安 710086)
0 引言
“慢行交通”也称非机动化交通,方式主要包括步行、自行车等,其发展对于解决城市交通“最后一公里”问题、提高城市公共交通运营效率具有重要作用。得益于移动互联网、移动支付等技术进步,无桩共享单车凭借使用方便、操作快捷等优势,受到用户的推崇,共享单车行业正进入快速发展期,运力过度投放、恶性竞争等问题逐渐暴露,严重影响行业健康发展。依据共享单车市场需求影响因素,制定精细化管理策略已成为企业亟需解决的重要问题,这就需要根据慢行交通方式选择影响因素,研究慢行交通方式选择行为。
交通方式选择行为相关研究主要历经集计方法/非集计方法,到基于活动的分析方法,随着交叉学科的发展,考虑心理因素、环境因素的交叉研究是重要方向[1-3]。近年来,深度学习方法在交通方式选择行为建模方面的应用越来越广泛[4-5],由于可处理数据能力更强,模型精度比传统模型表现更好[6]。但对模型有重要影响的内生潜在变量,如态度、偏好、感知等心理因素,被置于“黑箱”而得不到合理解释。为提高慢行交通方式选择模型预测精度和获得有效的政策启示,本研究将慢行交通方式选择的影响因素分为个人信息、态度与认知、建成与自然环境、出行信息4类,利用Lasso-logistic回归模型与深度学习方法建立慢行交通方式选择预测模型,提高模型精度和明确政策启示。
论文其余部分的安排如下:第1节对相关文献进行综述;第2节介绍本项研究方法和过程;第3节对研究结果进行分析和讨论;最后,总结全文并提出展望。
1 文献综述
1.1 影响因素
影响居民出行行为因素很多,可分为4类:个人属性(Böcker等)[7],建成与自然环境(Roberts等)[8]、态度与认知(Bolduc等)[9]、出行信息(Chang等)[10]。利用不同方法理论研究出行行为及影响因素之间关系的成果丰富。WU等[11]通过MNL模型从出行特性、环境等方面对北京的共享单车选择影响因素进行分析,发现出行距离、雨天、高温和雾霾天气都会影响共享单车的使用;Hagenauer等[12]通过对2010—2012年的荷兰居民出行数据进行研究,探讨不同变量重要性以及与不同出行模式的关系,发现温度因素对于自行车出行选择尤为重要;Bamberg等[13]基于计划行为理论研究发现,态度、行为习惯会影响居民出行方式选择意愿。Tran等[14]通过对日本名古屋821名受访者,1 840次出行数据进行分析发现,环境保护、体育健身观念的传播,对于居民出行交通方式选择步行、骑自行车具有十分积极的影响。Jia等[15]研究发现低碳知识与低碳习惯会直接影响步行、自行车出行的方式选择。
相关研究对慢行交通发展具有重要的政策启示,例如,可以通过宣贯环保、健康知识来提升城市居民慢行交通比例。但将中国城市慢行交通作为研究样本的成果不多,中国慢行交通发展及影响因素具有自己的特点,相应的政策启示也有所变化。
1.2 模型选择
交通出行方式选择行为预测是一个复杂的系统,与影响因素间存在着一定的非线性关系。深度学习具有无可比拟的处理大数据能力,能够从众多影响因素中获取内在规律,具备很强的拟合任意非线性关系的能力。目前,利用深度学习方法对交通出行方式选择问题相关研究成果丰富。例如,Cantarella等[16]训练了两个具有不同架构的人工神经网络(ANNs)来预测人们的出行模式选择行为,发现这两种ANNs都明显优于MNL模型。Celikoglu等[17]研究表明,神经网络能够有效地校正出行选择建模中的效用函数。Omrani等[18]研究表明ANNs比非集计模型更准确。分类树(CTs)也被应用于出行方式选择分析。例如,Xie等[19]将CTs和ANNs与MNL模型进行比较,结果显示CTs和ANNs比MNL表现更好。支持向量机(SVM)也在许多研究中得到了应用。例如,Zhang等[20]比较了SVM,ANNS和MNL模型精度,结果发现SVM具有更高精度。相比之下,Omrani等[6]在对通勤者的出行方式选择行为进行建模时发现ANNS比SVN和MNL模型更准确,但缺点也很明显,神经网络模型的可解释性较差。本研究利用深度学习方法中的神经网络对慢行交通方式选择行为进行建模,以期提高预测模型精度。
2 方法与数据
为了兼顾预测模型的可解释性,提炼出启示意义,同时尽量提升模型的预测准确度,本研究将Lasso-logistic回归模型与人工神经网络组合建立预测模型。Lasso-logistic回归模型可以得到各特征变量的显著性和权重值,从而可以有针对性地提出管理建议。
2.1 变量选取和数据收集
(1)因变量
本研究选取中国西安为样本城市,通过RP(Revealed Preference)调查获取西安慢行交通出行选择行为及影响因素数据。论文组10人于2019年6月10日—6月13日开展为期4天的RP线下调查,主要在大雁塔、小寨商圈人流密集场所,如地铁站、公交站、商场、景区等地点通过发放礼物、现场问答的形式收集数据。调查小组共收集问卷1 130份,去除不完整和明显错误问卷,共获得有效样本931份,其中步行数据419份,自行车数据512份。
(2)自变量
①个人信息
借鉴Böcker等[7]成果,获取慢行交通出行者个人信息,包括性别、年龄、教育程度、职业、私家车拥有、骑行技能、智能手机使用技能7个静态属性变量。
②建成与自然环境
借鉴相关研究成果,本研究在自变量中加入建成与自然环境因素,主要包括土地利用密度、区域人口密度、出行路况、步道可用性、自行车道可用性、自行车可获得性、自行车性能、天气、温度、空气质量等8个变量。
③态度与认知
Bamberg 等[13]基于计划行为理论研究发现,态度、过去行为、习惯和理性行为、主观规范和感知行为控制会影响居民出行方式选择意愿。基于此,本研究在自变量中加入态度与认知因素,主要包括环保意识、健康意识、仪态意识、安全意识、消费观念、出行习惯等6个变量。
④出行信息
借鉴CHANG等[10]的研究,本研究将出行距离、出行目的、出行时间、出行伙伴、费用来源、道路熟悉、随身携带、时间紧迫性、一次出行费用、其他交通方式的可靠性等10个变量归类到出行信息类中。
本研究模型中的可解释变量共33个,包括个人信息、建成环境、态度与认知和出行信息变量4大类。表1列出了主要变量及其描述。
表1 慢行交通影响因素
续表1
续表1
本研究采用一次移动平均值和众数解决原始数列中有缺失值的问题,采用放回重复抽样的方式解决正反两类数据不对称的问题。
2.2 试验设计
2.2.1 步骤
借鉴文献[21]试验步骤,本研究设计试验步骤如图1所示。
图1 试验步骤
(1)通过RP调查获取出行数据。
(2)数据的预处理。
(3)根据数据处理需求对所得数据进行筛选。
(4)Lasso-logistic回归模型训练,输出各个特征变量的权重值和显著性指标,对自变量进一步筛选。
(5)根据数据筛选情况将数据分组,分别输入分类模型,训练BP神经网络模型和支持向量机模型,得到预测模型。
(6)通过不同分类预测模型,从准确率等指标进行模型评估。
2.2.2 Lasso-logistic模型与模型参数估计
Lasso-logistic回归模型可以在求解回归参数估计值时加入参数的惩罚项以实现对变量的选择和参数估计。具体做法是对RSS最小化的目标函数加入一个惩罚项L1范数,使得模型由多解变为更倾向于其中一个解。
Lasso-logistic回归模型中的参数估计可以表示为:
(1)
2.2.3 人工神经网络模型
慢行交通方式选择影响因素与选择结果之间是一种非线性的关系,传统的线性函数不能满足这一映射。神经网络是一种能够对影响因素和输出结果之间的非线性关系进行很好的拟合并完成分类任务的模型函数[22]。根据Buijs等[23]的研究结论,兼顾训练时长和模型的准确度,本研究采用具有3层隐藏层的深度神经网络作为基础模型,采用全连接的方式,包括输入层x、隐藏层y、输出层z,模型如图2所示。
图2 深度神经网络基础模型
图2中,每1个圆环代表1个神经元节点,在输入层中,神经元节点数目xd根据输入数据的指标数量确定;在输出层中,神经元节点数目zc根据输出种类数确定,在隐藏层中,神经元节点数目yh可以由经验公式计算并多次测试得出。
本研究中影响慢行交通方式选择的指标有33个,输出指标1,因此输入层的神经元节点数目xd为33,输出层的数目zc为1。隐含层节点数的设置参考文献[24],基于式(2)测试发现隐含层节点数取20时准确率最高。
(2)
式中,yh为隐藏层神经元节点数;n为输入层神经元节点数;l为输出层神经元节点数。
经过多次试验选取模型参数,选用relu函数作为隐藏层的激活函数,sigmoid函数作为本模型输出层的激活函数,二元交叉熵(Binary Cross-Entropy)作为损失函数,采用小批量梯度下降法(Mini-Batch Gradient Descent, MBGD)完成模型的优化,经过多轮尝试,批数量batch-size定为20,学习率设定为0.01较为合适。采用批次和随机训练法选择训练样本,每个批次设置为100个样本,训练的迭代数为2 000 次,训练数据与测试数据比为9∶1。
3 结果与讨论
3.1 基于 Lasso-logistic回归的影响因素分析
本研究利用R语言glmnet包来实现Lasso-logistic回归,基于调节参数λ和均方误差来选择最优模型。Lasso-logistic 回归模型变量选取和模型各变量系数如图3和表2所示。
图3 参数变量选择
表2 主要变量参数系数
由图3可以看出,当lnλ=-4.1时,均方误差最小,意味着变量由33个压缩到19个时,模型具备优良性能。抽取出对应19个变量的模型系数如表2所示。
从表2可以看出,时间价值、健康意识、出行伙伴、出行距离、出行偏好、自行车性能、天气、自行车专用道、骑行技能等因素与共享单车选择有正向关系,其中骑行技术变量对慢行交通方式选择行为影响最大,影响系数为0.45,其次是自行车专用道建设(0.15),天气(0.11)等;影响居民选择步行的因素主要有性别、空气质量、交通状况、道路熟悉程度、仪表态度、自行车可获得性、是否有行李等;安全意识、环保意识等态度与认知变量对慢行交通方式选择行为影响较弱。
3.2 基于多种深度学习模型的慢行交通方式选择预测分析
利用python编程语言,通过TensorFlow框架的keras集成库完成模型的构建,使用准确率(Accuracy)和loss值指标评估模型准确率[25]。为了对比分析不同模型和不同数据集在预测准确度上的效果,本研究将未经 Lasso-logistic回归模型筛选的变量集和筛选后的变量集分别输入到本研究构建的神经网络模型和支持向量机(Support Vector Machine,SVM)分类模型中。
其中,利用本研究构建的神经网络模型对931份未经 Lasso-logistic回归模型筛选的变量集做训练和测试后,在迭代次数2 000次后,得到图4所示的结果。
图4 迭代2 000次的模型训练和测试结果
从“epoch-loss”图可以很明显地看出,迭代次数在250~500次时,模型有最好的表现,准确率在80%以上。修改迭代次数至360次,模型在测试集上的预测准确率达到了81.48%。同理,输入Lasso-logistic回归模型筛选的变量集,预测准确率为85.65%。
将不同数据集输入不同类型SVM模型中,样本数据乱序情况与之前保持一致,测试结果如表3所示。
表3 支持向量机分类测试结果
表3中,表示3种不同支持向量机分类器对数据的预测准确率,结果显示经Lasso-logistic回归模型筛选的变量集输入到LinearSVC的表现性能最好,有73.67%的准确率。
对比神经网络和支持向量机分类模型预测结果发现,经Lasso-logistic回归模型对冗余变量进行筛选后,模型的准确性得到明显提升。对于同一组数据,深度神经网络在与支持向量机分类器的对比中表现更加突出(见表4),具有较强的预测能力和泛化能力。
表4 不同模型的预测准确率
4 结论与讨论
4.1 结论
本研究设计了影响慢行交通方式选择的“个人信息、建成和自然环境、态度和认知、出行信息”4个方面共33项因素指标,利用Lasso-logistic回归模型,筛选出显著性指标,将未筛选的自变量和筛选出的自变量分别输入到深度学习分类模型中,训练构建的3层神经网络模型和不同类型支持向量机模型,得到预测分类器,并从准确率等指标对分类器进行评估。研究发现,时间价值、出行距离、天气、自行车专用道、骑行技能等是影响共享单车选择的显著性因素;空气质量、交通状况、道路熟悉程度、仪表态度等是影响步行的显著性指标;而安全意识、环保意识等态度与认知变量对慢行交通方式选择影响较弱。经Lasso-logistic回归模型对冗余变量进行筛选后的数据,神经网络模型的准确性得到明显提升,预测精度由81.48%提高到85.65%。对于慢行交通选择影响因素同一组数据,深度神经网络与支持向量机分类器的对比中表现更加突出。研究成果为改善慢行交通出行环境提供方向指导,为共享单车企业和政府管理部门应对慢行交通道路-环境因素的变化制定相应策略提供参考。
4.2 管理启示
慢行交通承担着解决城市交通“最后一公里”功能,其发展对于提高整个城市交通运行效率具有重要作用;慢行交通也是重要的绿色交通方式,对于提高城市空气质量、节能减排具有意义。慢行交通中的步行、自行车等方式适用范围和影响因素有所不同,明确适用范围和影响因素,有利于规划建设促进各自发展的建成环境,有利于营造引导绿色出行的政策环境。
研究结果显示,正向影响居民选择自行车出行的显著性指标按照影响程度由小至大顺序分别为时间紧迫性、健康意识、是否结伴、出行距离、出行习惯、自行车性能、天气、自行车专用道、骑行技能等。除去出行距离、是否结伴等出行信息及天气等自然因素无法控制或改变外,其他因素可以通过干预加以改变。对于无法控制或改变的影响因素,供给方可以采取优化资源、产品创新等增加乘客选择自行车概率;对于可以改变或控制的影响因素,供给方尽量通过干预手段增加因素的正向影响来扩大方式选择的概率。例如,出行距离是影响居民自行车方式选择的重要因素,在一定范围内,出行距离越远,选择自行车出行的概率越大,企业可以在距离公共交通站点较远的需求发生点多投放共享单车,有效满足乘客的需要;天气也是影响自行车选择的重要因素,下雨天选择骑行的居民较少,共享单车企业可以提供雨披等防雨工具来提高自行车选择概率;骑行技能是影响居民选择自行车出行与否的最重要因素,也是可以改变的影响因素,如果共享单车企业能够采取措施,让更多居民掌握骑行技能或者提高骑行技能,从根本上提高自行车出行人群基数,相关企业可以从中受益。
研究结果还显示,安全意识、环保意识等态度与认知变量对慢行交通方式选择行为影响较弱。这可能与样本中人口统计特征有关,统计样本中,45岁以下人群占到60%以上,这部分群体年富力强,自信能够驾驭慢行交通方式,更多关注慢行交通的功能性指标,而非安全性指标;而且,慢行交通中的步行、自行车都具有低碳环保特点。因此,想通过宣传强调共享单车的安全性、环保性引导乘客选择共享单车出行作用不大。
4.3 进一步研究
深度学习技术特点决定了要想获得良好的分类效果,需要大数据支撑。本研究只获取了931条数据,数据量级方面对模型预测精度可能产生制约,因此未来研究可调查获取更多、覆盖面更广的数据,充分提高模型的预测精准率。本研究只选择了“个人信息、建成与环境、态度与认知、出行信息”4类33个指标,在未来研究中,可以加入心理、出行习惯等因素,这样数据面更广,模型准确性可能更高、适用性更好。