APP下载

基于随机森林的公交乘客让座行为影响因素分析

2023-12-03钟仙玉王小可BaigFarrukh隽海民

交通工程 2023年6期
关键词:比率受访者公交

张 栋, 钟仙玉, 王小可, Baig Farrukh,2, 隽海民

(1.大连理工大学 交通运输学院, 大连 116024; 2.中南大学 交通运输工程学院, 长沙 410083;3.大连市国土空间规划设计有限公司,大连 116013)

0 引言

2015年9月25日至27日,联合国可持续发展峰会在纽约联合国总部召开. 会议上通过的《改变我们的世界—2030年可持续发展议程》[1]中提出,到2030年,应当向所有人提供安全、可负担、易利用、可持续的交通运输系统. 其中重点提到了公共交通系统中需要特别关注身体虚弱者、妇女、儿童、残疾人和老年人等弱势群体的需求,减少其使用公共交通出行的障碍. 相较于有座乘客,公交车辆中站立的乘客的体能消耗更大. 由于生理因素制约,在移动的公交车辆中站立的弱势群体乘客容易因为站立不稳而摔倒,进而导致人身伤害[2],因此,优先向弱势群体提供座位是常见的公交服务措施. 世界各地的公交系统普遍为弱势人群设置了“爱心专座”[3]. 但公交车厢内可设置的优先座位有限,如何激励普通乘客为弱势群体让座是保障弱势群体获得座位的关键. 关于影响乘客为弱势群体让座的因素,目前只有Baig等采用重复测量的广义线性混合模型(Generalized Linear Mixed Model, GLMM)对大学生群体的让座决策进行了研究[4].

近年来,机器学习模型和算法开始应用于交通工程领域并取得了较好的行为机制解释和预测效果[5-6]. 鉴于此,本文将使用机器学习中的随机森林模型探讨公交乘客让座行为的影响因素.

1 让座行为的影响因素

已有研究表明,外部激励因素的类型和强度会显著影响个人的行为. 在没有明显激励时,人们往往会拒绝给弱势个体让座等亲社会行为[7]. 货币奖励是最常见的外部激励形式,因为其会在让让座人获得正向认可的同时获得经济收益,因此可激励人们给弱势个体让座[8-9]. 而货币奖励的强度也会影响到亲社会行为发生的概率[7]. 除货币激励外,社会信用(如感谢信、表扬、社会信用记录等)也可激励亲社会行为的发生[10]. 本研究拟从激励形式(货币/社会信用)、方向(奖励/惩罚)和强度(高/低)3个维度描述对让座行为有影响的外部激励要素. 对于货币形式的激励,分为高额奖励、高额惩罚、小额奖励、小额惩罚共4种;对于社会信用激励,基于现实情况,只考虑信用奖励和信用惩罚两种措施,而不进一步区分激励强度,因此,得到共计6种可能的外部激励措施[7].

决策情景因素也是影响行为的重要因素. Brijs等[11]认为短途驾驶是影响摩托车头盔使用行为的情景因素. Li等[12]将价格、政策因素等作为影响消费者购买低碳产品意愿的情景因素. 此外,拥挤度、等待时间等也是个体接受服务场景中的典型情景因素[13]. 对于公交乘客让座行为,本研究考虑了让座乘客自身的健康状况感知(好/坏)、车内拥挤程度(拥挤/不拥挤)、待让座的弱势乘客类型(老人/孕妇/残疾人/儿童)以及让座后的站立时间(小于10 min、10~20 min、20~30 min、大于30 min)等情景因素.

作为1种亲社会行为,向弱势群体让座往往还受到社会舆论的影响. 在本研究中引入主观规范来刻画这一影响因素. 主观规范是指个人在采取某行为时,所感受到社会压力的认知. 根据来源不同,可分为强制性规范(Injunctive Norms,IN)和描述性规范(Descriptive Norms,DN). 强制性规范指的是行动个体根据其他人的期望或要求而觉得自己必须遵守的规则,而描述性规范则是个人对周边的典型群体所可能实施的行为的感知. Liu等[14]发现积极的态度和主观规范可显著提升居民低碳出行意愿. 徐标等[15]发现环境意识和主观规范对老年群体的低碳出行意向与行为一致性具有更显著的积极影响. 本文考虑了强制性规范和描述性规范对公交乘客让座决策的影响.

除上述让座决策场景和内外部激励因素之外,可能影响乘客让座决策的性别、年龄、教育水平、公交车使用频率以及生活费用等人口统计学变量和出行习惯特征因素也纳入了研究范畴.

基于上述讨论,本研究中考虑的影响公交乘客向弱势群体让座决策影响因素的构成如图1所示.

图1 影响乘客让座行为的因素

2 研究设计

2.1 问卷设计

本研究通过问卷调查采集所需数据. 问卷由 2部分构成:①受访公交乘客个人的人口统计学及出行习惯因素,以及主观规范因素. 人口统计学及出行习惯因素包括性别、年龄等. 而作为心理特征的主观规范因素则采用表1所示的李克特5级量表加以测量,其中描述性规范的测量中,1表示“从不”,5表示“总是”;强制性规范的测量中,1表示“完全不符合”,5表示“完全符合”. 研究中采用确认性因子分析(Confirmatory Factor Analysis,CFA)来测量受访者的主观规范;②让座决策的选择场景.

表1 问卷中主观规范测量题及评价指标

让座决策场景由决策情景和外部激励因素共同刻画. 因为情景因素取值组合较多,采用Ngene软件中的D最优试验设计功能生成了12个让座决策场景,每个场景由4个因素组合. 对于每个场景,受访者需要依次回答他们在7种不同的激励措施下是否选择让座,如表2所示. 为了减轻受访者的回答负担,这12个场景被随机分成3组,每组4个场景,每个受访者只需回答1组即可.

表2 决策场景选择行为示例

2.2 随机森林算法

随机森林(Random Forest,RF)算法是基于决策树理论的1种集成算法,可解决分类问题和回归问题. 作为1种统计学习理论,随机森林算法通过使用Bootstrap重抽样方法从原始样本中抽取多个样本,对每个Bootstrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票或取平均得出最终预测结果. 经过大量的理论和实证研究,随机森林被认为是一种预测准确率高、对噪声和异常值容忍度好且不易出现过拟合的非线性建模工具. Chang等[6]比较了一系列的机器学习方法在出行方式选择行为中的表现,其中,随机森林算法在单一分类器中表现最好. 与传统的多项式Logit模型相比,随机森林分类器的准确性提高了27%. 本文对公共交通中让座行为进行研究,本质上属于分类问题,且各因素的影响是否线性并不明确,因此,本文使用随机森林算法中的分类算法进行分析.

3 随机森林模型构建

3.1 数据收集

本研究的数据收集于2020年6月. 受新冠肺炎疫情影响,本研究选择大连理工大学的学生进行线上调查. 为了帮助受访者理解问卷内容,问卷开头向受访者简要介绍了本研究的目的和有关弱势群体的信息. 基于受访者对问卷中设置的验证问题的回答,年龄和教育程度前后是否一致的检验保证了问卷的有效性. 共有445名受访者参与了此次调查,在数据清理后,得到404个有效样本,样本有效率为90.8%.

3.2 描述性统计

如表3所示,有效样本数据由48.76%的男性和51.24%的女性组成,性别比例接近1∶1. 调查涉及的大部分答者是22岁左右的在校大学生群体. 所有的受访者都有过使用公交出行的经历,但每个月使用公交出行的次数不同. 大多数受访者平均每月使用公交出行的次数少于5次(41.34%)或在 5~10次(40.1%),占总受访者的81.44%. 在所有有效的受访者中,超过一半(63.37%)是本科生. 根据问卷结果,大量受访者(41.34%)的月生活费为1 000~1 500元人民币. 根据艾瑞咨询报告的 2018年对10 244名大学生的调查结果,中国学生的平均生活费用为1 405元人民币[16],与本研究中学生的生活费用基本一致.

表3 受访者特征

3.3 随机森林算法结果

3.3.1 模型训练和参数设置

经数据清洗和处理之后,问卷调查所得数据集共包含11 312条数据. 本研究采用随机森林方法建立让座行为的分类预测模型,其中包括1个因变量(是否让座)和14个自变量(其他变量),各变量的含义及取值如下表4所示. 其中,由于DN和IN为连续变量,本文通过取平均值的方式将其离散化,DN的平均值为-1.57,IN的平均值为-1.704.

表4 变量说明

随机森林中分类算法的算法流程如下:首先在原始数据集上通过Bootstrap有放回的重复抽样重新选出N个新数据集;其次,对每个选出的数据集训练成1棵决策树,这N棵决策树组成1个随机森林模型;最后,通过投票的方式确定最后的分类结果.

本文使用Python的Sklearn包中的随机森林的算法程序来实现模型训练和参数设置,其中,数据集被分为训练集(占比70%)和测试集(占比30%)[17]. 为了保证结果的可重复性,将随机种子值设为2022.

经过参数调优之后得到的主要参数的优化结果为:min_samples_split=3, class_weight=‘balanced’,criterion=‘entropy’,n_estimators=145,min_samples_leaf=1,max_features=12,max_depth=17. 用训练集数据对随机森林模型进行训练,得到的结果如表5所示.

表5 随机森林模型训练结果

从表5可知,本文的随机森林模型经参数调优可达到99%的准确率,可用于后续模型测试.

3.3.2 模型最终结果

将以上训练好的模型用测试集数据进行测试,得到的结果如表6所示.

表6 随机森林模型测试结果

从表6可看出,使用训练好的随机森林模型进行数据测试,准确率可达到90%.

机器学习领域中常用于分类模型评估的ROC曲线和AUC值如图2所示.

图2 随机森林模型的ROC曲线和AUC值

本文的随机森林模型经过训练和测试之后得到AUC值为0.93,这表明有93%的样本预测正确,模型标定取得了较好的效果.

各影响因素对公交乘客让座行为相对重要性的估计结果见表7和图3,从大到小依次为:人口统计学及出行习惯因素(35.8%)、主观规范因素(32.97%)、决策情景因素(18.63%)、外部激励因素(12.59%). 在人口统计学及出行习惯因素中,受访者年龄、生活费用、教育水平是对公交乘客让座行为有较大影响的3个因素;在主观规范因素中,描述性规范对公交乘客的让座行为影响最大,相对重要度最高,强制性规范略低于描述性规范;在情景因素中,受访者对自身健康状况的感知,待让座乘客类型及让座之后的站立时间是对公交乘客让座行为有重要影响的3个因素;在激励因素中,激励方向比激励强度和激励类型更重要,对乘客的让座行为影响更大.

表7 特征重要度排序

图3 特征重要性得分/%

4 讨论和分析

为了进一步检验每个特征的影响,本文对以上14个特征进行了部分依赖图分析,并在每1个特征的所有取值之间两两进行了双比率假设检验,以对各特征取值的差异性进行显著性分析. 其中,双比率假设检验的方法是:用p1表示样本1中事件发生(即:让座)的比率,p2表示样本2中事件发生的比率,然后对差值:p1-p2进行假设检验.其中,原假设H0:p1-p2=0,备择假设H1:p1-p2≠0,之后用正态近似的方法求Z值和P值.

受篇幅限制,文中只展示每一类影响因素排序前一的特征的部分依赖图(图4)及双比率假设检验结果(表8),其余见附录.

表8 双比率假设检验结果表(部分)

4.1 人口统计学及出行习惯因素分析

关于年龄,从部分依赖图可发现,各年龄群组中会让座的比率都高于不会让座的比率,这与学生群体道德素质普遍较高有关. 20~30岁及32岁的乘客选择让座的比率较高且比较稳定(均在80%以上),18、19、31和34岁的群体在会让座的比率上有大幅波动. 因此,将比率较为稳定的年龄段归为 1组,从这组中随机选择25岁的群体为代表,与18、19、31及34岁的群体分别做双比率假设检验. 从检验结果中可看到,18岁的学生会选择让座的比率明显高于其他年龄,而19、31和34岁的学生会选择让座的比率是所有学生中最低的,这表明可对目标年龄段的人采取政策措施、社会和教育干预措施.

关于生活费用,每月生活费用在1 000元以下的乘客会选择让座的比率在所有乘客中最高,每月生活费用在1 000~2 500元的乘客和每月生活费用在3 000元以上的乘客会选择让座的比率无显著差异,均比每月生活费用在2 500~3 000元的乘客高,每月生活费用在2 500~3 000元的乘客会选择让座的比率最低,这可能与群体中本科生所占比率有关. 与其他分组相比,每月生活费用小于1 000元的群体中,本科生所占的比率最高,每月生活费用在 2 500~3 000元之内的群体中,本科生所占的比率最低. 从教育水平对让座决策的影响来看,本科生的让座意愿在本硕博3类群体中最高.

关于性别和每月使用公交出行的平均次数,男性和女性在是否会选择让座的比率上没有显著差异,这表明乘客是否会选择让座与性别无关. 每月乘坐公交出行的次数在5~10次以内的乘客的让座意愿最高,每月乘坐公交出行的次数在10次以上的乘客会选择让座的比率偏低.

4.2 主观规范因素分析

本文所考虑的主观规范因素中,描述性规范及强制性规范均对乘客的让座意愿产生重要影响. 关于描述性规范,身边家人、朋友等实际的让座行为会对乘客的让座选择产生正向影响. 关于强制性规范,身边家人、朋友以及媒体宣传等对乘客让座行为的期望也会对乘客的让座意愿产生正向影响. 然而,描述性规范的影响大于强制性规范的影响,这说明在本研究所关注的“给弱势群体让座”这一场景下,“身教”的影响要强于“言传”. 因此,公交服务商、教育机构等可通过有意识地宣传引导广大乘客建立“给弱势群体让座是1种非常常见的现象”来激发乘客的让座意愿.

4.3 情景因素分析

关于让座之后的站立时间,让座之后需站立的时间在10 min之内乘客的让座意愿最高,而需要站立20~30 min会大幅降低乘客的让座意愿. 让座之后的站立时间在10~20 min或30 min以上对乘客选择让座的意愿无显著影响,这表明以30 min为界,在让座之后需站立的时间少于30 min时,乘客的让座意愿会随着站立时间的延长而降低,让座之后需站立的时间长于30 min时,乘客反而不太在意站立时间,这可能是在受访者的实际出行中,站立时间超过30 min情况较少.

从其他情景因素对乘客让座决策的影响来看,受访者的身体状况不好会降低其为他人让座的意愿. 与车厢不拥挤的状况相比,拥挤状况下,乘客会更愿意选择让座,这可能是受访乘客考虑到了弱势群体在拥挤车厢内站立更为困难. 公交乘客对不同类型待让座乘客的让座意愿由高到低分别为:残疾人>孕妇>老人>儿童. 由此可见,公交乘客更愿意给残疾人和孕妇让座,而给老人和儿童让座的意愿较低,这可能和近年来时常出现在社会舆论中的老年人道德绑架年轻人为自己让座的负面新闻有关,而部分儿童活泼好动造成的负面印象也可能是年轻人不想让座的原因之一.

4.4 激励因素分析

与没有激励相比,存在激励会提高乘客的让座意愿. 货币激励和信用激励都对乘客选择让座有正向影响,其中货币形式的激励影响更大. 高额的货币激励会最大程度地提高乘客的让座意愿. 低额的现金激励对乘客让座意愿的影响与信用激励没有显著差异,意味着两者在一定程度上可等价互换. 在激励方向上,惩罚比奖励对于提高乘客让座意愿效果更好. 因此,相对高强度的罚款是提高乘客让座意愿的有效措施. 相关管理部门可在合法合规的前提下,通过制定基于货币和信用的奖励和惩罚系统来激励乘客对弱势群体的让座行为.

5 结论

为残疾人、孕妇、老人和儿童等弱势群体提供出行便利是包容性公共交通应具备的重要特征之一. 本研究旨在深入了解在公共交通中影响普通乘客向弱势群体让座行为的因素. 研究使用随机森林模型分析了来自大学生群体的在线调查数据,揭示了人口统计学及出行习惯因素、主观规范因素、情景因素以及激励措施属性对乘客让座意愿的影响. 研究发现,主观规范对乘客的让座意愿影响较大,其中描述性规范对乘客让座意愿的影响大于强制性规范. 相比于信用激励,货币激励更为有效,且负向激励比正向激励更有效. 研究还发现,导致乘客不愿意让座的因素包括感知健康状况不佳、公交车不拥挤、弱势乘客类型以及让座后站立时间较长等情景因素. 普通乘客最有可能给残疾人和孕妇让座,而不是老年人和儿童. 本研究丰富了对于公交乘客让座行为影响因素的认识,并为如何促进公交乘客为弱势群体让座提供了一些可能的思路. 后续研究可将样本扩展到普通公交出行人群[18-19],也可将影响因素扩展到态度、行为意图、服务满意度等其他心理因素,以更好地刻画公交乘客的让座行为决策机制.

猜你喜欢

比率受访者公交
今天,你休闲了吗?
关于安全,需要注意的几件小事
低碳生活从我做起
一类具有时滞及反馈控制的非自治非线性比率依赖食物链模型
一元公交开进太行深处
五成受访者认为自己未养成好的阅读习惯
等公交
一种适用于微弱信号的新颖双峰值比率捕获策略
比率和比例的区别
比率和比例的区别