APP下载

驾驶风险规避行为的塑造:来自强化理论的解决思路*

2022-12-07张馨予郭羽熙梁佳文李文敏赵苑秀高在峰

应用心理学 2022年6期
关键词:驾龄平均速度奖惩

邓 芳 张馨予 郭羽熙 梁佳文 李文敏 赵苑秀** 高在峰

(1.浙江大学心理与行为科学系,杭州 310022;2.长安大学心理健康教育与咨询中心,西安 710064)

1 引言

对驾驶相关风险的研究一直是道路安全研究主要关注领域,然而如何塑造驾驶人风险规避行为的问题仍未得到很好解决。在实车驾驶中,风险可分为外源性风险与自源性风险。前者不受驾驶人主观意志影响,由外部刺激导致,如前方异常停车等;后者由驾驶人在驾驶过程中导致,如超速、打电话等。目前研究主要聚焦于对自源性风险的规避与矫正,缺乏对外源性风险的关注。已有的自源性风险规避与矫正方法主要包括教育干预、警察执法和告警三类。这三类方法本质上属于被动矫正(由外界发出相应信号),效果有限(Eensoo et al.,2018;Walter et al.,2011;Jongen al et.,2011)。如何提高驾驶人对自源性风险的内省认知和规避主动性,培养其对外源性风险的危险感知能力和规避意识,从而实现道路风险主动防控是目前需解决的难题之一。同时,驾驶相关风险的类型多、特点散、发生随机性强,如何提供一种统一的方案应对所有可能的风险也亟须解决。

对于驾驶风险规避行为的塑造,基于行为主义的强化理论具有较强的适用性和应用价值。根据强化理论,行为的习得与及时强化有关,经过强化的行为更大概率重复发生(Skinner,1958;Skinner,1965)。在行为塑造中,强化与惩罚起不同作用(Skinner,2019)。强化是指随着特定行为产生,出现愉快刺激增加或刺激强度的增强(正强化)或不愉快刺激减少或者刺激强度的减弱(负强化),从而导致该行为发生概率增加(Ferster&Skinner,1957)。惩罚是指一个行为发生伴随着不愉快刺激出现(正惩罚)或愉快刺激消除(负惩罚),导致该行为后续出现频率减少(Skinner,1965)。近15年来,强化理论逐渐被应用于提升道路交通 安 全(e.g.,Bolderdijk et al.,2011;Hultkrantz & Lindberg,2009;Lahrmann et al.,2012;Lansdown & Saunders,2012;Mazureck & van Hattem,2006;Mullen et al.,2015;Reagan et al.,2013)。由于驾驶过程中无法实时增减满足基本生理需要的初级强化物(如水、温暖等),这类研究均选用最初无强化效力但与初级强化物多次配对后将获得强化效力的次级强化物,即代币,来实时奖惩。代币可以在后续实验允许的任何时间地点被用于兑换初级强化物,从而满足有机体的某种愉快刺激的需求,使有机体保持高水平的获取代币期望,极力表现期望行为,回避不良行为(Doll et al.,2013)。目前,这类基于积分的强化措施已应用于移动设备,如eMentoring app(Peer et al.,2020)。

然而,以往研究主要探讨强化与惩罚对自源性风险规避的作用,忽略了对外源性风险规避行为的塑造。对外源性风险,应采用奖励强化驾驶人的安全应对行为;而对自源性风险,则应采用惩罚减少驾驶人的不安全行为。此外,为提高行为主体的主动性与积极性,强化理论所强调的差异化塑造原则建议根据目标对象的性质采用不同程度的强化物。因此,有必要进一步探明哪种强化规则更有效。为此,本研究将探讨能否通过对外源性风险规避行为与自源性风险行为分别采用正强化与负惩罚的方法,来实现对驾驶风险规避行为的塑造,并探明更优的强化规则。鉴于超速和追尾的普遍性(Pires et al.,2020;陈晨等,2011)和危害性(Kim et al.,2022),我们选取超速作为内源性风险代表,突降异物(用于模拟追尾和其他碰撞)作为外源性风险代表。

2 实验一 风险等级—积分负惩罚力度匹配实验

本实验以超速为自源性风险代表,考察基于风险水平的差异化惩罚能否有效推动驾驶人主动规避超速行为。我们将超速10%~20%定义为低风险,超速20%~50%定义为高风险。

2.1 方法

被试自愿报名,所有被试具有C1驾照和驾驶经验,视力、听力状况良好,在近一年内的高速公路累计驾驶时间至少3个小时。被试分为3组:风险-积分匹配组(根据风险水平给予相应积分惩罚)、低惩罚组(总是低惩罚)、高惩罚组(总是高惩罚)。高惩罚组14人(7名女性),平均年龄23.00岁(SD=0.43),平均驾龄2.21年(SD=0.13);低惩罚组14人(5名女性),平均年龄24.36岁(SD=0.82),平均 驾龄3.29年(SD=0.76);风险-积分匹配组14人(9名女性),平均年龄23.93岁(SD=1.02),平均驾龄3.25年(SD=0.30)。三组被试在年龄、驾龄上匹配(p>0.05)。

实验采用六自由度驾驶模拟器模拟自动驾驶环境(图1)。模拟驾驶器计算机刷新率为60Hz,驾驶场景呈现在三面LED显示器(分辨率为1920×1080),相邻两屏间夹角为150°,形成环绕效果。实验程序采用Unity3D引擎编写,模拟自动挡车辆。驾驶场景为包括大桥(限速80km/h)和隧道(限速60km/h)的高速公路,其余路段限速为100km/h。周围车辆密度为每千米20辆车(不含自身)。其他场景设置详见网上附录材料。

图1 六自由度模拟驾驶器

实验采用2(积分系统:有、无;被试内)×3(积分规则:高惩罚、低惩罚、风险-积分匹配;被试间)的混合设计。初始积分为100分。若超速持续6秒:风险-积分匹配组超出当前限速10~20%范围内扣5分,超出当前限速20~50%范围内扣15分;高惩罚组超速扣15分;低惩罚组超速扣5分。实验按时间先后分为无积分系统(20分钟)、有积分系统(20分钟)两阶段以避免积分系统对无积分阶段的干扰;两阶段间至少休息3分钟。在无积分系统阶段,系统仍会按相应规则计算积分,但积分面板不出现。在有积分系统阶段,车辆中控屏位置呈现积分面板(见图2),实时显示积分情况,包括总积分、扣除积分及其原因(如“您因连续超速扣除积分5分”)。为避免路况熟悉性的影响,两阶段实验中所用的道路场景为同质的不同路段。实验中若被试超速,系统会持续发出听觉告警提示音。实验开始前,被试在模拟器上进行5分钟的驾驶以熟悉驾驶设备的操作。正式实验需要约40分钟,并根据积分情况支付额度不等的被试费。每位被试在实验前均阅读制定的指导语(见网上附录材料)。

图2 有积分系统(a)和无积分系统(b)的界面示例

研究采用驾驶平均速度、超速比例(驾驶人在实验中出现超速行为的时长占总驾驶时长的比例)作为因变量。对数据采用2(积分系统)×3(积分规则)重复测量方差分析。鉴于积分系统的效果是研究的关注对象,故通过事前配对t检验来分析积分系统作用。

2.2 结果与讨论

平均速度见图3(a)。积分系统主效应显著(F(1,39)=22.23,p<0.001,BF10=183.76,η2p=0.36),有积分系统下的驾驶速度显著低于无积分系统。积分规则主效应不显著(F(2,39)=0.36,p=0.701,BF10=0.30,η2p=0.02)。积分系统与积分规则的交互作用显著(F(2,39)=5.83,p=0.006,BF10=7.85,η2p=0.23)。事前比较发现,高惩罚下有积分系统的驾驶速度显著低于无积分系统阶段(t(13)=-3.34,p=0.005,BF10=9.56,Cohen’s d=-0.89);低惩罚下不显著(t(13)=-0.58,p=0.573,BF10=0.31,Cohen’s d=-0.16);风险-积分匹配下有积分系统的驾驶速度显著低于无积分系统阶段(t(13)=-3.51,p=0.004,BF10=12.56,Cohen’s d=-0.94)。

超速比例见图3(b)。积分系统主效应显著(F(1,39)=23.31,p<0.001,BF10=410.17,η2p=0.37),有积分系统下的超速比例显著低于无积分系统。积分规则主效应不显著(F(2,39)=2.08,p=0.139,BF10=0.92,η2p=0.10。积分系统与积分规则的交互作用显著(F(2,39)=3.39,p=0.04,BF10=1.53,η2p=0.15)。事前比较发现,高惩罚下有积分系统的超速比例显著低于无积分系统阶段(t(13)=-3.44,p=0.004,BF10=11.25,Cohen’s d=-0.92);低惩罚下差异不显著(t(13)=-1.25,p=0.23,BF10=0.52,Cohen’s d=-0.33);风险-积分匹配下有积分系统的超速比例显著低于无积分系统阶段(t(13)=-3.44,p=0.004,BF10=11.12,Cohen’s d=-0.92)。

图3 被试在不同实验条件下的平均驾驶速度(a)、超速比例(b)情况。误差线代表标准误差

本实验发现,积分系统有效降低了驾驶人的驾驶平均速度与超速比例;同时,积分系统仅在高惩罚、风险-积分匹配情况下效果达到显著水平。鉴于高惩罚系统对应成本更高的奖惩系统,故风险-积分匹配的积分系统设置更优。

3 实验二 风险等级—积分正强化力度匹配水平实验

本实验考察基于风险水平的差异化正强化能否提升驾驶人对外源性风险的主动规避。实验中在行驶过程中前方道路300m处路灯或交通指示牌突然掉落为低风险情况,前方道路100m处发生突然掉落为高风险情况。

3.1 方法

高奖励组15人(9名女性),平均年龄24.40岁(SD=0.98),平均驾龄3.27年(SD=0.61);低奖励组15人(8名女性),平均年龄24.13岁(SD=0.64),平均驾龄2.57年(SD=0.48);风险-积分匹配组15人(5名女性),平均年龄23.13岁(SD=0.59),平均驾龄2.78年(SD=0.51)。三组被试在年龄、驾龄上匹配(p>0.05)。

本实验采用2(积分系统:有、无)×3(积分规则:高奖励、低奖励、风险-积分匹配)的混合设计。风险-积分匹配组在前方300m出现障碍物且成功规避时得到5分奖励,在前方100m出现障碍物且成功规避时得到15分奖励;高奖励组总是被奖励15分;低奖励组总是被奖励5分。在正式实验中,掉落障碍物是路灯或路牌(见图4),仅发生在大桥、隧道路段。预设的掉落位置模式有两种:3000m、6000m、8000m、13000m,或2000m、5000m、8000m、12000m(均相对于正式实验初始位置),模式选取在被试间平衡。在有积分系统阶段,车辆中控屏会给出超速告警和躲避障碍物成功提示。

图4 两类掉落障碍物路牌(a)、路灯(b)截图

实验采用平均速度、超速比例和成功规避障碍的次数作为因变量。其中,成功规避碰撞次数在所有条件下均到天花板,不做分析。

其余与实验一相同。

3.2 结果与讨论

平均速度见图5(a)。积分系统的主效应不显著(F(1,42)=0.10,p=0.755,BF10=0.22,η2p<0.01)。积分规则主效应不显著(F(2,42)=0.18,p=0.840,BF10=0.37,η2p<0.01)。积分系统与积分规则的交互作用不显著(F(2,35)=2.19,p=0.125,BF10=0.79,η2p=0.09)。事前比较发现,高奖励下有积分系统的驾驶速度显著低于无积分系统阶段(t(14)=-2.52,p=0.025,BF10=2.68,Cohen’s d=-0.65);低奖励下差异不显著(t(14)=1.32,p=0.208,BF10=0.54,Cohen’s d=0.34);风险-积分匹配下差异不显著(t(14)=-0.68,p=0.510,BF10=0.32,Cohen’s d=-0.18)。

超速比例见图5(b)。积分系统主效应显著(F(1,42)=16.23,p<0.001,BF10=46.18,η2p=0.28),有积分系统下的超速比例显著低于无积分系统。积分规则主效应不显著(F(2,42)=0.09,p=0.919,BF10=0.28,η2p<0.01)。积分系统与积分规则的交互作用显著(F(2,42)=5.04,p=0.011,BF10=4.96,η2p=0.19)。事前比较发现,高奖励下有积分系统的超速比例显著低于无积分系统阶段(t(14)=-3.99,p=0.001,BF10=30.05,Cohen’s d=-1.03);低奖励下差异不显著(t(14)=0.24,p=0.816,BF10=0.27,Cohen’s d=0.06);风险-积分匹配下有积分系统的超速比例显著低于无积分系统阶段(t(14)=-3.23,p=0.006,BF10=8.40,Cohen’s d=-0.83)。

图5 被试在不同实验条件下平均驾驶速度(a)、超速比例(b)。误差线代表标准误差

本实验发现,积分系统在影响平均速度方面效果不明显,但是显著降低了超速比例。积分系统只有在高惩罚、风险-积分匹配情况下效果达到显著水平。鉴于高奖励系统成本更高,因此风险-积分匹配的积分系统,即基于风险水平的差异化奖励,设置更优。

4 实验三 正强化与负惩罚的联合效果实验

本实验旨在建立包含正强化与负惩罚的积分系统,考察完整的代币矫正技术能否有效减少驾驶中的高风险驾驶行为。本研究采用了包含大桥、隧道、急转弯与长下坡四种高速公路场景。

4.1 方法

42位有效被试参加实验。高奖惩组14人(9名女性),平均年龄23.43岁(SD=0.64),平均驾龄2.57年(SD=0.48);低奖惩组14人(8名女性),平均年龄23.36岁(SD=0.48),平均驾龄2.64年(SD=0.43);风险-积分匹配组14人(7名女性),平均年龄为22.71岁(SD=0.37),平均驾龄2.39年(SD=0.39)。三组被试在年龄、驾龄上匹配(p>0.05)。

驾驶场景为双向6车道高速公路,包含直道(限速100km/h)、隧道(限速60km/h)、大桥(限速80km/h)、弯道(限速60km/h)和匝道(限速80km/h)路段,总长16km。其余路段限速为100km/h。隧道(长2km)、大桥(长2km)分别出现一次,间隔1km,四种场景出现顺序在被试间平衡。最后路段模拟高速公路出口U形路线,弯道(90度,半径125m)间隔1km出现两次后,再间隔1km,匝道(长3.3km,高度落差132m)出现一次。为规避被试对场景的熟悉度不同而造成潜在干扰,实验中4种场景的出现顺序存在两种:隧道、大桥、急转弯与长下坡依次出现,急转弯、长下坡、大桥、隧道依次出现,四种场景间均以直道相连。上述两种场景顺序分别应用于有、无积分系统两种条件。同时,道路两侧的其他信息(如树木、建筑物、路牌等)在两种积分系统条件下随机出现。

本实验采用2(积分系统)×3(积分规则)的混合设计。高奖惩组总是被奖励或惩罚15分;低奖惩组总是被奖励或惩罚5分;风险-积分匹配组在高风险下被奖励或惩罚15分,在低风险下别奖励或惩罚5分。实验按时间先后分为无积分系统(25分钟)、有积分系统(25分钟)两个阶段,其间至少休息3分钟。

实验采用驾驶平均速度、出现障碍物前后500m的平均速度、超速比例作为因变量。由于实验二结果发现成功规避碰撞的次数绩效出现天花板效应,因此本研究记录出现障碍物前后500m的车辆速度,以更好地检验积分系统对躲避碰撞行为的影响。

其余与实验2一致。

4.2 结果与讨论

平均速度见图6(a)。积分系统主效应显著(F(1,39)=17.55,p<0.001,BF10=97.05,η2p=0.31),有积分系统下的驾驶速度显著低于无积分系统。积分规则主效应不显著(F(2,39)=2.24,p=0.120,BF10=0.98,η2p=0.10)。积分系统与积分规则的交互作用边缘显著(F(2,39)=2.45,p=0.099,BF10=0.81,η2p=0.11)。事前比较发现,高奖惩下有无积分系统的驾驶速度差异不显著(t(13)=-1.15,p=0.272,BF10=0.47,Cohen’s d=-0.31);低奖惩下有无积分系统的平均速度差异边缘显著(t(13)=-2.11,p=0.055,BF10=1.47,Cohen’s d=-0.56),有积分系统下的平均速度较低;风险-积分匹配下有积分系统的驾驶速度显著低于无积分系统阶段(t(13)=-3.88,p=0.002,BF10=22.86,Cohen’s d=-1.04)。

超速比例见图6(b)。积分系统的主效应不显著(F(1,39)=0.88,p=0.354,BF10=0.35,η2p=0.02),积分规则主效应不显著(F(2,39)=0.92,p=0.408,BF10=0.29,η2p=0.05),积分系统与积分规则的交互作用不显著(F(2,39)=0.01,p=0.991,BF10=0.18,η2p<0.01)。事前比较发现,高奖惩下有无积分系统两阶段间差异不显著(t(13)=-0.50,p=0.624,BF10=0.30,Cohen’s d=-0.13);低奖惩下差异不显著(t(13)=-0.85,p=0.409,BF10=0.37,Cohen’s d=-0.23);风险-积分匹配下差异亦不显著(t(13)=-0.50,p=0.624,BF10=0.30,Cohen’s d=-0.13)。

图6 被试在不同实验条件下的平均驾驶速度(a)、超速比例(b)。误差线代表标准误差

出现障碍物前后500m的平均速度见图7。积分系统的主效应显著(F(1,39)=17.26,p<0.001,BF10=72.29,η2p=0.31),有积分系统下的平均速度显著低于无积分系统。积分规则主效应边缘显著(F(2,39)=2.83,p=0.071,BF10=1.39,η2p=0.13)。积分系统与积分规则的交互作用显著(F(2,39)=3.35,p=0.045,BF10=1.67,η2p=0.15)。事前比较发现,高奖惩条件下有无积分系统的平均速度差异不显著(t(13)=-0.78,p=0.448,BF10=0.35,Cohen’s d=-0.21);低奖惩条件下有积分系统下的平均速度显著低于无积分系统情况(t(13)=-2.57,p=0.023,BF10=2.88,Cohen’s d=-0.69);风险-积分匹配条件下有积分系统下的平均速度显著低于无积分系统情况(t(13)=-3.80,p=0.002,BF10=19.88,Cohen’s d=-1.02)。

图7 被试在不同实验条件(积分规则)下出现障碍物前后500m的平均速度。误差线代表标准误差。

研究发现,积分系统有效降低了被试的驾驶平均速度和出现障碍物前后500m的平均速度。事前比较进一步发现,积分系统只有在风险-积分匹配情况下效果达到显著水平。因此风险-积分匹配的积分系统,即基于风险水平的差异化奖罚,设置最优。

5 总讨论

本研究将基于强化理论的行为塑造思路引入高速公路的风险驾驶行为告警中,通过仿真实验发现,无论是面对自源性风险还是外源性风险,基于强化理论的代币系统均可有效塑造驾驶人的风险规避行为,且适用于不同驾驶场景(如大桥、隧道、急转弯等)。具体而言,对于自源性风险的自助矫正,结果显示超速时长比例可从38%降低到17%(实验1)或从23%降低到5%(实验2)。对于突发外源性风险的主动规避,可以从规避的结果和过程两个方面来衡量。在结果方面,我们考察了驾驶人能否成功规避该风险,但实验2结果显示被试均成功规避了所有外源性风险;在过程方面,我们考察了驾驶人能否及时发现并规避风险,能否适时降低车速,结果显示出现障碍物前后500m的平均速度可从70km/h降低到61km/h(实验3)。此外,相较于统一高奖惩和统一低奖惩,根据风险等级设置奖惩幅度的代币系统效果最佳,提示与风险等级匹配的差异化强化更值得推荐。本方案实现了对驾驶相关风险规避由被动矫正转向主动实施,初步构建了基于强化理论的驾驶风险规避行为的差异化塑造技术。

本方案将有效弥补我国现有驾照积分系统的不足之处。首先,相较于完全基于惩罚(即扣分)的驾照积分系统,引入正强化(即加分)的代币系统将通过实时奖励和最终奖励促使驾驶人产生外源性动机,对风险规避分配更高的优先级(Reagan&Bliss,2013)、投入更多认知资源和努力,并在限速内驾驶的时间增多(Lansdown & Saunders,2012)。其次,驾照积分系统无法将所有自源性风险(如跟车过近等)立法侦查,而本方案可涵盖更广泛的自源性风险,塑造更全面的风险规避行为。最后,相较于驾照积分系统的间断执法(如超速拍照),本方案基于连续行为的实时反馈和实时积分变动提示更有助于驾驶人实时自助规避风险,保持和养成安全交通行为习惯。因此,本方案在低频执法路段的优势将更加明显。

本项目具有较强的适用性与可实施性,顺应了交通安全管理的国际发展趋势。得益于物联网和自动驾驶技术的发展,使得基于强化理论的实时奖惩反馈与行为塑造成为可能。目前有关搭载智能车速适应(intelligent speed adaption,ISA)系统的法规在欧洲和日本等地得到迅速推进。ISA系统“知道”当前限速并能据其向驾驶人反馈或限制最高车速,帮助驾驶人保持适当速度(Carsten&Tate,2005)。ISA立法将对车辆动力经济性和驾乘体验等方面产生重大影响,需尽快开展相关研究及准备工作。本研究提出的代币系统可作为ISA的核心内容或架构,该系统不仅配有限速告警功能,并通过差异化奖惩令驾驶人直观感受到不同车速的风险水平不同。此外,不同于传统的ISA,代币系统将安全驾驶行为量化的机制,有助于推动该系统与车险公司合作,如积分可折算抵扣部分保费(Bolderdijk et al.,2011;Lahrmann et al.,2012),识别高风险潜在人群。需指出,未来需要做真实路况下的实证研究,进一步检验本系统的稳定性,并优化相关参数设计(如反馈时间、奖惩额度等)。

猜你喜欢

驾龄平均速度奖惩
“运动的快慢”“测量平均速度”知识巩固
基于模糊马尔可夫链的奖惩系统*
探究物体的平均速度
不同驾龄新手驾驶员感知能力认知偏差分析
#全国近7%驾驶员驾龄不足一年#
『运动的快慢』『测量平均速度』练习
把脉平均速度的测量
论如何正确对待高校学生奖惩工作
我国纳税信用体系建设研究
有机生活