APP下载

基于前景理论的施工现场安全员与工人监督行为仿真分析

2022-06-28陈慧敏曹继翔张凌寒郑万波

软件导刊 2022年6期
关键词:安全员奖惩消极

陈慧敏,曹继翔,张凌寒,郑万波

(1.昆明理工大学理学院,云南昆明 650500;2.中铁一局集团第四工程有限公司,陕西咸阳 610400)

0 引言

受新冠疫情影响,我国安全生产面临着前所未有的挑战。部分企业、施工单位短时间内经历从停工停产到复工复产的转变,而转变过程中存在诸多不安全因素与潜在危险,使得安全生产监管工作成为重点和难点[1]。如果不能实时监控、预警并采取措施以消除安全隐患,就可能发生严重的安全事故。

近年来,我国在安全监管方面投入巨大,但由于企业数量庞大,且安全事故存在突发性、伤亡性等特点,政府安全监管人员仍严重不足,无法满足全面监管的要求[2]。与此同时,监管机构不健全、监管人员业务能力不强、监管人员变动频繁等带来的安全生产监管问题也在不断増加[3]。针对这些问题,国内外学者提出了多种创新型监管手段与方法。例如,梁佳兴等[4]提出的区块协同激励机制、潘子轩等[5]提出的基于蜜罐技术的扩展式安全博弈、Bommarito等[6]提出的基于风险的监管生态系统模型、Fahad 等[7]提出的深度学习与自我注意机制相结合的监管预测模型等,都给安全生产监管提供了新思路与新方法。此外,Ma等[8]利用三阶段——半定量法构建基于协同管理的安全预警指标,Zhang 等[9]建立四阶段定量安全评估法以指挥、协调安全监管工作,为实现全方面监管提供了理论基础与实践经验。

通过梳理上述文献后发现,尽管安全监管方式有了巨大进步,但最终的监管效果受到各级政府监管部门监管能力与实际行为的直接影响[10],仅依靠有限的人力与物力完成如此复杂的监管工作仍较为困难[11]。施工现场安全监管是一个涉及多因素、复杂的博弈过程。因此,本文将施工安全监督场景进行简化,对安全员与工人监督行为之间的博弈过程进行分析,为加强安全员和工人监督的自觉性与主动性提供参考。

1 模型构建

1.1 研究假设

安全员与工人在施工现场的监督过程中,双方均会通过对相应策略的感知收益来调整自身行为策略。因此,为考虑人在决策时的心理行为,本文利用基于前景理论的演化博弈理论。首先计算均衡点,分析不同条件下的演化稳定点,然后通过分析奖惩金额与罚金分配额度对系统演化的影响情况,并结合现实问题,提出促进现场安全员与工人采取积极策略的相关建议。据此,本文提出以下假设:

假设1:施工现场安全监督的博弈双方为安全员和工人,其对应的行为策略集分别为{积极监督,消极监督}、{主动监督,被动监督}。安全员的积极监督体现为:对项目实施过程中的工人行为与现场整体状况进行实时监督,必要时可进行协调安排;安全员的消极监督体现为:没有及时了解工人行为与现场情况,缺乏对整体的把控。在安全员消极监督的情况下,安全员可获得额外收益,如节省监管成本等。工人的主动监督体现为:投入大量时间与精力对安全员的监督行为进行监督,当发现安全员消极监督时可投诉处理;工人的被动监督体现为:对安全员的监管状态不关心,追求自己的短期利益,不考虑施工完成带来的巨大收益与发生事故带来的损失等。

本文不考虑不可控因素,认为只有在双方均采取消极策略的情况下,监督现场将会出现监督不到位、监督方法不当等问题,从而造成重大损失。此时的监督工作只能依赖高一级的政府监督部门来实现。另外,安全员积极监督的概率为x(0 ≤x≤1),消极监督的概率为1 -x;工人主动监督的概率为y(0 ≤y≤1),被动监督的概率为1 -y。

假设2:决策博弈双方即安全员与工人基于前景理论进行策略选择,具有有限理性。Kahneman 等[12]提出的前景理论认为:决策者对未知策略的感知收益由价值函数与权重函数共同决定,具体表现形式为:

式(1)中,价值函数v(Δξ)体现的是人们对未来收益与损失的提前感知,具体表现形式为:

其中,η1、η2为决策者对收益与损失的敏感程度(0 <η1,η2<1),当α=β时,表明决策者对于损失与收益的偏好一致;Δξ=ξ-ξ0,ξ表示实际收益或损失,ξ0是决策者根据心理感受而作出的初始判断;λ(λ>0)是决策者对于损失的规避程度,而当λ>1 时,表示相比于收益的感知价值,决策者对于损失的感知价值更高,说明决策者趋向于风险规避[13]。

式(1)中,决策权重函数π(p)体现的是该决策的重要程度,具体表现形式为:

其中,p为该事件发生的概率,σ为决策权重函数的调节参数(0 <σ<1)。

假设3:E1为安全员积极监督时可获得的收益,V(E1)为其对应的感知价值(下同,不再另作说明);ΔE1为安全员消极监督时可获得的额外收益;E2为工人主动监督时可获得的收益;ΔE2为工人被动监督时可获得的额外收益;-M1为安全员消极监督时导致的监督物资无效损耗过多、监督失职等情况下的损失;-M2为工人被动监督时导致的现场财产、生命安全等损失。

假设4:当安全员与工人的策略集为{消极监督,主动监督}时对安全员进行金额为-P的处罚,施工现场整体获得奖励Q,其中工人的奖励占ϕ;当安全员与工人的策略集为{消极监督,被动监督}时对双方进行总和为-P的处罚,其中,工人所占处罚比例为θ,安全员所占处罚比例为1 -θ。

1.2 模型构建与求解

基于上文的基本假设与相关参数设定,分别计算在4种情况下安全员与工人的感知价值收益,得到的感知矩阵如表1所示。

(1)设安全员积极、消极监督时的期望收益分别为E11和E12,安全员的平均收益为:

Table 1 Perception matrix of construction site supervision decision表1 施工现场监督决策的感知矩阵

(2)设工人主动、被动监督时的期望收益分别为E21和E22,工人的平均收益为:

2 系统演化均衡分析

根据Friedman 提出的观点可知,通过分析雅可比矩阵的局部稳定性来分析系统均衡点的稳定性,而本系统的雅克比矩阵为:

将特殊解E1(0,0)、E2(0,1)、E3(1,0)、E4(1,1)分别带入上述雅可比矩阵,可得到稳定性的行列式和矩阵的迹,如表2所示。

Table 2 Determinant and trace of Jacobian matrix表2 雅克比矩阵的行列式与迹

当均衡点满足Det(J) >0,且Tr(J) <0时,该均衡点为演化稳定策略。进一步根据表2分场景进行系统稳定性分析,得出以下4点结论:

结论 1:当V(ΔE1)+V(-M1)+(θ-1)V(-P)

结论2:当V(ΔE2)+V(-M2)-ϕV(Q) +θV(-P) <0

结论 3:当V(ΔE1)+V(-M1)+(θ-1)V(-P) 与V(ΔE2)+V(-M2)异号,且负数的绝对值更大时,经过一段时间的博弈,安全员选择积极监督,工人选择被动监督,E3(1,0)为系统的唯一演化均衡点。即工人为了减少花费的时间与成本、保证自身利益而选择被动监督,而安全员选择积极监督,灵活对现场工人进行调配,及时规避可能出现的危险,保证生命、财产安全。施工现场工作的有序开展依赖于安全员的有效管理与实时监督。

结论4:当V(ΔE1)+V(-M1)+(θ-1)V(-P) <0 且V(ΔE2)+V(-M2)<0 时,经过长时间的博弈,安全员与工人选择积极监督与主动监督,E4(1,1)为系统的唯一演化均衡点。即此时安全员与工人采取积极策略的感知收益都较高,因此双方选择积极策略,从而最大程度保证了现场监督的参与度,减少了事故发生的可能性。

3 仿真模拟

为直观分析不同条件下安全员与工人策略的演化路径,探讨处罚金额P、奖励金额Q、处罚力度θ以及奖励力度ϕ对动态演化过程的影响,本文采用MATLAB 进行博弈仿真。为衡量客观损益的感知价值,根据参考文献[14],前景理论公式中的η1=η2=0.88,λ=2.25,取ξ0=0,决策权重函数π(p)=1。其余参数设置为:E1=10,ΔE1=2,E2=8,ΔE2=2,M1=9,M2=7(收益、损失与奖惩金额的单位为百万)。

3.1 处罚金额对演化过程的影响

在保证其他参数不变的情况下,设置奖励金额Q为6,奖惩力度均为0.5,分别取处罚金额P为2、4、6、8、10,此时安全员与工人行为策略随时间演化的过程分别如图1、图2所示。

Fig.1 Effect of penalty P on safety officer’s strategy图1 处罚金额P对安全员策略的影响

Fig.2 Effect of penalty P on workers'strategy图2 处罚金额P对工人策略的影响

观察图1 可知,安全员在不同的处罚金额下,最终的行为策略均表现为积极监督。处罚金额P与安全员选择积极监督策略的速度成正相关,即处罚金额越高,收敛速度越快。

另一方面,从图2 中可以发现,工人的监督策略在处罚金额P为2 时,最终的稳定策略为被动监督;当处罚金额P为4、6 时,工人先趋向于被动策略,之后又转变为主动监督;当处罚金额P达到8 时,工人快速且稳定地趋向于选择主动监督。说明工人的自我监督与相互监督受罚金影响较大,增加罚款金额提高了工人对损失价值的感知,从而选择规避风险,对安全员实行有效监督。

3.2 奖励金额对演化过程的影响

在保证其他参数不变的情况下,设置处罚金额P为6,奖惩力度均为0.5,分别取奖励金额Q为2、4、6、8、10,此时安全员与工人行为策略随时间演化的过程分别如图3、图4所示。

Fig.3 Effect of the reward Q on safety officer’s strategy图3 奖励金额Q对安全员策略的影响

Fig.4 Effect of the reward Q on workers'strategy图4 奖励金额Q对工人策略的影响

观察图3、图4 可知,在不同的奖励金额下,安全员与工人最终的行为策略表现一致,即趋向于选择积极策略。奖励金额的增加对于安全员选择积极策略存在较小的抑制作用,对工人选择积极策略存在较大的促进作用。即安全员对奖励金额变化表现的不敏感,而工人受奖励金额的影响较为显著。

综合对比图1-图4 可知,安全员与工人对于处罚金额的变化表现的更敏感,奖励金额次之。同时,处罚金额P=10 且奖励金额Q=10,是该模型下的最优解。在该情况下,安全员和工人认为积极监督与主动监督存在更高的感知价值收益。因此,博弈双方会以最快的速度选择积极策略。安全员对施工过程进行全方面监督,能及时发现和制止不安全行为;工人存在较强的监督意识,对安全员的行为起到了很好的督促作用。

3.3 奖惩力度对演化过程的影响

在保证其他参数不变的情况下,设置处罚金额P=6,奖励金额Q=6。在此前提下,设置场景一:处罚力度θ分别为0.2、0.4、0.6、0.8、1,奖励力度ϕ为0.5,可得到安全员与工人策略演化图,如图5 所示;场景二:奖励力度ϕ分别为0.2、0.4、0.6、0.8、1,处罚力度θ为0.5,可得到该场景下的安全员与工人策略演化图,如图6所示。

Fig.5 Comparison of the effect of penalty intensityθ on the strategy of safety officers and workers图5 处罚力度θ对安全员、工人策略影响对比

Fig.6 Comparison of the effect of rewards intensityϕ on the strategy of safety officers and workers图6 奖励力度ϕ对安全员、工人策略影响对比

观察分析图5、图6 可知,在不同的奖惩力度下,安全员与工人最终的行为策略表现一致,即趋向于采取积极策略。当奖惩力度相同时,安全员对于处罚力度的变化表现的更敏感。同时,处罚力度越大,安全员选择积极策略的速度越快。工人对于奖励力度与惩罚力度的变化都比较敏感,且处罚力度和奖励力度对于工人趋向于主动监督都具有很好的促进作用。处罚力度θ=1 且奖励力度ϕ=1,是该模型下的最优解。在该情况下,安全员与工人分别会以最快的速度选择积极监督与主动监督。

4 结语

本文在传统博弈理论基础上引入前景理论,考虑了人在决策时的心理因素,分析了不同情况下最稳定的监督方案,之后进一步研究分析了奖惩金额与奖惩比例改变对监督行为的影响。通过理论分析与计算机仿真模拟最终得到以下结论:①安全员在不同的奖惩金额和奖惩比例下,最终的行为策略均表现为积极监督,得到的结果一致;②提高对安全员的处罚力度,可使得安全员选择积极策略的概率加快趋向于1;③工人对奖惩金额与奖惩力度的变化都较为敏感。当处罚金额为2 时,工人趋向于选择被动监督,随着处罚金额的增加,工人的策略由被动监督向主动监督转变;④处罚金额P=10 且奖励金额Q=10,处罚力度θ=1 且奖励力度ϕ=1,是该模型下的最优解。此时,安全员与工人参与安全监督的积极性与主动性最强。

猜你喜欢

安全员奖惩消极
从消极隐私保护到积极隐私保护:元宇宙中的隐私风险及其治理进路
淮安淮阴区开展企业安全员跟班学习专项活动
论如何正确对待高校学生奖惩工作
我国纳税信用体系建设研究
家庭教育:你种的是积极树还是消极树?
“消极保护”不如“积极改变”
论消极治理与农民上访