演化博弈下矿工的不安全行为及数值仿真
2022-10-19刘海涛倪东滟
刘海涛, 朱 腾, 倪东滟
(黑龙江科技大学 黑龙江省煤矿深部开采地压控制与瓦斯治理重点实验室, 哈尔滨 150022)
0 引 言
当前,我国煤矿安全生产形势持续向好,百万吨死亡人数降至0.044人[1],然而矿工的操作违规等不安全行为现象仍较为普遍,减少矿工的不安全行为是安全生产的重要环节。矿工会根据自身利益的不同选择是否做出不安全行为的过程就是一种博弈,基于此,建立监管者与矿工间的动态博弈模型,从博弈结果中探寻如何提高不安全行为的监管效率,减少矿工不安全行为的发生。
近年来,在矿工不安全行为的研究领域,已有学者应用事故致因理论[2]、前景理论[3]、心理账户理论[4]、系统动力学理论[5]等进行研究。杨安妮等[6]以前景理论为基础,得出解决煤矿不安全行为需要控制的前提条件。李伟荣等[7]通过对矿工的不安全行为进行分析,得到了影响不安全行为的几个关键因素,基于此提出控制不安全行为产生的措施。当前,运用演化博弈研究矿工不安全行为主要集中在政府与煤矿企业[8]、国家监察机构与企业[9]等外部层面监管,而在内部层面,例如矿工与监管者之间的博弈相关研究不足,忽视了矿工这个安全行为的直接实施者。生物专家Smith[10]提出了演化博弈理论中的基本概念演化稳定策略,Taylor等[11]提出的复制动态方程思想推动演化博弈的发展。现阶段,人的不安全行为研究主要采用演化博弈,例如研究政府安全监管策略问题[12]、矿工不安全行为管理[13]等。运用此方法在内部监管层面研究矿工的不安全行为更具实际意义。
笔者借鉴演化博弈论方法及模型建设,分析监管者与矿工间的行为决策和影响参数,将矿工这个重要行为主体纳入博弈过程,研究相关参数对监管者和矿工间的博弈策略导向,探寻两者的策略演化机理,再加以优化关键参数,实现演化博弈策略最优,促进决策双方在煤矿安全生产、安全管理能力方面的提高。
1 模型构成与假设提出
1.1 模型构成
(1)博弈主体
文中的博弈主体一方为企业内部安全监管员(简称为监管者),另一方为矿工。
(2)策略
文中监管者可以选取的策略为“严格监管”和“懈怠监管”,矿工可以选择“安全行为”和“不安全行为”。两群体之间的策略选择相互之间不会完全知晓。
(3)支付
令监管者在{严格监管,安全行为};{严格监管,不安全行为};{懈怠监管,安全行为};{懈怠监管,不安全行为}4种策略组合下的效用参数分别为JG1、JG2、JG3、JG4;相应的,矿工效用参数分别为KG1、KG2、KG3、KG4,得到如下表所示的支付矩阵,其中各效用参数将在后文作具体计算后列出。
表1 监管者和矿工的博弈支付矩阵
1.2 基本假设
建立模型前主要进行如下假设:
假设1:监管者和矿工都是有限理性人。监管者选择“严格监管”与“懈怠监管”的概率分别为x、1-x,矿工选择“安全行为”与“不安全行为”的概率分别为y、1-y。其中x,y∈[0,1]。
假设2:矿工选择“不安全行为”的原因是在生产过程中节省更多的精力和时间去休息或者完成额外工作获得经济、生理等额外收益。
假设3:监管者选择“懈怠监管”主要发生在两种情况下:一种是发现矿工的不安全行为而选择“懈怠监管”,原因是可从中得到收益;另一种是为了节省监管成本。
假设4:在监管者“严格监管”时,矿工生产中选择“不安全行为”在总体上仍有额外收益,原因是监管者选择“严格监管”阶段可能发生在不安全行为发生后若干时间,此情况下额外收益R4会有所减少,采用β为收益折扣系数,则此时的矿工的额外收益为βR4;已知监管者“懈怠监管”被举报带来的惩罚损失为F1,在矿工选择“安全行为”时,由于矿工这一安全行为的直接实施者采取了正确策略,带来的整体风险损失将减小,用δ表示惩罚折扣系数,此时监管者被举报受到的惩罚为δF1;矿工选择“不安全行为”被监管者发现的惩罚为F2,当监管者“懈怠监管”,其相应惩罚降低,用φ表示惩罚折扣系数,即矿工受到的惩罚为φF2。
假设5:博弈双方只有同时满足矿工选择“安全行为”和监管者选择“严格监管”,才能确保整体达到安全状态,其中一方的不负责就会产生风险,即风险会从一方部分转移到另一方,传递系数为h,h∈(0,+∞)。
2 模型构建
当矿工选择“安全行为”策略时,监管者选择“严格监管”、“懈怠监管”策略的收益分别为
T1=E1-C1,
T2=R2-C2-δF1-K1LP1,
式中:C1—— 监管者“严格监管”所需成本;
E1—— 监管者“严格监管”,在一段时间内安全效益提升带来的上级相关部门奖励;
C2—— 监管者“懈怠监管”所需成本;
R2—— 监管者“懈怠监管”带来的额外收益;
K1—— 矿工选择“安全行为”,监管者“懈怠监管”时双方所承担的风险系数;
P1—— 矿工选择“不安全行为”导致发生事故的风险概率;
L—— 双方都不负责所承担的事故风险;
δ—— 监管者惩罚折扣系数。
当矿工选择“不安全行为”策略时,监管者选择“严格监管”、“懈怠监管”策略的收益分别为
T3=E1-C1-K2hLP1,
T4=R2-C2-F1-LP1,
式中:K2—— 矿工选择“不安全行为”、监管者“严格监管”,双方接受的风险系数;
h—— 风险传递系数。
当监管者选择“严格监管”时,矿工选择“安全行为”、“不安全行为”策略的收益分别为
S1=E3-C3,
S2=E3-C3-K1hLP1,
式中:C3—— 矿工选择“安全行为”所需成本;
E3—— 矿工选择“安全行为”,在一段时间内安全效益提升带来的上级相关部门奖励。
当监管者选择“懈怠监管”时,矿工选择“安全行为”、“不安全行为”策略的收益分别为
S3=βR4-C4-F2-K2LP1,
S4=R4-C4-φF2-LP1,
式中,C4—— 矿工选择“不安全行为”所需成本。
结合以上假设,构建监管者与矿工的收益感知矩阵如表2所示。
表2 监管者与矿工的收益感知
3 模型求解与分析
3.1 模型求解
根据表2求得监管者“严格监管”和“懈怠监管”的期望收益函数为
U1Y=y(E1-C1)+(1-y)[(E1-C1)-K2hLP1]。
(1)
U1N=y[(R2-C2)-δF1-K1LP1]+
(1-y)[(R2-C2)-F1-LP1]。
(2)
以此求得监管者的平均期望函数
U1=xU1Y+(1-x)U1N=x{y(E1-C1)+
(1-y)[(E1-C1)-K2hLP1]}+
(1-x){y[(R2-C2)-δF1-K1LP1]+
(1-y)[(R2-C2)-F1-LP1]}。
(3)
同理,求得矿工选择 “安全行为”和“不安全行为”的期望收益函数和平均期望函数分别为
U2Y=x(E3-C3)+(1-x)[(E3-C3)-K1hLP1]。
(4)
U2N=x[(βR4-C4)-F2-K2LP1]+
(1-x)[(R4-C4)-φF2-LP1]。
(5)
U2=yU2Y+(1-y)U2N=y{x(E3-C3)+
(1-x)[(E3-C3)-K1hLP1]}+
(1-y){x[(βR4-C4)-F2-K2LP1]+
(1-x)[(R4-C4)-φF2-LP1]}。
(6)
监管者、矿工选择不同策略可获得相应收益,收益越高将会有更多的个体选择模仿,此时就有如下关于两者的复制动态方程为
(K1+K2h-1)LP1]+(E1-C1-K2hLP1-R2+
C2+F1+LP1)=x(1-x){y[(JG1-JG3)-
(JG2-JG4)]+(JG2-JG4)}=
x(1-x)(yM+N)。
(7)
(1-β)R4+(K2+K1h-1)LP1]+(E3-C3-
K1hLP1-R4+C4+φF2+LP1)=y(1-
y){x[(KG1-KG2)-(KG3-KG4)]+
(KG3-KG4)}=y(1-y)(xP+Q)。
(8)
M表示矿工群体选择“安全行为”和“不安全行为”的情况下,监管者选择不同策略下期望收益之差的差值,即M=(JG1-JG3)-(JG2-JG4),相应的,P=(KG1-KG2)-(KG3-KG4)。
N表示矿工选择“不安全行为”的情况下,监管者选择不同策略下期望收益之差,即N=JG2-JG4,同样,Q=KG3-KG4。
3.2 稳定性分析
通过对上式的分析,得到以下5个系统均衡点:O(0,0)、A(0,1)、B(1,0)、C(1,1)和D(x*,y*),为简化运算过程,令:
求复制动态方程的最优解,利用Friedman方法,首先将相关参数代入到J矩阵。
(9)
式(9)行列式的值为detJ=ad-bc,迹为trJ=a+d,可得:
detJ=(1-2x)(yM+N)(1-2y)(xP+Q)-
x(1-x)My(1-y)。
(10)
trJ=(1-2x)(yM+N)+(1-2y)(xP+Q)。
(11)
为使上述动态方程的局部均衡点演化稳定,则应当在雅可比矩阵detJ>0且trJ<0时成立。5个局部均衡点对应的雅可比矩阵的行列式和迹如表3所示。由于本文主要研究在矿工选择不安全行为的情况下对其行为的控制,因此文中首先界定JG2 情景1、2、3、4下分别满足约束条件:①JG1>JG3,KG1>KG2;②JG1 表3 局部均衡点稳定性分析 表4 不同均衡点的局部稳定性分析 观察表4,可知情景1下O、C点为ESS点,A、B点为局部不稳定点,情景2、3、4仅O点是ESS点,显然不可能取得理想策略,此3种情况类似,因此只分析其一,得到仅情景1下系统收敛于(1,1),即双方选择{严格监管,安全行为}组合策略,根据目前煤矿安全管理形式,显然这是我们所追求的理想策略。如何对关键措施进行改善,找到最合适的举措成为我们的研究重点。 本文借助Matlab对模型中主要参数进行赋值,通过数值仿真直观分析双方演化路径、演化趋势,探究成本、惩罚等因素对博弈双方行为策略的影响。 根据上述分析,并结合煤矿安全生产管理实际,参考仇国芳等[14]、陈洋等[15]做法,同时,为了使系统最终有可能演化到(1,1)的理想状态,以及当系统演化至不理想状态时两者间可进行直观对比,需要在模型构建时各参数的赋值满足约束条件(JG2 表5 初始关键参数设定 图1 监管者、矿工双方演化路径Fig. 1 Evolutionary paths for both regulators and miners 图1 a中往(1,1)演化所涵盖的面积大于往(0,0)处涵盖面积,说明初始状态下,双方更倾向于选择{严格监管,安全行为}策略。图1 b体现了两情景的鲜明对比,仅往(0,0)处演化不是我们期望的结果。为研究在监管者“严格监管”的概率处于较低、中等、较高三种水平下,矿工策略选择的演化路径,分别选取x1=0.3、x2=0.5、x3=0.7三个概率,将初始值代入模型中,得到路径如图2所示。 图2 矿工策略演变Fig. 2 Miner strategy evolution 由图2a~c分析得到,在初始状态下,当监管者以x1=0.3的概率“严格监管”,部分矿工有“不安全行为”选择意愿;当x2=0.5,矿工总体上选择“安全行为”,对“安全行为”策略的选择意愿较为强烈;当x3=0.7,矿工的策略选择较概率为x2时没有带来明显变化。相应的,分别在y1=0.3、y2=0.5、y3=0.7下(矿工选择“安全行为”的概率)观察监管者策略选择的演化路径如图3所示。 图3 监管者策略演变Fig. 3 Evolution of regulator strategy 由图3 a~c分析可知,当矿工选择“安全行为”的概率y1=0.3时,监管者中存在部分人员倾向于“懈怠监管”;y2=0.5时,上述现象有所减少,有更多的监管者选择“严格监管”且意愿较强;y3=0.7时,监管者总体上选择“严格监管”,意愿更为强烈。 综上所述,x、y的增加都会使双方向选择理想策略的方向演化,然而随着概率的增加,主体逐渐趋向于{严格监管,安全行为},使得安全成本不断增加,再者,矿工知晓在生产过程中如果发生事故,首先受到伤害的便是自身。因此相对于监管者,矿工有着更强的安全意愿,即相同条件下y>x。结合上述分析,下文分析时概率选取x=0.5,y=0.7。 已知理想策略为{严格监管,安全行为},为研究监管者“严格监管”所需成本变化对群体双方的影响,在其他条件不变的情况下,在监管者“严格监管”的初始成本C1=2的基础上分别取C1为0.5、1.0、1.5、2.0、2.5、3.0,其策略选择演化路径如图4a所示。 图4 理想策略成本对群体双方的影响 Fig. 4 Effect of ideal strategy cost on both sides of group 由图4a可知,随着监管者“严格监管”所需成本的提高,监管者趋向于选择“懈怠监管”,显然监管者认为选择“懈怠监管”的收益更高,特别是当成本C1=3.0时,监管者选择此策略的意愿极为强烈。为保证安全效益最优的情况下控制安全管理成本,因此通过对图4a的分析得到一个最优状态下的监管成本C1=2.0。 同样,分别取矿工选择“安全行为”付出成本C3为1.0,1.5,2.0,2.5,3.0,3.5,矿工策略选择演化路径如图4b所示,随着矿工选择“安全行为”所需成本的增加,矿工更趋向于“不安全行为”,当C3=2.0时,虽然矿工产生了选择“安全行为”的趋势,但是始终没有向此策略收敛,说明此时成本依旧偏高使得矿工纠结于是否选择安全策略。综上,存在最优“安全行为”成本C3=1.5。 在安全至上的生产原则基础上,不负责行为是指有悖于提升安全效益的行为,即{懈怠监管,不安全行为}。为研究群体双方在做出不负责行为后,相应惩罚金对各自策略选择的影响,其他条件不变,在监管者选择“懈怠监管”被发现所处罚金初始值F1=3.0的基础上,再取F1为1.0,1.5,2.0,2.5,3.0,3.5;同样的,矿工选择“不安全行为”被发现所处罚金F2为0.5,1.0,1.5,2.0,2.5,3.0,相应的群体策略选择演化路径如图5所示。 图5 不负责行为惩罚金对群体双方的影响Fig. 5 Effect of irresponsibility behavior penalty on both groups 随着分别对双方不负责行为惩罚力度的增加,两类群体分别收敛于“严格监管”和“安全行为”,且收敛速度随着惩罚金的增大而增加。由于文中没有考虑惩罚力度过高带来的群体逆反心理等因素造成的惩罚失效情况,因此惩罚力度应该根据实际情况调整,避免过高使得效果适得其反。文中监管者和矿工各自的不负责行为分别存在一个最优惩罚力度F1=3.0和F2=2.5。 安全效益的重要性一直为上级政府所提倡,颁发了一系列对矿工、监管者安全生产、管理的奖励政策。为研究监管者选择“严格监管”获得的安全奖励力度大小对其策略选择的影响,在其他条件不变的情况下,当安全奖励E1为1.0、1.5、2.0、2.5、3.0、3.5,监管者策略选择演化路径如图6 a所示。同样,当矿工安全奖励E3为0、0.5、1.0、1.5、2.0、2.5、3.0,其策略选择演化路径如图6b所示。 图6 安全效益提升奖励对群体双方的影响Fig. 6 Effect of safety efficiency promotion reward on both groups 由图6 a可知,随着奖励力度的提升,监管者收敛于“严格监管”,收敛速度随着奖励力度的提升而增大,当然政府付出过高的成本在安全效益的提升上也是不现实的,因此对于监管者存在一个最优状态下的奖励力度E1=2.5。 由图6 b可知,随着对矿工奖励力度的增大,收敛于“安全行为”的速度越快,不同的是,尽管当奖励E3=0,即此情况下不对矿工进行奖励,矿工仍然倾向于选择“安全行为”,因此得出,在给定适当的“安全行为”成本、“不安全行为”惩罚等因素的条件,对矿工的奖励不是促进矿工向“安全行为”演化的关键因素,但可以提高其向此策略收敛的速度,因此适当的奖励可以与惩罚等各因素配合,使策略向最优状态演化的效率提高。 (1)监管者与矿工安全意愿的提升是互相促进的。企业应尽可能为员工创造良好的安全生产条件,使员工能够身心舒适地进行工作,矿工作为煤矿安全生产的直接实施者,更要加强岗前安全意识培训,并不断提高自身专业水平。 (2)博弈系统应当尽可能收敛至{严格监管,安全行为}。在矿工选择“安全行为”的情况下,监管者选择“严格监管”获得的收益大于选择“懈怠监管”的收益时,博弈双方收敛于理想最优策略,因此应加强对监管者“严格监管”的激励,适当提高“严格监管”收益,控制“懈怠监管”的额外收益尤为重要。 (3)“严格监管”以及“安全行为”策略的成本对博弈双方向理想最优策略演化起关键作用。结合煤矿安全管理的实际,成本过高势必导致双方不负责行为的出现,在保证安全效益的前提下尽可能低的控制成本是相关部门关注的重点,企业应当加强矿工专业技能的培训,加强对监管者安全意识的培养,降低其实施安全策略的成本。 (4)一味地增强相应的奖励和处罚力度并不能使系统处于最优状态。相关部门予以适当力度进行奖惩结合,采取经济奖励与精神鼓励并存的策略有效提升企业对不安全行为的控制水平。为此,对于企业应当具备系统的安全操作规范及管理制度,加强对违章操作矿工的监管,使违章矿工知悉一旦违章被发现就会受到相应处罚,加强监管者遏制不安全行为的执行水平。其次,加强员工的安全培训教育,让员工知晓并执行安全规范,并意识到不安全行为的代价。再次,营造良好的安全文化氛围,对于遵守行为规范的矿工群体,明确其会受到的表彰及好处,有利于控制其他矿工的不安全行为,进而共同拥有良好的安全行为规范。4 数值模拟
4.1 初始参数赋值下的策略演化
4.2 理想策略成本对群体的影响
4.3 不负责行为惩罚金对群体的影响
4.4 安全效益提升奖励对群体的影响
5 结 论