在有无主动干预两种状态下大气治理的演化博弈分析及调控建议

2021-04-10马国顺岳高峰

山东师范大学学报(自然科学版) 2021年1期

李鑫马国顺朱熙岳高峰

(1)西安航空学院理学院，710077,西安； 2)西北师范大学数学与统计学院，730070,兰州；3)西北工业大学数学与统计学院，710129,西安； 4)甘肃省临夏州气象局，731100，甘肃临夏)

1 引言

随着我国经济的快速发展和工业化水平的稳步提升，人们享受着经济发展带来的诸多便利.同时大气的污染以及温室气体的过量排放也变得愈加严重.据2018年中国部分城市空气质量报告显示，我国北方大部分城市空气质量达标天数未达到国家标准，其中6项空气指标仅有少部分城市能够达标，PM2.5的污染十分严重，普遍超过国家标准的50%[1].空气污染不仅损害了国民的身体健康，而且也阻碍了社会经济的发展.有数据显示，我国空气的主要污染源是工矿企业排放的废气、建筑工地扬尘和汽车尾气等[2].如果这种污染趋势得不到有效控制，势必将影响我国居民的日常生活和工农业生产，最终将导致国家经济遭受损失.

许多学者针对我国空气污染问题做了大量卓有成效的研究工作，他们从不同角度对空气污染问题进行了探讨.赵洪宇等人[3]在总结前人相关研究成果和气象数据的基础上，得出了雾霾天气形成的原因并根据空气污染的主要成分提出在燃煤电厂推行烟气脱硝减排技术.邬娜等人[4]提出从健全优化大气环保产业链的角度来预防和治理大气污染.胡恒星等人[5]以湖北鄂州市区大气监测数据为例，分析了大气变化趋势，提出了在主城区调整工业布局、推进燃煤锅炉节能改造项目等措施.这些措施为治污减霾工作提供了行之有效的解决方法，在一定程度上减轻了大气的污染.但是，这些研究大多集中在污染物防治和产业结构调整上，政策的执行都需要博弈参与人的自觉性和主动性作为支撑.然而，人的自觉性和主动性需要一定的奖惩机制加以引导和约束，因此从监督机制本身进行设计和研究就更加值得关注.考虑到人自身行为因素的多样性和博弈理论自身所具有的行为引导性，应当以博弈论作为理论基础进行模型的设计与仿真，这样才能够更加高效和准确地指导人们的现实行为.近些年，许多学者运用博弈理论对大气污染问题做了许多卓有成效的研究工作.洪睿等人[6]对排污企业及企业与环保部门进行博弈分析，提出了通过构建高效的管理和运作机制来提高环保部门的环境监管效能，降低环保部门的社会监督成本等措施.薛俭等人[7]建立了大气污染治理的合作博弈模型，给出了治理费用的分配办法，验证了治理费用的合理实施将有助于有效控制大气污染，改善生态环境.马国顺等人[8]从企业与企业、企业与政府两个角度运用演化博弈理论分析了构建低碳经济的主要影响因素.谢伟等人[9]建立了大气污染防治过程中政府与企业之间的信号博弈模型，在模型的演化结果中提出政府对于不同的企业排污问题应采取不同的对策.岳书敬等人[10]针对地方政府的部分排他性特征进行演化博弈分析，提出了促进地方政府跨区域联防机制建立的影响因素.孙蕾等人[11]根据京津冀环保数据，利用模糊博弈Shapley值算法获得各级政府的治污成本分摊方案，得出了治污总成本数额越大，模糊博弈的参与方的参与度就越小.这些研究工作大多都是从监督方与被监督方自身在模型中的收益出发，探究参与方策略选择与系统演化方向的量化关系，从而提出有利于空气污染治理的模型设计及奖惩机制.完全理性的经典博弈模型要求博弈双方均具有完全理性的特质，在此基础上进行策略选择，最后得出模型的演化结果.但是对于自然人而言，不可能在博弈过程中总保持喜怒哀乐之未发的完全理性状态.

在监察博弈模型中，由于博弈双方往往不能完全获取对方的策略选择及关于信息的收集程度，因而该模型具有不完全信息的特征.现实情况中博弈双方都是以追求自身利益最大化为目标的有限理性人，因此监察过程与完全理性情况下的经典博弈有所不同.而演化博弈是一个不断学习、持续沟通和反复博弈的过程，最终将达到一种动态平衡，即演化稳定策略.相对博弈分析的理论基础而言，演化博弈模型比经典博弈模型能更好地刻画出博弈双方在大气污染防治进程中的策略选择行为，也可以为环保监察部门的行为选择提供更为科学的理论依据.因此，运用演化博弈理论构建大气污染治理的监察模型更符合人的本质属性.考虑到监察模型的指导意义和实用性，应该建立演化博弈模型对大气污染治理进行分析及调控.下面给出演化博栾模型和公式中用到的物理量及单位(表1).

表1 公式中各符号的物理意义及单位

2 正常状态下的监察博弈模型

2.1博弈假设与分析博弈的参与方有两个：一方为废气排放企业，简称企业；另一方为环保监察部门，简称监察部门.企业种群在国家环保政策法规下，可供选择的策略有两种：第一是采取环保原材料及符合环保标准的生产工艺进行生产，实现规范排污，简称达标.第二是企业为了减少生产成本，采用不符合国家环保标准的原材料以及不规范的生产工艺进行生产，生产加工过程达不到国家要求的排放标准，简称不达标.企业种群的策略空间为{达标，不达标}.监察部门种群的策略有两种：第一是通过专业技术手段和信息渠道监测企业的排污情况；第二是对企业的排污行为置之不理；环保监察部门的策略空间为{监察，不监察}.

假设监察部门对该企业进行监察的成本为C，监察部门对排污企业认真实施检查工作，在正常情况下一旦发现企业有违规情况即会进行依法查处.排污企业按国家相应标准对污染物进行二次治理需要投入成本P，监察部门种群进行排污监察时，企业若实现规范排污，国家将给予一定奖励J.由于监管企业排污情况是监察部门的本位职能，该工作不会产生收益.如果监察部门种群履行了本位职能，生产企业仍发生社会污染事故，则监察部门将不受到处罚.倘若监察部门不作为或因其它因素不对企业进行有效的监督，可以节省监察成本C.此时由于监管部门不作为发生了严重的污染事故，监察部门将受到处罚D.同时，假设企业正常生产收益为r；污染物排放不达标企业发生严重污染事故的概率为f；如果发生污染事故，企业受到的处罚以及造成的形象和声誉损失和为H.倘若企业不规范的排污行为被监察部门查处，企业受到的处罚为F，则企业的总收益可表示为r-f·H-F，此时监察部门的收益为F.若监察部门不积极履行本位职能，则其收益为C-f·D，此时企业收益为r-f·H.该模型的支付矩阵如表 2 所示.

表2 规范排污监察博弈的收益矩阵

由支付矩阵特征可以看出，该模型为双种群非对称演化博弈模型，企业群体与监察部门群体在每一轮的博弈中进行随机策略配对，博弈双方的学习现象和策略模仿技能仅局限于自身群体的内部，通过不断地“纠错”学习而最终达到群体收益的最大化.假设企业群体当中达标企业的比例是x，采用不达标策略企业群体的比例为1-x；认真实施监督职能的环保监察部门比例为y，采用不监察策略的监察部门比例为1-y.那么，企业群体采用达标和不达标策略的适应度以及种群平均适应度分别为

u1e=y(r+J-P)+(1-y)(r-P),

(1)

u1n=y(r-f·H-f·F)+(1-y)(r-f·H),

(2)

(3)

企业选择达标策略的复制动态方程为

(4)

监察部门采用监察、不监察策略的适应度和群体平均适应度分别为

u2s=(1-x)F=F-x·F,

(5)

u2n=x·C+(1-x)(C-f·D)=C-f·D+x·f·D,

(6)

(7)

监察部门群体采用监察策略的复制动态方程为

(8)

下面对演化稳定策略进行稳定性分析：演化均衡中平衡点的稳定性由该系统的雅克比矩阵(Jacobian Matrix)的局部分析得到,该系统的雅克比矩阵为

表3 雅克比矩阵的局部分析结果

由此可以得到复制动态方程的相位图，如图1所示.

图1 正常情况下的复制动态相位图

由于E1和E4的行列式的值均大于零，迹均大于零，所以E1和E4是不稳定的源出点.E2和E3的行列式的值均大于零，迹均小于零，所以它们是稳定的汇入点，E5是鞍点.假设在图1中，由E1E3E4所围成的三角形区域为C区域，由E1E2E4所围成的三角形区域为D区域.由雅克比矩阵分析可知，E2和E3是该系统的演化稳定策略(ESS).系统最终收敛到E2还是E3取决于该系统的初始状态，即x与y的初始值.当系统的初始状态落在D区域时，则系统将会收敛到E2，即所有生产企业都为不规范排污，所有监察部门都选择监察.当初始状态落在D区域时，系统将收敛到E2，即所有企业规范排污，所有监察机构选择不监察.由此可知，在约束的条件下检查模型将会向两个方向演化，一个是所有企业不规范排污，所有监察机构选择监察.另一个是所有企业排污，所有监察机构选择不监察.考虑到现实情况，期望系统的演化方向是点E2(1,0)，即企业规范排污，监察机构不普遍监察，这样既节省国家监察成本，又能够保护生态环境，这是本模型所期望的演化稳定点.

首先讨论模型参数对演化结果的影响，分三种情况考虑.

2)当P>f·F+f·H+J时，即企业为实现排污达标所需投入的资金大于排污不达标时的期望污染事故损失与实现排污达标时的可能奖励及不达标时的罚款的三者之和.此时系统的稳定点为x*=0,x*=1，演化稳定策略均衡点为x*=0，即所有的企业将演化为不主动采取规范排污的策略.

3)当f·H≤P≤f·F+f·H+J时，即0≤(P-f·H)/(f·F+J)≤1，也就是说企业为实现排污达标的成本大于或等于不达标时期望污染事故损失与小于或等于污染事故损失、不达标时的罚款和规范排污奖励的三者之和.当y=(P-f·H)/(f·F+J)时，dx/dt≡0，这意味着x轴上的任意点均为稳定点，也就是说都是稳定状态.当y≠(p-f·H)/(f·F+J)时，则x*=0,x*=1分别是两个稳定状态，其中当y满足0

然后再讨论环保监察部门的复制动态方程，分两种情况考虑.

2)当C≤F+f·D时，0≤C/(F+f·D)≤1，即环保监察成本小于等于其罚款分红与不执行监察时的期望损失之和.当x=1-C/(F+f·D)时，dy/dt≡0，这意味着y轴上的任意点均为稳定点，即都是稳定状态.当x≠1-C/(F+f·D)时，则y*=0,y*=1分别是两个稳定状态，其中当x满足1-C/(F+f·D)

2.3结果分析治理大气污染是一项艰巨而又复杂的任务，污染治理的成效受到多方因素的影响，本节构建了无政府主动干预下的演化博弈模型，分析了5种参数关系的演化稳定策略，得出了如下结论.

1)企业群体主动遵守环保法规的意愿与企业实现排污达标获得的奖励、废气治理成本、排污监督力度、污染事故的期望损失以及事故发生概率有直接联系.

2)对不达标企业的处罚力度、达标企业的奖励额度以及发生污染事故企业的损失(如声誉损失、民事责任和刑事责任等)都与企业实现排污达标的概率呈非线性正相关关系.

3)在其它参数给定的情况下，当达标企业的比例大于常数1-C/(F+f·D)时，排污不达标易发生污染事故的企业更愿意实现排污达标.

4)监察部门不作为现象的处罚力度与污染事件发生的概率呈现负相关性.

5)监察部门积极履行监察工作的主动性与监察收益、罚款红利存在正相关关系.降低监察成本未必能促使监察部门加大监察力度，监察成本的增加却会影响监察部门认真监察的积极性和主动性.

3 异常策略侵入下的排放监察博弈

上一节在自然状态下，模拟了排污企业与环保监察机构两个种群的交往策略，分别讨论了5种情况下的稳定点分布情况，在每种情况中揭示了博弈各方的最终策略.本节主要研究存在异常策略侵入下的监督博弈模型及系统稳定点的分布.

3.1演化博弈模型系统支付矩阵的假设如下:排污企业按国家相应标准实现排污达标需要投入资金P，监察部门正常的监察成本为C.监察部门进行排污监察时，如果发现企业按照国家环保标准规范排污，则立即给予经济奖励J(正常情况下，JC).假设排污企业正常生产收益为r(其中r>p)，企业选择排污不达标策略并且对监察部门实施贿赂，金额为A(其中AP).博弈双方的收益矩阵如表4所示.

表4 存在策略变异时废气排放监察博弈收益矩阵

由收益矩阵可以看出，该博弈属于非对称博弈，应运用非对称博弈的框架进行分析.参与博弈的种群如下：监察部门种群和排污企业种群，在每轮博弈中选择的策略随机配对，博弈双方的策略模仿与学习情况仅局限于自身种群，策略调整的机制由两博弈方的复制动态系统控制.假设企业种群采用达标策略的比例为x，采用不达标策略的企业比例为1-x；采用监察策略的监察部门比例为y，采用不监察策略的监察部门比例为1-y.由此可以得出，企业种群的平均适应度为

u1e=y(r+J-P)+(1-y)(r-P),

(9)

u1n=y(r-f·H-A)+(1-y)(r-f·H-A),

(10)

(11)

企业种群选择达标策略的复制动态方程为

(12)

监察部门种群采取监察、不监察策略的适应度及该群体的平均适应度为

u2s=(1-x)A,

(13)

u2n=x·C+(1-x)(C+A-f·D),

(14)

(15)

监察部门种群选择监察策略的复制动态方程为

(16)

3.2参数对系统演化的影响首先讨论排污企业的复制动态方程，分三种情况考虑.

1)当P

2)当P>f·H+A+J时，即排污不达标时的期望损失、排污达标时的奖励以及企业贿赂成本三者之和小于企业规范排污所投入的成本.易知系统的稳定点为x*=0,x*=1.根据雅可比矩阵的行列式和迹的值可知，x*=0为系统的演化稳定策略.这表明当企业排污成本大于常数f·H+A+J时，企业主动治理排污的积极性将不断降低，贿赂监察部门的主动性将不断增强，并且种群策略侵入的速率与P-(f·H+A+J)的值呈正相关关系.

3)当f·H+A≤P≤f·H+A+J时，即0≤(P-f·H-A)/J≤1，也就是说企业为实现排污达标的成本不小于不达标时期望污染事故损失，不大于排污不达标时的罚款与不达标时的期望损失以及达标时的奖励的三者之和.当y=(P-f·H-A)/J时，dx/dt≡0，这表明企业种群的策略侵入将停止.当y满足条件y≠(P-f·H-A)/J时，x*=0,x*=1分别是两个稳定状态，其中当y满足条件0

然后再讨论监察部门种群的复制动态方程，分两种情况考虑.

1)当C>f·D时，监察部门的处罚期望小于监察成本，系统的稳定点为y*=0,y*=1，根据雅可比矩阵的迹与行列式，该系统的演化稳定策略为y*=1，即监察部门将选择接受贿赂不认真履行监察工作.

2)当C≤f·D时，即0≤(f·D-C)/f·D≤1，监察部门的监察成本不大于监察部门的处罚期望.当x=(f·D-C)/f·D时，dy/dt≡0，监察部门种群的策略选择趋于稳定.当x≠(f·D-C)/f·D时，则y*=0,y*=1是系统的两个稳定点.当0

3.3结果分析本节讨论了存在异常行为的排污监察模型，同时分析了5种情形下博弈双方的演化稳定策略，根据系统的演化结果，可以得出以下结论.

1)企业实现排污达标的概率与其实现排污达标的成本呈负相关关系，即成本越大，企业实现排污达标的概率越小，当监管处罚变量F下降到一个稳定点，即F*=r-f·H的时候，企业种群愿意实现排污达标的积极性会下降，贿赂监察部门的主动性会上升.与此同时，当大部分企业选择贿赂策略时，贿赂成本会逐渐上升，由于高额的贿赂成本，部分企业采取规范排污的积极性又有所恢复，随着贿赂成本继续上升，一部分采取贿赂监督部门的企业会转而选择规范排污策略.

2)排污企业实现排污达标的概率与贿赂成本、排污不达标时的期望损失以及实现排污达标时的奖励呈正相关关系，即随着贿赂成本提高、排污不达标时的期望损失增长及实现排污达标时的奖励上升，企业实现规范排污的主动性会快速增长.

3)当监察部门种群中采取监察策略的比例高于常数(P-f·H-A)/J时，企业种群规范排污的策略将会逐渐侵入整个种群；当监察部门监察的比例低于常数(P-f·H-A)/J时，企业种群实现规范排污的比例会渐渐趋于 0.

4)监察部门监察的力度与监察部门的期望损失呈正相关关系.即国家加大对环保部门的工作督察，媒体加大对地方污染事件的曝光力度，环保腐败事件举报渠道更加多样化，这些措施都会提升环保部门的监督力度，使得监察博弈系统向良性方向演化.

5)规范排污企业的群体比例小于常数(f·D-C)/f·D时，监察部门应当选择加大监察力度.当规范排污企业比例大于(f·D-C)/f·D时，监察部门可以选择降低监察力度,因为此时不规范排污企业逐渐向规范排污企业进行演变.

4 数值仿真

为了寻找有异常策略侵入状态下系统的演化规律，对影响排污企业与监察机构策略选择的参数进行仿真模拟和演化分析，分四种情况进行讨论.

1)排污达标企业所占比例对整个系统演化方向的影响(图2).在满足模型假设的前提下给出参数取值，P=1.3,C=0.6，J=0.4，D=2.5，r=2.7，A=0.5，f=0.45，H=5.1.如图2所示，在系统的x=0.2和x=0.3处取4个观测值，可以看出当x=0.2时，y值在增加过程中，系统中会出现一个阈值y∈(0.35,0.40)，如图2(a)所示.当选择监察策略的监察部门比例大于y时，系统的演化稳定点为(0,1)，即企业选择不规范排污、监督部门选择监察.另外，当x=0.3时，系统演化的阈值变化为区域y∈(0.28,0.33)，如图2(b)所示.根据阈值的变化情况可知：该模型最终的演化均衡点与系统的初值状态有密切关系，因此可以通过人为干预初始状态使得系统向所希望的方向演化.建立一个完善合理的奖惩机制，对大气治理的效果将至关重要.

图2 选择排污策略不同比例的企业对系统演化的影响

2)讨论因排污不达标而发生社会污染事故的概率f对企业采取规范排污行为演化的影响(图3).选定规范排污企业在x=0.3处进行分析，这里取初值f=0.45，其它参数取值与图2(b)相同.当发生事故的概率f增加到0.50时，与图2(b)相比,观测点(0.3,0.33)改变演化路径，最终收敛到演化稳定点(1,0)，此时有更多企业愿意采取规范排污的策略.从而3.3中的结论4)得到验证，即提高社会对污染事件的关注度、加大媒体曝光程度和提高博弈双方不规范排污的期望损失对企业采取规范排污策略有明显的激励作用.

图3 社会污染事故发生概率对企业规范排污行为的影响

3)国家给与合格企业的环保奖励J对企业规范排污行为演化的影响(图4).仍然选择x=0.3为例进行分析，这里取J=0.7，其它参数与图2(b)取值相同.具体如图4所示，与图2(b)相比，当政府奖励J增加0.3时，观测点(0.3,0.33)和(0.3,0.40)改变了演化路径，最终均演化为点(1,0)，因此3.3中的结论2)得到验证.

图4 国家政策奖励对企业规范排污行为的影响

4)企业贿赂成本对企业规范排污行为演化的影响(图5).仍以x=0.3为例进行对比分析，这里取A=0.9,其它参数与图2(b)相同.当A增加0.4时，观测点(0.3,0.33)和(0.3,0.40)的演化路径发生变化，演化均衡点均从(0,1)变为(1,0)，如图5所示.

图5 企业贿赂成本对企业规范排污行为的影响

与图2(b)相比，当A增加0.4时，部分选择不规范排污的企业改变了策略类型，转为选择规范排污策略,从而3.3中的结论1)得到了验证.由此可知，规范排污成本的上升会限制企业选择规范排污策略的积极性，但是贿赂成本的上升也会使得一部分企业转而选择规范排污策略，因此加大监督和对贿赂行为的打击力度、提升企业贿赂成本，将有助于系统向预期的方向演化.

5 结语

综上所述，降低企业群体的排污成本，提高环保达标企业的政策奖励，加大对不规范排污企业群体的经济处罚，提升企业的声誉损失，都会使得系统向规范排污的方向演化.在其它参数恒定的状态下，企业种群中环保技术标准过高和过低的企业更愿意执行规范排污策略，而环保技术标准中等的企业则愿意采用观望的态度，视企业自身的收益情况而制定其策略.因此需要从模型给定参数的范围上对这些企业的策略进行规范和引导.对于存在变异策略的监察博弈模型，政府对贿赂行为的打击力度直接关系到博弈系统的演化方向，增加监督部门群体对腐败和渎职行为的期望损失有助于监督部门向认真履行监察工作的方向演化.另外，监察部门进行环保监察的主动性与其监察成本呈非线性正相关关系，监察成本的降低未必会促使监察部门认真履行监察工作，但是监察成本的上升会促使监察部门监察的主动性进一步降低.与此同时，在存在变异行为的监察模型中并没有发现贿赂数额与监察成本的直接相关关系.