动态成本特征下的散乱污染源治理演化博弈研究

2022-02-14温丹辉丁守宏孙振清

生态经济 2022年2期

温丹辉，丁守宏，孙振清

（天津科技大学经济与管理学院，天津 300222）

党的十八届五中全会后，“绿色”成为新发展理念之一，各项环保措施被严格实行，取得了良好成效[1]。全国生态环境质量持续改善，重点工业企业的污染物排放持续下降[2]，不过仍有一些监管难点。中央环保督察“边督边改”公开信息显示[3]，当前环保问题突出表现为工地扬尘、喷漆异味、货车尾气、餐饮油烟、垃圾堆放等散乱污染。散乱污染并没有严格定义，《京津冀及周边地区2017年大气污染防治工作方案》中将污染源分为重点排污单位和“小散乱污”两类，重点排污单位主要指大中型企业，“小散乱污”主要指环保不达标的小型企业[4]。管理实践中，“小散乱污”企业与工地扬尘、机动车尾气（尤其是大中型客货车辆）、餐饮油烟等往往被统称为“小散乱”污染源。2017年两会期间，有委员代表提出，“小散乱”污染源具有单个体量小、类型众多、空间上分散、时间上无序、排污主体难把握等特征，与重点污染源相比管控难度更大，但其对大气污染的贡献总量不可忽视，现阶段我国大气污染防治的重心应当由管控较大污染源向“小散乱”污染源全面管控适度转移[5]。2020年生态环境部列出的12项重点工作中提出要持续整治“散乱污”企业，深入推进柴油货车污染治理。可见，国家对“小散乱”污染源的治理工作正在持续深入，但也面临一系列困难，本文针对具有上述小散乱特征的污染排放管制问题展开分析与讨论。

1 研究综述

环境治理涉及不同主体之间的博弈关系。博弈关系不仅存在于管制者与被管制对象之间，还与环境监管制度相关。环境监管体系包含国家、科层制、问责制等多重制度逻辑[6]，中国地方监管机构遵循“属地管理”原则[7]，环保部门的环境目标通过逐级分包下来后，下级环保部门与上级部门往往存在区域合作治理关系，可能存在“讨价还价”和“运动式执法”等问题[8-9]。另外，监管机构监管策略选择还受到第三方监管、环保税等多种外部因素制约[10-11]。

演化博弈模型是适宜的研究方法。Smith & Price[12]使用演化博弈（evolutionary game）模型研究了不同群体之间驱动力的相互反馈作用，并明确了演化稳定策略（evolutionarily stable strategy，ESS）这一基本概念。与经典博弈的区别在于，演化博弈是基于有限理性假设的：决策者囿于时间和能力，无法获取完全的长期决策信息，只能根据已有的收益信息不断调整策略[13]。Taylor & Jonker[14]提出的“复制者动态方程”是演化博弈中表现学习策略较好的一种方式，该方程假设博弈参与者纯策略的增长率与其适应性成正相关并通过微分方程进行求解。之后，研究者将演化博弈模型运用到多个领域，绿色发展与环境保护是研究热点之一[15-18]。

不少研究采用固定收益假设来分析监管者与污染者之间的均衡策略。在固定收益假设下，中心点位置通常不是演化博弈的ESS，研究者往往关注如何使得环境治理博弈收敛于“政府百分之百监管，企业百分之百治污”的理想结点位置[19-21]。这些结论有一定局限性：在现实中，监管机构检查概率不可能达到100%，除非不惜代价完成政治高压任务[22]。而即便惩罚力度很大，也总会有污染者试图违法排污，故实际的均衡点往往依概率收敛于某个中心位置。

因此，有不少研究者关心中心点位置的治污概率以及如何加强策略稳定性，包括讨论了初始策略对中心点位置收敛性的影响[23]，修订了研究假设并引入了动态收益或成本函数，即在收益矩阵中参与者的策略收益不是常数，而是与双方策略概率相关。蔡玲如等[24]为了改善对排污收敛条件提出实施动态惩罚机制，Tian等[25]采用系统动力学方法讨论动态补贴机制对绿色供应链的影响。胡震云等[26]采用对总效用函数求导的方法得到了动态支付函数；何为等[27]利用“环境生产函数”求偏导函数的方法得到动态支付函数，讨论了考核政策对下级监管机构与散乱污染源演化博弈收敛条件的影响，提出了“环境管理效应”的概念并研究其对于博弈结果的影响；温丹辉等[28]设定了关于强激励、目标考核和问责制的动态函数，讨论行政发包制度对大气污染治理的影响。这些研究在设置动态收益函数时，主要考察污染者边际收益和边际治污成本，或者考察对监管者的动态奖惩机制，但很少对监管行为成本特征展开讨论，也极少针对散乱污染源治理的研究。

散乱污染源主要特点在于其分布广泛、数量庞大，监管难度高。这种特征可以表现为监管者的检查成本递增。不同产品的成本特征存在差异性：有些产品具有规模经济效应，边际成本呈下降趋势；某些产品由于资源稀缺性原因，边际成本呈上升趋势。散乱污染源监管虽然是公共服务，但由于污染源数量多、分布广，难以做到全面覆盖，只能进行抽检，例如，在路面上随机设卡检查大货车的排放[29]，并且工作强度随着抽查密度增加而增大，闲暇时间价值上升，检查成本将随之上升。本文通过设定动态的检查成本来模拟该成本特征，并研究此成本特征影响下的策略及均衡状态的变动情况，并提出相应对策。

2 散乱污染源治理演化博弈模型

2.1 模型构建

监管机构策略简化为两种：“检查”“不检查”，假设监管机构选择“检查”的概率为p，选择“不检查”的概率为1-p；散乱污染源（污染者）的策略简化为“治污”和“排污”，“治污”的概率为q，“排污”的概率为1-q。成本收益假设如下：

（1）正常收益：监管机构采取不检查策略的正常收益为零，污染者治污策略的正常收益为零（实际上两者皆不为零，将其设定为零是为了简化模型结构。博弈支付函数的正仿射变换（positive affine transformation）不影响复制者动态方程结构，即某一个常数加入支付矩阵的某一列，则复制者动态前后不变。

（2）检查成本：监管机构对污染者的检查成本为D，D＞0。根据散乱污染源的特征，设定D为递增函数，则有：

式中：A＞0，A为检查的固定成本，主要表现散乱污染源的地域分布特征，污染物分布偏远时，A较高；k＞0，可将k理解为污染源的数量特征，当污染源数量非常大时，k值较高。监管者的检查成本将随检查概率p快速上升。

（3）排污收益：污染者的额外排污收益（即省下的治污成本）为E，E＞0。

（4）排污惩罚：污染者排污被查获时就会被实施处罚F。设定F＞E，否则污染者没有治污动力。

（5）监管正激励：监管者查获排污行为将得到正向激励B，B＞0。

（6）监管负激励：监管机构疏于监管会得到来自上级和外部的负向激励C，C＞0。

收益矩阵如表1所示（监管机构收益在前）。

表1 监管机构与污染者的博弈收益矩阵

经典的不对称演化博弈假定博弈群体均为同质大样本，且群体间随机配对。在此，由于一个地区的污染者群体通常只面对一个监管机构，因此对复制者动态过程修改假设，假设污染者进行相互学习，监管者进行自我学习，依据上期收益情况改变本期策略。复制动态与演化博弈策略如下：

地方监管机构选择“检查”“不检查”策略的期望收益分别为U1和U2，则有：

污染者选择“治污”和“排污”策略的期望收益分别为V1和V2，则有：

采用复制者动态方程，演化速度用微分方程形式表示为：

2.2 均衡解计算

其中，称p6为均衡监管概率，按此概率实施监管，污染者选择“治污”和“排污”策略的收益无差异。系统演化稳定策略只有X4、X5、X6，证明如下。

李雅普诺夫系统稳定性判据：当Jacobi矩阵特征根的实部均为负值时，零解为系统演化博弈均衡点；当特征根实部至少有一个为正时，零解不稳定；特征根实部为0时，为临界状态，需计算高阶导数或可进行数值模拟。

演化系统Jacobi矩阵为：

命题1：X1、X2、X3不是演化博弈ESS；当B+C＜A时，X4为演化博弈ESS。

证明：将X1=(1, 1)、X2=(0, 1)、X3=(1, 0)、X4=(0, 0)分别代入J，则：

由于E＞0，F＞E，A＞0，k＞0，X1、X2、X3至少有一个特征根非负，不是演化博弈ESS。当B+C＜A时，X4的特征根均为负，为演化博弈ESS。命题1得证。

命题2：当A＜B+C＜A+kE/F时，系统均衡点为X5。

证明：将X5=(p5,q5)代入J，计算J(X5)的特征根并化简如下：

由于A＜B+C＜A+kE/F，有0＜p5=(B+C-A)/k＜E/F＜1，因此，λ51＜0。

此时，X5的特征根均为负，为演化博弈ESS。命题2得证。

命题3：当B+C＞A+kE/F时，X6为演化博弈ESS。

证明：将X6=(p6,q6)代入J并化简矩阵元素，有：

其特征根方程为：

将4p6q6(1-p6)(1-q6)(B+C)F＞0代入式（15），可得J(X6)的特征根λ61、λ62实部为负，X6为演化博弈ESS。命题3得证。

命题1～3得到了除临界点B+C=A，B+C=A+kE/F以外的所有ESS。经数值模拟，临界点系统稳定策略仍收敛于上述位置。因此，系统ESS只有X4、X5、X6，分别命名为：完全失效情形、隐形失效情形和常规情形，总结如表2。

表2 系统的演化稳定策略

3 分析与讨论

3.1 完全失效情形

X4对应散乱污染源监管的完全失效情形。本情形下（B+C＜A），监管者无作为而污染者随意排污，原因在于检查成本A过高、激励水平（正激励B和负激励C）较低，因此监管者缺乏监管动力。完全失效情形通常发生于那些在监管者难以有效覆盖的区域，例如偏远山村居民薪柴燃烧引发的大气污染。如果不是执行专项任务，这些领域基本处于零监管状态。完全失效情形（E=2，F=8，B=4，C=2，A=7，k=1）下散乱污染源监管演化博弈趋势如图1所示。

图1 完全失效情形下散乱污染源监管演化博弈趋势

3.2 隐形失效情形

X5对应散乱污染源监管的隐性失效情形。与X4点对应的完全失效情形不同，由于监管者面临的激励水平较高（B+C＞A），故监管者会采取监管行动，因此，外界观察到监管者在努力工作，但污染者不会采取治污策略，因此我们称之为“隐形失效”。隐形失效的原因是污染源过于分散，即k＞（B+C-A)F/E），检查成本快速上升使得监管概率无法达到均衡概率水平p6=E/F，此时污染者“排污”策略收益高于“治污”策略收益，因而全部选择“排污”策略，如货车尾气治理往往处于隐性失效状态。隐性失效情形（E=2，F=8，B=4，C=2，A=2，k=15）下散乱污染源监管的演化博弈趋势如图2所示。

图2 隐性失效的散乱污染源监管演化博弈趋势

3.3 常规情形

X6对应常规情形。常规情形下，监管者以均衡监管概率p6展开监管，污染者以概率q6进行治污。常规情形下我们主要关注两点：

首先关注如何提升治污概率，均衡治污概率由公式（8）给出。

其次关注策略收敛性问题。为了更好地观察收敛趋势，我们引入随机项u和v，则有：

式中：u和v为独立的一维标准布朗运动，模拟博弈过程中随机因素的影响。给定时间t，u(t)和v(t)服从正态分布N(0,t)，du(t)和dv(t)服从正态分布N(0, Δt)。p(1-p)和q(1-q)表明，当p和q为1/2时，随机因素影响最大。

不同成本特征下散乱污染源治理会出现治污概率低下和策略收敛性较差（执法运动）两种问题。

问题一：治污概率低下。在检查成本较高的区域（A值和k值较高，一般为城乡接合部或者农村地区），企业的治污策略收敛于较低水平。较高检查成本地区（E=2，F=8，B=4，C=2，A=3，k=2）演化博弈趋势如图3所示。

图3 较高检查成本地区常规情形演化博弈趋势

问题二：策略收敛性较差。检查成本较低的区域（A值和k值较低，一般为污染源集中区域），监管者可以通过高密度检查短期内获取高额收益，随着污染者排污行为减少，监管者实施“检查”策略的平均获益下降，就会降低检查频率，直至违法水平提升，如此循环往复。较低检查成本地区（E=2，F=8，B=4，C=2，A=1，k=0.5）演化博弈趋势如图4所示，在随机因素影响下，策略呈现明显的执法运动状态。

图4 较低检查成本地区常规情形演化博弈趋势

3.4 改善措施

监管完全失效的主要原因在于污染源地处偏远导致固定检查成本（A值）太高，监管行动得不偿失。因此，需要依靠技术进步手段（例如无人机）降低固定检查成本。

监管隐性失效的主要原因在于污染源空间分布广泛，检查成本随着监管密度迅速上升（k值大），排污行为被惩处的概率很低导致污染者选择排污策略。除了采用技术手段降低k值以外，另一个有效手段是提升违法处罚F，从而使得B+C＞A+KE/F。

常规情形需要解决治污概率低下和策略收敛性较差的问题。较高检查成本地区容易出现治污概率低下的情况。由公式（8）可以看到，提升处罚水平F和激励水平B、C，降低不变检查成本A和成本系数k可提升治污概率q6。

较低检查成本地区出现策略收敛性问题的原因在于监管者面临低收益水平时具有降低监管频率的冲动，动态监管激励可以抑制这种冲动从而改善策略收敛性[25]。将负向激励C改为动态形式：

式中：α表示外部监督的强度；(1-p)(1-q)为漏检违法企业数量；λ＞0表示监管部门面临的负向激励不是常数，而是与漏检违法企业数量正相关。这是一种惩治落后的监督机制，例如在环保督查机制下漏检违法企业数量较多的将会被问责，因此抑制了监管者降低监管频率的冲动。

在图4的基础上，按公式（16）改变C的形式，取λ=1，α=20（负向激励水平与原有水平相当）后展开数值模拟，演变趋势如图5所示，博弈双方的策略收敛性得到显著改善。

图5 引入动态激励后监管机构和污染者的演化趋势图

4 结论

通过引入动态检查成本并构建散乱污染源治理演化博弈模型，本文讨论了不同检查成本下散乱污染源监管的均衡策略与收敛性问题。计算结果表明，动态检查成本约束下散乱污染源监管会呈现完全失效、隐性失效和常规情形三种均衡状态。

进一步分析后可知，散乱污染源监管完全失效是由于固定检查定成本过高，从而出现“无监管、无治理”的情形；隐形失效是因为变动检查成本过高，检查概率无法到达均衡水平从而出现“有监管、无治理”的情形；在常规情形下，较高的检查成本导致治污概率低下，较低的检查成本可以实现高水平治污，但需要防范周期性反弹现象。

根据计算、模拟与讨论，针对散乱污染源治理提出政策建议如下：

（1）应积极推广新技术以降低检查成本。散乱污染源分布广、数量多、检查成本高、抽检概率低，容易出现完全失效和隐形失效情形。目前重点污染源很多都安装了在线监测设施，但散乱污染源治理仍主要依靠人工抽检。因此，很有必要引入新的技术手段（例如信息技术和无人机监控取证手段）来降低检查成本，防止监管失效。

（2）应提升违法处罚水平以降低监管所需要的均衡概率。国家治理散乱污染由来已久，但有些违法排污的处罚措施仍沿用20世纪末的标准，例如机动车排污处罚上限通常为200元。由于较低的违法处罚需要较高的均衡监管概率，容易导致隐形失效问题，因此，有必要较大幅度提升散乱污染源的违法处罚水平。

（3）坚持环保督察常态化以防止污染反弹。降低检查成本容易陷入“运动执法”、污染反弹的情形，因此，应引入环保督察动态激励机制改善策略收敛性，防止污染反弹。

猜你喜欢

监管者污染源情形

固定污染源精准治理系统中信息技术的集成应用与效果研究