政府参与下零担企业参与共同配送的三方演化博弈

2022-09-29杨晨曦

科技和产业 2022年9期

杨晨曦

(兰州交通大学交通运输学院，兰州 730070)

近年来随着电商企业的发展和物流技术的进步，国内快递业务量逐年上升。2021年1至7月，全国快递服务企业业务量累计完成583.3亿件，同比增长42.9%；业务收入累计完成5 669.4亿元，同比增长24.7%[1]。但伴随着快递业的持续高增长而来的是城市环境污染、交通拥堵、二氧化碳排放过高等负面影响。“十四五”时期是国家由物流大国迈向物流强国的关键期[2]，物流业要坚持绿色可持续发展战略，采取相应措施推动绿色物流健康发展。随着产业链的不断转型升级，不少零担运输企业走向“联盟”，专线资源平台和专线网络应运而生[3]，通过共同配送能够达到化零为整的效果，消除企业之间恶性竞争带来的发展瓶颈，达成规模效益。因此，为促进国内零担运输产业升级发展，研究零担企业之间选择共同配送的行为对零担货运产业发展建设具有重要意义。

关于共同配送模式的研究一直是众多学者讨论的热点。一些学者对不同主体的共同配送系统进行研究。周小祥等[4]研究物流企业之间达成合作联盟的演化博弈系统，并利用系统动力学研究各因素对系统稳定性的影响，得出激励机制是推动联盟建立的有效措施。陆华等[5]通过对城市末端快递配送建立系统动力学模型，研究共同配送系统给城市带来的效益。于晓辉等[6]和许茂增等[7]分别研究在不确定风险下和低配送密度区域采用共同配送模式，并都分析了共同配送模式的运营方式和利益分配。一些学者对共同配送路径进行研究。李珍萍等[8]建立两层级共同配送选址-路径混合整数规划模型，并利用大邻域搜索算法对模型进行求解。任腾等[9]以各主体总支出费用最小建立路径优化模型，改进了一种遗传算法，得出采用共同配送模式可以节省支出成本的结论。付朝晖等[10]对多配送中心的共同配送路径问题进行研究，设计一种改进蚁群算法进行求解，分析得出共享配送模式能有效实现降本增效的效果。另一些学者对共同配送的利益分配问题进行研究。Liu等[11]基于最小二乘法和多余矢量的等剩余分配解对物流企业联盟的利益分配问题进行求解对比。Hezarkhani等[12]对通过集散中心进行共同配送的企业收益分配问题进行研究，并采用3种方法进行求解比较。郑小雪等[13]为避免共同配送合作博弈中出现的信息不完全问题，提出一种改进的Shapley值收益分配模型，实现了收益的合理分配。

演化博弈利用复制动态微分方程分析各博弈主体的策略行为演化过程，目前已经在各领域广泛应用。在物流配送方面，孙兴丽等[14]考虑了冷链运输企业共同配送的两方演化博弈，并分析得到了各参数对于系统演化的不同影响。祝凌瑶等[15]构建了物流企业与第三方服务平台的两方演化博弈模型，将政府参与与否作为参数加入模型中，得出政府的政策补贴行为能促进资源共享发展的结论。Liu等[16]、Gao等[17]和Li等[18]在环境治理方面对不同主体进行演化博弈分析，为政府政策提出理论依据。一些学者对三方演化博弈进行了讨论。周泽辉等[19]讨论了政府、企业和低碳服务提供商关于施行绿色低碳生产的三方演化博弈，并得出达到稳定策略的条件。李新建等[20]对生产企业、品牌运营公司和地方政府三方关于农产品区域公用品牌建设和提升中的作用进行演化博弈分析。

基于此，本文通过构建两家零担货运企业和政府参与的三方博弈模型，探讨在政府奖惩政策的参与下，两家零担货运企业选择合作策略达成共同配送模式的博弈问题，通过分析三利益主体的动态演化趋势和达成理想状态的条件，并利用MATLAB进行仿真分析，为政府部门制定相关政策提供理论依据。

1 演化博弈模型的建立

1.1 问题描述

在参与共同配送的三方博弈模型中，两家企业及政府都以自身利益最大化为目标，由于信息的不对称性和各博弈参与方都是有限理性的特点，各博弈方通过预测评估其他两方的决策再做出自己的策略行为，通过不断地进行博弈并调整自己的策略，最终得到三方都能接受的均衡策略。

1.2 假设条件

假设1：政府会因为社会效益、环境效益、环境治理成本、政府声望、监管成本和监管后罚款带来的收益等原因，自愿选择“监管”或“不监管”的行为策略，其中选择“监管”策略的概率为x，(0≤x≤1)，选择“不监管”策略的概率则为1-x。

假设2：企业会因为额外收益、合作所必须投入的前期建设成本、政府奖惩、合作后所面临的风险及原本独立经营时的收益等因素，自愿选择“合作”或者“不合作”的策略。其中两个企业都面临相同的策略选择，假设企业1选择“合作”策略的概率为y，(0≤y≤1)，选择“不合作”策略的概率为1-y；企业2选择“合作”策略的概率为z，(0≤z≤1)，选择“不合作”策略的概率为1-z。

假设3：零担货运企业进行合作共同配送时会减少由于发车过多且空载率高而引发的环境恶化，因此假设当企业同时选择合作策略时，会带来环境友好型的环境效益w，并将环境效益w纳入政府的主题收益函数中。

假设4：政府只有选择“监管”策略时才能对选择合作策略的企业进行奖励补偿，对选择不合作策略的企业进行罚款惩罚。对于惩罚机制有两种情况，不管是从未参与合作模式，还是在开始选择合作配送模式但是途中退出合作运输模式，都属于企业选择不合作的策略，都需要支付给政府罚金。

假设5：政府选择监管后获得的社会收益U高于不监管时获得的社会收益U*，即U>U*。政府、企业1和企业2三方演化博弈模型参数见表1。

表1 政府、企业1和企业2三方演化博弈模型参数

1.3 演化博弈收益矩阵

博弈模型中，三方都是有限理性的参与主体，三博弈方都根据自己的意愿对决策行为进行选择，其中：①政府的收益由社会效益、声望、监督成本、奖励支出、惩罚收入和环境效益这6部分构成；②对于企业i的收益，在独立经营获取了Ii收益的基础上，由于选择了合作策略则会获得额外收益Si、成本支出Ci和风险损失Ri，假设在政府监管的状态下企业选择了合作策略，那么就会获得收益增加Fi；如果选择了不合作的策略，就会得到收益减少Gi。基于1.2节的假设和参与博弈各方的策略选择，得到博弈三方的收益矩阵，见表2。

表2 政府、企业1和企业2三方的收益矩阵

2 稳定性及演化路径分析

2.1 复制动态微分方程

设政府选择“监督”策略下的期望收益为πa，选择“不监督”策略的期望收益为πb及平均期望收益为π。则由表2计算可得

πa=yz(U-C-F1-F2+w)+y(1-z)(U-C-F1+G2)+(1-y)z(U-C+G1-F2)+(1-y)(1-z)(U-C+G1+G2)=y(zw-F1-G1)+U-C+G1+G2-z(F2+G2)

(1)

πb=yz(U*+w)+y(1-z)U*+(1-y)zU*+(1-y)(1-z)U*=yzw+U*

(2)

π=xπa+(1-x)πb

(3)

设企业1选择“合作”策略下的期望收益为π1a，选择“不合作”策略的期望收益为π1b及平均期望收益为π1。则由表2计算可得

π1a=xz(I1+S1-C1-R1+F1)+x(1-z)(I1-C1+F1)+(1-x)z(I1+S1-C1-R1)+(1-x)(1-z)(I1-C1)=zS1-zR1+xF1+I1-C1

(4)

π1b=xz(I1-G1)+x(1-z)(I1-G1)+(1-x)zI1+(1-x)(1-z)I1=I1-xG1

(5)

π1=yπ1a+(1-y)π1b

(6)

设企业2选择“合作”策略下的期望收益为π2a，选择“不合作”策略的期望收益为π2b及平均期望收益为π2。则由表2计算可得

π2a=xy(I2+S2-C2-R2+F2)+x(1-y)(I2-C2+F2)+(1-x)y(I2+S2-C2-R2)+(1-x)(1-y)(I2-C2)=xF2-yR2+yS2+I2-C2

(7)

π2b=xy(I2-G2)+x(1-y)(I2-G2)+(1-x)yI2+(1-x)(1-y)I2=I2-xG2

(8)

π2=zπ2a+(1-z)π2b

(9)

根据Malthusian复制动态方程原理[21]分别得到政府的复制动态微分方程为

(10)

企业1的复制动态微分方程为

(11)

企业2的复制动态微分方程为

(12)

2.2 三方策略稳定性分析

2.2.1 政府策略的复制动态分析

2.2.2 企业1策略的复制动态分析

2.2.3 企业2策略的复制动态分析

2.3 系统均衡点分析

对于政府和企业1、企业2的三方演化博弈可以用上文中求解出来的三方主体决策行为策略选择的复制动态方程描述，3式联立可得到复制动力系统：

(13)

根据微分方程稳定性定理[22]令H(x)=0、H(y)=0、H(z)=0可得系统的8个纯策略解：E1(0，0，0)，E2(0，1，0)，E3(0，0，1)，E4(1，0，0)，E5(1，1，0)，E6(1，0，1)，E7(0，1，1)，E8(1，1，1)三方演化博弈系统的雅可比矩阵为

(14)

根据Lyapunov间接法[23]判断各纯策略均衡点是否为演化稳定点，见表3。

推论1：当U+G1+G2-C

证明：根据表3可知此时满足稳定性条件，所以E1(0，0，0)为系统渐进稳定点。

由推论1可知，对政府而言，若选择监管后获得社会效益和监管后企业都不合作时收取的罚金，与政府选择监管后建设运营的成本之差小于政府不监管获得的社会效益，政府的净收益比不监管时的净收益小，政府将选择不监管的策略。即在两企业都选择不合作的情况下，政府选择监管获得的收益比不监管时的收益低时，政府选择不监管策略。当政府选择不监管策略时，没有政府的引导企业的自主性将会削弱，此时企业倾向于采用不合作的稳定策略。

推论2：当U+G1+G2-C>U*，G1

证明：根据表3可知此时满足稳定性条件，所以E4(1，0，0)为系统渐进稳定点。

由推论2可知，对政府而言，如果选择监管后获得社会效益和监管后企业都不合作时收取的罚金，与政府选择监管后建设运营的成本之差大于政府不监管获得的社会效益的话，政府将选择监管的策略。即在两企业都选择不合作的情况下，政府选择监管获得的收益比不监管时的收益高时，政府选择监管策略。对企业而言，如果选择不合作时缴纳的罚金比合作时从政府收到的奖励和选择合作后支出的成本之和少，那么企业将选择不合作的策略行为。当企业都选择不合作的策略时，长此以往会对当地的产业发展和低碳建设产生负面影响，此时政府倾向于采用监管的稳定策略。

表3 纯策略均衡点稳定性分析

推论3：当U+G2-C-F1>U*，G1>C1-F1，R2+C2-F2-S2>G2时，复制动态系统存在稳定点E5(1，1，0)。

证明：根据表3可知此时满足稳定性条件，所以E5(1，1，0)为系统渐进稳定点。

由推论3可知，对政府而言，如果选择监管后获得社会效益、监管后给予合作企业的奖励和从不合作企业缴纳的罚金之和，与政府选择监管后建设运营的成本之差大于政府不监管获得的社会效益的话，政府将选择监管的策略。即在一方企业选择合作一方企业选择不合作的情况下，政府选择监管获得的收益比不监管时的收益高时，政府选择监管策略。对企业1而言，如果选择不合作时缴纳的罚金比合作时从政府收到的奖励和选择合作后支出的成本之和多，那么企业将选择合作的策略行为。对于企业2而言，如果合作时承担的风险和投资支出之和与合作后获取的额外收益和政府奖励之和的差比选择不合作时交给政府的罚金多，企业2将选择不合作的策略。当企业有选择合作策略，有选择不合策略作时，给地方的低碳和产业的发展带来一定的阻碍，那么这时政府将倾向于选择监管策略来引导企业达成合作。

推论4：当U+G1-C-F2>U*，G1C2-F2时，复制动态系统存在稳定点E6(1，0，1)。

证明：根据表3可知此时满足稳定性条件，所以E6(1，0，1)为系统渐进稳定点。

由推论4可知，对政府而言，如果选择监管后获得社会效益、监管后给予合作企业的奖励和从不合作企业缴纳的罚金之和，与政府选择监管后建设运营的成本之差大于政府不监管获得的社会效益的话，政府将选择监管的策略。即在一方企业选择合作一方企业选择不合作的情况下，政府选择监管获得的收益比不监管时的收益高时，政府选择监管策略。对于企业1而言，如果合作时承担的风险和投资支出之和与合作后获取的额外收益和政府奖励之和的差比选择不合作时交给政府的罚金多，企业1将选择不合作的策略。对企业2而言，如果选择不合作时缴纳的罚金比合作时从政府收到的奖励和选择合作后支出的成本之和多，那么企业将选择合作的策略行为。当企业有选择合作策略，有选择不合策略作时，给地方的低碳和产业的发展带来一定的阻碍，那么这时政府将倾向于选择监管策略来引导企业达成合作。

推论5：当U-C-F1-F2R1+C1，S2>R2+C2时，复制动态系统存在稳定点E7(0，1，1)。

证明：根据表3可知此时满足稳定性条件，所以E7(0，1，1)为系统渐进稳定点。

由推论5可知，对政府而言，如果选择监管后获得社会效益与给予合作企业的奖励、政府选择监管后建设运营的成本之差小于政府不监管获得的社会效益，政府将选择不监管的策略。即在两企业都选择合作的情况下，政府选择监管获得的收益比不监管时的收益低时，政府选择不监管策略。对企业而言，选择合作时获得的额外收益比选择合作时要承担的风险和投资支出要高，那么企业将选择合作的策略行为。当企业都选择合作策略时，长远来看地方的低碳和产业的发展将进展顺利，那么这时政府将倾向于采取不监管策略。

推论6：当U-C-F1-F2>U*，S1>R1+C1，S2>R2+C2时，复制动态系统存在稳定点E8(1，1，1)。

证明：根据表3可知此时满足稳定性条件，所以E8(1，1，1)为系统渐进稳定点。

由推论6可知，对政府而言，如果选择监管后获得社会效益与给予合作企业的奖励、政府选择监管后建设运营的成本之差大于政府不监管获得的社会效益，政府将选择监管的策略。即在两企业都选择合作的情况下，政府选择监管获得的收益比不监管时的收益高时，政府选择监管策略。对企业而言，选择合作时获得的额外收益比选择合作时要承担的风险和投资支出要高，那么企业将选择合作的策略行为。

3 算例分析

研究的最终目标是达到政府不监督企业间也进行合作的理想状态，寻找趋近于渐近稳定点E7(0，1，1)的博弈策略。根据上文演化博弈模型的研究，利用MATLAB R2019b软件进行数值仿真。具体参数设置U=10，U*=7，C=2.5，G1=5.2，G2=4.6，F1=1.4，F2=1，S1=5，R1=2.1，S2=3，R2=1.5，C1=0.4，C2=0.1。

3.1 三方初始参与意愿对演化博弈行为的影响

通过对上述的具体参数进行数值仿真，可以验证在政府、企业在满足设定的约束条件的情况下，三方演化博弈主体能够随t演化到稳定策略。如图1所示，在初始值为x=0.5，y=0.5，z=0.5通过数值仿真可以发现，在满足上述条件下，三方演化博弈主体最终演化至x=0，y=0，z=1的理想稳定状态，也就是上文所提到的渐近稳定点E7(0，1，1)，此时三方的策略是政府不监管、企业之间选择共同合作的理想状态。

图1 三方演化稳定策略

3.2 参数对演化博弈行为的影响

3.2.1 改变C对政府策略影响的数值仿真

在保证其他参数不变的情况下，将政府实施监管所花费的成本C的取值分别取为0.25、0.5、0.6、0.75、1、1.5、2、2.5时进行仿真，政府策略选择的演化路径的仿真结果如图2所示。

图2 C对政府策略的影响

由图2可知，当C=0.6时政府选择“监管”策略的概率既不趋向于0，也不趋向于1，即处于无法收敛的不稳定状态；当C<0.6时政府选择“监管”策略的概率趋向于1；当C>0.6时政府选择“监管”策略的概率趋向于0。当监管成本C的取值小于0.6且监管成本越小时，政府选择监管策略概率收敛的速度越快；当监管成本C的取值大于0.6且监管成本越大时，政府选择不监管策略概率收敛的速度越快。因此可以分析得出，对于政府而言，虽然通过对企业行为进行监管达成合作目的可以促进地区低碳建设，减少污染带来的环境恶化，促进物流产业融合升级，提升政府声望，但是如果付出的成本代价超出政府能够承受的合理范围，政府将放弃对企业进行监管。

3.2.2 改变Gi、i对企业策略影响的数值仿真

在保证其他参数不变的情况下，将企业1选择不参与合作后缴给政府的惩罚金额G1的取值分别取为1、3、5、7、9时进行仿真，企业1策略选择的演化路径的仿真结果如图3所示。将企业1选择参与合作后从政府获取的奖励补贴F1的取值分别取为1、3、5、7、9时进行仿真，企业1策略选择的演化路径的仿真结果如图4所示。

图3 G1对企业1策略的影响

图4 F1对企业1策略的影响

由图3可知，当G1=1时，企业1选择“合作”策略的概率趋向于1的速度最慢，这说明当政府对不合作企业的惩罚力度较小时，企业1选择不合作策略所付出的成本就比较小，那么选择合作策略的主动性就比较差；随着G1的不断增大，企业1选择“合作”策略的概率趋向于1的速度逐渐加快，这就说明当政府对不合作企业的惩罚力度较大时，企业1选择不合作策略所付出的成本就较大，那么企业1主动寻求其他企业选择合作策略的可能性就比较高。

由图4可知，当F1=1时，企业1选择“合作”策略的概率趋向于1的速度最慢，这说明当政府给选择“合作”策略企业的奖励补贴力度较小时，选择合作策略的主动性就比较差；随着F1的不断增大，企业1选择“合作”策略的概率趋向于1的速度逐渐加快，这就说明当政府对选择“合作”策略企业的奖励力度较大时，企业1主动寻求其他企业选择合作策略的可能性就比较高。

将图3、图4综合来看可以发现，政府给予企业1 的奖励和惩罚都促进企业之间向着合作运输的方向发展，通过不断增加奖惩，企业选择合作的主动性不断提高。但是改变G1、F1对影响企业之间选择合作策略的力度不同，从图中可以看出改变G1比改变F1促进企业1选择“合作”策略的概率趋向于1的收敛速度快，因此可以推出，同样是改变一单位，政府惩罚比政府奖励对企业的影响更大。

对企业2的分析同理，企业2策略选择的演化路径的仿真结果如图5、图6所示。

图5 G2对企业2策略的影响

图6 F2对企业2策略的影响

4 结论

基于演化博弈理论构建了关于政府、企业1与企业2之间有关零担货运合作配送的三方演化博弈模型，研究政府、零担货运企业之间的演化稳定策略，并利用仿真软件讨论了各参数对各主体策略行为选择的影响。结果表明：①当演化条件满足U-C-F1-F2R1+C1，S2>R2+C2时，即政府选择监管后净收益小于政府不监管获得的收益，两企业选择合作时获得的额外收益比选择合作时要承担的风险和投资支出要高时，系统达到政府不监管、企业之间选择合作的理想状态。②对政府而言，当政府的监管成本在其可接受的范围内政府选择监管策略的积极性就比较高，且付出的成本越小政府选择监管策略就越积极主动，如果付出的成本变大政府的主动性就会放缓；当政府需要付出的成本超出其认为的合理范围政府就会选择不监管策略。③对企业而言，政府的奖惩政策都可以推动企业选择合作策略，随着奖励或者惩罚力度的加大企业之间就会更加主动的选择合作策略，但是企业对政府惩罚的敏感度要高于政府奖励。不足之处在于首先模型是基于假设建立出来的，而假设中的参数是对实际情况的一种理想化处理，使得模型的某些部分可能不符合实际；其次，企业之间的合作有不同的利益契约，本文在这一方面没有进一步进行深入，因此将利益契约纳入博弈模型的构建中是下一步的研究重点。