基于数据包络分析和扩展置信规则库的交通运输业环境治理成本预测

2020-07-02叶菲菲杨隆浩王应明蓝以信

交通运输系统工程与信息 2020年3期

叶菲菲，杨隆浩，王应明*,b，蓝以信

(福州大学a.决策科学研究所；b.空间数据挖掘与信息共享教育部重点实验室，福州350116)

0 引言

2019年底，交通运输部在交通运输高质量发展成效有关情况发布会上指出，运输结构调整、降低物流成本及推进节能减排是交通运输部下一阶段的重点工作.交通运输业能源需求量大，涉及较多的人力、物力和财力投入，这些成本是影响交通运输业环境可持续发展的重要因素之一.

现有环境治理成本研究主要集中在从实证上分析环境污染对经济成本的影响[1]、从政策上根据市场需求研究污染成本预测模式[2]或者通过环境成本的不断投入背景下针对性的提出污染减排策略[3]，而成本预测模型主要为时间序列预测经典方法灰色系统模型(GM(1.1))，基于投入产出关系预测的自适应神经模糊推理系统(ANFIS)[4]等.但这些成本预测模型存在局限性：时间序列预测缺少对环境污染现状的考虑，而通过投入产出关系进行模型的构建，缺少可靠性分析；主要基于区域环境治理成本构建预测模型，较少涉及某一行业的环境治理成本预测.

DEA模型可对环境治理中多投入多产出数据进行有效性分析，针对现有研究的局限性，本文结合DEA 模型与EBRB 模型[5]构建交通运输业的环境治理成本预测模型.基于环境治理成本预测相关数据，构建考虑非期望产出的DEA 仁慈型交叉效率模型；在此基础上，对环境治理成本预测的多投入多产出进行效率评价，作为成本预测模型中每条扩展置信规则的可靠度；根据计算得到的规则可靠度进行EBRB模型的置信度修正，从而构建考虑规则可靠度的EBRB成本预测模型，结合交通运输业的环境治理成本验证本文模型的准确性.

1 基于DEA和EBRB的成本预测模型

1.1 基于DEA的数据有效性分析

DEA仁慈型交叉效率模型适用于多投入多产出数据的有效性评价，且将自评和他评融为一体，在系统科学领域广泛应用.

假设n个决策单元DMUj(j=1,…,n)，存在n组多投入多产出数据，其中，j表示为第j个决策单元，n为决策单元总数.每组数据中有m个投入xij(i=1,…,m；j=1,…,n)，其中，i表示为第i个投入，m为投入总数；s个期望产出yrj(r=1,…,s)和h个非期望产出zfj(f=1,…,h)，其中，r和f分别表示第r个期望产出和第f个非期望产出.根据Seiford等[6]的非期望产出转换为期望产出公式，即bfj=βf -zfj，其中，bfj表示为转换后的非期望产出，βf表示为用于转换的极大值，由βf =计算得到.基于CCR 模型计算第k(k=1,…,n)个决策单元DMUk效率值θkk为

式中：DMUk为1～n中的另一个任意决策单元，且与不同DMUj(j=1,…,n)；urk、yrk、wfk和bfk分别表示DMUk中期望产出的权重、期望产出、非期望产出权重及非期望产出；vik和xik分别表示DMUk投入的权重和投入值；xij表示为DMUj的投入.

式(1) 存在最优解，即，决策单元DMUk的效率值为：.

非期望产出的仁慈型交叉效率模型为

分别求Emax每列元素的平均值，得到DMUj(j=1,…,n)最大平均交叉效率为

1.2 基于EBRB规则推理的成本预测

传统EBRB 模型需将每条历史数据直接转换为扩展置信规则，进行规则推理，忽略了数据间的相对有效性.为此，将每条输入输出数据基于DEA模型进行有效性分析.

定义1EBRB的规则可靠度.rt表示EBRB中第t条规则的可靠度，当rt=0 时，该条规则被视为“完全不可靠”；当rt=1 时，该条规则被视为“完全可靠”.当第t条规则是由第t条数据转换而成，则.

根据定义1，将EBRB 中的每条扩展置信规则Rt(t=1,…,L)表示为

式中：L表示扩展置信规则的总数；∧表示为交集“与”的意思；{Ug；g=1,…,M} 为M个输入指标；用于评价第g个输入指标的候选等级；D表示输出指标；{Be；e=1,…,N} 用于评价输出指标的候选等级；和为候选等级Ag,d和Be的置信度；θt为第t条规则的权重；δg表示第g个输入指标的指标权重.

依据式(5)，基于EBRB 规则推理的预测步骤如下.

Step 1优化EBRB 基本参数.如指标权重δg，指标效用值u(Ag,d)和u(Be).设有L组输入输出数据(t=1,…,L)，则EBRB 中最优参数取值为

式中：f(xt)表示EBRB 模型依据输入数据xt推理所得的输出值；表示第g输入指标Ug的最小值和最大值；bmin和bmax表示输出指标D的最小值和最大值.

Step 2将输入输出数据转换为分布式置信度.基于式(6)得到的效用值u(Ag,d)和u(Be)，将输入数据xt=(xt,g；g=1,…,M)转换成分布式置信度，即

其中，

依据输出数据yt可得相应的分布式置信度.

Step 3利用规则可靠度修正输入指标的分布式置信度.依据定义1计算每条扩展置信规则的可靠度，即rt(t=1,…,L)，基于规则可靠度将第t条规则输出指标的分布式置信度修正为.

Step 4计算扩展置信规则的权重.对于任意两条规则Rl和Rt，由规则间分布式置信度的欧式距离得到规则前提相似度(SRA)和规则结果相似度(SRC).

第t条扩展置信规则权重为

式中：Incons(Rt)为第t条扩展置信规则与其余扩展置信规则的不一致度，即

式中：Cons(Rl),Rt为第l条扩展置信规则与第t条扩展置信规则间的一致度，即

Step 5依据输入数据x=(xg,g=1,…,M)计算扩展置信规则的激活权重.第t条扩展置信规则的个体匹配度为

其中，

则第t条扩展置信规则的激活权重为

Step 6依据证据推理(ER)算法计算成本预测值.ER解析算法合成EBRB的所有扩展置信规则，输入指标第e个候选等级上的合成公式为

基于投入指标的效用值{u(Be),e=1,…,N}，计算成本预测值为

2 实例分析

2.1 数据来源与变量选择

数据集源自2004—2017年中国环境统计年鉴、中国能源统计年鉴和中国统计年鉴里中国内地30个省份(除西藏)的交通运输业碳排放投入产出数据，如表1 所示.根据环境治理成本预测的相关研究[4]，成本投入主要包括人力、资本和能源3个方面.故选取交通运输业的从业人数作为劳动力，固定资产投资作为资本和各类能源消费量总量作为能源消耗，选取交通运输业的增加值和CO2排放量作为期望产出和非期望产出.CO2排放量基于《IPCC2006》方法，通过不同能源消费量、标准煤折算系数和碳排放系数等估算得到.

成本预测过程中，以2004—2016年数据作为模型的训练数据，2017年数据作为测试数据.基于留一法分析模型的有效性，即依次以每一年数据作为测试数据，剩余年份作为训练数据进行成本预测.预测数据集兼顾交通运输环境污染排放指标CO2及经济发展衡量交通运输业增加值，以实际的交通运输业投入产出指标作为预测数据集，弥补以往以时间序列进行数值预测的局限性.

表1 输入、输出指标统计分析Table 1 Statistic analysis for input output indicators

2.2 成本预测过程分析

根据1.2 节环境治理成本预测Step 1，得到EBRB成本预测模型参数的初始取值，以北京市为例，如表2 所示.所有输入输出指标的初始权重均为1，指标效用分为5个等级.如能源消耗作为输出指标，其在5个效用等级上的效用值分别为18.84、276、534、792及1 050.

根据Step 1的参数学习方法，对EBRB成本预测模型的参数进行迭代学习，如图1 所示.以北京市能源消耗预测为例，经过1 000 次迭代，能源消耗误差逐渐下降并趋于收敛.表3为EBRB成本预测模型参数的最优取值：增加值的权重最大，为0.758 4；其次是CO2的排放量，权重为0.761 7；从输入指标效用等级上看，所有指标的效用等级都有一定变化.

表2 成本预测参数的初始取值Table 2 Initial value of key parameters for cost prediction

图1 成本预测模型参数学习Fig.1 Parameter learning process of cost prediction

计算每条规则对应的输入输出指标效用值的置信度.以北京市2017年能源消耗成本预测为例，每条规则对应效用值的置信度如表4所示.可以发现，第1条～第8条规则的置信度主要分布在效用等级高和很高上，第9条和第11条规则的置信度主要分布在低和高之间.作为输出指标的能源消耗成本值的效用等级主要分布在很高上，达到0.994 6.

基于仁慈型交叉效率对每条规则的可靠度进行计算，基于计算得到的可靠度对每条扩展置信规则的置信度进行修正.以2017年中国内地30个省份(除西藏)的交叉效率为例，得到各省份环境治理交叉效率分布，如图2 所示.效率值较高的是河北省和东北三省，效率较低的主要集中在西部地区.

表3 成本预测参数的最优取值Table 3 Best value of key parameters in cost prediction

表4 成本预测中的规则置信度与规则权重Table 4 Rule belief degree and rule weight in cost prediction

计算得到激活权重及ER 合成算法，2004—2016年数据作为训练数据，2017年数据作为测试数据，如图3～图5 所示.图3 与图5 中劳动力与能源消耗预测值与实际值的整体拟合度最高.图4的资本预测与实际值存在一定差异，这是由于我国各省份经济发展差异大，各地区资本投入的极差与标准差大.从时间上看，改革开放后经济增长趋势明显，各省份资本投入逐渐增长，数据本身的浮动和离散程度影响了预测误差.

2.3 模型的准确性分析

将本文EBRB 环境治理成本预测模型与常见的时间序列预测方法GM(1.1)，考虑投入产出的ANFIS 模型进行准确性对比分析，结果如表5 所示.

图2 2017年环境治理交叉效率值Fig.2 Cross efficiency of environmental management in 2017

图3 劳动力成本预测值与实际值的拟合度Fig.3 Fitness of labor cost and actual value

图4 资本投入预测值与实际值的拟合度Fig.4 Fitness of capital input and actual value

图5 能源消耗预测值与实际值的拟合度Fig.5 Fitness of energy consumption and actual value

表5 不同方法预测准确性对比分析Table 5 Accuracy of different prediction model

由表5 可知，本文方法的准确性高于GM(1.1)和ANFIS 模型.从MAE(平均绝对误差)计算结果上看，GM(1.1)模型的误差最大，本文方法的成本预测平均误差仅为4.19 万人、556 亿元及199 万t，显著小于其他方法；从MAPE(平均百分比误差)计算的结果上看，本文方法在劳动力和能源消耗上的误差不足0.2，资本投入误差也远小于其他方法.

2.4 模型有效性分析

为进一步验证本文方法的有效性，根据留一法对GM(1.1)、ANFIS 与本文方法进行对比分析，如图6～图8所示，MAE比较可以发现，本文方法的MAE最小.从预测误差的稳定性上看，劳动力和能源消耗预测误差的稳定性高于资本，这是因为经济发展带动资本投入原始数据不断增长，使数据离散程度更高，故预测得到的资本误差波动较大.不同类型的预测成本因量纲不同，预测误差具有较大差异，如图8 的资本预测结果，但本文方法的预测误差依然低于GM(1.1)与ANFIS模型.

图6 各年度劳动力预测平均误差Fig.6 Average labor prediction errors in every year

图7 各年度资本预测平均误差Fig.7 Average capital prediction errors in every year

图8 各年度能源消耗预测平均误差Fig.8 Average energy consumption prediction errors in every year

3 结论

本文将DEA模型中的仁慈型交叉效率模型用于EBRB的扩展置信规则可靠度计算，并将考虑可靠度的EBRB 模型用于交通运输业的环境治理成本预测研究.为有效分析所提模型的准确性，以我国交通运输业2004—2017年数据为例，对考虑规则可靠度的EBRB 环境治理成本预测模型进行过程分析和方法介绍.研究结果显示，基于效率计算的交通运输业环境治理呈现了与经济、技术发展较为一致的东西部差异，成本预测结果的准确性对比分析进一步验证所提方法在交通运输业环境治理成本预测中的适用性和准确性，为未来环境治理成本预测研究提供一定的借鉴和参考，也为环境治理决策或行业环境治理成本规划提供有效的成本预测工具.