基于贝叶斯网络的安徽省经济发展水平研究
2019-12-19张宁,盛武
张 宁,盛 武
(安徽理工大学 经济与管理学院,安徽 淮南 232001)
随着我国经济进入新常态,如何更有效推动全国及各地区经济发展、实现经济“提速换挡”已成为社会关注的主要问题之一。安徽省作为我国临江近海的内陆省份,提高安徽省经济发展水平,可有效推动我国中西部地区经济向着更加良好态势发展。因此,本文以安徽省为研究对象,构建经济发展水平指标体系,利用贝叶斯网络对影响安徽省经济发展的各因素进行分析,找出影响经济发展水平的关键因素,从而更精准识别安徽省整体经济发展现状。
一、文献综述
目前,国内已有众多学者以安徽省经济为主题展开一系列研究讨论。胡艳、张桅基于改进柯布——道格拉斯生产函数对安徽省人力资本对经济增长贡献率进行了测度[1];夏永久、朱喜钢等利用ESDA方法,从时间、空间两个角度对安徽省经济格局演变规律进行了研究[2];罗念基于熵值法测度了安徽省土地生态安全与经济发展水平协调度[3];尹合伶针对如何创新安徽省经济发展方式展开了讨论[4];马芒、吴石英等通过构建VEC模型从多维度对安徽省人力资本和经济发展方式进行了测量[5];李久林、储金龙等基于引力模型测量了安徽省各县间的经济联系强度[6]。
综合国内学术界现有研究成果发现,国内学者对安徽省经济发展水平的研究在方法、内容等方面呈现多元化,研究成果对安徽省经济发展具有一定的促进作用,但大多数研究都以衡量单一要素对经济发展的贡献率或影响程度为主,基于经济发展内在因素、从多方面找出影响安徽省经济发展水平关键因素的文献研究较少。贝叶斯网络作为表达和分析不确定性事件的有效方法,不仅可有效识别各变量间复杂的逻辑关系和相互影响程度,而且可借助反向推理找出影响目标变量的关键因素,因此在故障诊断、模型推理等方面具有广泛的应用。目前,贝叶斯网络在犯罪学、医学等领域的研究已取得较大突破,但将贝叶斯网络与经济学领域相结合的研究相对较为稀少。基于此,本文选取与安徽省经济发展水平相关的内在因素,借助SPSS21.0对各变量进行相关性分析,在此基础上,利用贝叶斯网络工具GeNie构建安徽省经济发展贝叶斯网络结构模型,对影响安徽省经济发展水平的各因素进行综合分析。
二、数据来源与指标选取
(一)数据来源
以《安徽省统计年鉴》和《国家统计年鉴》中的面板数据为数据源,选取2004-2017年间的与安徽省经济发展相关的指标变量,对安徽省经济发展情况作整体分析评价。
(二)评价指标选取
目前国内关于经济发展水平的测度方法主要有单一指标评价法和综合指标评价法,但尚未形成统一的评价指标体系[7]。由于影响区域经济发展水平的因素更复杂多样,本文在选取安徽省经济发展水平评价指标过程中,在遵循评价指标选取的科学性、有效性、可操作性等基本原则基础上,综合考虑客观事实及学术界现有研究成果[8-11],最终选取以下14个变量作为研究要素,具体情况如表1所示。
表1 评价指标选取
三、贝叶斯网络模型构建
(一)贝叶斯网络原理
贝叶斯网络作为目前用于推理分析随机变量不确定性问题的一种有效且实用性最强的机器学习方法[12-13],融合了图形化语言与概率论两方面的内容。它主要通过有向无环图(DAG)将变量间复杂的关系以可视化方式呈现出来,并以条件概率和后验概率的形式支持用户进行双向推理。DAG作为贝叶斯网络的核心内容,由节点和有向弧两部分构成。其中,节点代表要研究的变量,有向弧代表变量间的因果关系,由父节点指向子节点。
贝叶斯网络以贝叶斯公式为数学原理,通过联合概率分布对网络中全体节点的关联程度进行了定义。对于事件A,设影响其发生的所有事件集合为V=(V1,V2…Vn),则相关的贝叶斯公式为:
(1)
其中,P(Vi|A)为后验概率,P(Vi)为先验概率,P(A|Vi)为事件Vi发生条件下事件A发生的概率,即条件概率。
对于已经确定的贝叶斯网络模型而言,其节点的联合概率分布可表示为:
(2)
其中,Vpa(Vi)表示节点Vi的所有父节点。
构建贝叶斯网络主要包含以下几个基本环节:
图1 贝叶斯网络构建流程
(二)贝叶斯网络参数学习
在构建完整的贝叶斯网络模型结构基础上,利用参数学习可以通过学习样本特征进而对模型中各节点状态进行预测。目前,关于贝叶斯网络参数学习的算法主要有最大似然估计法、贝叶斯估计法、期望最大(EM)算法[14]。由于本文在获取样本数据的过程中,存在部分数据缺失的情况,因此拟采用可以处理样本缺失数据的参数学习算法,即EM算法进行贝叶斯网络参数学习。EM算法的求解过程主要分为以下两个步骤[15]:
(1)E(期望)步:依据观测到的变量和当前参数值计算全部训练样本的概率分布期望:
Q(θi|θi-1)=E[logP(Y|θi)|θi-1,D]
(1)
其中,D为样本数据集,P=(Y|θ)为相关参数的条件概率分布。
(2)M(最大化)步:求当E步的概率分布期望最大时θi的取值,即:
(2)
将得到的θi值重新代入公式(1),反复进行迭代,从而求得最优解。
(三)变量相关性分析
对获取的样本数据进行相关性分析,可提取与经济发展相关的关键特征,降低数据维度,简化模型结构,提高贝叶斯网络模型预测精度。皮尔逊相关系数和t检验作为检测数值型变量相关性显著水平的有效方法,可清晰呈现各变量间的相关程度,为贝叶斯网络模型的构建提供客观依据。利用统计分析软件SPSS21.0对选取的变量进行相关性分析,结果如表2所示。
表2 Pearson相关性检验
**在0.01水平上显著相关*在 0.05 水平上显著相关
从表2可看出,在选取的指标变量中,与变量G1(GDP总量)相关性较强的变量有G2(固定资产投资总额)、G4(社会消费品零售总额)、G5(进出口总额)、G6(第二产业占GDP比重)、G7(第三产业占GDP比重)、G11(人均GDP)、G13(全社会劳动生产率),其中变量G6(第二产业占GDP比重)、G7(第三产业占GDP比重)、G11(人均GDP)与安徽省经济发展水平完全相关。同理,在表2中也可以找出其它变量间的相关强度。
(四)贝叶斯网络模型构建
将获取的样本数据导入贝叶斯网络软件GeNie中,选取结构学习功能,构建初始贝叶斯网络结构模型。在此基础上,结合变量相关性分析结果和客观事实对模型结构进行调整、修正,最终构建了如图2所示的安徽省经济发展贝叶斯网络结构模型。
图2 安徽省经济发展贝叶斯网络结构模型
四、贝叶斯网络模型分析与推理
(一)模型验证
小样本数据的局限性往往会导致模型精确度降低,为验证网络模型有效性,GeNie软件提供了模型验证方法——交叉验证(Cross-Validation)。目前,常用的交叉验证方法有Leave-one-out Cross Validation(LOO-CV),K-Fold Cross Validation(K-Fold-CV)等。其中,LOO-CV验证方法作为K-Fold-CV的特殊情况,适用于小样本数据,因此本文选用LOO-CV作为网络模型的交叉验证方法。在生成的网络结构模型基础上,选取工具栏中的“Validate”按钮,验证方法选择“Leave one out”,对模型中各节点及整体的预测精度进行计算,结果如表3所示。
表3 模型交叉验证
从表中可看出,大多数节点预测的精度在0.8以上,整体预测精度为0.809,说明该模型具有较高的预测水平,可以用于因素分析与评价。
(二)节点后验概率分析
后验概率分析是贝叶斯网络推理中涉及最多的问题,利用后验概率一方面可在已知原因前提下推断出结果发生概率,另一方面也可在已知结果状态情况下,找出导致结果发生的最可能原因[16]。在获得父节点先验概率和子节点条件概率基础上,通过设定证据节点,计算各节点发生的后验概率,以此对变量进行逆向推理,找出导致目标事件发生的关键因素,有助于更加精准地对事件态势进行评估、预测。
在本环节中,首先借助GeNie软件,将连续变量离散化,然后将目标节点“G1”设定为证据节点(即已知安徽省经济发展水平较高时),得出各节点的后验概率,结果如图3所示。
图3 安徽省经济发展贝叶斯网络节点后验概率分布
从图3中各节点的后验概率值可知,在已知安徽省经济发展水平较高情况下,安徽省“固定资产投资总额较高(G2)”发生的可能性最大,概率高达93%;其次是“财政收入(G3)”和“社会消费品零售总额(G4)”,概率均为81%;此外,从图中还可发现,同等条件下,节点“全社会劳动生产率(G13)水平”较高的概率为79 %。
(三)敏感性分析
在贝叶斯网络模型中,当父节点的先验概率发生变化时,子节点的后验概率随之发生变化[17]。敏感性分析将由父节点发生变化而引起的子节点参数变化程度进行量化,从而识别出贝叶斯网络模型中的关键因素。利用GeNie敏感性分析功能,对安徽省经济发展贝叶斯网络结构模型中各节点的敏感程度进行分析,结果如图4所示。其中,节点颜色深度与敏感性强度成正比。
图4 安徽省经济发展贝叶斯网络敏感性分析
从图中可看出,整个模型中,节点的敏感强度可分为4个等级,高敏感度:节点G1(GDP总量);较高敏感度:节点G11(人均GDP)、G4(社会消费品零售总额)、G14(工业总资产贡献率);中度敏感:节点G2(固定资产投资总额)、G3(财政收入)、G13(全社会劳动生产率);较低敏感度:节点G3(财政总收入占GDP比重)、G10(GDP增长指数)、G12(单位工业增加值能耗)等。综合分析发现,在安徽省经济发展过程中,社会消费品零售总额、工业总资产贡献率是影响安徽省经济发展水平的关键因素。
(四)安徽省经济发展水平评价
对安徽省经济发展水平和各变量的发展水平进行综合分析评价,有助于整体把握安徽省经济发展水平,为进一步制定切实可行的经济发展制度提供理论依据。在构建完整的安徽省经济发展贝叶斯网络结构模型基础上,利用获取的样本数据和贝叶斯网络参数学习,得出安徽省目前整体的经济发展水平,如图5所示。
图5 安徽省经济发展水平综合评价
从图5可明显看出,GDP总量(G1)为“high”的概率仅为36%,人均GDP(G11)取值“high”的概率为33%,说明目前安徽省经济整体发展尚处于较低水平。从图中还可以看出近年来安徽省工业总资产贡献率始终保持中等水平,处于较好的发展状态。此外,图中还可明显看出与安徽省经济发展水平相关的其它指标发展情况。
五、结论与建议
(一)结论
本文以安徽省为研究对象,选取与经济发展水平相关的变量,结合相关性分析,利用贝叶斯工具GeNie构建安徽省经济发展贝叶斯网络结构模型。通过对模型分析推理,得出以下结论:
1.分析模型中各节点的后验概率发现,在已知安徽省经济发展水平较高情况下,“固定资产投资总额”处于较高水平的可能性最大,概率为93%;其次是“财政收入”和“社会消费品零售总额”,概率均为81%。
2.分析模型中各节点的敏感性发现,在构建的安徽省经济发展贝叶斯网络模型结构中,节点的敏感性强度大致可划分为4个等级,其中社会消费品零售总额、工业总资产贡献率的敏感度相对较高,是影响安徽省经济发展的关键因素。此外,对安徽省经济发展水平进行综合评价发现,安徽省工业总资产贡献率处于较好发展状态,但经济发展尚处于较低水平。
(二)建议
为提高安徽省经济发展水平,安徽省各级政府及相关部门要在平衡各影响因素发展状态的基础上,着重关注影响经济发展水平的几个关键因素。首先,加大固定资产投资总额,为推动安徽省经济发展奠定坚实的物质基础;其次,将提高社会消费品零售总额和工业总资产贡献率作为重点关注对象,不断优化安徽省消费结构,扩大实物消费规模,不断创新消费模式,在注重实物消费的同时兼顾服务消费,从根本上提高安徽省社会消费品零售总额;最后,继续保持安徽省现有的发展优势,多角度、全方位地提高安徽省经济发展水平,推动安徽省经济向着更加稳定、可持续方向发展。