主成分分析法的改进及其在河南区域经济发展评价中的应用
2022-06-25李炳军张一帆张淑华
李炳军,张一帆,张淑华
(河南农业大学信息与管理科学学院,河南 郑州 450046)
科学评价区域经济发展,正确把握经济发展过程中的优势与不足,对于制定区域发展战略,推动区域经济高质量发展具有重要指导作用。对于区域经济发展水平的评价,郭将等[1]、李留法[2]、方若楠等[3]、陈景华等[4]、马慧强等[5]、张彬等[6]、李胭胭等[7]学者采用了多种不同方法,其中主成分分析法[8](principal component analysis,PCA)是应用最广泛的重要方法之一。
主成分分析法不仅能揭示数据集的内在规律和其具有的本质特征,也是对数据降维处理最行之有效的方法之一[9-10]。长期以来,很多学者从不同方面对PCA法进行了研究。蔡佳佳等[11]指出PCA法确定权重过程中存在二次加权放大的问题,并通过对调节变量的改进实现了原始主成分权重的修正。RIBEIRO等[12]、杨雪梅等[13]、史学飞等[14]分别将PCA法与机器学习算法、聚类分析法和熵值法相结合建立综合评价模型。林海明等[15]与JOLLIFE等[16]归纳总结了PCA法在多指标综合评价中应注意的问题及该方法的发展历程。鲍学英等[17]修正了PCA法在确定权重过程中的缺陷与不足。GNAAA等[18]和叶明确等[19]针对PCA法存在噪声敏感性的问题提出了对噪声具有鲁棒性的新方法,并通过试验评估验证了新方法的优越性。张秋瑾[20]对PCA法进行改进,使其可以研究多个变量在某一时间段内变动的大小与趋势。李莉等[21]在主成分分析时采用均值化法代替标准化法,解决了标准化过程中信息丢失的问题。此外,作为其数学理论较为成熟完善的PCA法也广泛应用于人居环境评价[22]、绩效评价[23]和粮食生产系统[24]等多个领域。倪鹏等[25]应用PCA法从历史洪水资料中提取关键有效的独立信息,同时结合系统聚类分析来提高洪水预报精度。李东博等[26]使用重加权算法对PCA算法进行优化,提出了重加权稀疏主成分分析(RSPCA)算法,并通过人脸识别试验验证了该算法相较于传统PCA算法的有效性。徐艳等[27]将PCA方法应用于不同植被类型土壤重金属状况的定量分析评价,并区分了不同重金属对土壤污染的影响。
学者们对PCA法的研究所得成果十分显著,但鲜有学者从PCA法本身存在的问题与缺陷入手对该方法进行改进。PCA法对原始数据标准化以消除量纲或数量级的同时,也忽略甚至消除了各指标在变异程度上的差异信息,使得重要指标对最终结果的评价贡献较小。对于复杂环境系统的评价问题,其评价指标无疑会存在重要性差异,从目前研究现状看,重要性赋权的研究相对成熟,PCA法又具备理论严谨、计算方便的优点,如何合理地将重要性权纳入PCA法进行合理赋权,对于复杂环境系统的评价就显得很有意义。鉴于此,本研究针对PCA法的局限性,从对指标变量分层赋权的角度对传统PCA法进行改进,在分层构权上本文选用理论应用较为成熟的层次分析法与熵权法,建立了基于层次分析法与熵权法的改进主成分分析模型,同时给出了河南省区域经济发展现状的评价实例,具有一定的理论与实践价值。
1 主成分分析法的改进
在为评价指标体系赋权时,层次分析法[30]采用定性与定量相结合的方法,特别是对于定性指标运用性更好,但指标较多时计算量大,结果可靠性变弱。熵权法[31]是根据指标变异性的大小来确定客观权重,适合于指标较多,以客观数据信息为基础的评价对象。指标的辨识度越大,该指标对综合评价的影响(权重)就越大。因此,本研究对一级评价指标采用层次分析法赋权,而对数目较多的二级指标采用熵权法赋权。
改进的主成分分析法原理如下:
(1)确定要素集
对于一级指标a1,a2,…,ar,则有判断矩阵A:
式中:ast表示指标as(s=1,2,…,r)与指标at(t=1,2,…,r)的重要性比较结果。
对于二级指标x1,x2,…,xm,在样本量为n的条件下可得矩阵X:
式中:i=1,2,…,n,j=1,2,…,m。
(2)确定指标权重
1)一级指标权重:基于判断矩阵A,借助层次分析法得到一级指标权重u=(u1,u2,…,ur)。
2)二级指标权重:基于矩阵X,借助熵权法求二级指标权重。具体步骤如下:
步骤1 标准化原始数据。用Z-score法对X进行标准化变换:
(1)
步骤2 规范标准化数据。
在利用熵权法求权重的过程中,若某些指标包含负值,则该方法无效,这里采用对标准化数据平移的方法以消除负值,在不删除指标数据的前提下保证了数据的完整性。
(2)
式中:| [zij] |表示对数据zij的整数部分取绝对值。
(3)
步骤4 第j项指标xj的信息熵:
(4)
步骤5 第j项指标xj的熵权(二级指标权重):
(5)
3)综合权重:
根据判断矩阵A求得一级指标权重u1,u2,…,ur。根据矩阵X,由公式(1)—(5)求得二级指标权重v1,v2,…,vm。对于一级指标us(s=1,2,…,r)和二级指标vj(j=1,2,…,m),令ωsj=usvj,当二级指标vj不隶属于一级指标us时,则有ωsj=usvj=0,于是得到r×m矩阵:
基于矩阵W,二级指标综合权重可表示为:
(6)
(3)标准化数据赋权
(7)
(4)求赋权标准化数据的协方差矩阵R
(8)
(5)求相关矩阵R的特征值和特征向量
|λE-R|=0
(9)
由公式(9)求得m个特征值,设其m个特征值为λ1≥λ2≥…≥λm≥0,则该m个特征值所对应的正交化特征向量为Lg=(lg1,lg2…,lgm),g=1,2,…,m。
(6)求方差贡献率,确定主成分个数
(7)综合评价
(10)
(11)
式中:g=1,2,…,p(p≤m),Fg为各主成分的线性加权值,F为相应所取样本的最终得分,根据得分进行排序,进而完成对目标问题Q的综合分析与评价。
2 实证分析
2.1 河南省经济发展指标体系
根据指标选取的可行性、目的性、全面性、可比性、定量与定性相结合的基本原则[32-33],结合河南省经济发展实际,选取能够反映区域经济发展水平的15个指标,以此构建河南省区域经济发展评价指标体系(表1)。评价指标体系相关数据主要选取自2015—2020年《河南省统计年鉴》,即为2014—2019年河南省经济发展各指标的统计数据,其中以2018年指标数据(表2)为例,给出改进PCA法的具体操作步骤。
表1 区域经济发展评价指标体系Table 1 Evaluation index system of regional economic development
表2 2018年河南省18地市主要经济指标数据Table 2 Key economic indicators of 18 regions in Henan Province in 2018
2.2 指标权重的获取
(1)层次分析法求一级指标权重
一级指标(准则层)为a1(地区综合经济状况)、a2(地区财政金融状况)、a3(地区对外开放程度)、a4(人民生活水平)、a5(地区基础建设实施状况),相应指标权重为:
us=(0.431 7 0.273 1 0.067 9 0.135 0 0.092 3)。
(2)熵权法求二级指标权重
针对本文所建指标体系中的18个样本和15项指标,借助SPSS软件,根据公式(1)对样本数据进行标准化变换得到矩阵Z。借助EXCEL软件,根据公式(2)—(5)求得各个指标的信息熵Hj以及二级指标权重νj(j=1,2,…,15)。
Hj=(0.979 1 0.915 6 0.985 3 0.991 4
0.860 5 0.749 3 0.719 9 0.894 0 0.998 7 0.997 7
0.935 3 0.936 0 0.854 4 0.945 8 0.906 9)。
νj=(0.015 7 0.063 5 0.011 0 0.006 5
0.104 9 0.188 5 0.210 6 0.079 7 0.001 0 0.001 7
0.048 6 0.048 1 0.109 5 0.040 7 0.070 0)。
(3)各指标综合权重
综合一级指标权重和二级指标权重,根据公式(6)计算出与准则层相对应指标层各指标的最终权重值ηj,j=1,2,…,15。
ηj=(0.039 2 0.158 1 0.027 5 0.016 2
0.165 3 0.297 1 0.082 5 0.031 2 0.000 8
0.001 3 0.037 9 0.025 6 0.058 3 0.021 7 0.037 3)。
2.3 标准化数据赋权
表3 赋权后的标准化数据Table 3 Standardized data after weighting
续表 Continuing table
2.4 结果分析
借助SPSS软件对赋权后的标准化数据进行主成分分析,得到各个指标变量的特征值、特征向量及方差贡献率,按照累积贡献率在85%以上原则选取主成分,并根据各主成分因子贡献率以及各城市得分可测算得到各城市的综合得分和排名情况。为了体现改进PCA法结果的适用性,同时结合传统PCA法做对比分析(表4)。
表4 2018年河南省区域经济发展评价结果比较Table 4 Comparison of evaluation results of regional economic development in Henan Province in 2018
续表 Continuing table
从表4的评分及排名结果看,郑州与洛阳在2种方法对比分析中经济发展排名均名列前茅,整体发展水平领先。郑州作为河南省省会,经济发展迅猛,是全省的政治、经济、文化中心,中原城市群经济发展的龙头。作为历史文化名城和七大古都之一的洛阳,是新兴的工业旅游城市,新的经济增长点日趋明显,在特色农业、农业产业化经营、采矿业、旅游业和电业等方面均有突出成就,多项经济指标位居河南省前列。2种方法排名差异较大的有焦作、许昌、三门峡、济源,相对于改进主成分分析法评价结果,这4个地市的排名次序均在传统主成分分析法评价结果之前。近年来,焦作市依托当地有利的自然条件和便利的交通条件发展旅游业,实现了从资源枯竭型城市向经济社会的成功转型,从而加速了经济增长。许昌在城市建设的同时经济水平发展迅速,著名的森源集团、黄河实业、金汇集团等成功入选中国企业500强名单。三门峡是1957年伴随着万里黄河第一坝——三门峡大坝兴建而崛起的一座新兴城市,同时也是沿黄城市中距离黄河最近的一座城市。该市一直以来坚持稳中求进,以提高经济发展质量和效益为中心,以供给侧结构性改革为主线,聚力打造“五彩三门峡”,推进建设“三地五中心”,全市经济呈现稳中有进,稳中向好的运行态势。济源作为河南省最小的省辖市,工业经济发展尤为迅猛,小浪底水库枢纽工程等国家重点工程的建设,加速了济源市经济的发展。由此可见,改进的主成分分析法所得结果更加贴近现实,在区域经济发展水平评价中具备一定的功效,能够为经济评价提供一种科学客观的理论计算方法。
为再次验证改进PCA法的可操作性,参考表1,选取2018年前后即2017与2019年相关指标数据,同理得到2种不同方法下的河南省区域经济排名次序。以各地市生产总值排名来衡量区域经济发展水平的真实情况并将其作为改进PCA法与传统PCA法评价结果优劣的参照依据。针对每个区域,将改进PCA法与传统PCA法在2017—2019年评价结果排名与该区域经济发展水平的真实排名做差并求绝对值,利用其绝对值的加和来反映改进PCA法与传统PCA法在不同区域下评价结果的差距(图1)。
注:图中R1~R18分别代表郑州、开封、洛阳、平顶山、安阳、鹤壁、新乡、焦作、濮阳、许昌、漯河、三门峡、南阳、商丘、信阳、周口、驻马店和济源。Note:R1 to R18 in the figure represent Zhengzhou,Kaifeng,Luoyang,Pingdinghan,Anyang,Hebi,Xinxiang,Jiaozuo,Puyang,Xuchang,Luohe,Sanmenxia,Nanyang,Shangqiu,Xinyang,Zhoukou,Zhumadian and Jiyuan,respectively.图1 2017—2019年河南省区域经济发展评价结果比较Fig.1 Comparison of evaluation results of regional economic development in Henan Province from 2017 to 2019
针对图1中评价结果差距进行对比分析,发现改进PCA法在大部分区域下的评价结果明显优于传统PCA法。作为河南省区域政治经济中心的郑州市,由于其综合实力3年来稳居第一,因此2种方法下的评价结果与真实值差距均为0。通过2种方法下河南省区域经济发展多年数据的评价比较,进一步验证了相较于传统PCA法,基于定性定量结合对指标变量分层赋权的改进PCA法更适用于区域经济发展水平评价,再次体现了改进方法的优越性与实用性。
采用改进PCA法,选取2014—2019年面板数据得到2014—2019年逐年各区域经济发展水平评价结果(表5),进一步探究河南省区域经济发展的动态时空演变规律。
表5 河南省区域经济发展水平动态分析Table 5 Dynamic analysis of regional economic development level in Henan Province
从河南省区域经济发展水平排名状况以及在时间尺度上的发展趋势来看,各区域在2014—2019年总体上较为稳定,2019年同2014年相比,除郑州、洛阳、濮阳、信阳经济发展排名不变以外,其余区域的排名均发生了变动,由此表明各区域都在竞相发展经济,尤其是经济发展水平相对较为落后的地区。其中郑州市6年以来经济发展排名稳居第一,其地理位置优越,发展前景广阔,财政金融、公共服务、基础设施以及科教水平遥遥领先于其他城市;排名上升的区域有7个,分别是安阳、鹤壁、新乡、焦作、许昌、三门峡、济源;排名下降的区域有7个,分别为开封、平顶山、漯河、南阳、商丘、周口、驻马店;大部分区域排名波动相对较小,经济水平发展趋势相对较为稳定。综合来看,全省经济平稳快速增长但区域经济差异明显,各区域经济发展水平随地域的不同差异较大,经济发展排名靠前的区域大都集中在豫中和豫西南地区,而经济发展排名靠后的区域多集中在豫北地区。
3 结论与建议
由实证分析结果可知,2014—2019年河南省各区域经济发展水平排名均在小范围内变动。部分城市即使出现波动,其范围幅度也很有限,长期来看总体上趋于平稳。郑州和洛阳6年内始终位列前2名,南阳基本上位居第3名,济源、鹤壁排名最后。区域经济发展动态排名规律显示2014—2019年河南省区域经济综合发展水平总体上呈上升趋势,但上升幅度依然有限,某些城市出现小幅度倒退现象;《河南省全面建设小康社会规划纲要》中发展布局部分将河南省全省划分为中原城市群经济隆起带、豫北、豫西和豫西南地区以及黄淮地区。由表5中区域经济发展综合评价结果可知,经济发展排名靠前的郑州、洛阳、许昌、焦作均分布在中原城市群。中原城市群区位优势突出,连南贯北,交通便利,其非农劳动力占河南省劳动总数的比重达到80%左右,城镇人口占全省总人口比重的60%左右,国内生产总值占全省的60%以上,是中西部综合竞争力较强的开放型经济区;经济发展排名居中的商丘、信阳、驻马店主要分布在黄淮地区。该地区以农产品精深加工为重点,是河南粮食生产主产区,但由于该地区贫乏的矿产资源导致其工业落后于其他地区;经济发展排名靠后的济源、安阳、鹤壁、濮阳、三门峡主要分布在中原城市群、豫北和豫西豫西南经济区。豫北、豫西和豫西南地区以工农业为基础,拥有丰富的矿产、林果等资源,其经济发展态势向好。但该地区尤其是豫西南地区多山地地形、交通条件的不便阻碍了当地经济的发展;总的来说,河南省区域综合经济发展水平不协调,呈现由河南省中部区域向四周递减趋势。经对比分析发现本研究对河南省区域经济发展评价结果与该省区域经济带划分结果大体一致且相互印证,表明本研究所提出的改进PCA法在区域经济发展水平评价中是具有一定适用性的。
改革开放以来,河南省经济持续快速健康发展,综合经济实力明显增强,社会稳定和谐,为区域经济稳步高质量发展奠定了坚实的基础。为进一步促进区域经济的协调、均衡发展,提出如下建议:不同经济发展水平的区域应视自身情况制定符合自身优势的区域经济发展方案;中原城市群以郑州为中心,应强化区域城市中心的龙头作用,增强郑州对全省经济发展的辐射作用以及洛阳的辅助辐射作用,实施中心城市、中心城镇带动战略,加快周边焦作、平顶山、许昌和开封等区域产业结构的快速调整,在全省形成各有所长、优势互补、竞相发展的格局,使中原城市群各城市在发展自身产业优势的过程中形成整体竞争优势;豫北地区的安阳、鹤壁、濮阳3市要充分发挥工农业基础较好,油气、煤炭等资源丰富的优势,逐步建成河南省重要的钢铁、煤化工、石油化工以及电子信息产业基地;豫西地区的三门峡市要发挥矿产、林果等资源优势,搞好精深加工,建成全省重要的煤化工、黄金生产加工、铝工业和林果业生产加工基地;豫西南地区的南阳市应加快发展步伐,形成中药生产、纺织基地和以非金属矿产开发利用、农副产品加工为主的产业带;黄淮地区的驻马店、商丘、周口和信阳要加快工业和服务业的发展,加大城市建设力度,加强对农村经济社会发展的带动,加快农区工业化步伐,河南省有关部门应加大对该区域的扶持力度,加快其基础设施建设和基础产业的发展;河南省全省应不断优化区域经济发展格局,充分发挥以中原城市群为经济增长极在区域发展中的带动作用,着力促进区域协调发展,在优化结构和提高效益的基础上,制定科学的产业规划,努力使河南的发展走在中西部地区前列,努力实现中原崛起。