基于多元统计的国家经济发展水平比较分析
2019-07-23朱兆钦
朱兆钦
(中山大学岭南学院 经济学系,广东 广州 510000)
一、引言
(一)研究背景及意义
评价一个国家的发展有许多维度,而如何将国家分类则更加困难。例如,将国家分为发展中国家和发达国家只是一种粗略的分类方法。而评价和分类的片面性对完整客观地总结改革开放以来的成果和不足的尝试会产生不利影响。然而,运用多元统计的方法,[1]我们可以同时将大量评价指标纳入考虑范围,并对其进行归类和化简。我们还可以对国家之间的相似性进行合理度量,从而将不同国家更恰当地分类。另外,多元统计方法还可以显示各项指标间的内在联系,有利于我们找出纷繁复杂的发展现象背后的原动力。
本文选取了中国和其他54个随机选取的国家和地区,尝试运用多元统计方法对国家发展的11个指标进行分析,并根据这些指标将国家分类。从而找出和我国情况最为相近的国家,并尝试解释指标背后的原动力。相比于其他国家,情况相近国家的各项变革可以作为更有效政策参考。此外,对指标的分析可以加强我们对经济发展的理解。
(二)变量筛选
本文主要研究世界各国发展状况的分类和比较,并对国家间的相似性进行度量。数据来源为世界银行数据库①世界银行数据库网址https://data.worldbank.org.cn/。选取的变量为:0~14岁的人口(占总人口的百分比)、15~64岁的人口(占总人口的百分比)、农业增加值(占GDP的百分比)、城镇人口(占总人口比例)、人口超过100万的城市群中的人口(占总人口的百分比)、耗电量(人均千瓦时)、二氧化碳排放量(人均公吨数)、通电率(占人口的百分比)、能源使用量(人均千克石油当量)、工业增加值(占GDP的百分比)、国民出生时的预期寿命。其中,为了保证数据充足,部分国家的部分变量选取年份为2014—2018年。由于这些变量一般来说在几年内变化不大,故本文在除原始数据展示外,不再特殊标注。
这些指标的选定是为了从多方面反映国家的发展情况和福利水平,而不仅限于传统的三产业划分和人均产出等维度。这些指标强调了人口结构、产业结构、能源结构、环境保护和国民福利水平五个方面。[2]其中,0~14岁的人口(占总人口的百分比)、15~64岁的人口(占总人口的百分比)强调人口结构因素;农业增加值(占GDP的百分比)、工业增加值(占GDP的百分比)强调产业结构;耗电量(人均千瓦时)、通电率(占人口的百分比)、能源使用量(人均千克石油当量)强调能源结构;二氧化碳排放量(人均公吨数)强调环境保护;国民出生时的预期寿命强调福利水平。尽可能多地包含各类指标,有利于我们更全面地评价国家的发展程度,并且更好地测量国家间的相关性,最后按照这些指标把上述国家分类。
二、聚类分析
本文的目的之一是对样本国家进行分类,并说明国家之间的相似和不同。因此,聚类分析是一项基础性的工作。对上述所有变量的聚类分析可以揭示国家之间的相似性,并找出和我国发展阶段相似的国家。因此,本文的聚类分析为Q型聚类分析,即对样本而非变量聚类。
(一)类平均聚类法
图1 聚类数准则
类平均聚类方法的谱系聚类如图2所示:
图2 类平均聚类分析
(二)离差平方和(ward)聚类法
1.协方差矩阵特征值
其中第一类到第四类特征值为6.36438423,1.55825111,1.20035901,0.80417123,与后面一系列值差距悬殊,且特征值占总方差的90.25%。因此第一到第四聚类为主要聚类。
2.复相关系数R2统计量
表1 聚类历史
聚类数 连接聚类 频数 半偏R方 R方 伪F统计量 伪t方22 21 20 19 18 17 16 15 14 13 12 11 10 2 3 6 9 7 4 2 3 5 6 1 0.澳大利亚CL39 CL47 CL24 CL44 CL45安哥拉CL30 CL17 CL32 CL25 CL19 CL29阿拉伯联CL23 CL11 CL7 CL10 CL6 CL16 CL9 CL3大韩民国蒙古CL33 CL38 CL26 CL35刚果(布)南非柬埔寨CL28 CL20 CL21 CL14 CL22 CL15 CL12 CL8 CL13 CL18 CL5 CL4 CL2 12 9 8 7 6 5 4 3 2 1 8 3 7 2 2 29 14 36 16 39 55 0.0046 0.0046 0.0054 0.0064 0.0067 0.0071 0.0081 0.0087 0.0093 0.0131 0.014 0.0172 0.0203 0.0208 0.0216 0.0318 0.0461 0.0471 0.0494 0.0557 0.1326 0.4082 0.934 0.93 0.924 0.918 0.911 0.904 0.896 0.887 0.878 0.865 0.851 0.834 0.813 0.793 0.771 0.739 0.693 0.646 0.597 0.541 0.408 0 22.4 22.5 22.5 22.4 22.4 22.4 22.4 22.5 22.7 22.4 22.3 22.1 21.8 22 22.6 22.7 22.1 22.8 25.1 30.6 36.6.2.7 3.7 4 4.3 4.4.3.3 2.7 6.2 6.5 7.1 4.9 4.5 5.3 8.8 8.5 8.5 8.1 6.4 17.4 36.6
3.半偏R2统计量
该统计量用以评价合并GK和GL的效果,半偏R2是上一步R2值与该步R2值之差,因此半偏R2值越小,说明上一次聚类效果越好。本例中倒数第二次的半偏R2值为0.1326,倒数第三次半偏R2为0.0557,最后一次聚类的半偏R2上升至0.4082(见表1),综合来看,样本国家可以分为2类或3类:第一类是安哥拉,喀麦隆,刚果(布),阿拉伯埃及共和国,埃塞俄比亚,加纳,洪都拉斯,肯尼亚,柬埔寨,莫桑比克,尼泊尔,巴基斯坦,菲律宾,南亚,塞内加尔,坦桑尼亚,共16国;第二类是阿拉伯联合酋长国,澳大利亚,大韩民国,共3国;阿根廷,奥地利,阿塞拜疆,保加利亚,玻利维亚,巴西,瑞士,智利,中国,哥伦比亚,哥斯达黎加,古巴,厄瓜多尔,西班牙,法国,英国,格鲁吉亚,希腊,哈萨克斯坦,黎巴嫩,摩洛哥,墨西哥,蒙古,马来西亚,巴拿马,波兰,葡萄牙,巴拉圭,罗马尼亚,俄罗斯联邦,泰国,突尼斯,土耳其,乌克兰,乌拉圭,南非被归为第三类,共36国(如图3)。
图3 Ward离差平方和聚类分析
(三)结论
综上,55国可以被初步划分为3类,第一类发展情况相对较差,共16国,第二类只有阿拉伯联合酋长国、澳大利亚、韩国,共3国。第三类则是包括我国在内的其他剩余国家,共36国,这些国家发展水平普遍远强于第一类国家。
三、主成分分析
主成分分析也称主分量分析,利用降维的方法,把多指标转化为少数几个综合指标,是一种分析、简化数据集的技术,根据这些变量能够获得主成分的背景解释。在反映样本国家的11个变量中,可能某些变量之间存在共同之处、相关性,集中、共同地体现经济增长质量评价的某些方面,故本部分对所选的55个国家2017年的11个反映发展情况的指标做主成分分析,从而对国家发展的主要方面进行初步探究。
(一)主成分的提取
在对样本数据进行标准化处理后,首先需要对11个变量的相关系数矩阵、特征值、特征向量等进行具体计算,得出以下结果(见表2):(省略了占比极小的第7—11主成分):
表2 主成分结果
主成分分析的目的是为了减少变量的个数,因此,一般不会使用所有主成分,忽略一些较小方差的主成分将不会对总方差带来大的影响。我们称为主成分yk的贡献率。第一主成分的贡献率最大,即综合原始变量X1,X2,…,Xk的能力最强,y1,y2,…,yk的综合能力依次减弱。只取m(m<p)个主成分,称为主成分y,y,…,y的累计贡献率,它表示y1,y2,…,yk综合x1,x2,…,xk的能力,通常我们选取m,使得累计贡献率达到85%以上。本文中我们提取了4个主成分(见图4),累计贡献率为90.25%,四个主成分的表达式可以写为如下:
观察第一主成分,我们发现变量被分为三类,0~14岁人口占比和农业人口占比被分为一类,工业增加值占比被忽略,剩下的其他变量被分为一类。而在实际情况中,科技水平低的国家更依赖于农业,且必须依靠高生育率保证有效劳动的供给。这样一来第一主成分就更小。科技水平高的国家对农业的依赖度下降,且在高预期寿命和低生育率的双重作用下0~14岁人口占比变小,而其他变量数值(如城镇人口占比,人均能源消耗)更大,可见第一主成分说明的是科技水平,或者说生产效率水平。观察第二主成分,我们发现低端制造业发达的国家得分会高一些,这些国家刚刚从农业国发展为工业国,因此工业产值比较重要,但通电率却有待提升,因此第二主成分说明的是低端制造业水平。第三主成分是能源系数,人均能耗高的国家得分高,而城市化通过集中供暖等手段增大了能源使用效率,在同等福利水平的条件下减少了人均能耗。而发达工业国则更可能有较高水平的第四主成分:人口构成相对偏向中老年,而且电网覆盖率水平极高,此外由于能源利用效率高,人均的二氧化碳排放量和能源使用量也相对较小。
图4 陡坡图和已解释方差图
(二)主成分分析
根据第一主成分从小到大的顺序排列(见表3)可以看出,莫桑比克是样本55国中生产效率最低的国家,而阿拉伯联合酋长国则是生产效率最高的国家。这一结论部分源于阿联酋的产品较为单一,因此其石油产业的科技水平极大地决定了整体生产效率。相比之下,我国工业品种类极多,跨度极大,因此提升整体生产效率所需的努力也更多。
而第二主成分排列后尼泊尔得分最低,说明其最不可能是一个新兴工业国。阿联酋则得分最高,这是因为其过于单一的产业:能源产业恰好和低端制造业同属产业链的底层,因此阿联酋具有一定低端制造国的特性,比如产品附加值少,工业(能源行业)十分重要。我国在这一主成分的得分反映了我们在产业链上仍有不小的上升空间。
此外,我国在第三和第四主成分上的得分处于中间水平。这与经济体处于结构转型的事实相对应:一方面我国正在发展为发达工业国,另一方面我国农业部门仍雇佣大量的劳动人口。能耗方面,一方面我国经济的发展促进了能源消费,但另一方面我国能源利用效率有待提高。
(三)结论
上述分析表明:评价国家发展的四个主成分之间没有必然联系。农业国的生产效率不一定低,而发达工业国的人均能耗水平也可能不高。此外,一些单一产业国家的总体生产效率会极大地受其支柱产业的影响。而我国在四个主成分上的得分也体现出经济体处于结构转型的事实,一方面我们具有发达工业国的特征,而另一方面农业部门仍然雇佣了大量的劳动力。[3]
表3 样本国家主成分得分
四、总结
以上的分析既对国家间的相似性进行了测量,同时也对经济发展的内在因素进行了初步探究。在参考不同国家的政策时不仅要关注政策本身,更要关注不同国家间的差异。例如,在聚类分析中,韩国与我国的距离较远,则我们在参考韩国的政策时更要充分考虑国情差异。此外,以上分析也有利于我们评价我国当前的发展程度:农业国向工业国的转变仍在进行。