基于因子与聚类分析的中国31省市的就业情况

2013-10-16范迎军袁永生

暨南大学学报（自然科学与医学版） 2013年1期

范迎军，袁永生

(河海大学理学院，南京210098)

改革开放以来，我国人口的就业状况发生了较大变化，就业结构明显改善，劳动生产率得到较大的提高.但是各省市就业总体状况各不相同，就业结构、城乡人力资源的就业分布也有各自的特点.中西部省份和沿海城市相比，在经济发展水平、企业生存状况、人力资源开发、非农产业就业状况、工业化程度等方面相对较低，这些因素导致了中西部省市在就业结构方面明显异于沿海省市.

本文对31省的就业情况进行研究，在主成分分析的基础上，定义了新的深度函数，以深度函数代替原有的回归评分函数［1－5］进行综合排序.统计深度函数为多维数据提供了一种从深度中心向外的排序方法，由深度函数的性质［6－7］可知，靠近中心的数据深度较大，远离中心的数据深度较小.我们以西藏的主成分因子作为深度中心，因此得到的31省市的综合得分函数越小，说明排名越靠前，反之亦然.

进一步，考虑主成分所起作用不同，以主成分的方差贡献率为权重，运用加权欧氏距离进行了主成分聚类，结果更符实际.在分析结果的基础上，总结出4个层次地区就业情况的总体特点与差异，并对差异的形成原因进行了分析，找出各层次地区在就业情况中的优势与不足.

1 指标体系的建立

对中国就业情况进行评价，首先要构建其指标体系，本文对中国31省市的就业情况进行研究，根据2010年《中国统计年鉴》［8］，选取属于中国3大产业的19个行业作为指标体系，即:X1(农、林、牧、渔业)、X2(采矿业)、X3(制造业)、X4(电力、燃气及水的生产和供应业)、X5(建筑业)、X6(邮政)、X7(信息传输)、X8(批发、零售)、X9(住宿餐饮业)、X10(金融业)、X11(房地产)、X12(商务服务业)、X13(科研、技术服务和地质勘查业)、X14(水利、环境和公共设施管理)、X15(居民服务)、X16(教育)、X17(卫生、社会福利)、X18(文化、体育和娱乐业)、X19(公共管理和社会组织)，将31省市的19个行业就业数作为原始数据.

2 相关数据分析

2.1 因子分析

(1)利用SPSS软件，先对19个指标的原始数据进行标准化处理，并得到各指标之间的相关系数矩阵R.

(2)通过数据处理，KMO值为0.755，同时通过Bartlett检验(表1)，说明这些数据适合作因子分析.

表1 KMO和Bartlett检验Table 1 KMO and Bartlett′s test

(3)计算相关系数矩阵R的特征值和特征向量，结果见表2，根据特征值累计贡献率大于85%确定主成分的数目为3，提取了87.27%的信息，求得因子载荷阵.

表2 R的特征值与累计贡献率Table 2 R′s charalteristic value and cumulative percentage

(4)主成分因子与原始指标之间的关联程度由因子载荷阵体现，由于初始因子载荷阵因子含义不明显，为此利用方差最大正交旋转(Varimax)［9］，得到旋转后的因子载荷阵(如表3).

将旋转后的因子载荷阵中各指标按载荷值较高的情况分为3类，即3个主成分.第1个主成分F1在X6(邮政)、X7(信息传输)、X8(批发、零售)、X9(住宿餐饮业)、X10(金融业)、X11(房地产)、X12(商务服务业)、X13(科研、技术服务和地质勘查业)、X15(居民服务)、X18(文化、体育和娱乐业)上的载荷值都很大.可以看出F1是第三产业中一些行业的指标因子的归类，是新兴产业因子.

第2个主成分F2在X2(采矿业)、X3(制造业)、X4(电力、燃气及水的生产和供应业)、X5(建筑业)、X6(邮政)、X8(批发、零售)、X10(金融业)、X14(水利、环境和公共设施管理)、X16(教育)、X17(卫生、社会福利)、X19(公共管理和社会组织)上有较大的载荷值.可以看出F2是第二产业与第三产业中部分行业的指标因子的归类，是与第二产业、第二产业相关的服务业因子.

第3个主成分 F3在 X1(农、林、牧、渔业)、X2(采矿业)上载荷值较大.F3是第一产业与第二产业中部分行业的指标因子的综合，是传统行业因子.

(5)通过因子分析，将19个变量降为3个公共因子，依据旋转后的因子载荷阵写出F1、F2、F3的因子表达式为:

其中X为标准化后的数据，lj为因子载荷阵.

从3个主成分的得分可以看出，由于西藏的3个因子明显均处于最低水平，利用这个特点，以西藏的主成分Z为深度中心，定义这里的深度函数为:

表3 旋转前后的因子载荷阵Table 3 Original and rotated component matrix

其中d(Zi，Z)为定义的加权欧氏距离，即

其中yi，k为样本Zi在主成分Fk上的得分，ωk为第k个主成分的方差贡献率，而

即数列{d(Zi，Z)}的中位数.

以深度函数作为评定综合得分函数，由深度函数的定义可知，数据深度可以看作是一个髙维数据在给定样本数据集下，这个数据有多么的靠近深度中心，靠近中心的数据深度较大，远离中心的数据深度较小.因此得到的31省市的综合得分函数越小，说明排名越靠前，反之亦然.通过深度函数计算出综合得分，列出各省市就业情况排名顺序，见如表4.

表中各因子对应的数值越大，表明在此方面的就业水平越好，表中的负值表示该地区在对应的方面就业情况低于全国平均水平.

从F1得分可以看出，广东、北京等地在服务行业具有明显的优势，低于平均水平的大多为中西部地区，这是急需发展的行业.从F2得分看，广东、山东、河南等地在第二产业与部分第三产业具有明显优势，小于0的中西部地区有待提高.从F3得分看，在农、林、牧、渔业、采矿业上黑龙江、辽宁、新疆、河南等地具有优势，这与地理优势与矿产资源有很大的关系.

2.2 主成分加权聚类与结果分析

F1对原始变量的方差贡献率为39.992%，F2对原始变量的方差贡献率为39.04%.F1、F2都是研究就业情况时需要着重考虑的方面.F3对原始变量的方差贡献率为8.238%，对评价就业情况的重要性要相对低一些.

由于主成分重要性不一，我们对于样本间距离的定义需要考虑到特征指标所起的作用不同，本文选择各个主成分的方差贡献率作为权重进行主成分加权聚类.

主成分加权聚类:当样本比较大，指标比较多的时候，利用样本的主成分得分代替原始数据进行主成分聚类，大大减少了聚类过程中计算的复杂程度，同时为了突显主成分的不同作用，对两两样本的距离进行加权综合.31个样本中两两样本Zi，Zj间的距离为d(Zi，Zj)，这里采用(3)中的加权距离公式.而类与类之间采用系统聚类中的类平均法［10］进行主成分聚类.

通过加权距离公式进行主成分聚类，聚类结果见表4，得到谱系图(图1).我们将31省市的就业情况分为4大类.

表4 综合排名与主成分聚类结果Table 4 Integrated rank and principal component clustering results

第1类为北京、广东，说明在非农产业因子上有绝对优势的地位，各方面的资源得到充分的应用;第2类为山东、河南、浙江、江苏和上海，这5个华东区的省市在第二产业与第三产业的得分高于全国平均水平，特别是在第二产业及与之联系紧密的服务业上优势明显，展现了区域性就业发展的巨大潜力;第3类为四川、辽宁、黑龙江、陕西、福建等21个省市，涵盖区域最广，东部省市如黑龙江第二产业与服务业得分排名靠前，而中西部如安徽和陕西传统行业因子较高，展现了非农产业与传统农业就业情况的不协调发展，是需要大力发展非农产业的区域;第4类为宁夏、青海、西藏，该类西部省区在各因子中的得分均明显落后于全国平均水平，在非农产业开发方面面临巨大挑战.

比较因子分析与主成分加权聚类结果，除了上海与四川的聚类结果排序与因子分析综合得分排序有所不同外，其他省市的排序结果具有很好的一致性.

图1 各省就业聚类分析谱系图Fig.1 The tree diagram of the 31 province's employment

3 结论

就业结构地域性差异明显，并受多方面因素的影响.

从因子分析与主成分聚类结果上看，第一、第二层中广东、北京、山东、河南、浙江、江苏、上海等地就业情况领先全国，原因是多因素的.

(1)沿海城市改革早、发展快，就业的能力差异主要是由于就业结构不同引起的，经济发达地区非农产业吸纳就业的能力明显高于经济落后地区，特别是第三产业.

(2)工业化程度，工业的发展促进就业岗位的增加，同时带动服务业的发展，促进就业结构的变化，而东部地区工业化程度均高于中西部地区，工业结构实现了第二产业与第三产业的协调发展.第三、第四层中中西部地区的工业化水平相对较低，第二产业与第三产业没有很好的协调发展，特别是与制造业密切相关的第三产业发展水平偏低.

(3)城镇化水平在全国区域差异性明显，东部城镇化水平高，促进本地非农产业的部门转移，有效带动了第三产业的就业.而中西部地区县域经济相对落后，不能有效的吸收农村剩余劳动力，宁夏、青海、西藏等中西部地区无论在人才、资源、技术等方面都与沿海地区有很大差距.

(4)非公有制经济的发达水平，非公有制经济能够有效地推动就业结构的变化.

(5)国家区域发展政策的影响.

［1］汪文雄，李启明.基于因子与聚类分析的中国建筑业产业竞争力研究［J］.数理统计与管理，2008(3):329－337.

［2］陆远权，马垒信，何倩倩.我国31省区人力资源状况的比较研究［J］.统计与决策，2011(4):75－78.

［3］陈希镇，林俊涛.用多元统计方法分析浙江省各地区的经济结构［J］.数理统计与管理，2010，29(6):1044－1051.

［4］赵元笃，赵艳轲.广东省工业主导产业选择初探——基于因子分析和聚类分析的实证研究［J］.科技管理研究，2011(13):30－34.

［5］王庆丰，党耀国，王丽敏.基于因子与聚类分析的县域经济发展研究——以河南省18个县(市)为例［J］.数理统计与管理，2009，28(3):495 －501.

［6］REBECKA JORNSTEN. Clustering and classification based on the L1 data depth［J］.Journal of Multivariate A-nalysis，2004，90:67 －89.

［7］ZUO Yijun，CUI Hengjian，HE Xuming.On the Stahel-Donoho estimator and depth-weighted means of multivariate data［J］.The Annals of Statistics，2004，32(1):167 －188.

［8］中华人民共和国国家统计局.中国统计年鉴(2010)［M］.北京:中国统计出版社，2010.

［9］王德青.一类复杂观测数据的分类方法研究［D］.南京:河海大学理学硕士学位论文，2009:17－24.

［10］包为民，万新宇，荆艳东，等.基于主成分分析的河流洪水系统聚类法［J］.河海大学学报，2008(1):1－5.