基于改进的主成分聚类法对电子商务发展水平的综合评价
2018-01-05张硕硕
张硕硕
摘 要:电子商务发展带来的经济效益越来越受到重视,以全国31省市为基础,通过改进主成分聚类法探究各省市电子商务发展水平。首先对评价的指标进行选取,建立合适的评价指标体系,其次对原始数据进行均值化处理,用改进后的主成分分析提取主成分,再次用主成分综合得分与聚类分析相结合对各地区发展水平进行分析,最后与传统主成分分析进行比较得出模型的有效性。
关键词:改进的主成分;电子商务;综合评价
中图分类号:F27 文献标识码:A doi:10.19311/j.cnki.1672-3198.2018.35.036
1 引言
根据国家统计局数据显示,2017年全国电子商务交易额达到29.16万亿元,同比增长11.7%,电子商务发展带来的经济效益不言而喻。目前电子商务水平测度及评价体系主要运通因子分析法、聚类分析法、熵值法等对电子商务发展水平进行综合评价,本文将使用改进的主成分聚类法对电子商务发展水平进行综合评价,解决单一的评价带来不准确。
2 传统主成分分析原理
3.3 改进后主成分分析过程及结果
把经过均值化后的数据导入SPSS进行主成分分析。从相关系数矩阵可以看到原始数据大部分变量之间的相关系数都大于0.3且KMO为0.813>0.8,Bartlett球形检验的显著性P值为0.000<0.05,明数据适合做因子分析。表2为方差贡献表,由表2可以看出,提取了特征值大于1的三个主成分,三个主成分的特征值分别为13.564、3.696、1.328,方差贡献率分别是64.590%、17.601%、6.325%,累积方差贡献率达到88.516%。
表3为因子载荷矩阵。由表可看出企业数x1、企业拥有网站数x3、地区生產总值x9、网上零售额x13、社会消费品零售总额x14第一主成分上有较高载荷,相关性强。第一主成分集中反映了基础设施及经济状况,电子商务发展水平主要体现在基础设施与经济状况;互联网普及率x5、人均GDPx10、居民消费水平城镇人口比重x11在第二主成分上有较高载荷,第二主成分反映了人口因素;有电子商务交易的企业比重x2在第三主成分上载荷较高,反映了从事电子商务交易企业比例对电子商务发展水平做的贡献。
由表3的因子载荷除以对应的特征根(λi,i=1,2,3)得到主成分系数矩阵,用T表示。根据得到的主成分系数表,及公式y=Zx*T,可以得到主成分得分其中Zx为均值化后的矩阵。再通过表2方差贡献率64.590%、17.601%、6.325%,计算出综合得分函数,其公式为:
y综*=0.6459y1*+0.17601y2*+0.06325y3*
其中y1*,y2*、y3*为提取的三个主成分的得分,y综*为综为综合得分。
另外把标准化后的数据导入SPSS进行传统主成分分析,y综为传统主成分综合得分。对比传统主成分分析,得到表4。我们可以看到,整体排名大致相同,但是部分地区电子商务发展水平综合评测结果有差异,比如广西在改进后的主成分分析排名19,传统主成分分析排名20,内蒙古在改进后的主成分分析排名23,传统主成分分析中排名19,对比原始数据,内蒙古除了在企业拥有网站数、互联网普及率、人均GDP、居民消费水平、城镇人口比重5个指标上比广西高外,其他指标均低于广西,而这五个指标在因子载荷矩阵中的因子载荷值较小,也就是说这几个指标在电子商务水平综合评价中并不是最重要的指标,故广西的电子商务发展水平应该高于内蒙古,改进后的主成分分析结果优于传统的主成分分析。
3.4 聚类综合评价
对主成分综合得分进行聚类分析,同时参考各类中各地区的综合主成分得分以此对类进行排序,最终得到综合的评价结果。系统聚类图如图1所示,求得这五类中样本的平均得分并排序。
第一类{广州},广州的综合得分远远高于其他地区,为电子商务最发达的地区;第二类{浙江、江苏、上海、北京},发展水平低于广州,为电子商务较发达地区;第三类{山东、福建},为电子商务发展水平一般发达地区;第四类{河南、四川、湖北、河北、辽宁、湖南、安徽、天津},根据福建省和河南省综合得分,有一个较大差别,为电子商务发展水平一般地区;第五类{陕西、重庆、江西、广西、黑龙江、山西、云南、内蒙古、吉林、贵州、海南、新疆、甘肃、宁夏、青海、西藏},主要为中西部地区,为电子商务不发达地区。总体来看,东部沿海地区电子商务发展水平普遍高区中西部地区。
4 结论
与传统的主成分分析相比,改进的主成分聚类分析方法能够在很大程度上克服主观因素的影响,同时在对原始信息的处理中采用了均值化处理方法,使挖掘的结果更加准确,在此基础上运用聚类分析方法,将电子商务发展水平相近的地区聚为一类,为准确评估电子商务整体水平和有针对性的寻求解决方案提供更可靠的依据。
参考文献
[1]王国祝.聚类分析及算法研究[J].现代商贸工业,2017,(22).