基于主成分聚类分析的地区农产品电子商务发展分析
2015-12-24刘冰芳刘金璐周文晴
刘冰芳++刘金璐++周文晴
摘 要:本文以我国各省省会等为研究对象,依据农产品生产因素和电子商务发展因素选取8个指标,通过主成分分析提取出农业发展、电子商务水平、碎片化程度三个因子,继而通过聚类分析将30个城市划分为四类,其中更多的城市表现为农业发展较差、电子商务水平不高、生产碎片化的待发展型,并根据分析的结果,提出不同的城市可以选取的农产品电子商务发展方式。
关键词:农产品电子商务;发展水平;主成分聚类分析
中图分类号:F323.7 文献标志码:A 文章编号:1008-2697(2015)05-0064-04
农产品电子商务自2012年以来成为行业发展新热点。2012年阿里网络零售平台农产品销售额达198亿元,2013年则实现翻番增长,生鲜产品成为增速最快的品类[1]。农产品电子商务前景可观。但相比国外,我国的小规模、分散种植的农产品生产基本格局尤为特别。碎片化的小农经济,集中凸显了农业小生产与现代市场经济大流通之间的矛盾,是分析农产品电子商务发展时有必要考量的因素。故本文将农产品生产碎片化程度纳入各地农产品电子商务发展评价体系,通过因子分析找到其中的主要因子,评估各地发展水平,再借助聚类分析将各个城市发展水平划分为不同类别以据此发现发展农产品电子商务的优劣势,进而寻求多样化的农产品电子商务发展方式。
一、研究设计
(一)评价体系构建
一个地区的农产品电子商务发展水平由当地农产品生产情况及电子商务发展水平构成。参考前人进行的研究工作,同时考虑数据的可获得性、可比性及有效性,最终确定了8个指标用以衡量各地农产品电子商务发展水平(如表1所示)。
(二)数据来源
本文以我国大陆的31个省级行政区域(包括22个省、5个自治区、4个直辖市)的省会和首都北京为研究对象,数据来源于各市2013年国民经济和社会发展统计公报及2014年统计年鉴。由于拉萨市的统计年鉴及统计公报在市统计局及其他相关统计网站上均没有提供,无法获得所需数据,故分析中剔除了拉萨市,具体研究中只包括30个城市的样本数据。
收集电子商务发展因素数据时,选取阿里巴巴、淘宝网及天猫这3大网购平台上的网商情况为数据来源,网商包括阿里巴巴上实地认证且经过企业身份认证的诚信通会员以及淘宝网、天猫的卖家,截止时间为2015年3月。计算网商数量及交易额依托网站提供的店铺筛选功能,剔除并非以农产品为主营业务的店铺。阿里巴巴上交易额分为10万以下、10-50万、51-100万、101-500万、501-1000万及1000万以上,分别以10万、30万、75万、300万、750万及1000万计算。淘宝网及天猫上则选取店铺内价高和热销的商品10件计算,重复则在热销商品中顺延,销量相同取其中高价的商品交易额,以在节省人力和时间的同时最大限度地得到最接近的实际情况的数据。由此计算出各市网商数量及网商交易额,同时结合市统计年鉴及统计公报,计算得出单位人口网商数。
二、地区农产品电子商务发展分析
本文采用主成分聚类分析方法,选取我国大陆各省省会、直辖市和自治区首府共30个城市,对其进行农产品电子商务发展水平分析。
(一)主成分与聚类分析方法
主成分分析是利用降维的思想,在力保数据信息损失最少的原则下,把多个指标转化成少数几个综合指标的一种对多变量数据进行最佳综合简化的多元统计方法。在主成分分析中,通常将转化生成的综合指标成为“主成分”。主成分是原始变量的线性组合,且主成分之间互不相关。这样,只需考虑少数几个主成分研究复杂问题,既不丢掉原始数据主要信息,又容易抓住主要矛盾,避开变量之间共线性的问题,便于进一步分析,提高分析效率。
聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。本文所用的快速聚类法的思想是:开始按照一定方法选取一批聚类中心,让样品向最近的聚心凝聚,形成初始分类,然后按最近距离原则不断修改不合理分类,直至合理为止[2]。
(二)主成分与聚类过程分析
1.原始数据预处理及检验
收集的数据反映了各地区农产品电子商务方面的不同信息,为了排除不同量纲对评价造成的干扰,在聚类分析前,首先对原始数据做无量纲处理。本文采用SPSS 22.0中的标准化处理方法。所得数据经KMO检验和Bartlett检验,结果KMO值为0.633>0.5,Bartlett显著水平<0.05,即指标之间相互独立,适合做主成分分析。
2.主成分分析法提取主因子
采用主成分分析法运用SPSS软件分析得到2个初始特征值大于1的因子,累计方差贡献率达到65.754%,解释结果不理想。但第三个因子贡献率较大,因此选取3个因子,其方差贡献率分别为38.892%、26.863%及11.652%,累计贡献率达到77.406%,即能够解释77.406%的变量。可以认为原来的8个指标能够综合成3个因子,作为评价各地农业碎片化下电子商务发展水平的主成分。
由于因子载荷矩阵不是惟一的,所以应该对因子载荷矩阵进行旋转。用最大方差正交旋转法处理3个因子后得出载荷矩阵(如表2所示)。第一主成分在X3(播种面积)、X4(产量)、X2(农业机械总动力)、X1(产值比)指标上有很高的载荷,有三个达到了0.8以上,因此将F1定义为农业因子。第二主成分在X7(网上交易额)、X6(网商数量)、X8(单位人口网商数)指标上载荷值较大,所以定义为电子商务因子。第三主成分在X5(龙头企业数量)指标上有载荷值较大,所以定义为碎片化因子。3个主成分与现实中讨论农产品电子商务时考虑的3个方面一致。
3.计算各主成分得分系数矩阵及综合主成分得分
SPSS自动输出的各主成分得分系数矩阵如表3所示。根据表2得出3个主成分的表达式:
F1=-0.699X1+0.818X2+0.848X3+0.836X4+0.069X5-0.047X6-0.038X7-0.214X8
F2=-0.296X1-0.105X2-0.096X3+0.112X4+0.156X5+0.929X6+0.947X7+0.782X8
F3=0.097X1+0.08X2-0.078X3+0.001X4+0.967X5+
0.107X6-0.061X7+0.273X8
各主成分乘以相应的权重加总,得出综合测算公式为:
F=(F1*38.892+F2*26.863+F3*11.652)/77.406
4.聚类分析
综合测算结果能够反映各地农产品电子商务发展水平,但未能揭示3个因子的内在状况和影响。因此对F1、F2、F3进行快速聚类,首先取聚类数为9,观察各聚类中心位置,将聚类中心基本一致的类聚成新类,重新设置聚类数。直至当聚类数为4时,各类聚类中心距离基本一致,聚类中心位置清晰不重叠,所以将30个城市分为4类。
从表4可以看出,第一类F1<0,F2>0,F3<0,表现为农业发展一般,电子商务水平较高,碎片化程度高。类似地,第二类F1<0,F2<0,F3>0,表现为农业发展较差,电子商务水平较低,碎片化程度一般。第三类F1<0,F2>0,F3>0,表现为农业发展较差,电子商务水平较高,产业化程度高。第四类F1>0,F2<0,F3<0,表现为农业发展良好,电子商务水平一般,碎片化程度较高。
最终结果如表5所示。
三、地区农产品电子商务发展结果分析
由分析结果可知,重庆、昆明、石家庄、杭州、哈尔滨综合得分较高,排名居前,但高分原因略有不同。同属第四类的的重庆、昆明、石家庄和哈尔滨得分高主要源于当地农业发展良好,除昆明外的其他3个城市的机械化程度较高,产量大,可外销。昆明机械化程度不高,农作物播种面积也不大,但农产品产出效率很高。杭州则是因为农业产业化发达,网商数量较多且地区常住人口少,农产品电子商务水平较高。聚类分析得出的4个类别中城市间优劣势不同,也代表了以此为主要表现的四类城市农产品电子商务发展状况。
第一类城市有北京、长沙、上海和成都,共性在于F1得分在0左右波动,F2得分为正,F3得分略有不同,为“碎片电商型”。北京、上海经济繁荣,对于电子商务这一新兴的交易形态接受度、采纳度高,网商数量众多且交易额高,有良好的电子商务基础。但都是一线城市,农作物播种面积和产量有限,农业在产业结构中占比不大,缺乏进行农产品电子商务的物质支持。长沙和成都则另有特点,长沙网商人数不多,但经营着茶以及禽蛋这类标准化程度较高、客单价较高、适合进行网上交易的农产品,达到较高交易额。成都网商数量也不多,交易额高于平均水平,但是农作物播种面积大,有一定的农产品电子商务基础条件。
第二类城市包括济南、长春、南京、武汉、沈阳、合肥等二十个城市,共性在于F1 、F2普遍为负,为“待发展型”。其中包括农业发展明显落后、生产产业化但电子商务有待发展以及3个维度都有待发展的3种城市群体。广州、太原、兰州、贵阳和西宁5个城市在农业机械总动力、播种面积、产量以及产值比上都明显低于平均水平。且除广州外,4个城市的电子商务发展处于较低水平。但广州数量较多的农产品网商也并未充分发挥农产品电子商务的潜力。济南、长春、南京、武汉、沈阳、合肥、福州、南昌、天津九个城市F3得分为正,表明生产较为产业化和集约化。其中济南和南昌的产业化发展突出。济南机械化程度高,产出效果良好。南昌机械化水平低、播种面积较小,产量不大,与当地数量较多的龙头企业数量不相匹配。余下7个城市中,除南京和武汉外,农产品电子商务发展刚起步,网商数量少,网商交易额不高。南京虽电子商务发展良好但当地农作物播种面积小、产量小,农业发展不足以支撑其发展当地农产品电子商务。武汉则是网商数量尚可,但交易额不高。西安、郑州、乌鲁木齐、呼和浩特、海口及银川6个城市基本表现出3个维度都不具优势,农产品产量较低、生产碎片化。值得一提的是乌鲁木齐以数量低于平均水平的网商和农作物播种面积,达到了高出平均水平的交易额。这一现象也与新疆瓜果在全国范围内都享有盛誉,枣类、核桃、干果等农产品适合发展电子商务有关。
第三类城市只有杭州。在多次聚类分析中,杭州一直自成一类或偶尔和少数几个城市分成一类。杭州是唯一的一个F2、F3得分都高于1的城市,为“产业电商型”。杭州农业龙头企业数量达681家,居各市之首,同时单位人口网商数也是最高。可见杭州当地多是龙头企业带动农户生产,产业化发展良好。此外浙商素来是经济发展的重要推动力量,杭州网商数量众多,达成的交易额高,但当地农作物播种面积小,产量少,没有过多可外销的农产品存量。
第四类城市有重庆、昆明、石家庄、哈尔滨及南宁,主要表现为F1得分高,F2、F3得分较低,为“碎片农业型”。昆明和南宁农业发展条件一般,但农产品产出效率很高。石家庄和哈尔滨分别在农业机械化及播种面积上各有优势,达到了相差不多的农产品高产量,同时农业在该市产业结构明显占据较大的比重,是典型的农业城市。重庆则是在机械化水平、播种面积、产量上都明显超出平均水平,但产值较低,仍不失为一个农业发达的城市。
四、结论与启示
本文通过上述数据分析,聚类后得到的3个因子为农业发展因子、电子商务水平因子及生产碎片化程度因子,与实际讨论时考虑的3个方面吻合,表明可以以这3个维度直接衡量最终农产品电子商务发展水平。同时第一主成分为农业发展,第二主成分为电子商务水平,第三主成分为碎片化程度,表现了发展农产品电子商务时生产是否为碎片化影响较小,更应着力于提升农业实力与电子商务水平。
聚类分析后将30个城市分为4类:碎片电商型城市北京、长沙、上海和成都,其中上海和北京电子商务基础良好,成都农产品储备较大,而长沙选择适合网络交易的农产品交易进而电子商务发展良好;待发展型城市济南、长春、南京等,同时此类也是最多城市所在类别,可再细分为农业发展明显落后、生产产业化但电子商务有待发展以及三个维度都有待发展的3种城市群体;自成一类的产业电商型城市杭州;碎片农业型城市重庆、昆明、石家庄等。可根据不同类别基本情况,相应地提升发展农产品电子商务中相对不足的方面,选取不同的发展模式。如杭州可通过产业化的生产进而拉动农业发展,提高机械化程度、提升产量,为农产品电子商务发展奠定物质基础,进而更好地发展农产品电子商务。
由于本文研究对象只包含各个省的省会、直辖市及自治区首府,并未包括该省其他城市,城市分析结果并不适用于描述该省情况,不适用于广泛推广。同时因为只选取了省会和首府,部分农产品电子商务发展得很好的城市,如安徽芜湖——互联网品牌“三只松鼠”的所在城市,并没有计入研究范围。当然,这也为后续研究提供了一种进一步完善的方向。
参考文献:
[1]高红冰等.中国新农人研究报告[R].杭州:阿里研究院,
2014.
[2]汪冬华.多元统计分析与SPSS应用[M].上海:华东理工大学
出版社,2010.
(责任编辑:汤钦乐)