基于缺失值简单插补的聚类分析
2014-04-29武依明
武依明
【文章摘要】
数据缺失、无回答是统计过程中比较普遍的现象,缺失值的处理对研究质量亦有很大影响,本文使用多种简单插补方法得出不同的缺失值的估计值,并比较各种简单插补方法的优劣,最后运用系统聚类的方法,对我国31个省的农村居民家庭人均纯收入进行聚类分析,从中发现特点和规律,分析我国从1990年到2011年以来各地区农村居民家庭人均纯收入的变化,并进行详细的实证分析。
【关键词】
缺失值;简单插补;聚类分析
1 前言
农村居民占我国人口的很大部分,各地区的农村居民收入差距呈上升趋势。建国以来,国家颁发了各种法案以及政策来提高农村居民收入,改善农村生活条件。但是随着时代的发展,贫富差距越来越大,穷人越来越穷,富人越来越富,其中农村居民家庭纯收入是最能代表城乡贫富差距拉大的指标,相比城市的市民来说,农村人均收入只是城市居民的六分之一。近来召开的十八届三中全会提出要加快构建新型农业经营体系,赋予农民更多财产权利,推进城乡要素平等交换和公共资源均衡配置,完善城镇化健康发展体制机制。这一政策的提出使得农村问题再一次受到社会的关注。
本文运用系统聚类的方法研究我国31个省从1990年到2011年以来各地区的农村居民家庭人均纯收入的特点、规律和发展趋势,为国家缩短贫富差距,制定利农富农政策提供有力的数据,同时研究农村居民家庭人均纯收入对我国以后的各种政策的实施具有指导意义。
2 缺失值简单插补
2.1原始数据的采集和整理
本文针对我国三十一个省的农村居民家庭人均纯收入,采取1990、1995、2000、2005、2009、2010、2011七个时间的数据,汇总得到原始数据,数据来源于中国统计年鉴2012。
2.2缺失值处理方法—简单插补
原始数据中1990年和1995年重庆的农村居民家庭人均纯收入是缺失的,现用各种不同的简单插补方法进行缺失值插补,比较各方法的效果。
2.2.1缺失值概念
简单一句话,缺失值就是说数据是不完整的。
现实生活中存在通过各种方法获得的统计数据,而且各种调研活动大都通过问卷调查的形式来获得调查数据,在使用该调查数据时异常值和不符合逻辑的数据将要被剔除,因此就产生了缺失数据。这些数据将严重影响数据挖掘的质量,成为数据挖掘的障碍。为了提高数据挖掘的质量,在对数据库中数据进行分析之前,一定要对数据集进行预处理。
如果把带有缺失值的记录删除掉,仅对数据集中的完整记录进行数据挖掘分析,很有可能造成估计偏差,以至于根据该分析结果做出错误的决策,由此说来使用不完整的数据进行研究,那么研究结果的准确性就会较差,因此,对数据中的缺失值进行插补和修整是非常必要,对我们进行数据挖掘分析有重要意义。
2.2.2简单插补方法
常用的简单均值插补方法有很多,再次介绍部分方法的思想原理。均值插补法是用每个变量的均值取代该变量的缺失值;最近邻均值插补方法是选取缺失数据附近的数据的均值替代该变量的缺失值;热卡插补是使用本次调查同一插补类中的供者记录( 已经通过了所有的审核) 的信息来代替一个相似的受者记录中缺失的或不一致数据的插补方法;而冷卡插补则使用其它资料中的供者。
2.2.3插补结果比较
使用spss软件操作得到各插补值的估计结果,从结果中可以看出各种插补得到的插补值有明显的差异,尤其是热卡插补和其它插补得到的插补值差异更大,因此在选择插补方法时要根据不同样本、不同类型的数据依情况而定。本文选取回归插补得到的缺失值进行后续聚类分析研究。
3 聚类分析
3.1基本原理思想
系统聚类法首先将n个样本看成n类,然后将性质最接近的两类合并成一个新类,我们就得到n-1类,再从中找到最接近的两类合并成一类,我们就得到n-2类,与此重复下去,最后所有的样品均在一类上,并将上述过程画成一张谱系图便可决定分多少类,每类各有什么样品。
3.2系统聚类分类结果
本文使用系统聚类组间联接法,采用欧氏距离平方,得到我国三十一个省关于农村居民家庭人均纯收入的分类,谱系图分类结果如下:
第一类包括天津、江苏、浙江、北京、上海;第二类包括山西,内蒙古,辽宁,吉林,黑龙江,福建,江西,河北、安徽、山东,河南,湖北,湖南,广东,广西,海南,重庆,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆。
4 实證分析
分类结果是符合实际的,把北京、天津、上海、江苏、浙江归为一类是有现实依据的。首先这五个城市都是经济发达城市。北京作为首都更是拥有天时地利人和的发展条件;天津是近几年来发展较快的城市之一,它以工业电子产品为主;上海是从旧时代开始就领先发展的,发展到今天有历史推动的原因;其次这五个城市拥有优越的地理条件。五个城市除北京以外都是沿海城市,有利于发展沿海港头经济,为进出口贸易提供方便,同时利用海洋资源发展船泊行业等;五个城市都拥有丰富的旅游资源,东南沿海空气新鲜,阳光明媚,气候温和等条件使得江苏、上海、浙江等地的旅游业发展迅速,而北京同样有旅游胜地故宫等,吸引大量海内外游客。最后五个城市都拥有密集型科技人才和创新。尤其是北京,拥有各类著名高等大学,科技创新人才的培养在一定程度上促进了北京的发展,加上各地高材生都倾向去北京工作、创业、定居等,无形中为北京提供了人才,这五个城市在科技创新方面几乎每年排名前十。
综合以上发展的各方面因素,北京、天津、上海、江苏、浙江这五个城市的农村家庭人均纯收入都要较高,因此归为一大类。总的来看呈现出沿海城市比内地发展的更快的特点。
5 对策建议
科技日新月异,经济发展要坚持走改革发展和对外开放的政策,沿海地区要充分利用地理位置的优越性,增加就业,开发新型行业,充分利用海洋资源。增加就业的方法很多,在原有工作岗位的前提下增加工作人员,做好管理制度,培养高素质管理人员,比如港口运输服务站的设立。比如说小资本的企业家要在台湾等地购买他们特色的商品然后运输回来,这样就会用到船泊等运输工具,新型行业可以从船舶业发展。海洋蕴含大量的资源,比如说海带,食盐虾、鱼等水产品,还有矿产资源,利用这些可以投资副食品业,政府可以开发海底新能源,现在有科学家发现海藻经过提炼可以提炼出石油,这就是新能源,现在还在进一步研究中。
各地要想发展快就要充分发挥自己的优势,而且可以和其它地区合作,共同发展,提高人民生活水平。
【参考文献】
[1]金勇进, 朱琳. 不同差补方法的比较. 数理统计与管理2000,19(2):50-54 页
[2]金勇进, 邵军. 缺失数据的统计处理.中国统计出版社, 2009:3 页
[3]《多元统计分析》,科学教育出版社