低保数据中数据挖掘模型的建立

2016-05-14赵新华张克柱

亚太教育 2016年8期

赵新华　张克柱

摘要：通过将数据挖掘技术应用于低保数据的统计，一方面可以将先进的计算机技术应用到低保统计工作中，提高了工作效率，更重要的是通过分析每年产生的大量数据，可以获取隐藏在其中的规律，对数据的构成和变化有一个综合而深层次的挖掘，找到贫困群体成为低保户的主要特征，对低保资金占有比例较大的群体给予更多的关注和帮扶。

关键词：数据挖掘；模型；数据

一、低保数据预处理过程

（一）样本数据的特点。本文对张掖市2015年低保数据进行采集，通过研究这部分样本数据，最终能总结出数据挖掘技术在农村低保数据统计应用中的一些结论。

根据分析低保数据具有以下的特点：（1）数据量大、覆盖面较广。最低生活保障体系是一个规模很大的体系，数据量极大，而且数据又分布在全国不同的地区，对低保数据进行挖掘和和管理是非常有意义的；（2）具有一定的动态性和时间性。随着时间的变化，低保数据在不断增加和删除，需要对数据进行更新。

（二）数据采集。面对庞大的低保人群，数据采集的工作量是很大的，采集的数据要典型、内容尽量完整充实，这样最终的数据挖掘结果才会更有效和准确，数据采集过程中需要关注的一些问题如下：数据收集要以地区为单位，找出不同地区间低保人员在生活状况、年龄分布、性别、文化程度、家庭结构、身体健康状况等方面不同于其他群体的差异和特征，对重点困难地区加以帮扶和支持。

（三）数据清理。在采集数据和输入数据的过程中，不可避免的会出现数据错误、重复数据和数据不一致的问题，这些数据在数据挖掘中都是不符合要求的，数据清理的主要任务是填充缺失的值，光滑噪声并识别离群点，并纠正数据中的不一致。为了使本次挖掘结果达到预期目的，进行如下的清理：（1）如果数据中有大量缺失的属性，将缺失的属性值用同一个常数替换。如“Unknown”。先用一个替换值将空值进行约束替换。处理后的数据对后期挖掘工作没有价值会选择删除。（2）对某些比较重要的属性，利用该属性的最可能的值填充缺失值。

有些属性的值在数据采集和数据输入的过程中空缺，但是缺失的这些值可以通过分析属性的历史数据来填补。在历史数据中，分析属性的哪个值在整个数值的比例是最高的，也就是这个值分布的密度是最高的，说明这个属性值出现的可能性是非常大的，就用这个值来填充空缺的值。

（四）数据转化。原始表中没有年龄字段，通过户主信息表和家庭成员信息表中的身份证号计算年龄字段，采用下面的SQL语句来实现：Select身份证号，datepart（yy，getdate（））-substring（身份证号，7，4）as年龄from低保数据对于低保人员信息的年龄字段，因为信息量巨大，为了有目的的进行数据挖掘，将年龄的取值离散化，进行有效的分类，将年龄取值划分为三个区间，每个区间为一个属性值，将年龄25-35的划分为“青年”，将36—59划分为中年，60以上为老年。

（五）数据规约。原始数据一般是非常大的，在海量的数据上进行数据挖掘和分析将需要很长的时间，数据规约是从数据集中挑选或过滤出具有代表性的数据，缩减挖掘的时间和成本，使数据挖掘的目标能缩小一些。规约之后，数据表示小得多，但最终数据挖掘的结果仍然接近地保持原数据的完整性。数据规约的策略有下面几种：

1.数据立方体聚集：对数据立方体中的数据寻找感兴趣的维度进行再聚集。

2.维归约：检测并删除没有关连、关连性弱或冗余的属性（维）。

3.数据压缩：使用编码机制把样本数据转换成另一种较小的数据流，减少数据冗余。

4.数值压缩：用替代的、较小的数据表示原有的数据。

因为挖掘对象户主信息表、家庭成员信息表、家庭信息表中的属性个数比较多，去掉数据中不重要的属性，像姓名、身份证号等信息。为了方便决策模型的建立，所以选择与其相关的这属性作为决策树建立的依据，形成新的低保信息分析数据表。

二、低保数据挖掘预期目标

在对低保数据进行数据挖掘前，首先要明确低保管理的决策需求，也就是确定数据挖掘的预期目标，之后才能决定数据挖掘需要解决的一系列问题。随着低保信息采集系统的运行和各种政策的不断加强和深入实施，低保制度得到了极大的发展和促进，同时在这个过程中积累了大量的数据，为了政策更好的实施，人们希望从数据中获取的信息也越来越多，不只是简单的数据的表面现象，更多的关注数据的质量和数据本身能包含的信息。

例如：1.低保人数与参加低保的时间、地区之间的关系。通过低保户数据，找到低保人数与时间之间的关系，低保资金发放地区之间的关系，为低保资金的发放提供政策上的支持。

三、总结

通过将数据挖掘技术应用于低保数据的统计，一方面可以将先进的计算机技术应用到低保统计工作中，提高了工作效率，更重要的是通过分析每年产生的大量数据，可以获取隐藏在其中的规律，对数据的构成和变化有一个综合而深层次的挖掘，找到贫困群体成为低保户的主要特征，对低保资金占有比例较大的群体给予更多的关注和帮扶。通过对历年的数据分析和预测，对未来低保人口的分布、人数以及人口构成有一个前瞻性的掌握。这些信息的提取，可以为低保政策的制定提供有说服力的依据。

参考文献：

[1]陈京民.数据仓库原理、设计与应用[M].中国水利水电出版社，2004：21—35.

[2]彭丽.数据挖掘中几种划分聚类算法的比较与改进[D].大连理工大学硕士学位论文，2008.

[3]印勇.决策支持分析新技术——数据挖掘[J].重庆邮电学院学报，2001增刊：70--74.

[4]姚家奕等.多维数据分析原理与应用[M].清华大学出版社，2004.

（作者单位：赵新华/兰州职业技术学院电子与信息工程系；张克柱/兰州职业技术学院现代服务系）