最低生活保障系统中数据挖掘技术的实现
2016-03-14赵新华张克柱
赵新华,张克柱
(1.兰州职业技术学院 电子与信息工程系,甘肃 兰州 730020;2.兰州职业技术学院 现代服务系,甘肃 兰州 730020)
最低生活保障系统中数据挖掘技术的实现
赵新华1,张克柱2
(1.兰州职业技术学院 电子与信息工程系,甘肃兰州730020;2.兰州职业技术学院 现代服务系,甘肃兰州730020)
本论述对低保数据的挖掘中,使用了两种挖掘算法,另外配合SQL Server 2010提供的数据挖掘功能对低保数据进行了全面的分析,介绍了OLAP技术和数据挖掘在低保数据分析中的应用。主要内容包括:分析了数据挖掘技术在低保数据分析中的应用意义;研究了关联规则、决策树算法、聚类分析在低保数据分析中的应用。这也是低保信息化工作今后重要的研究目标和发展方向。
数据挖掘技术;数据分析;模型
1 低保决策模型的建立
使用SQL Server 2010中的Analysis Services(分析服务),对低保数据库中的数据选择Microsoft决策树算法,最终建立了决策树模型。下面对运行的结果中有指导意义的信息做如下解释:
(1)在决策树建立时,选取了性别、年龄、文化程度、健康状况、债务情况、家庭规模六个属性,从最终得到的依赖关系图中,可以发现对低保户贫困状态影响最大的属性是年龄,然后是文化程度,紧跟着是性别,之后是债务情况。债务情况是最不具影响力的因素,因为在依赖关系图中债务情况没有显示出来。
(2)在决策树结构中,首先从根节点根据文化程度将整个数据样本划分为5部分,在树形结构的第二层中,文化程度中和高的这两个节点没有再进行分支,文化程度为低的节点按照年龄进行分支;在属性结构的第三层中,年龄的中和高这两个属性按照性别分支形成了下一级节点,性别为男和女的分别按健康状况分支。以下的各级节点都是按照人均收入分组的,债务情况在分支的建立过程中没有体现,也就是债务情况在低保金分配的影响因素中是很小的。
2 低保数据分析结果
本论述选取了低保数据库中的样本数据13 772条。为了比较城市和农村地区低保人员的特征差异,在数据分析时将数据分成两部分:城市和农村,采用Apriori算法对低保数据进行关联规则的分析,主要是对低保人员的特征分析,包括年龄、性别、文化程度、健康状况等方面特征的分析。具体分析过程概括如下:(1)执行后台存储,过程进行数据预处理;(2)Apriori算法实现,找出所有频繁项集及其支持度;(3)在频繁集中产生关联规则;(4)分析关联规则,与实际结合,指导决策。
2.1低保数据关联规则项集的生成过程。
本论述选取了低保人员的以下特征实现关联分析:年龄、文化程度、性别,目的是为了得到对低保工作有指导意义的规则。为了应用Apriori算法,使用迭代的方法。下面简要描述生成项集流程:input:事务数据库D;output:D中的频繁项集L。
(1)在第一次扫描中,对D中的每一个数据项计算其支持度,确定出满足最小支持度的一频繁项集集合Ll:{年龄<60}、{性别=男}、{文化程度<=小学}、{范围=城市}。
(2)利用已经生成的1项集L1进行自连接,得到候选2项集的集合L2:{年龄<60,性别=男}、{年龄<60,文化程度<=小学}、{年龄<60,范围=城市}、{性别=男,文化程度<=小学}、{性别=男,范围=城市}。
(3)然后扫描数据库,计算这些候选集的支持度。
(4)因为对低保数据进行关联分析的目的是得到低保人员在各个属性中的分布,最终通过对比支持度来得出结论,所以不需要对L2进行剪枝处理。通过L2自身的连接,得到候选3项集,然后扫描数据库,得到3项集的支持度。
(5)对3项集L3进行自连接,得到4项集L4:{年龄<60,性别=男,文化程度<=小学,范围=城市},扫描数据库计算支持度。
(6)对4项集L4进行自连接,得不到5项集,即L5为空,扫描结束。最终的频繁项集就是L1到L4。
对于城市低保人员信息抽取同样数量的样本信息,进行支持度计算,比较城市和农村支持度分布状态,对城市和农村的低保人员的特征和它们之间的差异有一个详细的掌握,为城市和农村采取不同的低保措施提供科学的依据。
2.2低保数据的聚类分析
要求每个模型都必须包含一个数值或文本列,用于唯一标识每个记录,不允许复合键,且每个模型有一个或多个输入列,这个输入列关系到生成分类的值。输入列的数目由每个列中值的数量来决定,添加额外的列会使定型模型的时间延长。
聚类分析在构造模型时不需要可预测列,但是可以添加可预测列,而且预测列的数据类型几乎没有限制,将列的值作为对聚类分析模型的输入,或者规定只用于预测。例如,如果需要通过对人口统计信息(如地区或年龄)进行分类来预测客户的收入,则可将收入指定为PredictOnly,然后将所有其他列(如地区和年龄)添加为输入。
挖掘结构建立好后启动调试,可以选择Microsoft分类查看器浏览模型。查看聚类分析模型时,Analysis Services将在一个关系图中显示分类(该关系图描绘了分类之间的关系),还提供了每个分类的详细配置文件、将每个分类与其他分类区分开来的属性列表以及整个定型数据集的特征。
如果希望了解更多详细信息,可在Microsoft一般内容树查看器中浏览该模型。该模型存储的内容包括每个节点中所有值的分布、每个分类的概率以及其他信息。
本论述中的数据源是Excel表格,先利用SQL Server2008的导入导出工具将低保数据导入到数据库“低保管理”中。为了让SQL Server服务器能够连接到需要进行挖掘的数据,首先需要对数据源进行设置,具体步骤如下:
步骤l:启动SQL Server Business Intell igence Development Studio,在“文件”菜单中选择新建“项目”,在出现的[新建项目]对话框中选择类型[商业智能项目]。在本次数据挖掘中将项目命名为dibao。选择现有的数据连接;
步骤2:定义Analysis Services可以使用哪种Windows凭据来连接数据源,这里选择“使用服务账户”选项。
其次设置数据源视图,步骤如下:
步骤1:新建“数据源视图”,打开“数据源视图向导”,单击下一步;
步骤2:选择表和视图,选择“包含的对象”单击下一步;
步骤3:在名称框中输入名称:低保数据视图,单击“完成”按钮。
最后建立数据挖掘结构,步骤如下:
步骤1:新建“数据挖掘结构”,打开“数据挖掘向导”,选择定义方法:“从现有关系数据库或数据仓库”,此方法基于现有关系数据库中的表和列定义挖掘结构;
步骤2:选择“Microsoft聚类分析”挖掘方法;
步骤3:指定分析时要是使用的表的类型;
步骤4:为挖掘模型结构指定键、输入列和可预测列,指定列的内容类型和数据类型;
步骤6:挖掘结构命名“低保数据聚类分析”,挖掘结构创建完成。
通过上面的聚类分析情况,可以得出这样的结果:低保人群大部分是文化程度在小学以下(包括小学),而且大多数是年龄偏大。因此,在低保工作的过程中,应对这些人员更加重视,需要在政策等方面加大扶持力度,解决低保人群的根本性问题。
3 结束语
通过对低保数据采用几种数据挖掘技术进行挖掘,笔者对数据挖掘的功能和实现方法有了比较深刻的理解。在对低保数据的挖掘中,笔者使用了两种挖掘算法,另外配合SQL Server 2008的提供的数据挖掘功能对低保数据进行了全面的分析。
介绍了OLAP技术和数据挖掘在低保数据分析中的应用,主要内容包括:分析了数据挖掘技术在低保数据分析中的应用意义;研究了关联规则、决策树算法、聚类分析在低保数据分析中的应用。这也是低保信息化工作今后重要的研究目标和发展方向。随着计算机技术与应用的发展,以及各种海量信息数据的不断产生和保存,数据挖掘技术的研究与应用越来越具有基础条件。
[1] 杨光,张雷.OLAP技术及其发展[J].计算机应用研究,1999 (22):7-10.
[2] 李慧,闻豪.基于数据仓库的0LAP技术研究[J].电脑知识与技术,2005(2):77-81.
[3] 印勇.决策支持分析新技术——数据挖掘[J].重庆邮电学院学报,2001增刊:70-74.
[4] 姚家奕,等.多维数据分析原理与应用[M].北京:清华大学出版社,2004.
[5] 张维明,等.数据仓库原理与应用[M].北京:电子工业出版社,2002.
[6] 陈京民.数据仓库原理、设计与应用[M].北京:中国水利水电出版社,2004:21-35.
TP311
A
10.3969/j.issn.1672-6375.2016.04.002
2016-3-4
赵新华(1980-),女,汉族,甘肃兰州人,硕士研究生,讲师,主要从事大数据研究工作。