基于SPSS Modeler的数据挖掘过程解析

2017-12-07张治斌

数字技术与应用 2017年9期

张治斌

摘要：数据挖掘技术已经具有非常广阔的应用领域和发展前景，今天数据挖掘技术广泛的应用在电子商务、电信、保险、医学、气象等各个领域， SPSS Modeler软件已经成为诸多数据挖掘应用软件之首，备受关注，本文将以一个简单实例介绍数据挖掘的基本过程。

关键词：SPSS Modeler；数据挖掘；过程

中图分类号：TP39 文献标识码：A 文章编号：1007-9416（2017）09-0072-02

1 数据挖掘的基本过程介绍

数据挖掘也叫做资料勘探或数据采矿，从宏观上定义为从海量的各类数据中通过某种算法探索隐匿的信息和知识的过程，数据挖掘通常作为数据库知识发现的一个步骤；从另一个层面，许多人把数据挖掘视为数据库知识发现（KDD）的同义词。数据挖掘通常与传统的统计分析学、数学、计算机科学相关，通过统计、在线分析处理、机器学习和模式识别等诸多哦方法针对采集的数据进行分析挖掘。知识发现过程主要包括以下几个步骤：

（1）数据清理与集成：这一步骤可以作为在数据收集和提取之前完成，也可以在数据库中完成。在这一阶段主要任务是将各种数据源加以集成到一起，并针对噪声和不一致数据加以删除，对数据进行合法性检查并清理含有错误的数据。

（2）数据选取与变换：本阶段针对定义的问题收集选取有关数据，汇总或聚集操作，把数据变换和统一成适合挖掘的形式，在这里可以利用数据仓库的查询功能已加快数据的提取速度，同时针对数据进行再加工，剔除冗余属性、对数据的表达方式进行转换以适用于学习算法。

（3）数据挖掘：在这一步骤主要的工作是根据业务需求和数据选择合适的数据挖掘算法，并确定如何将该算法应用于数据上，并进行对应数据挖掘算法进行模式提取，确定适用于描述和解释的表现形式。

（4）模式评估与表示：最后使用可视化和知识表示技术，向用户提供挖掘的知识，并通过模式评估对学习结果的新颖性和有效性进行评价。

我们可以把数据挖掘看做是KDD过程的一个基本步骤.它包括特定的从数据库中发现模式的挖掘算法。KDD过程使用数据挖掘算法根据特定的度量方法和阈值从数据库中提取或识别出知识，这个过程包括对数据库的预处理、样本划分和数据变换。那么如何使用合适的挖掘工具完成数据挖掘任务呢。

2 SPSS Modeler软件介绍

SPSS Modeler是IBM公司将SPSS统计分析软件与Clementine数据挖掘软件进行整合，并推广到全球市场。该软件集成了诸多计算机機器学习的优秀算法，以及行之有效的统计分析方法，充分利用计算机的运算处理能力和图形展现能力，将应用、方法与工具有效结合，目前已经成为内容全面、功能强大、使用最为广泛的数据挖掘软件。下面我们以一个简单的实例介绍基于SPSS Modeler的数据挖掘过程。

3 基于SPSS Modeler工具的挖掘过程

我们以学生参加某次社会公益活动的数据为例（文件名为Student.xls），其表的基本信息内容如图1所示。利用C5.0算法研究哪些因素显著影响学生是否参与社会公益活动。

（1）数据集成与清理。

由于Students文件中包含两个表分别是老生表（Students.xls）和新生表（NewStudents.xls）。所以需要将这两个表的数据进行合并。首先在数据流编辑区插入两个【源】选项卡中的【Excel】节点，分别导入两张表格数据，然后在【记录选项】选项卡中的【追加】节点添加到两个【Excel】节点后面，完成两张表格数据的合并。接下来，选择【字段选项】选项卡中的【类型】追加到【追加】节点后面，并将“是否参加”设置为目标变量，将“编号”以外的变量设置为输入变量。

（2）数据选取与变换。

从图1中不难看出，在是否无偿献血列的取值不规范，应该将取值1和0分别调整为Yes和No。可以使用【字段选项】选项卡中【重新分类】节点进行变量类别的调整，将该节点添加到【追加】节点后面数据流的对应位置，并对【编辑】选项进行设置；同时，针对在校综合评价指数进行标准化处理，使其能够以百分制只管反映学生在校综合表现水平。这里使用【字段选项】选项卡中的【填充】节点完成，使用——（在校综合评价指数-61）/ （138-61）*100公式完成对原始数据的替换。

（3）数据挖掘：根据本任务的需求，采用决策树的C5.0算法实现对哪些因素显著影响学生是否参与社会公益活动。选择【建模】选项卡中的【C5.0】节点添加到数据流的恰当位置上，并进行对应参数设置，此处可以选择默认设置。

（4）模式表示与评估：运行并在流管理器的【模型】选项卡中【浏览】挖掘结果，可以看到挖掘结果以文字和图形两种形式分别显示在【模型】和【查看器】选项卡中，如图2所示；此外可以使用【输出】选项卡中的【分析】节点连接到输出模型后的数据流中，查看该挖掘模型的准确率。

（5）结果分析：从分析的结果可以看出：如果家长不鼓励（49）个观测值，则不参加社会公益活动，置信度为91.8%；如果家长鼓励（51个观测值），且在校综合评价指数小于等于48分，则不参加社会公益活动，置信度为77.8%；如果家长鼓励（51个观测值），且在校综合评价指数大于等于48分，则参加社会公益活动，置信度为75.8%。总之，家长鼓励是学生参与社会公益活动最关键的因素，其次是学生在校的综合评价指数。学生的家庭人均收入、是否无偿献血没有进入决策树，对是否参与社会公益活动的影响很小。

4 结语

以上对基于SPSS Modeler的数据挖掘基本过程中的数据选取、过滤和挖掘过程进行了简要介绍，由于篇幅原因具体设置界面未提供，目前，具备基本计算机操作能力已经不是问题，数据挖掘的过程与方法是后续学习关注的主体和要点。

参考文献

[1]薛薇.基于SPSS Modeler的数据挖掘[M].中国人民大学出版社，2014.endprint