数据挖掘“预言”学生行为
2010-11-09林瑶李洪磊
文/林瑶 李洪磊
数据挖掘“预言”学生行为
文/林瑶 李洪磊
采集和分析学生的基本信息,可预测学生可能出现的行为,从而有目标、有针对性地实施干预措施
学生群体庞大、多样性明显,给学生管理工作带来很大的困难。不过,目前学生自然人数据、学习成绩、操行档案等在各高校均已不同程度地实现计算机化管理。如此庞大、详细的数据,为我们利用数据挖掘技术,实现学生群体划分与行为模式识别奠定了基础。
由此,我们可以建立较全面的学生群体行为模式知识库,通过采集学生的基本信息,可预测学生可能出现的行为,从而有目标、有针对性地实施干预措施,帮助提高高校安全稳定的预警水平,确保正常教学秩序的正常进行。
Clementine常用模块
我们选择Clementine软件作为主要研究工具。Clementine是一个数据挖掘工具平台,通过此平台可以采用商业技术快速建立预测性模型,并将其应用于管理活动中,从而改进决策过程。Clementine参照行业标准CRISP-DM模型设计而成,可支持从数据到更优成果的整个数据挖掘过程。
Clementine的常用模块包括:
1.分类和回归树(C&RT)节点生成可用于预测和分类未来观测值的决策树。该法在每个步骤最大限度地降低不纯洁度,使用递归分区来将训练记录分割为组。
2.CHAID节点使用卡方统计量来生成决策树,以确定最佳的分割,可生成非二元树,故有些分割将有多于两个的分支。
3.K-Means节点将数据集聚类到不同分组(或聚类)。此法将定义固定的聚类数量,将记录迭代分配给聚类,调整聚类中心,直到进一步优化模型。作为一种非监督学习机制,K-Means节点并不试图预测结果,而是揭示隐含在输入字段集中的模式。
4.广义规则归纳法(GRI)节点可以发现数据关联规则。
5.主成份分析/因子节点提供了功能强大的数据缩减技术,以此来降低数据的复杂性。
6.线性回归是一种通过拟合直线或平面以实现汇总数据和预测的普通统计方法,它可使预测值和实际输出值之间的差异最小化。
表1 学生信息数据统计
挖掘数据潜藏的规律
本文主要探讨学生信息数据中潜藏的知识和规律,这里主要讨论的是挖掘学生信息数据,从中得出有效结论。学生信息数据统计表如表1所示。
数据挖掘系统模块设计
学生管理信息数据挖掘系统是在学生信息数据仓库系统的基础上建立的,系统将数据从数据集市中取出来,再放入工作站,而后对这些数据进行预处理,对于处理后的数据进行分析、决策,以各种图和表的形式显示数据,最后应用适当的模型对数据建模,最终挖掘出知识,并对得到的知识进行解释。
数据挖掘系统总共分为5个模块:
1.数据仓库模块
该模块分两部分:
一部分是事实表的生成。该部分设计了一个简单的目标数据仓库(ETL)工具,仅对数据进行抽取和装载,这里需要指定抽取的源IP地址和装载的目标IP地址。为了进行学生毕业情况的聚类分析,我们单独设计了一个自动生成各专业毕业状况的工具,这个工具将根据选定的专业自动生成该专业己毕业学生的毕业状况事实表;
另一部分是维表和元数据的生成与管理。生成各维表的层次关系表(LevelRelation表)生成各专业毕业状况的工具。
2.项目存储模块
每一个主题挖掘都有一个项目,因此,系统要能够新建项目(分类项目和聚类项目),保存当前项目的状态(包括各种参数、各个数据集,事实表字段),并打开一个已存在的项目。项目的名字、所登录的服务器的IP地址和登录的用户名与密码均保存在文本文件中,为了防止非法登录,我们用加密算法对用户名和密码加密。
3.数据预处理模块
Clementine数据挖掘的过程是:Clementine读入数据;通过一系列操作运行数据,把数据送到目的地,操作顺序被称为数据流,每次操作时,数据流都会随着相关操作发生变化;最后,目标数据输出一个模型或者可视化的结果。
现实世界中的数据不完整、不明确(模糊),含有很多“杂质”,而数据预处理技术可以改进数据质量。本系统的数据预处理包含如下内容:数据清洗、数据离散化、样本抽样、概念分层、数据数值化。图1为对2007工商管理2班学生的数据按照各个字段对输出字段的重要性的计算后的排序,从而使42个字段降解到28个字段。
4.C4.5算法
C4.5是在ID3基础上发展起来的决策树生成算法。C4.5算法不仅能处理离散型的描述性属性,还能够处理描述性属性是连续型的情况,此算法利用比较各个描述性属性的信息增益值(Information Gain)的大小,来选择Gain值最大的属性进行分类,能够完成对连续属性的离散化处理,能够对于不完整数据进行处理,并最终形成产生式规则。算法的结果是一棵判定树,它是由样本属性作为节点构成的一棵外向树,其中非叶节点由判定对象属性组成,叶节点由分类属性构成。判定树自根开始按层构造,每次选取一个属性作为当前测试节点,节点选择通过信息论中的信息增益的熵值作度量,选择熵最大的属性作为当前的节点。
5.建模过程及结果分析模块
该模块是数据挖掘系统的核心,分类算法和聚类算法在这个模块中实现,使用C4.5算法对数据进行挖掘,通过修改算法中的参数,可以得到不同的挖掘结果,并在该模块中对结果进行分析。系统在实现数据挖掘的过程中,循环调用以上模块,直至获取满意的决策信息为止。
我们运用Clementine软件建立数据流后执行以上流程,并且以表格的形式输出结果,如图2所示。
图1 Clementine中的字段选择数据流
图2 Clementine中的不规则测试数据流
图3 决策树
运行结果分析
我们通过调查表采集的原始数据包括:学生学号、性别、专业、年级、成绩、处分状况、是否独生子女、父母职业、家庭状况、经济状况、恋爱情况、考勤情况、健康状况进行了问卷调查,一共四个年级5000多个数据的统计。我们选用四个字段:将学生性别Sex男(女)转化成数字01(02),是(否)独生子女Only转化成数字11(12),经济条件Economy良好(困难)转化成数字21(22),家庭Family和谐(不和谐)转化成数字31(32),用Clementine中的C4.5算法模块进行挖掘,最终生成的决策树如图3所示。
我们通过对派生字段运用Clementine软件进行数据挖掘后,由最终的生成报告得出有心理状况的规则为:11→01→31→22;11→01→32;11→02→32;12→01→32→22;12→02→32。由此可知,关系紧张的家庭及单亲家庭对学生心理影响最为明显,大学生需要更多的关心和爱护,其次是经济困难或经济条件过好也对大学生形成心理问题起着不可忽视的影响,需要高校加大对学生的理想信念的培养力度。这些结论对我们指导学生工作起到重要的作用,但我们仅选取了其中四个字段进行了分类的挖掘研究,当然,还可以选取更多字段进行进一步的聚类、关联分析算法的探讨。
学生信息系统中含有大量有待挖掘的有用信息,这些信息对校方更好地制定学生培养计划无疑具有重要的指导意义。本文通过在学生信息管理系统中的具体实践和运用,实现了一个实用的学生信息数据挖掘系统,有效提高了学生管理工作的效率和质量,但在学生行为预测方面涉及的面还不够广,这对我们进一步深入的研究提出了要求和挑战。
(作者单位为辽宁师范大学管理学院)