基于SPSS Modeler和Oracle的学生行为数据分析
2018-01-04张翠轩曹素丽王淑梅
张翠轩 曹素丽 王淑梅
摘要:随着校园信息化程度的日益提高。学校积累了大量的学生数据,如何充分利用这些数据,获取其中蕴藏的价值,已经成为大数据时代面临的主要任务。基于数据挖掘工具SPSS Modeler和Oracle数据库对校园“一卡通”数据进行分析,挖掘出学生消费习惯、奖学金和助学金之间的关系,从而使学校相关管理部门从中受益。
关键词:大数据;数据挖掘;数据库;一卡通
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)28-0001-03
Analysis of Student Behavior Based on SPSS Modeler and Oracle
ZHANG Cui-xuan, CAO Su-li, WANG Shu-mei
(Shijiazhuang Post & Telecommunication Technical College, Shijiazhuang 050021, China)
Abstract: Along with the increasing degree of informatization campus, the school has accumulated a large number of data.How to make full use of these data to obtain the value of them has become the main task in the era of big data. Based on Data Mining tools SPSS Modeler and Oracle DB, the campus data of one card solution are analyzed, and the relationship between students' consumption habits, scholarships and grants is excavated so that the relevant management departments of the school will benefit from it.
Key words: big data;data mining;database;one card solution
目前,校園的数字化、信息化已经普及,校园一卡通作为信息载体,成为学校信息资源整合的重要组成部分,它将学校的各个部门连为一体,动态掌握持卡人的生活和学习情况,并与学校其他信息基础设施相配合,极大地提高了学校的管理效率和水平。
为了顺应高校信息化发展,将学生日常一卡通数据、奖学金和助学金数据与数据库和数据挖掘技术进行整合和分析,主要针对学生的消费习惯和学习行为进行分析,首先通过数据清洗、数据预处理、数据集成、数据转换与数据规约等数据预处理手段提取出一个小型数据仓库,然后采用一种优化的K-means算法进行聚类分析,将学生分为几类,并分析不同类别行为特征,最后运用决策树模型采用Apriori关联规则算法针对学生学习相关行为进行关联度分析。
SPSS Modeler充分利用计算机系统的运算处理能力和图形展现能力,将方法、应用与工具有机地融为一体,该软件不但界面友好、操作简捷,而且功能强大,是解决数据挖掘问题的最理想的工具。
Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的 适应高吞吐量的数据库解决方案。
午餐最能反映学生的消费情况,为了探究学生助学金评定的合理性,本文主要研究午餐消费情况与学生助学金之间的相关性;另外,鉴于当前大学生不吃早餐的情况,来探究良好的早餐习惯和学习结果是否具有一定的关系,所以这里还要研究早餐习惯与学生奖学金之间的相关性。
1数据前期处理
为了更好地对数据进行分析,有必要对原始数据进行充分的处理准备,主要针对学生就餐、奖学金和助学金这3种数据。
1.1就餐数据
为了解学生的就餐规律和习惯,获取了2017年1月1日到2017年5月1日的所有就餐数据,大约200万条数据,如表1所示。
2针对SPSS Modeler的Apriori算法的数据预处理
最早的Apriori算法是阿格拉瓦尔和斯里坎特于1994年提出的,现在是数据挖掘中简单关联规则技术的核心算法。
Apriori算法是为提高关联规则的产生效率而设计的,只能处理分类型变量,无法处理数值型变量,所以有必要对整合后的数据进行预处理。
数据准备。为了提高效率,这里进行了70%的分层抽样,又根据Apriori算法的需要,计算生成新的分类型变量,再通过特征选择,去除掉不必要的变量,然后对图1的数据进行多级评定计算,定义出A、B、C、D和E这5种级别,如图2所示。
3相关性分析
选择“建模”选项卡中的“Apriori”节点,将其连接到数据流恰当位置上,如图3所示。分析的目的是找到所获得奖学金、助学金、午餐消费以及早餐消费次数的关系,所以这4项均被选入后项和前项。
在最低条件支持度中,指定前项最小支持度为6%,最小规则置信度为65%,为防止关联规则过于复杂,指定前项包含的最大项目数为5,分析结果如图4所示。
4结果分析
SPSS Modeler以列表形式列出计算所得的2条简单关联规则。其结果具体解读为:
1)如果学生吃早餐次数较多,午餐消费比较低,获得头等奖学金的机会就很大,支持度百分比为8.174%,置信度百分比为67.518%。这类学生起床早、勤快,家庭条件较差或本人比较节俭,努力学习的可能性就很大,从而获得较高级别的奖学金。
2)如果学生家庭经济状况比较困难,得到的是C类助学金,而且学习成绩相对较好,这类学生午餐消费就很低。
3)如果学生家庭条件非常困难,助学金得到的是最高级别,而且午餐消费很低,这类学生反而没有获得奖学金。
上面前两条关联规则是当今大学生的普遍现象,但是看到第3条的时候很令人意外,和相关辅导员交流之后才发现,原来这类学生大都来自偏远地区,学习基础不好,到大学后学习上跟起来就比较吃力,所以学习成绩不好。
综上所述,学校管理部门应在以下方面做出管理策略:
1)教学部门应该对偏远地区的学生学习给予更多帮助,必要时单独辅导。
2)学生管理部门在评定助学金时要严格把关,参考学生消费数据,尽量奖助学金发放到最需要的学生手中。
3)鼓励学生吃早餐,不仅能够提高身体素质,更能养成勤快的习惯,促进学习成绩的提高。
5结论
通过对校园一卡通数据、奖学金和助学金数据的分析,由于篇幅有限,不再一一列出分析过程,总共得出了下面这些结论:
1)助学金和就餐消费的关联性。
2)助学金和奖学金的关联性。
3)早餐情况数据分析。
4)早餐和身体健康状况的关联性。
5)早餐和奖学金状况的关联性。
6)学生籍贯和窗口(菜品)关联性。
7)奖学金和籍贯的关联性。
8)助学金和籍贯的关联性。
9)孤僻人群的发现。
10)消费与性别的关联性。
11)消费水平与系部关联性。
12)餐厅各个窗口就餐人数排名。
13)餐厅各个窗口收入金额排名。
这些结论对于教务部门、学生管理部门、后勤管理部门等都有很好的指导意义,其实,预先有很多种假设,但是通过挖掘却发现没有相应的结果,当然没有规律的结论也是一种结论,当然也会出现一些预想不到的规律,这也许就是数据挖掘的魅力所在。
遗憾的是,目前校园“一卡通”的数据还不是很全面,不能覆盖所有学生行为,随着校园信息化的发展,校園“一卡通”必将更准确反映学生在校的各种消费和学习行为,对应的数据分析将更加具有指导意义。
参考文献:
[1] 薛薇.基于SPSS Modeler的数据挖掘(第二版)[M].北京:中国人民大学出版社,2014.
[2] Jiawei Han Micheline Kamber Jian Pei.数据挖掘概念与技术[M].北京:机械工业出版社,2016.
[3] 谷斌.数据仓库与数据挖掘实务[M].北京:北京邮电大学出版社,2014.
[4] Levin N,Zahavi J.Predictive modeling using segmentation.Joural of Interactive Markeing,2001,15(2):2-23
[5] 秦靖.Oracle从入门到精通[M].北京:机械工业出版社,2011.
[6] www.oracle.com网站.
[7] http://bbs.pinggu.org/人大经济论坛.
【通联编辑:王力】