APP下载

一卡通智能数据分析系统研究及应用

2018-11-08朱迪锋朱智谋

中国教育网络 2018年10期
关键词:学号一卡通均值

文/朱迪锋 朱智谋

随着高校数字化和信息化的深入发展,校园一卡通系统得到了高度重视和广泛应用,是高校信息化程度的重要标志之一[1]。高校管理是以学生为主体的一种客户关系管理,而校园一卡通系统存储着海量的学生各类消费记录数据,以消费行为数据进行合理分析来关注学生动态成为一种科学管理的新模式。通过研发应用一卡通智能数据分析系统,提取一卡通的数据库中一段时间内学生消费数据进行用户行为分析,以同等消费行为特征为相似点,从中挖掘学生异常消费及客观贫困程度等潜在有用的信息。这些学生消费行为信息为高校学工一线老师管理工作提供客观依据和决策支持。

国内外研究现状

国外对学生一卡通数据分析起步较早,且进展迅速。例如,加拿大湖首大学的学生行为分析系统,可以根据学生最近发生的行为定期向学生发送一份邮件来指导学生下一步计划,该系统已经可以高效的对学生行为进行分析并及时报告辅导员进行处理[2]。

而就国内来说,随着互联网+、大数据等技术的发展,数据分析工作已经被越来越多的人群所认可和重视。已经有学者利用数据挖掘技术对用户消费及上网等行为进行分析,以及CBR方法和基于K-means算法对高校就业预测的分析等[3]。但目前在高校内部所用的一卡通系统大部分没有针对学生数据进行集成和分析,同时很多高校的各类应用系统和一卡通消费系统是完全孤立的,纯粹是一个“信息孤岛”,没有真正合理利用起各个应用系统里面的价值数据,一定程度上造成了大量的数据堆积,失去了其中的潜在数据价值[4]。而针对本文研究的高校学生行为分析没有有利挖掘,相应的方案也甚少。

系统研究

分析算法描述

输入:聚类数目k(实际情况而定),n 个数据样本(x1, x2 ,…,xn)输出:k 个聚类

(1) 选定初始聚类中心值,从n 个数据中随机选出有代表性的 k 个数据样本,即 k 个中心值 (µ1,µ2,…, µk);

系统具体设计

1.设计思路

编钟属于“八音”中的金类乐器,金指金属。编钟由青铜铸成,古人把大小不同的钟按照音调高低的次序排列,悬挂在一个巨大的钟架上。每口铜钟能发出不同的乐音,按照音谱敲打,可以演奏出一套美妙的音乐。

提取某高校一段时间内一卡通数据库中百万条消费记录,利用数据挖掘技术中的K-means算法应用,对学生数据中的用卡次数、食堂消费均值和其他消费均值等信息进行聚类分析,得出消费正常和异常等几大类学生用户人群。

首先,通过这些学生消费行为信息,学工一线老师可以及时了解和关注学生生活状况。比如,在消费异常情况下用卡次数少的学生说明在校吃饭少,则平时经常外出及回寝等情况需要及时关注;用卡次数多且消费均值大的学生,说明家庭经济条件较好;用卡次数多且消费均值小的学生,说明家庭经济条件一般及以下,在生活上是否应该多加以关心和补助。

另外从贫困生管理工作角度,学生的消费情况可以作为贫困生认定因素之一[7]。申请贫困生的学生如果一卡通消费均值大,一定程度上说明经济条件尚可,与实际贫困条件不相符。这为学生管理部门做好贫困生认定和助学贷款等工作提供了客观的数据支撑。

2.应用流程

从高校学生管理工作角度出发,采用K-means聚类算法对高校一段时间内一卡通系统所有学生消费记录数据进行分析,并对学生消费习惯进行划分[8]。

根据学生消费记录数据中用卡次数、食堂消费均值和其他消费均值等信息进行规格化得出相应属性值,利用K-means算法思想,在应用系统中对2种情况(消费正常、消费异常)设置初始中心值并进行聚类,各消费数据属性值以欧氏距离度量,归类到最靠近相应中心值的对象。通过迭代的方法,逐次更新各聚类中心的值,直至各中心值与原聚类中心值保持不变,得出所有消费记录的聚类结果[9]。具体流程如图1所示。

系统应用

数据预处理

图1 K-means算法流程

在开发系统中导入的有用数据包括学号、消费金额、消费时间和消费地点等。主要对这些有用数据进行修复、填补并规范,点击“预处理”按钮,可以对导入后的数据做一个简要的数据清洗,如图2所示。

系统实现

图2 数据预处理结果

图3 有用数据处理结果

在系统主界面下,点击“K-means分析”按钮,即可进入K-means算法分析模块。K-means算法分析系统平台主要对一卡通有用的数据进行聚类分析,把具有不同消费均值的学生以学号为标识进行聚类,保持数据区分度比较直观。

点击“显示”按钮,即可显示K-means算法有用的数据,主要包括学号、消费次数、总消费均值、食堂消费均值、商贸消费均值和生活消费均值等。为聚类分析打好前期处理基础,处理结果如图3所示。

根据图3中的学号(作为关键字)、食堂消费均值、商贸消费均值和生活消费均值等属性数据值进行聚类分析,同时设置聚类数目为2,系统内点击“学生类别查询”按钮,即可显示K-means算法聚类后的一卡通消费的有用价值数据。辅导员老师通过输入具体学生的学号来查询学生的消费类别,如分别输入学号2015102279和2015102273,显示的聚类结果如图4、图5所示:

结果分析

从上述图4和图5中分析,设置聚类数目K=2,最终的聚类中心值由学生的食堂消费均值、商贸消费均值和生活消费均值等数据根据3.1算法反复迭代得出。

图4为学号2015102279的学生消费聚类结果,与第一类的聚类中心值(0.46 0.11 0.05)匹配;同时与聚类总体情况对照,是属于普遍的消费情况。

图4 学生消费聚类结果图(第1类)

图5 学生消费聚类结果图(第2类)

图5为学号2015102273的学生消费聚类结果,与第二类的聚类中心值(0.09 0.1 0.76)匹配;同时与聚类总体情况对照,是属于特殊的消费情况,存在一定的消费异常现象,值得引起关注。

同时第二类的聚类中心值(0.09 0.1 0.76)与第一类的聚类中心值(0.46 0.11 0.05)相比,第二类的聚类中心值第一项较低,而第三项较高。说明第二类消费情况为食堂消费较少,而生活消费较多,与学生正常消费不符,一定程度上证实第二类消费情况为异常现象。

通过研发一卡通智能数据分析系统,结合数据挖掘技术中的K-means算法思想,把学生一段时间内的消费数据进行预处理并有效分析,从未知、隐含和异构的数据中提取出不同的学生消费类别和具体数据信息[10]。特别是通过算法中的聚类中心值比较,从中发现学生的消费异常情况,这将辅助高校学工一线老师更深层次了解及关注学生动态信息,对学生管理工作具有较大的参考价值。

猜你喜欢

学号一卡通均值
中职生为何不关心自己的学号
我们来打牌
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
尝试亲历的过程,感受探究的快乐
基于“一卡通”开发的员工信息识别系统
公共交通一卡通TSM平台研究
向心加速度学习一卡通
关于均值有界变差函数的重要不等式
一卡通为新农合基金加密