一卡通数据挖掘浅析与应用
2018-10-21于春花
于春花
摘要:基于校园一卡通系统建立数据仓库,通过对数据集分析确定应用系统中的主题,并对其进行维度设定,一次创建维度表和事实表,最后设计出用于数据挖掘的多维数据系统架构,探索数据挖掘在一卡通多维数据库系统中的应用。
关键词:一卡通数据挖掘;数据仓库;多维数据模型
1.引言
“校园一卡通”系统[1](以下简称一卡通系统)是我校校园信息化建设的一项基础工程。目前,我院已实现利用一卡通系统对学校中的各类身份认证、消费进行统一管理。作为一套服务全院师生的管理系统,在系统设计及建设时,侧重于它的业务功能实现方面,没有过多考虑对其数据进行分析。一卡通系统是一套数据库应用系统,存放着大量和学生行为有关的数据。如果能对这些数据进行系统的分析挖掘,发现其中存在的规律及问题,对将来我院的管理工作具有重要的指导意义。
一卡通系统设备广泛分布在校园内的食堂、超市、水房、公寓、图书馆、校医院等地点。因此,产生的数据可以从侧面反应出个人的行为特点、生活轨迹、兴趣爱好、群体的活动规律等潜在信息。本文中,我们利用潍坊学院一卡通系统产生的数据,结合数据仓库、数据挖掘等相关技术进行初步分析,从应用层面讨论数据分析在校园的研究与实现。
2.校园一卡通系统与数据仓库[2]
2.1校园一卡通数据当前存在的问题
目前,我校一卡通系统虽有多种信息查询功能,但仅仅是对数据及报表进行查询,无法完成对整个一卡通系统的数据分析,并根据实际情况给决策者提供良好的决策支持[3],主要存在以下几个方面问题:[4]
数据量大:目前一卡通系统产生的信息主要有基本信息、消费信息、图书借阅信息、机房上机记录、身份认证类刷卡信息、开水淋浴用水信息等。加之在校生众多,且每学年都在增加,迄今为止,数据库文件已超过30G。对如此大数据量进行数据操作,在数据清洗、数据分析上都存在一定的难度。
数据零散、标准不统一:学院整个一卡通系统是由多个应用子系统组成,在系统设计及建设时期没有过多的考虑数据操作问题,同时也没有对数据格式的标准性、数据的联通交互方式做出约定。在一卡通系统运行阶段,与第三方应用系统进行单向对接,因为没有数据仓库,各个应用系统独立运行。这对数据分析及决策支持带来一定的困难,同时也为对数据的整合与加工处理增加了难度。
数据的整合与转换:一卡通系统数据分析需要对整个系统的数据进行分析,因此需要建立数据仓库对所有的业务系统进行数据的整合与转换,使之符合数据分析系统的结构与要求,以便进行数据分析。
2.2 校园一卡通数据仓库的设计目标
基于校园一卡通数据的数据仓库设计目标就是设计数据模型、有效的清洗整合资源、根据管理者和用户的需要构建数据分析平台。在设计的数据模型中,完成历史数据和实时数据的自动抽取、清洗、转换,实现基于维度的信息展示和分析,彌补我校在数据挖掘方面的不足,同时为更深层次的数据挖掘提供数据平台。
2.3 一卡通数据仓库多维数据模型[5]的构建
数据仓库是一个面向主题的、集成的、不可更新的、且随着时间而变化的数据集合。它能将我校分散的、异构的原始业务系统操作数据及外部数据源进行抽取、清洗、转化为集中统一、可分析性的信息。通过从不同的维度进行数据的抽取、汇总和分析,将数据重新组织成面向全局的多维数据模型,结合数据挖掘技术,能够灵活的面向用户和管理者的需求,并提供决策支持。
自我校一卡通系统建立至今,一卡通应用系统已存在海量数据,为有效利用其中的信息资源,需构建基于多维数据库的数据仓库系统。针对不同类别(譬如卡户行为类、消费类)的数据建立多维数据集,每个多维数据集数据模型均包括一个事实数据表以及一个或多个维度表。多维数据模型是最常用的数据仓库的数据模型,多维数据模型最典型的数据模式包括星型模式、雪花模式和事实星座模式。在星型模式中,核心是事实表,每个维度直接联接到事实表上。雪花模式是星型模式的扩展,其中某些维表被规范化,进一步分解到附加表(维表)中。
事实星座模式又称为星系模式,因为数据仓库由多个主题构成,复杂的应用一般用到多个事实共享表,而维表是公共的,可以共享,这种模式可以看做星型模式的汇集。校园一卡通系统中,消费信息、医疗信息、考勤信息、图书借阅信息等分别作为星型模式的事实表,他们分别是单独的主题域。经过对比与分析,这些主题的维度既有公共的维度,也有子系统特点的维度,如图1所示。如各个主题域都有公共的维度一卡通用户信息、POS机信息、时间维。而每个主题域又有本系统的特点维度:消费主题域有消费类型的维度,医疗主题域有医疗类型的维度,图书借还主题域有图书信息的维度等。因此,多维数据库模型中建立事实星座和公共维度,有利于对一个以上的业务过程进行分析,从而构建学生在校内的生活行为轨迹。
2.4 一卡通数据分析系统的架构
数据挖掘包含一系列旨在从数据库中发现有用而未发现的模式的技术,成功的数据挖掘的关键之一就是通过访问准确、完整和集成的数据,才能进行深层次的分析,寻求有益的信息。而这些正是数据仓库所能提供的(图2),数据仓库不仅是集成数据的一种方式,而且数据仓库的联机分析功能―OLAP还为数据挖掘提供了一个极佳的操作平台。如果数据仓库与数据挖掘进行有效的联结,将会给数据挖掘带来各种便利和功能。[7]数据分析系统建设主要分为三个主要部分,如图3所示:
(1)数据融合处理:校园一卡通系统的数据来源于各个业务系统、
异构的原始业务系统操作数据及外部数据源,这些数据结构各异,因此数据仓库首先要对这些数据进行有效的整合,建立数据抽取、清理机制,摒弃冗余的、没有价值的信息。经过转换、综合、把有价值的数据装载至数据仓库。
(2)建立数据仓库:根据设计的数据仓库模型,建立多维数据库模型。通过对子系统数据的抽取、清洗、转换,在数据仓库内部建立各个业务系统的多维数据集,同时根据业务系统完善公共维度的信息。
(3)数据挖掘和展示:通过数据挖掘技术针对不同业务系统设计不同的算法,结合统计查询工具,为前端用户提供多维的数据展示,发现数据中的潜在模式,并以这些模式为基础做出预测。[6]
3.数据挖掘技术在一卡通系统中的应用
通过对数据仓库中一卡通消费信息数据集进行聚类分析,如图4所示,聚类数为5,聚类样本为2016年9月至2016年12月的共6077820条记录,算法采用K-Means算法,聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。具体算法如下:
算法:K -Means
输入:簇的数目k和包含n个对象的数据库
输出:k个簇,使平方误差准则最小
方法:
1)从N个对象中随机选取K个对象作为簇中心
2)对剩余的每个对象测量其到每个簇的距离,并把它归到最近的簇的类;
3)重新计算已经得到的各个类的簇;
4)迭代2~3步直至新的簇与原簇相等或小于指定阈值,算法结束;
k-means 算法的工作过程如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然 后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
通过分析工具对这些数据进行有效的管理和组织,并挖掘其中的信息价值。可为学校的管理工作、贫困生筛查、经营分析等工作提供真实准确的依据,便于做出合理正确的决策。
(1)现金充值人数高峰期预测。
在分析过程中,以现金充值业务为方向,综合充值金额及时间,得到每个月的人数峰值,从时间维度下钻,可以得出结论,每周初,现金充值人次基本为当周最多,节假日视假期性质决定最后一天或者多天充值笔数开始回升,节后充值笔数会有一段时期的爆发期,持续3天左右,然后依照周初笔数最多规律进行浮动,如图5所示:
(2)贫困生筛选
高校贫困生认定体系结构不完整,有些真正的贫困生有自卑心理,强烈的自尊心导致他们开不了口。[8]而依据各地民政部门开具证明作为认定标准存在诸多弊端。校园卡作为学生在校消费的重要支付手段,在很大程度上较为客观的反映了学生的真实经济状况,如图6所示。因此,立足于数据仓库的贫困生筛选能够很好的为学院贫困生筛选提供事实依据。
贫困生筛选的目的是通过对消费数据集分析,将消费水平远低于学院大部分同学的群体筛选出来,进行经济补助。为保证筛选数据的准确性,我们首先排除掉消费次数过少的数据,同时考虑到女生食量较小,同时存在晚饭只吃水果的情况,将男女生分别核算。在数据分析上,我们分两个步骤来进行:
首先采用加权平均值法,将每个同学的早餐、午餐、晚餐分别设定权重。经过问卷调查大部分同学早餐2.5-5元,午餐8.5-11元、晚餐7-9元,设定早餐权重0.2,午餐权重0.45,晚餐权重0.35。将每餐的金额乘以相应的权重求和再平均之后,得到一个加权平均值。
第二步以月为单位,将每个学生的加权平均值汇总再平均,然后引入聚类算法,设定高中低贫困四档消费水平。处于贫困档的学生,我们认定为经济水平较弱,消费能力过低,存在家庭贫困的可能。为贫困生认定提供事实依据。
(3)用户关联度及心理健康
大学生作为一个特殊群体,在日常生活和学习中往往面对着各种心理压力,时间长久会对学业、事业、身心健康造成损害。伴随着学院对学生心理健康的愈加重视,分析用户关联度及学生心理健康迫在眉睫。
一卡通系统产生的数据具有时空特性,每个记录都包含参与用户、时间、地点,关系密切的用户可能会频繁的在同一个时间段内出现在同一个地点。因此,从用户的轨迹数据出发对数据进行分析,可以发现生活中在相近的时间内出现在相同地点的用户。如果两个用户多次同时访问同一地点,会产生多地点相同、时间间隔较小的行为记录。即产生了多对关联性较高的行为记录,如图7所示:
在校内,关联度较高的用户大多存在强校内社交关系,一般为室友、同班同学或其它熟络关系。大部分同学和其它同学存在一定的关联度,关联度是小团体朋友圈的展现。如果一个用户和任何人的关联度都很低,从客观数据事实上来说,该用户不与同学一起就餐、上自习、去图书馆、洗澡、回寝室等。从行为上而言,该同学性格孤僻、不合群,甚至于心理不健康,需要进行心理辅导。
4结束语
本文介绍了基于潍坊学院一卡通系统数据仓库的设计,以及针对构建的多维数据库系统的数据挖掘方式。选取真实的用户数据,对潍坊学院现金充值高峰期、贫困生筛选、用户关联度及心理健康进行了分析。
在数据仓库中,根据模型和算法可以按照外部认定条件来做出判定,譬如不常去上课、不常去图书馆的同学挂科率比较高;餐厅每天都会售罄的菜品比较受欢迎,每天都会卖剩的菜品不受学生喜爱。却很难去发现事情发生转向的因素和时间:一个学生因故消沉继而成绩一落千丈,一间图书馆自习室因空调及照明故障导致学生预约率远低于平均值。数据挖掘得到的不仅仅是历史数据的结论,更是对未来一段时间事物发展的预测。下一步工作中,我们将结合学生的成绩,研究影响学生成绩的因素,寻找成绩波动的规律,以期在教学方面提供助力。
参考文献:
[1]张敬涛,李向阳,邹秀香.校园一卡通系统的应用研究[ J].山东师范大学学报(自然科学版),2008,23(3):126-129.
[2]李昭智.决策支持与数据仓库系统[M].北京:电子工业出版社,2001.4:16
[3]许兆新,周双娥,郝燕玲.决策支持系统相关技术综述展[J].計算机应用研究,2001,(2):35-39
[4]赖静.基于云南林业职业技术学院一卡通的数据分析系统[D].电子科技大学。2012
[5]戴浩.基于业务元数据的多维建模系统设计与实现[ J].计算机工程与设计,2010,31[24]:5248-5252.
[6]王玉芬.张治斌.李长江.数据仓库在高校决策支持中的应用研究[J].陕西理工学院学报,2007,23(4)18-19
[7]商新娜,孙连英,彭涛.校园一卡通数据仓库系统[J].计算机系统应用,2012,21(3)21-22
[8]韦崇岗一种卨校资助信息化管理法的实现内江师范学院学报,2011,26(2):65-67
(Endnotes)
[1]王玉芬.张治斌.李长江.数据仓库在高校决策支持中的应用研究[J].陕西理工学院学报,2007,23(4)18-19
[2]韦崇岗一种卨校资助信息化管理法的实现内江师范学院学报,2011,26(2):65-67