APP下载

基于校园大数据的高职院校学生消费行为分析①

2019-12-02浙江农业商贸职业学院钱涛陈树伟徐朝钢

中国商论 2019年22期
关键词:消费水平原始数据一卡通

浙江农业商贸职业学院 钱涛 陈树伟 徐朝钢

随着高校智慧校园建设[1]的不断推进,以及相关业务系统逐步上线,校园信息化环境中积累的数据也在逐渐膨胀,已经形成了一个比较完整的校园大数据环境[2],校园一卡通系统作为智慧校园的重要组成部分,是高校核心业务系统之一,记录了学生校园生活当中的行为痕迹,通过对消费数据分析,了解当前学生的消费水平与在校生活情况,为提升学校管理决策能力提供了数据基础。

1 高校一卡通系统概述

校园一卡通(架构如图1所示)作为智慧校园建设下基础业务系统[3],整合学校的资源,将学生在校的各类消费行为、学习行为、生活行为等功能集中于一张IC卡上,将学生在校的各类信息与资源进行有效的整合与集成,方便了学生的生活与学校的管理。

图1 一卡通架构图

一般来说,高校的一卡通系统均包含以下功能:金融服务功能、身份认证功能、信息服务功能、整合服务功能。

(1)金融服务功能:包含日常消费、充值功能(在线)、电子钱包的圈存、缴费管理功能等,实现了校园内货币结算的数字化和电子化。

(2)身份认证功能:包含签到功能、会议签到功能、图书借阅功能、楼宇门禁、上机认证等,用于识别在校人员身份的基本功能。

(3)信息服务功能:包括流水查询功能、线上查询功能(公众号、APP)等。

(4)整合服务功能:主要目的是实现各不同系统与部门之间数据共享、数据对接等要求,通过校园一卡通系统实现与图书系统、教务系统之间的数据整合。

这四类功能系统在发挥作用的同时产生了大量的数据,比如消费数据、学校门禁数据、计算机上机数据等,这些数据通过一卡通系统平台最终进入数据库之中,形成了一个庞大的数据资源。

2 基于一卡通的学生消费、行为数据的分析

2.1 原始数据来源

本文的数据来源于浙江农业商贸职业学院校园一卡通及其相关系统,研究对象是2018学年上半学期的800个学生的一卡通使用数据,其中包含学生的基本信息数据、一卡通消费记录数据(食堂、超市、洗浴)、图书馆借阅数据和寝室门禁数据。通过编写SQL语句,将所需要的数据从数据库(SQL Server 2008)中筛选出来,以csv文件导出,作为学生消费行为数据挖掘的原始数据。

2.2 原始数据预处理

要进行大数据分析,需对一卡通原始数据进行预处理转换成统计数据,预处理一般包含数据清洗、数据集成、数据转换三个部分。

(1)数据清洗:是指发现并纠正数据文件中可能存在错误的过程,包括缺失值数据(不完整数据)的处理和噪声数据的清理。如原始数据中退学、休学的学生消费数据就是噪声数据,需将其剔除,实现数据降噪。

(2)数据集成:学生的成绩数据,图书借阅数据,一卡通消费和数据在经过数据清理后得到各自维度的数据,利用相关中间件技术将各维数据进行整合,如通过学生证号码的唯一性将已处理好图书借阅信息进行累加、消费金额进行加权平均等操作。

(3)数据转换:数据转换是将已经经过数据清理和数据集成两步之后的数据格式和结构进行转化的过程,这一过程使数据具有一致性,适合数据挖掘。

经过上述数据处理环节,我们选取了相对全面、完整的学生行为特征字段(如表1所示),形成基础数据集之后我们针对具体问题的分析选择这个基础数据集中特定的字段。

表1 学生行为特征数据选取

2.3 算法的选择与实现

本文将采用数据挖掘中的K-means聚类分析算法,K-means是一种使用最为广泛的基于划分的聚类方法。它以特征距离作为标准,即数据对象间的距离越小,则它们的相似性越高,它们划分在同一类的可能性越大。K-means聚类算法[4]的伪代码,如表2所示。

表2 K-means算法的伪代码

表3 聚类功能的python代码

本文使用的分析语言为Python,使用的环境python3.6+eclipse4.7+PyDev5.7。表3为计算元素与聚类中心之间欧式距离功能的Python代码。

3 聚类结果分析

通过选取预处理后的学生消费行为数据中的相关字段,对学生的行为数据、消费数据分别进行K-means聚类分析,表4、表5分别展示学生行为数据聚类结果和学生消费数据聚类结果。

表4 学生行为聚类—五种聚类中心结果

从上述行为数据聚类的结果中来看,第一类学生:早餐的频率较低,中餐、晚餐比较正常,说明该类学生可能存在晚起的现象,作息不太规律;第二类学生:三餐规律,基本在食堂就餐,图书借阅、打水和洗浴频率也较正常,说明该类学生生活比较规律;第三类学生,早餐和晚餐就餐频率极低,打水、洗浴无相关记录,说明该类学生不住校,应该以走读为主,较少参加班级活动;第四类学生,三餐次数和打水、洗浴次数较第二类同学略少,说明该类同学可能周末经常回家;第五类学生,打水次数较低,可能存在违规电器,三餐在食堂就餐频率较少,晚餐叫外卖的可能性比较大,说明该学生生活不规律。

表5 消费数据—五种聚类中心结果

从上述消费数据的聚类结果来看,第一类学生:消费总额、午餐均价、消费总次数均接近样本总量均值,说明该类学生消费水平中等,消费稳定,校内消费占整体消费水平较高;第二类学生:超市消费占总消费比例较高,消费总次数偏低,可能较多的校外消费(外出就餐、外卖等);第三类学生:消费总金额和食堂消费金额两项水平高,说明该类学生校内消费水平较高,生活水平较好;第四类学生:消费水平居中,消费总金额较少,该类学生可能走读或者存在大量的校外消费。第五类学生:各项消费指数均低于均值,该类学生消费水平较低或者生活比较节俭。

4 结语

笔者通过学生一卡通数据进行清洗、集成、转换等数据预处理手段,将原始数据转化成包含学生行为特征字段的统计数据,结合数据挖掘技术,使用K-means算法将学生分为 5个群体,分析不同类别学生的行为特征和消费特征。然而本文在对行为数据分析的过程中,研究对象所在的学生行为数据还不是很完善,并未包含其他业务系统数据(教务系统、学工系统等),所以将在后续的研究中获取更加全面的数据,对学生的在校行为更加精准的判断,有利于对行为分析更好的研究。

猜你喜欢

消费水平原始数据一卡通
预计到2050年中国城乡消费水平将无明显差距
受特定变化趋势限制的传感器数据处理方法研究
中国人均消费世界排名与增长预测研究
——基于指数增长模型
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
我国31省城镇居民消费水平(2007)
基于“一卡通”开发的员工信息识别系统
公共交通一卡通TSM平台研究
我国经济增长与国民消费的演进
向心加速度学习一卡通
一卡通为新农合基金加密