高校本科生就餐数据挖掘分析
2018-04-02苏兆兆栾静
苏兆兆 栾静
摘要:目前高校本科生的身体素质普遍下降,大学生除了加强体育锻炼外,还需要在日常饮食上注意养成良好的习惯。校园卡是高校智能化管理的重要手段和媒介,学生在校园内的各项活动都能通过校园卡后台管理系统反映出来,将学生消费数据从数据库中提取出来,分析学生的三餐消费情况,通过关联分析不同消费属性之间的关联强度得到学生的就餐习惯。对不在食堂就餐的学生,应重点关注这类学生的就餐问题,确保学生按时就餐,不节食。
关键词:本科生;校园卡;饮食消费;数据挖掘;关联规则
1引言
随着经济的快速发展和物质生活水平的提高,很多高校大学生的身体素质却在下降,根据《国民体质监测公报(2014)》调查显示,与前几年相比,学生体质与健康状况总体改善,中小学生身体素质继续呈现稳中向好趋势,而大学生身体素质继续呈现下降趋势。很多高校对学生的体育课程数量作了添加,以期提高学生的身体素质。除了体育锻炼外,是不是存在部分学生因为饮食不规律而导致身体素质下降?如男生熬夜玩游戏导致没有时间吃早餐,女生为了瘦身节食等情况。本论文通过对在校本科生的消费挖掘分析,得到学生的就餐情况,对饮食不规律的学生,校方和老师要加强管理,及时解决存在的问题,培养良好的饮食习惯。
2数据预处理
数据预处理的目的是提高数据质量,通过对所收集的不同来源数据的审核、清理、补充完善等一系列操作,保证数据的挖掘和分析结果。
2.1数据收集
数据收集是根据目的需求,收集所需数据到单个位置以便挖掘分析。由于本校的校园卡管理系统覆盖各个层面,包括多个应用平台,因此本论文的数据分别来源于校园卡管理平台下的综合业务管理子系统(留学生餐厅、馕房消费)、商务子系统(昆仑校区食堂、商店消费)、第三方对接子系统(国际教育大厦水控、商店、休闲吧消费)、POS子系统(温泉校区汉餐及清餐充值、消费)等不同子系统。整理汇总后,本论文从校园卡后台数据库获取的2016-2017学年第一学期138天的消费流水数据量约801万条。
2.2数据清理
数据清理是通过约简数据和属性、纠正错误、填写缺失值等可行性操作来保证数据的质量。本论文对汇总后801万条消费流水数据进行审核后,发现不同子系统平台下的数据格式不同,各属性列所占存储空间也不同,为提高数据的一致性,本论文将采用下列四种不同方式的数据清理。
2.2.1约简数据
本论文的分析主体为在校本科生,因此约简了外国留学生、教职工、研究生等15项与本论文研究无关人员的数据,约简后的数据量为538万条。
2.2.2约简属性
本论文的分析主题为在校本科生的饮食消费,因此约简了开户单位、账户类型、操作员、流水状态、交易单位等16项与学生消费无关的属性。
2.2.3纠正错误
本论文审核数据时发现由于业务操作员的误拼或者输入法的切换冲突等,导致民族学生姓名中的分隔符“·”,错误显示为“?”或“-”等,因此在导人数据库之后纠正错误信息,纠正为正确的“·”。
2.2.4填写缺失值
因为学校现有三个校区,当学生在三个校区之间活动时,偶尔会因为网络延迟或者不同子系统间上传数据而产生乱码,本论文将乱码数据分别归类填写到相应的属性列中。
3数据挖掘分析思路及方法
确定分析思路主要是为了准确、全面分析学生的就餐情况。本论文将从三餐消费维度切人对在校本科生的消费情况作统计、挖掘分析。
3.1三餐分析
每日三餐是学生在校内学习和生活的基础保障,也是学生自我管理的体现,通过对在校本科生的一日三餐统计分析,了解学生的饮食情况,帮助老师规范学生饮食习惯。本论文从日常的消费流水数据中,将学生的三餐根据对应的时间段分别统计,每餐的所有刷卡次数和金额累计为该餐的一次消费和金额,统计出三餐的就餐天数后计算三餐的就餐率,根据各餐的频繁性得到学生的就餐习惯。
3.2算法选择
算法是对问题解决方案的准确而完整的描述,确定分析维度之后,将数据收敛到与分析主题相关的范围,提高数据的处理速度与准确性,然后选择合适、高效的算法来分析。
3.2.1统计分析
统计分析是应用最广泛的数据处理技术,通常三个步骤即可完成对数据的操作,即收集-整理-分析。本论文将不同来源的食堂消费流水数据收集整理后,对学生三餐消费数据进行分析,如统计出各餐的消费人数及天数,查看随着时间的增加,学生的消费天数是否增加,有多少学生能保证规律性就餐,学生的就餐趋势是递增还是递减。
3.2.2关联分析
关联规则挖掘的主要目的在于发现数据中有意义的关联关系。本论文通过创建关联矩阵,查看所有学生的消费金额、天数与总金额之间的关联强度。前面通过统计的方式分别计算机出学生的三餐消费天数和消费金额、学期总消费次数和总金额,利用关联分析查看每个学生的三餐对总消费的影响和支持度,哪些餐次频繁出现、在学生总消费中所占权重最大,学生的消费习惯是否一样,这些都将通过各属性之间的关联系数体现出来。
关联系数位于矩阵中,它是表示关系强度的一种指标,取值范围在±0至±1之间,所有介于0到1之间的关联系数都表示正关联,所有介于0到-1之间的关联系数都表示负关联。在属性与自身相交的位置,关联系数为“1”,因为任何事物在与自身进行比较时都具有完全匹配的关系,所有其他属性对的关联系数都小于1。
3.3工具选择
3.3.1统计工具
本论文对校园卡消费流水数据的统计分析使用了SQLServer 2012数据库,SQL Server是关系数据库管理系统,支持存储过程、ODBC等,且自身包含的SQL语言操作方便。由于數据量大,且存储过程具有执行数度快,代码可重用、共享等优点,本论文使用存储过程来实现对数据的操作。
3.3.2挖掘工具
本论文使用的数据挖掘工具是RapidMiner Studio开源工具,RapidMiner是目前世界上开源工具中比较可靠、先进的数据挖掘工具,软件自带1500多个函数,无需编程,拖拽建模,并且可连接多个类型的数据库,能实现完整的建模步骤,从数据的加载、汇集到转化,再到分析和预测。
本论文将RapidMiner和SQL Server数据库连接起来,在左下角的数据源窗口选择DB(数据库)将数据源拖拽到界面正中的主流程(main process)工作区,在左上角的算子(operator)窗口选择所需的算子,拖入至流程中,在右侧参数选项(Parameters)中对具体参数进行设置,选择上方工具栏中的运行,即可在结果视图(Result Overview)中看到关联分析结果。
4数据挖掘分析
本论文在对计算机学院508名学生的数据进行分析时,为保证数据的稳定性和精确性,约简了外出实习的93名毕业班学生和46天节假日期间的消费数据,分析了415名学生92个工作日的三餐消费情况。
4.1学生三餐就餐情况
如图1所示,本论文对计算机学院学生的三餐就餐天数、人数分析后得到如下结果:
1)早餐就餐人数远低于午餐和晚餐,且人数随时间的增加而递减。
2)所有学生都在食堂吃过午餐,且大部分学生在食堂就餐天数高于45天。
3)晚餐时段的学生人数分三段:第一部分是就餐天数在5-25天,第二部分是就餐天数在25-55天,第三部分是就餐天数在55-85天。其中,第二阶段的学生人数占多数。
根据分析结果可推断出:
1)早餐就餐人数过少,可能存在部分学生购买零食代替早餐,因此需对学生的早餐就餐隋况作进一步分析。
2)午餐就餐人数较高且比较稳定的原因可能是午休时间较短且下午要上课,学生选择在食堂就餐比较方便、快捷。
3)晚餐就餐人数低于午餐的原因可能是晚上时间充裕,学生选择何种方式就餐的形式多种多样,如外出就餐、叫外卖、吃零食或者减肥不吃等。
4.2学生早餐就餐情况
由于学生早餐在食堂就餐人数过少,本论文提取了早餐时间段内在商店购买零食的消费数据来对比分析,根据图1早餐消费的变化曲线,分为五个时间段,结果如图2所示:
根据对图2的数据对比分析可知:
1)仅有8%的学生能规律性的在食堂吃早餐,就餐天数在66-92天内,17%的学生就餐天数在45-65天内,21%的学生就餐天数在24-44天内,48%的学生就餐天数在1-23天内,8%的学生从来没去食堂吃过早餐。
2)计算机学院的学生在商店买零食的人数并不多,并没有学生每天去买零食代替早餐,1%的学生购买天数为45-65天,9%的学生购买天数在24-44天内,82%的学生购买天数在1-23天内,8%的学生购买天数为0。
3)通过账户对比发现经常在食堂吃早餐的8%的学生与从不在商店买零食的8%的学生为一类学生,符合实际情况。
对学生早餐分析的结果,可以得到如下结论:
1)学生在食堂吃早餐的人数确实过少,可能存在部分学生认为食堂饭菜不合口味。
2)在早餐时间段内学生购买零食代替早餐的人数也不多,推测可能存在部分学生提前备好零食和干粮,如牛奶、面包、馕、奶茶等,对这类学生老师要适当引导学生去食堂吃新鲜、热乎的早餐,且食堂的早餐价格要低于零食的花费。
3)可能存在部分学生直接空腹上课,对这类学生老师应重点关注。
4.3学生消费情况关联分析
为探索和证实学生的三餐消费情况,本论文在RapidMiner中创建了一个包含九个属性的关联矩阵对学生的消费情况进行挖掘分析,得到各属性之间的关联系数如图3所示:
根据各属性之间的关联系数值可知:
1)早餐消费金额、消费天数占学生的学期消费金额及天数的权重为0.507和0.746,属于有些关联关系。
2)午餐消费金额、消费天数占学生的学期消费金额及天数的权重为0.921和0.912,属于强关联关系。
3)晚餐消费金额、消费天数占学生的学期消费金额及天数的权重为0.866和0.848,属于较强关联关系。
根据挖掘结果,可得到如下结论:
1)早餐就餐率太低,无论是哪种原因,都应该重视起来,避免有学生长期不吃早餐出现头晕、恶心等突发状况。
2)午餐就餐率很好,晚餐就餐率略低于午餐,但总体呈现良好发展趋势。
3)早餐消费金额最低,午餐的消费金额与晚餐的消费金额相差不大,与食堂饭菜价格相符。
4)学生在食堂的消费习惯是平均每天就餐两次,早餐被大部分学生忽略。
5总结与展望
本论文通过对在校本科生饮食消费数据的挖掘分析,得到学生的消费情况及就餐习惯,通过分析和减少部分学生的饮食不合理现象,既能加强学校和老师对学生的了解,同时也能引导学生加强自我管理。
学生的消费数据仍待进一步挖掘分析和利用,如通过分析各类学生的消费金額作为甄选贫困生的标准之一,对这些数据的每一次深入分析,都是管理学生向前迈进的一大步。