基于大数据的学生消费行为分析和预警平台设计与实现
2022-12-23窦琨
窦琨
关键词:大数据;消费行为分析;一卡通
1引言
随着智慧校园建设的蓬勃发展,学校建设的重点也从基础设施建设转移到应用系统建设和大数据建设,从而助力学生成长、教育教学、学校管理的发展变革。2015年,相关部门印发《促进大数据发展行动纲要》,明确了教育大数据发展的方向,在决策支持、师生服务、优化管理等方面开展重点建设,探索大数据对变革教育方式、促进教育公平、提升教育质量的支撑作用,大数据已成为推动高等教育创新发展的重要引擎,也是促进高校教育管理现代化转型的强大技术力量。本文主要以学生一卡通消费数据为对象,通过大数据技术,抽取学生一卡通消费数据、学生基本信息、人事基本信息等进行数据加工处理,以分析学生的就餐和消费行为,并进行预警,可以通过大数据分析判断异常消费,并进行预警,也可判断学生家庭情况,对严重低于平均消费的学生重点关注,及时与学生沟通,帮助其解决生活困难,实现对困难学生的关心关爱,从而发挥大数据深度应用的价值,并以数据大屏展示分析结果,实现监测和预警。
2分析与预警目标
基于大数据的学生消费行为分析和预警的主要目标,分析学生刷卡消费流水数据,针对刷卡次数、金额等异常波动进行预警,辅助学生管理工作者发现三餐不规律、经济困难学生、接待外校人员或接受异常资助等现象,对某特定时间段内一些人不就餐的情况进行特别预警。支持从校级、院级、辅导员等不同视角查看群体和个人的消费分析和预警情况。
3平台总体架构
基于大数据的学生消费行为分析与预警平台以数据大屏模式进行展示,分析和预警主要有学院级、分院级和班级三种视角。总体框架有:校园基础数据源、大数据基础运行平台、分析预警展示平台。展示平台包含智能预警、数据挖掘、多维分析、关键指标等。大数据基础运行平台负责相关数据的收集,并将收集到的数据进行结构化存储和清洗:综合分析主要是对采集到的大数据分析建模,再对其进行深度挖掘和智能化分析:智能预警主要是利用分析结果对学生的异常行为进行智能预警以及自动生成对应的监督措施。
学院级视角一般提供给学校相关部门,如学生处、后勤处等进行浏览,可从历史、本年、本月维度展示消费总额和单笔消费最高金额等分析比较数据,可设置消费额度区间并进行统计,以及展示三餐就餐率、不同分院人均消费金额,同时对异常消费金额、异常消费次数、经济困难学生等进行预警,并能统计出特殊時间段的异常消费人数。
分院级和班级视角一般提供给各分院、班级相关负责人浏览。可显示消费信息、预警信息、三餐就餐率等,并且三餐就餐率、单餐人均消费可以与学校整体水平进行比较。可对异常消费金额、异常消费次数、经济困难学生、特殊月份消费异常进行预警。
4大数据分析及算法
采集校园智慧食堂系统门店消费流水数据、校园人事系统中班主任辅导员数据、学生工作管理系统中学生基本数据和院系组织架构数据,汇总相关基础数据源至大数据中心,建立数据采集转换任务,并通过数据治理、清洗,形成标准数据,存储在数仓标准层,并筛选相关数据导入主题库,通过设计物理模型,汇总相关数据建立宽表,再叠加逻辑分析模型,生成分析数据,构建专题库。各类分析结果再次叠加分析可获得多维度分析数据,识别异常数据生成预警信息,最终推送至可视化平台进行监测和预警展示,数据处理过程如图1所示。
4.1数据处理
通过数据接口或中间库对接的形式定时接收智慧食堂系统推送的一卡通消费数据,数据中包含消费时间、金额、档口编号、机具编号等重要的数据源,对源数据的分析不在原业务系统内进行,而是将学生的消费流水数据提取到指定的数据库中,把数据处理成可用的数据后再分析。一卡通消费数据中包含大量信息,根据分析需求对消费数据进行清洗,去除包含噪声的无意义数据以及无用的字段,并对清洗后的数据进行数据转换,形成标准数据。
4.2数据仓库
建立消费行为分析主题库、教职工基本信息主题库、学生基础信息主题库。其中消费行为分析主题库由多个专题表构成,包含时间(包括区间时间)、三餐、金额(包括区间金额)、消费次数等多种数据,并在专题表的基础上通过开发平台生成宽表,更好的支撑数据查询和BI呈现。而教职工基本信息主题库、学生基础信息主题库主要为消费行为主题库提供学生信息,负责教师信息,权限层级划分等各类扩展信息的数据支撑。
4.3建立模型
逻辑模型的建立主要用于划分数据维度,对学生基本信息、消费流水、消费终端信息等数据进行分类储存、数据简化、同属类别归并,逻辑模型如图2所示。建立物理模型的目的是构建合理的数据库物理结构,通过合理规划数据库的结构、字段、索引、存储等来实现模型的建立,从而可以清楚地对一卡通消费数据进行分析。
5分析与预警
消费大数据分析与预警体现在很多方面,如多维分析、智能预警、关键指标、专题分析等。其中多维分析可以从学院、分院、班级等维度分析学生日均消费、单餐消费、最高消费、三餐就餐率等。智能预警主要利用平台所分析的结果对学生的异常行为进行智能预警以及自动生成对应的监督措施,例如消费金额异常预警、刷卡次数异常预警、经济困难学生识别、特殊月消费预警等。
5.1三餐就餐率分析
以班级为合集,将满足一定消费比例的日期作为交易日判断条件,通过逻辑模型计算出不同班级的交易日,以该交易日作为其班级成员就餐日的标准,抽取其在特定日寸间段(三餐),特定额度区间的消费情况,甄别该学生三餐就餐情况。以此为前提,建立学院、分院、班级三个集群维度,以日、月、季、年或特定月份的时间维度形成三餐就餐率信息汇总。对于单一学生,对其就餐率不同的区间予以不同的颜色进行显示,计算其三餐平均就餐率及总平均就餐率,甄别其就餐不规律等异常行为。
5.2消费金额异常预警
以24小时为周期,以单一学生为个体,检索其历史消费记录,横向比对其上一个时间维度和近期消费金额的差异,抽取差异数值过大的学生的相关信息,通过特定的文本形式及消息管理平台,推送给负责该学生的管理员。与此同时,检索单一学生不同时间维度的平均消费金额和消费次数,分析其可能存在的异常状态,如疑似贫困生大量时间内的低额消费,疑似被盗刷的短期内大额度消费等。
5.3经济困难学生识别预警
相关研究表明,贫困生尤其是特困生在食堂里的用餐次数明显高出非贫困生:贫困生在食堂的整体用餐金额低于非贫困生:贫困生的用餐金额相比之下更为稳定。以24小时为周期,以单一学生为个体,检索其历史消费记录,横向筛选其在一段时间维度内,满足一定消费次数(同时满足一定消费金额,筛除购置零散物品的消费记录)的平均消费金额,并以这些数据为消费特征数据,根据聚类算法建立经济困难学生认定模型,筛选出消费水平较低的学生进行预警。并以班级、分院为集群维度,统计触发该类预警学生总和。
5.4特殊月异常消费预警
以班级作为合集,将满足一定消费比例的日期作为交易日判断条件,通过逻辑模型计算出不同班级的交易日,以该交易日作为其班级成员就餐日的标准,抽取其在特定时间段(三餐),特定额度区间的消费情况,甄别该学生三餐就餐情况。同时,以单一学生为个体,检索其历史消费记录,统计其在特定时间周期,特定时间段(三餐),特定额度区间的消费情况,计算出三餐就餐率和总就餐率,对就餐率低于指标值的学生进行预警,并以班级、分院为集群维度,统计触发该类预警学生总和,通过权限模型和管理驾驶舱,展示给相应权级的管理员。
6实现价值
6.1家庭困难学生认定
通过分析学生日常消费数据,根据学生的消费行为判断学生的家庭收入情况,从而为家庭经济困难学生的认定提供辅助决策支持。在实际学生工作中,经过调研显示,平台预警的这些经济困难生确实都是家庭困难学生,其具有一定的实践应用价值。
6.2提升后勤服务水平
通过对学校的消费数据进行详细分析,发现群体消费的偏好以及潜在的问题,能够向后勤处管理层展示校内营收情况,发掘热门及冷门消费地点,为校领导综合判断商家提供决策依据,为学校商家和食堂分别提供其在校内的营收情况,帮助其了解自身的营收流水和客户类型等,为其后续开展营销提供依据。
6.3关心关爱学生
通过分析学生大额消费、三餐就餐率,展示个体消费曲线及就餐率曲线,督促学生养成好的生活习惯和消费习惯,树立正确的消费观,对异常消费行为做出科学的引导,对特别贫困生进行密切关注及心理疏导,对学生的关心关爱更加精准。