基于大学生校园卡消费数据特征分析学生消费能力
2021-10-22纪松江陈豪唐博浩张明
纪松江 陈豪 唐博浩 张明
摘要:随着数字化时代的到来,推动着校园数字化快速发展,校园卡的普及更是对校园数字化最突出的部分。通过对校园卡的使用,并对校园卡所产生的数据,直接反映了学生在校生活的消费情况。能够帮助学校对学生的消费行为有大体的了解,同时利用大数据分析技术,对电子科技大学成都学院的学生做一个细致的研究,利用K-means聚类算法对学生使用校园卡的消费记录聚类分析,同时能得出每一位学生的消费能力层级。其所得到的成果能帮助学校做出科学有效的决策,同时对异常的消费行为做出科学的引导。
关键词:大数据分析;校园卡;消费能力
从大量的数据中提取出需要的数据,并且让数据发挥出各自的价值,这就是数据的价值。现在很多的问题都能通过海量的数据去解决,提取大量数据其中隐含的消息,潜在的规律。现在研究的内容包括:通过已经认定的贫困生所处的贫困等级线,比较每名学生与贫困等级线的偏离程度;采用月消费金额,通过聚类算法对学生校园卡消费数据进行分组;用整体的消费金额的平均水平衡量贫困等级线,并作出调整;由于上述研究内容易存在弊端,不具有强有力的说服力:在已经获得的贫困生里面,存在少部分的假贫困生,对贫困等级线带来误差;对最后得出的贫困等级,需要做数据检验,看整体的偏移程度,核对算法的整体有效性。
综上所述,基于大学生校园卡消费数据特征分析学生消费能力整体的思路是:统计整个学生的消费能力数据,得出整体的消费金额的平均水平;根据整合的数据得出每一名学生的月消费总金额和月消费总次数;根据整体的消费情况得出的消费金额和消费次数剔除部分异常的数据值;并且将学生分成四类。
A类:消费次数低于均值,消费金额高于均值定位消费能力良好
B类:消费次数处于均值,消费金额低于均值定位消费能力为一般
C类:消费次数高于均值,消费金额低于均值定位消费能力为差
D类:消费次数高于均值,消费金额高于均值定位消费能力较好
聚类是指将相似的事物或者事件化成同一类别,将不相似事物或者事件划分为同一类别。按照K-means聚类算法对学生分类,最后得出每位学生的消费能力等级。
一、校园卡数据与消费能力
(一)校园卡数据结构
以电子科技大学成都学院为例,该校的校园卡用于存儲学生的消费记录,校园卡的数据结构包含了学生的年级、院系、身份证号码、姓名、交易类型、交易金、交易终端和交易时间的数据。对总的消费数据进行研究和分类。校园卡的数据结构如表1所示。
(二)学生消费能力
根据表1的校园卡数据结构,可知目前电子科技大学成都学院的学生目前的消费能力,消费的时间。每位学生在不同的交易时间里,消费的地点和消费的金额也不相同。由于每个人消费观念不同,对于每次消费的支出金额也不相同。
二、数据处理及数据分类
(一)数据获取与处理
首先对数据进行获取和预处理,通过电子科技大学成都学院校园卡数据库后台导出的数据,经过初步的筛选,得出学生的姓名、学号、交易类型、交易金额、交易终端、交易时间以及学生所属的二级学院具体的如表2学生校园卡数据结构所示。
可以看出,在表2中,每一位同学的姓名和每次交易时间下花费的金额。将每次的消费记录统计出来之后,将会在表2的基础上进行优化,将会统计出每位学生和每位学生月消费金额,如表3月消费金额和月消费次数所示。
在这个过程中,针对大一、大二、大三学生,毕业班学生不做参考,同时数据表里存在部分的异常数据,也同时剔除出去。考虑到大部分学生会在学校正常就餐,少部分同学订外卖,外出吃饭和一些家庭条件困难同学可能会一日两餐,将月消费次数低于60的数据剔除。
(二)消费能力对应关系
深入分析消费金额和消费次数与规定的学生的A,B,C,D四个等级之间的对应关系,通过K-means聚类算法,得出表4学生的消费能力等级与消费金额和消费次数的对应关系所示。
通过表4可以看出,当符合等级A的同学,每个月最低的消费金额是782.449533,而消费次数是88.876999;当符合等级为C的同学,每个月最低的消费金额是171.466299,而消费次数是17.9199105;当符合等级为D的同学,每个月最低消费金额是1270.302469,而消费的次数最低是135.882793;当符合等级为B的同学,每个月最低的消费金额是493.674104,而消费的次数最低是55.868327。
通过使用K-means聚类算法,将数据进行预处理之后,又最开始定的学生四类等级,同时将最后的结果回归到学生四类等级中,就可以知道符合四类等级的区间的详细的消费信息。表4中,变量S代表每一位学生的月消费金额。同时也将会根据实际需要并且同时结合实际的情况,适当的进行修改标准,同时也给出最终判定大学生消费能力的标准:
1. 0
2. 171.466299
3. 493.674104
4. 782.449533