APP下载

基于K-means的校园学生微信消费行为研究

2022-06-03杨江海邓海生娄德涵李旭东

电脑知识与技术 2022年8期
关键词:消费行为数据挖掘

杨江海 邓海生 娄德涵 李旭东

摘要:为研究校园学生的消费行为规律,以校内食堂的学生微信消费记录为数据基础,结合数据挖掘技术对其进行研究分析,尝试挖掘出学生消费的行为规律。通过对原始数据进行预处理、计算相关系数、选取最佳K值和评估轮廓系数,采用K均值聚类算法找出不同消费行为的学生群体,研究分析其不同群体的消费行为规律特征。研究结果表明,该算法将学生分成了低中高水平的消费群体,得出了不同时段学生在食堂各楼层的消费习惯。

关键词:学生群体;微信消费;数据挖掘;消费行为;K-means聚类算法

中图分类号:G642        文献标识码:A

文章编号:1009-3044(2022)08-0016-04

1 引言

国家提倡数字化以来,校园的数字化和信息化也紧跟步伐不断发展,校园的消费方式从线下的纸币支付转变成了线上扫码支付,并已在全国高校推广应用。对于线上支付消费,学校都有配套管理系统来记录学生的消费情况,该系统具有用户量大、每日交易多、单笔交易金额参差不齐等特点。通过这些庞大的数据量,对其进行有效地挖掘、分析,可发现消费人群的消费特点和规律。

2 相关研究

2.1 研究现状

2015年,姜楠、许维胜[1]在学生一卡通数据上,采用优化的K-means算法进行聚类分析,辅助管理部门更好地服务学生。2020年,李婷等在以陕西工业职业技术学院校园“一卡通”中教职工交易流水数据为研究对象,利用分类、K-means聚类算法,研究教职工的就餐规律和消费水平等,为后勤部门优化提供了科学依据[2]。2020年,龚黎旰以高校校园一卡通消费记录为数据基础,利用K-means算法结合Spark大数据计算框架,深度分析不同群体的消费组成结构和消费行为特征,为学校心理辅导提供参考依据[3]。

2.2 学生消费行为分析

截至目前,校园在线支付已经得到非常广泛的应用,小到日用品,大到看病购药,每天在校园群体中使用得很频繁。

本文研究数据由西京学院智媒体传播研究中心资助,主要通过对西京学院的校园微信消费数据进行数据挖掘分析。第一步,整理归纳校园消费数据对于现实的需求;第二步,从数据库中提取原始数据,并对数据进行预处理操作,主要包括数据转换、数据筛选、数据集成和数据归约等[4];第三步,对于预处理后的数据,将相关的字段变量按照实际情况进行量化处理,字段包括学生性别、学生年级、消费金额、商家所在楼层和支付时间;最后,通过聚类算法对该数据进行分析,提取当中潜在的数据价值,如消费行为规律。

3 相关技术

董新科等人在基于校园一卡通消费数据的几种聚类算法的分析比较论文中,使用常用的聚类算法在校园一卡通的消费数据上进行了实验,通过对多个指标的分析,得出了K-means 算法最合适在当前的数据上做聚类分析的结论[5]。本文基于该结论,使用K-means对校园微信消费数据进行聚类分析,对学生在食堂饮食的消费习惯划分类别。

在聚类分析中,大多数都是通过优化初始聚类中心选择的方式,来达到提高聚类效果的准确性和类内密集程度。本文在进行聚类分析前,使用相关系数对数据中的变量进行相关关系分析,找出正相关的变量;再通过手肘法选取数据的真实聚类数;最后用轮廓系数评估聚类结果。

3.1 皮尔逊pearson相关系数

在本次使用的微信消费数据中,通过总体Pearson相关系数来计算数据各变量的相关性,从而找出协方差为正的变量。

4) 误差平方和[SSE]为全部样本的聚类误差,其结果表示聚类效果的优劣。

当聚类数k增大,样本会被更加细分,每个簇的聚合程度也会被提高,[SSE]也会随着变小;相反,当k值小于真实聚类数时,[SSE]的下降幅度会变大;当k值接近真实聚类数时,[SSE]的下降幅度会减小,之后随着k值的增大而趋于平缓,最终生成的关系图是一个手肘的形状,而数据的真实聚类数就对应肘部的k值[6]。

3.3 轮廓系数

本文所研究的消费数据分类类别是未知的,故使用轮廓系数作为聚类性能的评估指标,以评估分类结果的准确度。该系数的取值范围在[-1,1]之间,当取值靠近1时,证实聚类成果越优越;反之,当取值偏向-1时,则证实聚类效果越弱。其计算步骤如下:

1) 第[i]个样本对象到所属簇中其他对象的平均距离,记为[ai](体现凝聚度)[7],称为样本对象[i]的簇内不相似度;[ai]越小,则该簇对其聚类到内的可能性越大。

2) 第[i]个样本对象和不包含该对象的其他任意簇,记为[bi](体现分离度)[7],称为样本对象[i]与簇[ci]间的不相似度:[bi=min{bi1,bi2,???,bik}]

3) 依据样本对象[i]的簇内不相似度[ai]和簇间不相似度[bi],其样本对象[i]的轮廓系数为:

4 数据处理与建模

4.1 数据提取

本文数据从高校的服务器中提取校园学生微信消费数据样本,包含食堂消费、卡机充值、校园公交消费及图书馆消费等数据。为了保护学生个人隐私,以上研究数据均已通过脱敏处理。该原始数据每天都会从客户端往服务器产生大量的消费记录存入数据库中,故选取时间为2021年1~5月份校内本科生和研究生作為研究数据,约三百万条消费记录。表中字段如表1所示:

4.2 数据预处理

校园学生微信消费数据存在一些不符合规范或超出范围的数据,在分析研究学生的消费行为之前,需要通过数据预处理技术对该消费数据进行数据清洗和标准化处理。为了保证数据的完整性,即消费记录尽量保证所有学生都在校内食堂消费,故排除2021年1月份和2月份的寒假时间,共统计3个月(2021年3月至2021年5月)的消费记录;并排除在食堂消费以外的非餐饮商家消费记录,如图书馆消费、校园公交消费、医务室消费等,数据经过处理后从原始包含的2983824条消费记录降到2503243条。对于时间字段,需要将消费时间的时和分提取出来,存放于单独的字段内。根据食堂的就餐开放时间,将6点零分至9点零分划分为早晨就餐时间,10点零分至13点零分为午餐就餐时间,17点零分至20点零分为晚餐就餐时间。65E71114-E2A4-42E9-96FB-4A0F5E09D398

4.3 变量间相关性

为了观察消费与各变量的相关关系,以方便后面进行模型建立。对学生的消费水平进行多方面考量,分析校内学生的消费结构以及不同时段的消费差异,通过选用消费金额(pay_surplus)、时段(session)、楼层(level)、性别(sex)及年级(grade)这5个变量进行Pearson相关性计算。计算结果及可视化如图1、表2所示:

由上述图表可看出,消费与楼层是呈正相关的,越往高的楼层,消费也在随着增加;在消费时段上也是同样的关系,晚上时段的消费会比上午和下午的消费高;而性别和年级呈负相关关系,不适合作为聚类。故选用时段和楼层来作为聚类模型的分类指标。

4.4 聚类模型建立与评估

对上述经过相关关系计算筛选出来的变量,采用K-means聚类算法对该消费数据进行聚类分析。

首先,将以上3个变量指标的数据单独存放到新的数据框中,并对其进行标准差标准化处理,即去均值和方差归一化,使得经过处理的消费数据符合标准正态分布;然后通过手肘方法,依次做K-means聚类,计算k值取1到10的误差平方和,看不同值对应的簇内误差平方和,以找出最佳k值,结果如图2所示,由图可看出,k值从5开始簇内误差平方和趋于平缓,故k值取5效果最佳。

因此,K-means聚类模型的参数以k值(n_clusters)为5,初始化方法(init)为K-means++,质心初始化值(n_init)为10,最大迭代数(max_iter)为300,随机从训练数据中选取初始质心(random_state)为0。通过训练得出聚类模型,并以模型为基础计算出预测值;最后利用轮廓系数,将变量指标数据和预测值各取60000条数据作为输入参数,来评估分类结果的准确度,评估结果约为0.923。可见分类效果不错。

5 结果分析

校园学生微信消费数据通过K-means聚类模型的训练后,将分类后的标签并入到数据表中,对聚类后的情况进行统计,结果如图3所示。可见,学生的消费情况被分成5个群体,3群的占比最大,占总学生消费记录数的32.9%,其次是0群,占总记录数的28.3%,而4群仅占0.1%。

为进一步地刻画校园内学生的微信支付消费情况,对聚类指标进行统计分析。各分类群的消费区间分布如表3所示。可见,占比最大的3群,其消费范围在2~28元不等,平均消费价格在7.5元;0群的消费范围和3群接近,但平均消费在6.9元;1群的学生群体的消费则在5.9~60.8元,属于消费偏高的群体,平均消费在15.6元;而2群体属于低消费人群,价格在1.8~16.4元,平均消费属于5群体中最低,在4.5元;4群的消费价格已超出普通学生的正常范围,且仅占消费总数的0.1%,故在此不做深入分析。

为了比较全面地分析学生在食堂的消费规律,故以类别为依据,按楼层和时段的分类结果,结合各群体的消费范围做整体分析,如表4表5所示。

在表4楼层分类中,属于中等消费且占总量较大的0和3群体,其消费习惯主要分布在食堂的1和2层,3层也有部分消费;属于高消费的1群体在食堂的消费习惯大部分集中在3层,小部分在4层;而平均消费最低的2群体出现在1和2层,两层的消费各占50%。可见,1层和2层的是学生比较习惯去消费的楼层,且属于中低消费群体,占到了总消费记录的78.6%;而3层和4层属于高消费群体经常去的地方,仅占到了21.3%。由此说明校园内学生的消费普遍属于经济性。

在表5时段分类中,中等消费的0群和3群的消费群体各集中在中午和早上时段,高消费1群体的消费分布在中午和晚上,低消费的2群体主要集中在晚上。由此可见session在群组中是较好的分群变量。

从学生消费的整体客观因素来看,2群的消费习惯是根据时段消费的;而1群和4群更侧重于楼层的选择,如表6所示:

综上分析,可得出以下结论:消费价格范围在1.8~16.4

元的低消费学生群体,其消费规律主要在晚上的1层和2层;处在2~28元的中消费学生群体,其出现在中午的1和2层,小部分在第三层;而高消费的学生在5.9~60.8元范围消费,主要出现在3和4层的中午和晚上。

6 结语

本文通过多个计算方法对研究数据进行筛选和处理,再对其进行聚类统计分析,与实际情况相结合,从而大致了解学生在校的消费水平和行为规律,研究结果可为学校餐饮部门或者在奖学金的发放上提供相关参考依据。本文通过对校园学生消费数据使用数据挖掘技术,来探险其中的数据价值,为以后相关的校园数据研究建设打下基础。

参考文献:

[1] 姜楠,许维胜.基于数据挖掘技术的学生校园消费行为分析[J].大众科技,2015,17(1):26-28,39.

[2] 李婷,李海平,尉亦兵.校园“一卡通”消费行为数据分析[J].微型电脑应用,2020,36(4):42-46.

[3] 龚黎旰,顾坤,明心铭,等.基于校园一卡通大数据的高校学生消费行为分析[J].深圳大学学报(理工版),2020,37(S1):150-154.

[4] 徐云.多通道数据采集系统数据预处理方法研究[D].杭州:浙江大学,2014:14-18.

[5] 董新科,张晖.基于校园一卡通消费数据的几种聚类算法的分析比较[J].计算机系统应用,2014,23(1):158-161,183.

[6] 夏海峰,陈军华.基于文本挖掘的投诉热点智能分类[J].上海师范大学学报(自然科学版),2013,42(5):470-475.

[7] 張冬梅.基于轮廓系数的层次聚类算法研究[D].秦皇岛:燕山大学,2010.

【通联编辑:王力】65E71114-E2A4-42E9-96FB-4A0F5E09D398

猜你喜欢

消费行为数据挖掘
“九零后”大学生消费行为误区和疏导方法
浅析花卉市场中的消费行为
关于消费者对苹果消费行为分析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
大学生衬衫消费行为分析
大学生资源节约型消费行为的养成教育
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究