聚类分析方法在食堂消费数据中的应用研究
2015-01-14张琳
张 琳
(遵义师范学院计算机与信息科学学院,贵州 遵义563000)
1 聚类分析方法
聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术[1]。聚类分析方法具有简单、直观的特点,主要应用于探索性的研究,其中变量的选择有较大的影响。
2 聚类分析基本思想
以学生的消费记录为研究对象,使用聚类分析知识进行研究,主要使用K-Means算法[2]:
输入:聚类个数k以及包含n个数据对象的数据集;输出:满足目标函数值最小的k个聚类。
(1)计算任意两个数据对象间的距离d(xi,xj);
(2)计算每个数据对象的密度参数,把处于低密度区域的点删除,得到处于高密度区域的数据对象的集合D;
(3)把处于最高密度区域的数据对象作为第1个中心z1;
(4)把z1距离最远的数据对象作为第2个初始中心z2,z2∈D;
(5)令 z3 为满足 max(min(d(xi,z1), d(xi,z2)), i=1,2,…,n 的数据对象 xi,z3∈D;
(6)令 z3 为满足 max(min(d(xi,z1), d(xi,z2)), d(xi,z3)), i=1,2,…,n 的数据对象 xi,z4∈D;
…
(7)令 zk 为满足 max(min(d(xi,zj))), i=1,2,…,n, j=1,2,…,k-1 的 xi,zk∈D;
(8)从这k个聚类中心出发,应用k-means聚类算法,得到聚类。
一般采用均方差作为目标测度函数:其中E是数据集中所有对象的均方差之和;p是代表对象的空间中的一个点。
3 聚类分析方法在食堂消费数据中的应用
本文主要使用SPPS工具来进行聚类分析与研究。
SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案),是一种实现数据分析的多功能软件[3]。
SPSS for Windows是一种运行在Windows系统下的社会科学统计软件包,从1968年由美国斯坦福大学开发使用至今,在全球已经拥有数以万计的用户,在通信、医疗、银行、证券、保险、制造、商业、市场研究、科学教育等众多的行业领域都得以有效的应用,目前,SPSS已成为世界上应用最广泛的专业统计软件之一。SPSS软件包采用窗口操作界面,用户操作使用方便,包括数据整理、分析过程、结果输出等功能。面对庞大的数据量,SPSS软件的功能不断完善,其统计分析方法不断充实,涵盖面越来越广,输出数据表格图文并貌,大大提高了统计分析工作的效率。
SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等,具体内容包括描述统计、列联分析,总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类,每个类中还有多个专项统计方法。SPSS设有专门的绘图系统,可以根据使用者的需要将给出的数据绘制各种图形,能够满足用户的不同需求[4]。
聚类分析工具的应用:
1)打开SPSS软件,并输入数据,设置变量名称,在学生消费数据中选择了三十名学生的月消费情况作为分析目标,如下图所示为部分消费情况,其中男女各15名,将性别男、女处理为二值型数据分别标记为 1、2。
2)每个变量设置的部分格式:
(1)名称:学号,类型:字符串,长度:11,对齐方式:左,测量单位:名称;
表1 待处理的数据
(2)名称:性别,类型:数值,长度:1,对齐方式:右,测量单位:名称;
(3)名称:月消费额,类型:数值,长度:6,对齐方式:右,测量单位:尺度;
(4)名称:交易次数,类型:数值,长度:5,对齐方式:右,测量单位:尺度。
3)选择“分析”—“聚类分析”—“快速聚类K”进行分析,则在出现的界面中进行如下设置:
将”变量”设置为:性别、月消费额、交易次数。
将“方法”设置为:迭代与聚类。
将“聚类数目”设置为:2。
4)对“方法”、“迭代”选项进行设置,点击“确定”即出现运算过程及相应结果:
(1)初始聚类中心
“1”类:性别为“2”(女),月消费额为 278.90,交易次数为 155。
“2”类:性别为“1”(男),月消费额为 520.10,交易次数为 171。
(2)迭代过程
在聚类中心的变化分别为63.006、51.977。
由于最大绝对坐标的变化是.000,当前迭代是2,最小距离是241.732,初始中心实现了最小的变化。
(3)最终聚类中心
“1”类:性别为“2”(女),月消费额为 341.33,交易次数为 164。
“2”类:性别为“1”(男),月消费额为 468.13,交易次数为 170。
从上述运算结果可看到30个观测量都有效,并没有丢失任何一个观测量。最终,通过以上分析可以看出学生的消费情况可以分为两类,第一类性别为2,即女生每月消费大概为341.33元,平均交易164次,而第二类性别为1,即男生每月消费大概为468.13元,平均交易170次。从上我们可以看出男生与女生的每月消费情况是不同的,男生消费较多,平均交易也自然的较多,针对食堂来说就应该针对男女生不同的特点,合理安排消费类别,促进学生进行消费。
总之,使用SPSS软件中的聚类功能对校园一卡通数据进行分析,能有效地快速分析出学生消费的一些特征,对这部分知识的研究这里仅进行了粗略的分析,在今后的时间里再进行深入研究。
[1]李响.数据挖掘技术浅析[J].计算机光盘软件与应用,2012(12):46.
[2]袁方,周志勇,宋鑫.初始聚类中心优化的 k-means算法[J].计算机工程,2007,33(3):65-66.
[3]刘震.SPSS统计分析与应用[M].电子工业出版社,2011:4.
[4]陈良英.关于SPSS软件在市场调查统计应用的研究[J].中小企业管理与科技,2008(11):19.