APP下载

基于K-MEANS聚类的电商网站用户行为分析

2017-08-03王召义薛晨杰

关键词:日志页面金额

王召义,薛晨杰

(安徽商贸职业技术学院经济贸易系,安徽芜湖 241002)

基于K-MEANS聚类的电商网站用户行为分析

王召义,薛晨杰

(安徽商贸职业技术学院经济贸易系,安徽芜湖 241002)

调整网站访问日志数据,从中提取用户访问各类页面次数,考虑类别化的变量组合方式,采用K-MEANS聚类对类别化的变量进行聚类分析,理解各类别特征,描述用户行为,分析各类别与输出结果的关联性,并为制定网站经营策略提供支持和参考依据.实证研究表明,对页面访问次数占比进行K-MEANS聚类分析,可以明确各类型页面与输出结果之间的关联性.

K-MEANS聚类;用户行为;多元回归;输出结果

用户行为主要是指用户在使用网络资源时所呈现出来的规律,可以用某些特征量的统计特征或特征量的关联关系定量或定性地表示[1].购物网站的用户行为特征更有其独特之处,通过数据挖掘技术分析购物网站的用户行为特征,己成为电子商务用户流失领域的一个重要研究课题[2].

1 问题由来

现在的中小企业在互联网的冲击下,有的被时代淘汰,有的则搭乘互联网+的浪潮,摇身一变成了有着独立购物网站的电子商务企业[3].独立购物网站在给企业带来机遇的同时,也面临着一系列的问题——网站如何推广、流量从哪里来、如何识别用户访问行为特征等,这些问题处理不好,会拖累企业发展.分析网站访问日志是解决这些问题的有效手段之一,通过分析网站访问日志能了解用户行为及被频繁访问的资源.因此,本文从大量网站访问日志数据中提取有关数据,使用K-MEANS聚类对这些数据进行分析,描述用户行为特征,从而为制定网站经营策略提供支持和参考依据.

2 研究模型

基于K-MEANS聚类的网站用户行为分析,其核心是对网站访问日志数据进行聚类分析,描述各类别的特征,并分析各类别与输出结果的关联性.研究模型主要分为三个部分:数据准备、数据分析和结论.具体流程如图1.

1)数据准备

从企业自建的购物网站访问日志中提取出用户访问各类页面的次数,并计算出各页面类型访问占比即类别化;从用户交易记录数据库中,统计出用户的总消费金额.即得到变量为用户ID、各页面类型访问占比,输出结果为消费金额的原始数据.

2)数据分析

数据分析分为两个阶段展开工作。第一阶段是对类别化后的数据进行K-MEANS聚类分析,分析各类别与输出结果的关联性;第二阶段是用多元回归统计分析各变量与输出结果的关联性,并与第一阶段分析结果进行比较.

3)结 论

以分析结果为参考,对网站及经营策略进行改善并验收成果.

图1 研究模型Fig 1 Research Model

3 实证研究

3.1 数据准备

以安徽省芜湖市A企业自建购物网站的访问日志为数据源,该网站架构如图2所示.

图2 A企业网站首页部分截图(网站logo已遮挡)Fig 2 Website Homepage Partial Screenshots from Company A (Website Logo Has Been Shielded)

首页上是商品分类、特卖页面的链接,访客可以由此进入商品详情页,并在购物车内进行订单结算,其它还有搜索、帮助功能.“商品详情”与“商品分类”的页面完全不同,“特卖页面”与“帮助”页面也不一样.因此,可以先将网站上的各个页面按照其文件性质大致分类,然后请网络工程师按照该分类列表统计访问日志.

3.1.1 原始数据

在筛选网站访问日志时,要将访问日志与以用户为单位统计的消费金额相结合,从中分离出适当的变量及数据.为了能够将体现用户行为特征的要素以一目了然的形式统计出来,本文把购物网站的页面简单分成首页、商品分类、商品详情、特卖页面、搜索功能、购物车、其他(帮助或客服)几大类.以用户为单位,统计各类页面的访问次数,并将其与输出结果(消费金额)相结合,即成如表1的原始数据.

表1 原始数据Table 1 Raw Data

3.1.2 变量的类别化

表1中除了用户ID、消费金额外,还包含了用户对各类型页面的访问次数.排除消费金额和用户ID,可供选择的变量即为各类型页面的访问次数,但不能直接对其进行聚类分析,因为聚类分析会将值相似的数据看作“同一个类别”进行分类[4].因此,本文不直接使用访问次数进行聚类,而是将焦点放在访问页面类型所占的比例上,即各类型页面的访问次数除以合计访问次数所得的占比,这是因为访问页面类型的占比可以反映用户的喜好.

需要强调的是,本文使用各类页面的访问占比进行聚类分析,是由多方面因素决定的.在其他情况下,直接使用次数,或者使用完全不相干的其它要素进行聚类分析也是非常有可能的.

3.2 数据分析

3.2.1 K-MEANS聚类分析

K-MEANS聚类需要事先判断簇个数来作为输入参量,该参数的设置往往涉及到聚类效果.轮廓系数可以用来解决这个问题.轮廓系数方法结合了凝聚度和分离度,可以以此来判断聚类的优良性,其值在-1到+1之间,值越大表示聚类效果越好.依据这个原理,使用SPSS Modeler对类别化后的数据进行多次K-MEANS聚类分析,并计算在每个簇数条件下的轮廓系数,当轮廓系数取最大时,其相应的簇个数是最好的.选择k= 2,3,4,5,6,对应的平均轮廓值为0.4, 0.6, 0.5, 0.5,0.5.因此,选择聚类数为3的K-MEANS聚类对数据进行分析,聚类结果如表2所示,其中,聚类-1数量为2 185、聚类-2数量为5 754、聚类-3数量为2 596,共计10 535,无缺失.

表2 聚类结果Table 2 Clustering Results

3.2.2 理解各类别的特征

对每个聚类的中心点(均值)数据进行横向、纵向比较,会发现各类别特征即顾客行为.根据电子商务网站的特点和用户的购物习惯,绝大多数用户必须通过商品详情页点击购买,才能进入提交订单环节[5],所以商品详情页占比不作为理解类别特征的核心因素.

聚类-1用户群体几乎不怎么浏览商品分类页面、特卖页面和其它页面,却频繁使用搜索功能,经常使用购物车,且比其它类别频繁许多,可以归类为利用搜索功能直接找到商品并进行购买的“搜索型用户”.

聚类-2用户群体浏览商品分类页面较其它类别频繁,且均衡利用购物车、搜索功能.这种首页-商品类型-商品详情页-购物车的浏览顺序与网站运营者的预想完全吻合.另外,在三种类别中,这一类别的人数最多,所以称之为“普通型用户”.

相较于其它类别,聚类-3用户群体不怎么浏览帮助功能、购物车、搜索功能,却经常浏览首页和特卖页面.这说明,这类用户经常回来确认特卖页面的内容,可以称之为“促销型用户”.

至此,我们大致理解了各类别用户的行为特征.

3.2.3 各类别与输出结果的关联性

聚类分析完成,不过是“从多个变量中找出了能够用于分析的定性的新变量(类别的分类)”[6],分析消费金额与新得到的变量(搜索型用户、普通型用户、促销型用户)之间的关联性才是重点.

消费金额为定量数据,变量(类别的分类)为定性数据.只需要在EXCEL中进行交叉表分析即可计算出各类别的平均消费金额,具体结果如表3所示.

表3 平均消费金额Table 3 Average Consumption Amount

观察生成的表3可以发现,“搜索型用户”的平均消费金额最高,其次是“普通型用户”,而总是喜欢浏览特卖页面的“促销型用户”的平均消费金额最低.以促销型用户的消费为基准,计算促销型用户与普通型用户、搜索型用户的消费差额,通过“t检验”的方法求出P值,结果如表3.因为P < 0.001,可以很肯定地断定,促销型用户与普通型用户、搜索型用户之间有着显著性差异,

3.3 多元回归统计分析

以消费金额为输出结果,用户为分析单位,各类网页的访问次数为变量(不包括合计访问次数),进行多元回归分析,探究各变量与输出结果有何关联性.使用SPSS 22.0对表1的各页面访问次数进行多元回归分析,分析结果如表4所示.

表4 回归系数Table 4 Regression Coefficient

根据分析结果,可以大致看出用户的行为是如何影响消费金额的.

首先,显著性P小于0.05的有三项,即“商品详情页”、“特卖页面”、“搜索功能”,其中P值最小的“特卖页面”的回归系数为负值,表示浏览该页面的用户消费金额低,对消费金额有消极的影响.

其次,“商品详情页”和“搜索功能”的回归系数显示正值.表示“商品详情”每增加一次访问,消费金额会增加31.496,“搜索功能”每增加一次访问,消费金额则会增加236.355,这两项对消费金额都有积极的影响.

最后,针对“首页”、“商品分类”、“购物车”这三类,本文分析了10 535名用户395 304次的访问日志,却发现无法判断其对销售额的影响是积极还是消极.

使用K-MEANS聚类和多元回归分析对数据进行分析后,发现两种分析结果十分相似,相互补充.回归系数最大的搜索功能与搜索型用户相对应;回归系数为负值的特卖页面与促销型用户相对应;回归系数较小的商品详情与普通型用户相对应。但是K-MEANS聚类分析法能够让我们更清晰地清楚用户的行为特征.

4 结 论

从提升网店经营效果的角度出发,提出以下切入点.

1)停止在特卖页面上花费成本并验证效果

分析表明,“特卖页面”的访问次数对销售额有消极的影响.“特卖页面”中的栏目丰富充实,可能会吸引一些不打算购物而是单纯为了消磨时间频繁访问网站的顾客.有些对特卖活动敏感的顾客在比较了多家网站之后,也可能会在其它网站购买商品.

定期制作特卖页面会耗费一定的人力成本和外包成本,如果对消费金额的增加没有任何帮助,甚至是负面影响,或许可以暂时停止制作特卖页面,以验证特卖页面的有无会对消费金额产生何种程度的影响.

2)进一步强化搜索功能,验证是否能够吸引更多的购买单价高的用户群使用

“商品详情页”的访问次数增加,消费金额也随之增加是显而易见的,但是“搜索功能”的访问对消费金额的提高更为重要.

使用搜索功能的顾客目的性很强,购买方向很明确,这些都有利于提升成交率.因此,可以考虑将搜索功能做得更加醒目、更加便于操作,或许可以促使购买单价高的顾客群更多地利用这一功能.

3)验证从访问日志中提取的其它变量是否可以利用

本文分析使用的变量只是各类页面的访问次数.从网站访问日志中,也能够提取访问的时间区间、逗留时间等信息,把这些信息作为变量进行分析,或许可以更进一步挖掘出贡献高消费金额的用户的行为特征.比如,添加“逗留时间”变量进行分析,或许可以得到“经常使用搜索功能的用户的消费金额高,也许是目标明确的缘故”这样的分析结果.

[1] 程光,龚俭,丁伟. 网络测量及行为学研究综述[J]. 计算机工程与应用,2004,40(27):1-8.

[2] 丁青,周留根,朱爱兵,等. 基于K-means聚类算法的校园网用户行为分析研究[J]. 微计算机应用,2010,31(6):77-78.

[3] 徐渥明. 基于聚类算法的餐饮电子商务平台精准营销方法与策略[D]. 上海:上海交通大学安泰经济管理学院,2013:47-48.

[4] 赵凯,蒋朝惠. 基于K-means算法的电信用户行为特征聚类分析[J]. 贵州大学学报(自然科学版),2015,32(2):87-88.

[5] 叶文. 网络消费者购买行为分析[J]. 上海大学学报(社会科学版),2001,8(4):51-55.

[6] 丁青. 基于校园网用户行为日志的数据挖掘研究[D]. 南京:南京农业大学电气工程系,2009:16-18.

Abstract:The paper probes into the behavior analysis of E-commerce website users through the adjustment of website access log data and extraction of the number from all kinds of website pages users visit.Considering the classified category of variable combinations, the categorical variables for cluster analysis is applied via the use of variation of K-MEANS cluster in order to comprehend the characteristics of each category, describe the user behaviors, analyze the correlation between each category and output results and provide the support and the reference frame for the website operating strategies. Empirical studies show that the K-MEANS clustering analysis on the proportion of page access times can make clear the correlation between each type of pages and the output results.

Key words:K-MEANS Cluster; User Behavior; Multiple Regression; Output Result

(编辑:王一芳)

Analysis of E-commerce Website User Behavior Based on K-MEANS Cluster

WANG Zhaoyi, XUE Chenjie
(Department of Economics and Trade, Anhui Business Vocational Technical College,Wuhu, China 241002)

TP311.13

A

1674-3563(2017)03-0049-06

10.3875/j.issn.1674-3563.2017.03.008 本文的PDF文件可以从xuebao.wzu.edu.cn获得

2016-09-30

安徽省高校优秀青年人才支持计划项目(gxyqZD2017110);安徽省高校人文社会科学研究重点项目(SK2016A0357);安徽省教学研究项目(2015jyxm751);安徽省高校自然科学研究重点项目(KJ2016A253)

王召义(1983-),男,安徽宿州人,讲师,硕士,研究方向:数据挖掘

猜你喜欢

日志页面金额
刷新生活的页面
2001年-2020年县级一般公共预算支出资金来源情况表
一名老党员的工作日志
答案
扶贫日志
雅皮的心情日志
游学日志
立案
成交金额前10名营业部买入的前3只个股
一周资金净流出金额前20名个股