APP下载

基于数据挖掘的互联网用户行为特征分析

2021-12-06

顺德职业技术学院学报 2021年4期
关键词:转化率规范化模块

李 曼

(商丘职业技术学院,河南 商丘 476000)

随着互联网技术和电子商务平台的快速发展,互联网用户的数量逐年增加,产生了海量的用户数据。然而由于这些数据量较大,且数据间通常不互通,对这类数据的分析难度较大。近年来,数据挖掘技术日益成熟,为这类数据的分析带来新的契机。冯凯媛等、刘文英等、胡航等、梁波基于朴素贝叶斯,对大量的互联网页数据进行了深度挖掘[1-4],提高了数据分类的准确性,进而提高了数据分析质量。但由于该方法对输入模型的互联网数据表达形式较为敏感,无法确保稳定的分析结果。因此,为解决该问题,采用对输入模型数据不太敏感的k-means 算法对互联网用户数据进行挖掘,设计基于改进k-means 算法的互联网行为特征数据进分析系统。

1 互联网用户行为特征分析系统框架

从用户互联网历史数据中获取用户的兴趣偏好等信息构建分析系统,提高网络消费服务的质量。系统整体架构设计如图1 所示,包括数据源模块、数据处理模块、数据分析模块。数据源模块主要用于采集用户浏览记录等互联网历史信息;数据处理模块主要负责对采集的数据进行预处理,以提高数据质量,进而提高数据挖掘的有效性;数据分析模块主要负责对预处理后的数据进行分析,获取用户行为特征。其中,数据分析模块是本系统的核心模块,故研究重点对该模块进行设计与实现。

2 数据分析模块设计

2.1 k-means 算法

k-means算法是一种常用于数据分析的聚类算法,具有处理速度快、流程简单、收敛性好的特点[5]。其基本原理是对给定的样本集,按照样本的距离大小划分为k个簇,使簇内的点尽量聚集,簇间的距离尽量远离。采用数学表达式(1)进行表示:

式中,E表示目标最小化平方误差;Ci表示划分的第i个类簇,x∈Ci;μi表示Ci的均值向量,即质心,可由式(2)计算。

2.2 k-means 算法改进

由式(1)可知,k-means 算法中,类簇质心个数的选择对算法的聚类结果影响较大,采用随机初始化的方式选择类簇个数可能导致算法收敛速度变慢,进而影响聚类效果[6]。因此,本研究对k-means算法的初始质心随机选择方法进行了优化。具体优化步骤如下:

步骤1:从输入的数据集中随机选择一个点作为聚类的第一个中心μ1;

步骤2:根据式(3)计算该数据集中每个点xi到μ1的距离D(xi);

步骤3:选择一个D(x)较大的点作为新的聚类中心;

步骤4:重复步骤2 和3,直到选出k个聚类质心;

采用上述步骤优化后,实现了k-means 算法改进,改进后的k-means 算法流程如下:

步骤2:计算样本xi到各个质心向量的距离:

步骤3:将xi输入距离最小的对应类簇λi中,并更新;

步骤4:根据式(5)重新计算新的质心:

步骤5:判断k个质心向量是否发生变化,若质心向量均保持不变,则输出簇划分。

采用改进k-means 算法对互联网用户数据进行分类,即可找出行为类型相似的用户簇,根据用户簇的统计学特性,即可了解用户的行为特征。最后,通过对用户行为特征如网站转化率、搜索词等分析,即可完成互联网用户行为分析。

3 仿真实验

3.1 实验环境

本系统采用三台Linux 系统的虚拟机构成服务集群,在Spark 数据平台上运行,系统所需环境如表1所示。

表1 系统环境

3.2 实验过程与分析

3.2.1 数据来源及预处理

为验证系统对互联网用户行为特征的有效性,采集某市2018 年1 月1 日至2 月1 日的联通网上商城网站数据作为实验数据。但由于系统采集的数据通常包含噪声,且数据的冗余程度较高,因此,本实验对数据集进行了包括数据清理、数据规范化,以及数据归约的预处理,以提高数据质量,进而提高后续数据分析的准确性[7]。

1)数据清理。

数据清理主要包括缺失值填补和噪音清理。其中,缺失值填补主要采用平均值或最大值、最小值对缺失数据进行填充;噪音清理主要对数据中存在偏差或误差的数据进行清理,以减少这些数据对实验的影响,通常采用平滑处理的方式进行清理[8]。

2)数据规范化。

数据规范化包括线性规范化和0 均值规范化两种处理方式[9]。0 均值规范化主要应用于数据集处理,因此,研究选用0 均值规范化对互联网用户数据进行规范化处理。

0 均值规范化数据集的基本思想是将输入的原始数据集规范化为均值0,方差1 的数据集,如式(6):

式中,x表示原始数据;μ、σ表示原始数据集的均值和标准差。

3)数据归约。

由于互联网数据量巨大,通常为TB 级别甚至PB 级别,若对所有采集的数据进行分析,不仅计算量大,其耗费的计算时间也相对较长。因此,在保证数据质量的前提下,为降低计算量,缩短计算时间,研究采用常用的数据压缩方式,对数据进行了归约处理[10]。数据压缩即通过编码转换的方式对原始数据进行重新构建,实现数据的压缩。

3.2.2 结果分析

为验证本系统对互联网用户行为特征分析系统的有效性,研究从网站转化率、搜索词、用户、商品四个方面对互联网用户行为特征进行分析。

1)网站转化率。

研究采用本系统对预处理后的实验数据的网站跳出率进行分析,结果如图2 所示。由图可知,该网站的单日平均跳出率50%左右;单日访次差异较大,最高单日访次为1 月21 日,达到78 150 次,最低单日访次为1 月5 日,为15 640 次;有491 个入口页的跳出率高于单日平均跳出率,其中页面访次前100 的入口页有25 个,主要为商品详情和活动专题页面,说明活动当天产生了大量的访次。同时,通过分析用户的入口数据,可知这部分访次90.6%来自用户的直接访问,说明该网站的访问者主要是长期关注该网站的用户。

图2 联通网上商城网站跳出率

2)搜索词分析。

搜索词包括站外搜索词和站内搜索词,分析的主要目的是实现搜索优化。通过调查研究发现,站外搜索词流量主要来自搜索引擎,因此可通过优化搜索引擎中网站的搜索词提高网站的流量。表2 为站外某搜索引擎搜索词明细,由表可知,规范的搜索词带来的访客数较多,且新用户占比较高,同时订单的转化率相对较高,说明网站的搜索词规范可提高用户站外的访问量及订单转化率。此外,通过比较排名第十和第一的搜索词发现,虽然前者信息更齐全,但其带来的访客数和订单转化率低于后者,其原因是该搜索词内容过于冗长复杂。因此,定义网站搜索词时,应注意搜索词简单通俗。

表2 站外搜索词明细

站内搜索词主要是为了让用户尽快查询到所需商品,通过合理排序商品提高有效订单率。表3 为该网站内搜索词的整体情况。由表可知,站内搜索词偏向于商品名称搜索。

表3 站内搜索词明细

3)用户分析。

为实现对用户行为的分析,研究选取2018 年1 月26 日至1 月28 日期间的用户登陆、转化率、新老客户数据进行具体分析,结果分别如表4~6 所示。由表可知,该网站的客户正在持续增加,但增加速度较为缓慢,说明该网站已经进入稳定时期,急需重新整理系统间的结构,以提升网站品牌的影响力。

表4 客户登陆明细

表5 客户转化率明细

表6 新老客户数据明细

4)商品分析。

由于商品的销售量和商品价格不一定成正比,因此根据商品的销售细节数据划分用户群,并通过分析用户群,指导接下来的网站商品活动特性。对网站总流量的分析结果可知,商家有营销活动时,网站的流量会在活动期间出现快速增长,因此可通过分析某个具体商品在活动期间的流量变化情况,确定商品活动。图3 为客户在购买该网上商城商品时两个不同类型的营销活动影响力。由图可知,该商品在两个不同类型的活动期间均没有引起大量的用户购买,分析原因是该商品为手机号码,这种特殊的商品通常会长期保留,因此用户对活动的期待度不高。

图3 购买商品的客户选择的活动

此外,根据用户使用的号码段也可对用户分类,分析号段客户购买商品情况。如图4 可知,购买186和185 号段的客户较多,购买130、131、156 号段的客户较少。原因可能与用户的使用趋势和终端设备发生改变有关。

图4 购买商品的客户选择号段情况

4 结语

本研究基于数据挖掘的互联网用户行为特征分析系统,通过改进k-means 算法对互联网用户行为进行分析,并从网站转化率、搜索词、用户、商品的数据层面反映用户的行为特征,为互联网电子商务平台制定更好的网络消费服务和产品设计,提供了有力的数据支撑。

猜你喜欢

转化率规范化模块
我国全产业领域平均国际标准转化率已达75%
28通道收发处理模块设计
“选修3—3”模块的复习备考
价格认定的规范化之路
曲料配比与米渣生酱油蛋白质转化率的相关性
透视化学平衡中的转化率
狂犬病Ⅲ级暴露规范化预防处置实践
高血压病中医规范化管理模式思考
满足全科化和规范化的新要求
影响转化率的因素