基于数据挖掘的互联网用户行为特征分析

2021-12-06李曼

顺德职业技术学院学报 2021年4期

李曼

（商丘职业技术学院，河南商丘 476000）

随着互联网技术和电子商务平台的快速发展，互联网用户的数量逐年增加，产生了海量的用户数据。然而由于这些数据量较大，且数据间通常不互通，对这类数据的分析难度较大。近年来，数据挖掘技术日益成熟，为这类数据的分析带来新的契机。冯凯媛等、刘文英等、胡航等、梁波基于朴素贝叶斯，对大量的互联网页数据进行了深度挖掘［1-4］，提高了数据分类的准确性，进而提高了数据分析质量。但由于该方法对输入模型的互联网数据表达形式较为敏感，无法确保稳定的分析结果。因此，为解决该问题，采用对输入模型数据不太敏感的k-means 算法对互联网用户数据进行挖掘，设计基于改进k-means 算法的互联网行为特征数据进分析系统。

1 互联网用户行为特征分析系统框架

从用户互联网历史数据中获取用户的兴趣偏好等信息构建分析系统，提高网络消费服务的质量。系统整体架构设计如图1 所示，包括数据源模块、数据处理模块、数据分析模块。数据源模块主要用于采集用户浏览记录等互联网历史信息；数据处理模块主要负责对采集的数据进行预处理，以提高数据质量，进而提高数据挖掘的有效性；数据分析模块主要负责对预处理后的数据进行分析，获取用户行为特征。其中，数据分析模块是本系统的核心模块，故研究重点对该模块进行设计与实现。

2 数据分析模块设计

2.1 k-means 算法

k-means算法是一种常用于数据分析的聚类算法，具有处理速度快、流程简单、收敛性好的特点［5］。其基本原理是对给定的样本集，按照样本的距离大小划分为k个簇，使簇内的点尽量聚集，簇间的距离尽量远离。采用数学表达式（1）进行表示：

式中，E表示目标最小化平方误差；Ci表示划分的第i个类簇，x∈Ci；μi表示Ci的均值向量，即质心，可由式（2）计算。

2.2 k-means 算法改进

由式（1）可知，k-means 算法中，类簇质心个数的选择对算法的聚类结果影响较大，采用随机初始化的方式选择类簇个数可能导致算法收敛速度变慢，进而影响聚类效果［6］。因此，本研究对k-means算法的初始质心随机选择方法进行了优化。具体优化步骤如下：

步骤1：从输入的数据集中随机选择一个点作为聚类的第一个中心μ1；

步骤2：根据式（3）计算该数据集中每个点xi到μ1的距离D（xi）；

步骤3：选择一个D（x）较大的点作为新的聚类中心；

步骤4：重复步骤2 和3，直到选出k个聚类质心；

采用上述步骤优化后，实现了k-means 算法改进，改进后的k-means 算法流程如下：

步骤2：计算样本xi到各个质心向量的距离：

步骤3：将xi输入距离最小的对应类簇λi中，并更新；

步骤4：根据式（5）重新计算新的质心：

步骤5：判断k个质心向量是否发生变化，若质心向量均保持不变，则输出簇划分。

采用改进k-means 算法对互联网用户数据进行分类，即可找出行为类型相似的用户簇，根据用户簇的统计学特性，即可了解用户的行为特征。最后，通过对用户行为特征如网站转化率、搜索词等分析，即可完成互联网用户行为分析。

3 仿真实验

3.1 实验环境

本系统采用三台Linux 系统的虚拟机构成服务集群，在Spark 数据平台上运行，系统所需环境如表1所示。

表1 系统环境

3.2 实验过程与分析

3.2.1 数据来源及预处理

为验证系统对互联网用户行为特征的有效性，采集某市2018 年1 月1 日至2 月1 日的联通网上商城网站数据作为实验数据。但由于系统采集的数据通常包含噪声，且数据的冗余程度较高，因此，本实验对数据集进行了包括数据清理、数据规范化，以及数据归约的预处理，以提高数据质量，进而提高后续数据分析的准确性［7］。

1）数据清理。

数据清理主要包括缺失值填补和噪音清理。其中，缺失值填补主要采用平均值或最大值、最小值对缺失数据进行填充；噪音清理主要对数据中存在偏差或误差的数据进行清理，以减少这些数据对实验的影响，通常采用平滑处理的方式进行清理［8］。

2）数据规范化。

数据规范化包括线性规范化和0 均值规范化两种处理方式［9］。0 均值规范化主要应用于数据集处理，因此，研究选用0 均值规范化对互联网用户数据进行规范化处理。

0 均值规范化数据集的基本思想是将输入的原始数据集规范化为均值0，方差1 的数据集，如式（6）：

式中，x表示原始数据；μ、σ表示原始数据集的均值和标准差。

3）数据归约。

由于互联网数据量巨大，通常为TB 级别甚至PB 级别，若对所有采集的数据进行分析，不仅计算量大，其耗费的计算时间也相对较长。因此，在保证数据质量的前提下，为降低计算量，缩短计算时间，研究采用常用的数据压缩方式，对数据进行了归约处理［10］。数据压缩即通过编码转换的方式对原始数据进行重新构建，实现数据的压缩。

3.2.2 结果分析

为验证本系统对互联网用户行为特征分析系统的有效性，研究从网站转化率、搜索词、用户、商品四个方面对互联网用户行为特征进行分析。

1）网站转化率。

研究采用本系统对预处理后的实验数据的网站跳出率进行分析，结果如图2 所示。由图可知，该网站的单日平均跳出率50%左右；单日访次差异较大，最高单日访次为1 月21 日，达到78 150 次，最低单日访次为1 月5 日，为15 640 次；有491 个入口页的跳出率高于单日平均跳出率，其中页面访次前100 的入口页有25 个，主要为商品详情和活动专题页面，说明活动当天产生了大量的访次。同时，通过分析用户的入口数据，可知这部分访次90.6%来自用户的直接访问，说明该网站的访问者主要是长期关注该网站的用户。

图2 联通网上商城网站跳出率

2）搜索词分析。

搜索词包括站外搜索词和站内搜索词，分析的主要目的是实现搜索优化。通过调查研究发现，站外搜索词流量主要来自搜索引擎，因此可通过优化搜索引擎中网站的搜索词提高网站的流量。表2 为站外某搜索引擎搜索词明细，由表可知，规范的搜索词带来的访客数较多，且新用户占比较高，同时订单的转化率相对较高，说明网站的搜索词规范可提高用户站外的访问量及订单转化率。此外，通过比较排名第十和第一的搜索词发现，虽然前者信息更齐全，但其带来的访客数和订单转化率低于后者，其原因是该搜索词内容过于冗长复杂。因此，定义网站搜索词时，应注意搜索词简单通俗。

表2 站外搜索词明细

站内搜索词主要是为了让用户尽快查询到所需商品，通过合理排序商品提高有效订单率。表3 为该网站内搜索词的整体情况。由表可知，站内搜索词偏向于商品名称搜索。

表3 站内搜索词明细

3）用户分析。

为实现对用户行为的分析，研究选取2018 年1 月26 日至1 月28 日期间的用户登陆、转化率、新老客户数据进行具体分析，结果分别如表4～6 所示。由表可知，该网站的客户正在持续增加，但增加速度较为缓慢，说明该网站已经进入稳定时期，急需重新整理系统间的结构，以提升网站品牌的影响力。

表4 客户登陆明细

表5 客户转化率明细

表6 新老客户数据明细

4）商品分析。

由于商品的销售量和商品价格不一定成正比，因此根据商品的销售细节数据划分用户群，并通过分析用户群，指导接下来的网站商品活动特性。对网站总流量的分析结果可知，商家有营销活动时，网站的流量会在活动期间出现快速增长，因此可通过分析某个具体商品在活动期间的流量变化情况，确定商品活动。图3 为客户在购买该网上商城商品时两个不同类型的营销活动影响力。由图可知，该商品在两个不同类型的活动期间均没有引起大量的用户购买，分析原因是该商品为手机号码，这种特殊的商品通常会长期保留，因此用户对活动的期待度不高。