基于图数据的电商用户特征分析方法
2023-08-18徐曜
摘要:随着互联网技术和电子商务的快速发展,越来越多的企业开始涉足电子商务领域。但由于缺乏对用户行为的深入理解及分析,很多企业不能很好地把握市场需求并制定营销策略。因此,如何有效地挖掘潜在客户群体,发现其消费习惯及购买力,进而为企业提供有价值的信息就变得尤为重要。本文提出了一种基于图数据的电商用户特征分析方法。本文首先介绍了电商用户特征研究的背景与意义,接着阐述了该方面相关工作的现状,并总结归纳出当前存在的主要问题,然后详细描述了本研究所使用的理论知识和数据处理方法,最后,介绍了方法的实现过程,并对未来工作进行展望。
一、引言
随着时代的发展,人们对于生活各方面都提出了新的要求。在其中,电子商务行业得到了飞速的发展,已经成为我国经济体系中不可或缺的一部分。由于目前市场上存在大量的电商平台和商家,所以如何从这些庞大的数据当中获取有价值、有意义的信息变得十分重要。本文旨在解决这一问题,通过有效的分析方法为后续工作奠定基础。本文主要分为以下步骤:首先,需要明确电商用户数据的特点;其次,确定相应的数据分析方式以及相关算法;最后,结合实际情况,选择合适的工具完成数据处理。综上所述,本文主要解决电商用户数据进行深入挖掘,找出有用的信息,分析用户特征,预测购买行为,以此作为企业决策制定的参考依据[1]。
目前,国内外学者已经提出了多种用于分析和处理电商用户数据的方法,利用多种技术理论实现用户画像的构建[2-3]。但由于这些方法都存在着各自不同的局限之处,所以并不适用于所有类型的数据。例如,在一些特定领域内,传统的统计分析法就无法发挥出应有的作用。另外,如果想要利用机器学习等先进手段来实现对用户行为模式的预测,那么还必须具备足够多的训练样本[4-5]。鉴于此,本文拟采用基于图数据的分析方法[6-7](Graph-Based Analysis)结合数据挖掘的相关技术[8],对电商用户的基本属性及消费习惯进行分析,以得出更加全面可靠的结论为目的。
二、相关技术概述
在对电商用户数据进行挖掘时,需要先了解具体情况和需求。因此,可以将这些数据与已有的数据相结合来实现这一目的。而要想完成这项任务,就必须首先明确哪些数据是已经存在并且具有一定意义的,然后再从这些数据中找出能够满足当前需求的部分。这样一来,不仅可以节省时间、提高效率,还有助于更好地把握住市场动向。本文采用K-means算法[9-10]对电商用户数据进行挖掘。该算法主要包括以下几个步骤:①确定初始化参数;②计算每个样本到质心之间的距离;③按照最小距离原则把样本划分成若干簇;④更新各个簇中的中心值并重新计算新的质心;⑤重复以上操作直到达到最大迭代次数或满足终止条件。在整个过程当中,需要不断地调整k值以使得目标函数取得最优解。由于K-means算法具有简单、高效等优点而被广泛应用于各种领域。例如,在电子商务行业,它可以用来发现不同消费者群体所偏爱的商品类型以及他们各自的消费习惯。
三、 基于图数据的电商用户特征分析
(一)问题描述
在对电商用户进行数据分析时,首先需要明确研究内容以及获取数据的方式。为了更好地满足用户的需求,就必须充分掌握用户使用该平台的情况、习惯以及行为等,并据此制定出合理有效的营销策略[11]。这也就是说,只有全面深入地理解用户的需求,才能真正实现精准化营销。为此,本文提出一种基于图数据挖掘技术的电商用户数据分析模型,以期达到这一目标。具体来说,在构建电商用户特征分析模型时需要解决如下三个问题:
①如何对电商用户进行准确分类;
②如何利用已有的用户数据对未来可能出现的新用户群体进行预测;
③如何针对不同类别的用户采取相应的个性化推荐措施。
(二)数据预处理
在完成电商用户数据的收集和整理后,就需要对这些海量、杂乱无章的用户数据进行进一步筛选。首先,删除那些无用或者错误的数据;其次,要从大量数據中提取出有用的信息,确保所获取到的信息能够准确地反映当前用户的真实情况以及他们的需求。为达到这一个目的,可以采用一些数据处理技术,例如聚类算法,以挖掘出拥有相似性的用户群体,并利用这个群体代表整个电商用户群体。另外,也可以使用关联规则的方式,发现用户的某些潜在规律,进而更好地理解用户的行为模式。在对数据进行处理时,最重要的是确定哪些数据应该保留下来,用于分析用户的特征,同时又有哪些数据应该舍弃不用。本文使用K-MEANS算法,其基本思路为将一个给定的数据集划分成K个不同的子集,并计算每个子集中各个样本之间的距离。
(三)用户特征聚类
用户特征具有一定的稳定性,且一些重要特征是影响购买意愿的核心因素[12]。选取性别、年龄、职业、平台月登录次数以及月浏览总时长作为用户特征属性,并将每位用户使用向量的形式进行表示(详见公式1)。每个向量包含5个分量,分别代表不同的特征属性。在进行聚类分析之前,需要将性别、年龄和职业进行数字化处理,然后将所有特征属性在指定范围内进行归一化处理,使得K-MEANS算法更加顺利地执行收敛,同时更加有效地进行统计分析。
①对于性别属性,0代表男性、1代表女性;
②我们将年龄属性分为以下范围:18岁以下、(18,30]、(30,40]、(40,50]、(50,60]以及60岁以上,并使用1-6代表各年龄段范围;
③根据国家统计局的行业划分标准,我们将职业划分为20个类别,使用1-20分别代表各职业类别。
接下来,我们使用最小-最大规范法(详见公式2)将以上属性转换至0-1之间。K-MEANS算法根据数字化及归一化处理后的特征属性值进行聚类,得到的每个子类代表具有相似属性值的电商用户集合。
= [Tsex,Tage,Tjob,Tfre,Ttime]
(公式1:电商用户特征属性向量)
T ' = (Tdata-Tmin)/(Tmax-Tmin)
(公式2:用户特征属性归一化公式)
(四)用户特征表示
在完成數据和信息的收集后,可以利用相应的数据分析工具来进一步挖掘。通过对数据处理与整合,最终可以得出反映出用户行为和偏好的用户特征。为了更直观地展示用户特征,本文采用图建模技术,将这些特征以可视化的形式展示给用户。具体来说,我们首先建立一个用于描述用户特征的带权无向图G=(V,E),其中V是节点集,E是边集合。其中,每条边都连接两个节点,代表了两组不同的用户群体;然后定义顶点之间的关系,即用户i具有的属性值Xij表示该用户是否属于某个特定的类别,如果Xij∈{1,-1}则说明该用户属于某一类,否则不属于任何一种。边的权值表示通过聚类后,每个类别之间的相似程度。
(五)用户特征关联分析
在对用户特征进行挖掘后,需要将其与电商平台中已有的相关用户数据进行匹配,以更准确地了解用户需求、数量和偏好等。这可以帮助企业更加准确地把握市场动向和消费者的消费倾向,为后续的经营活动提供支持。因此,本文利用Python编程语言构建一个包含有节点与带权边的用户特征关联网络;然后使用NodeXL库读取已经建立好的网络结构文件并导入其中,最后调用Cypher以及Numpy库完成对用户特征关联网络的可视化操作。通过这种方式,可以更直观地展现出用户在某一时间段内购买了哪些产品及相关的信息,进而挖掘出用户潜在的购物偏好。
四、 研究方法的实现过程
(一)数据处理过程
首先,我们需要对收集到的电商平台中的用户数据进行初步处理。通过数据预处理,能够获取准确、可靠且高质量的数据,从而提供有价值的信息,以供后续的数据分析和挖掘。数据清洗和数据集成是数据处理的两个重要步骤,数据清洗包括去除不相干的信息、噪声、缺失值和异常值,而数据集成则是将不同的数据源整合为一个统一的数据存储格式。
由于电子商务收集的数据通常存在缺陷和噪声,因此采取了一些措施来解决这个问题。首先,了解这些缺陷的来源和形成机制,然后根据这些信息来处理这些缺陷。缺失值可能由多种原因造成,包括人为操作和机械设备故障。人为操作可能包括受访者未能提供有效的个人信息,或者数据输入人员疏忽大意而造成数据的丢失。数据丢失的原因可以归纳为完全丢失、偶然丢失和非偶然丢失三种。为处理丢失值,可以采取删除、插入和不进行处理三种方法。然后将得到的数据集按照7∶3比例划分为训练集和测试集。接着使用Python编程语言分别调用Matplotlib、Scikit-Learn库以及GraphX工具包构建用户画像模型,并计算其准确率。最后,比较不同算法下的用户画像模型,来验证本文提出方法在电商用户数据挖掘上的有效性。本文使用AUC指标衡量特征分析方法的精准度,从而方便验证商家市场地位对于用户购买行为的影响。
(二)验证过程
在这项研究中,将比较四组不同模型的预测能力。这些模型考虑了商业地位因素,并使用不同比例的样本进行训练。根据这四组不同的模型来评估它们的预测能力,然后,可以通过计算均方误差(MSE)和决定系数(R2)来衡量所提出的算法性能。
接下来,从原始数据集中提取有价值的信息以便进一步处理。首先,需要确定哪些属性应该保留作为最终的输入变量。由于本次研究涉及大量的用户数据,因此选择了一些重要的指标来筛选出最相关的属性。例如,发现人口统计特征,如性别和年龄,能更好地反映用户的真实情况。此外,用户的访问次数也是重要因素之一,因为当用户浏览网站时,他们通常会留下自己的足迹。
然后使用Logistic回归、Xgboost、Lightgbm和Catboost分别进行了验证。令人惊喜的是,包括商家因素的测试集AUC结果优于没有包括商家因素的测试集,这说明了商家因素对于消费者的消费行为有着重要的影响。同时,还发现平均预测准确率提升了1%-2%,这进一步印证了商家因素对于预测的重要性。
五、结束语
随着互联网技术的不断发展和消费观念的变化,越来越多的消费者选择在线上购物平台购买商品。因此,准确把握客户的需求、提高服务质量成为各商家关注的焦点。为指导企业经营决策,还需要深入挖掘用户数据背后隐藏的价值。本文基于图数据提出了一种电商用户特征的分析方法。首先在获取的数据中对用户属性进行数字化处理,再使用K-Means算法进行聚类,最后通过无向带权图将各个类别进行连接及展现。希望将本文的研究方法与推荐系统相结合,在综合考虑用户、商品、商家信息的基础上,深入挖掘电商数据的价值,为电商平台的精准营销提供技术支持。
作者单位:徐曜 阜阳师范大学经济学院
参 考 文 献
[1]刘嵩.数字经济下电商平台用户购买行为的预测研究[D].北京:首都经济贸易大学,2023.
[2]宋文智,白洪林,官潼筑等.基于数据挖掘的跨境电商RCEP国别用户画像研究[J].中国新通信.2021,23(19):66-67.
[3]高月.基于大数据的电商用户画像的研究与应用[D].沈阳:沈阳师范大学,2020.
[4]杨帆.基于若干机器学习算法的电商平台用户价值研究---以电子书用户画像数据为例[D].重庆:西南大学,2022.
[5]江丽桃.跨境电商客户分类研究---以天猫国际美妆为样本[D].南昌:江西财经大学,2021.
[6]杨紫荆.面向图数据推理的推荐系统研究[D].上海:华东师范大学,2022.
[7]李宸严.基于图神经网络的链接预测及电商智能推荐分析[D].乌鲁木齐:新疆财经大学,2022.
[8]黄维雅.数据挖掘技术在电商客户粘性预测中的研究[J].齐齐哈尔大学学报(自然科学版).2023,39(01):81-86+94.
[9]王慧丽.基于K-means聚类算法的电商数据智能分析方法设计[J].信息与电脑(理论版).2022,34(14):79-81.
[10]张玉琨.基于K-Means聚类分析的电商学生客户细分研究[J].商场现代化.2022(08):33-35.
[11]陈文汇.基于B公司电商购物平台用户画像的营销策略研究[D].绵阳:西南科技大学,2022.
[12]倪潞燕.基于组合相似度和用户特征聚类的协同过滤推荐算法研究[D].银川:北方民族大学,2019.