ID3算法在网络商铺客户稳定性分析中的应用研究
2020-11-20游星
游 星
(成都理工大学管理科学学院 四川 成都 610059)
一、引言
中国互联网络信息中心(CNNIC)报告,截至2020年3月,中国电子商务使用用户人员已经达到7.1亿,较2018年底增长1亿,占网民整体的78.6%;通过手机购物使用客户达7.07亿,比2018年底高出1.16亿,占手机用户的78.9%,如图1所示。
图1 2015.12—2020.3网络购物用户规模及使用率(数据来源:CNNIC中国互联网发展状况统计调查)
当前,网络商城已经深度融入人们的日常生活中,电子商务使用用户规模已经得到不断发展。网络商铺采取了多种多样的销售手段来提高销量,但在这一过程中,也出现了违规造假该领域业内数据来蒙骗广大客户等情况,扰乱市场次序。因此,如何杜绝这种现象的出现,使广大客户和消费者接受更好的服务,进而逐步增强消费者的购买欲望及不断拉高商铺的销售额度成为电子商铺需要解决的一个关键问题(力芸,2013)。借助数据挖掘、人工智能等技术可以在大数据背景下分析网络商铺运行的决策数据(李行龙,2013),通过提取网络商铺的相关关键指标,结合相关定量化方法,为最终商品销量策略制定提供依据。
二、客户稳定性评价指标提取
基于指标评价体系的构建,使电子商铺用户数量保持稳定性。依据合法性、客观性、科学性与量化性相结合、公平性、准确性、公正性等原则(樊正洪等,2011),本文从某电子商务平台中抽取了100家知名品牌运动鞋商铺,利用数据挖掘技术及分类方法对这些商铺的各项指标进行研究分析,并建立指标评价体系结构,如图2所示。
图2 商铺评价指标体系
ID3算法原理及步骤
决策树是一种数据挖掘分类算法,具有高效的数据挖掘分类的能力,因而受到学术各领域的广泛应用。本文基于ID3算法对电子商务网络商铺的客户稳定性进行分类研究。其具体步骤如下:
训练集为X={(xi,yi)|i=1,2,…,total},其中样本xi(i=1,2,…,total)用维特征向量xi=(xi1,xi2,…,xid)来表示,xi1,xi2,…,xid分别对应个描述属性A1,A2,…,Ad的具体取值;yi(i=1,2,…,total)表示样本的类标号,假设训练集中包含个类别,则yi∈{c1,c2,…cm}。
(1)
设描述属性Af(f=1,2,…,d)中包含个不同的取值{a1f,a2f,…,aqf},那么可以将研究属性的训练集划分为多个不同子集{X1,X2,…,Xq}。其中Xs(s=1,2,…,q)中的样本具有相同的取值。则对应的熵:
(2)
其中:
(3)
式(2)中所计算的熵值越小,意味着该属性划分训练集具有更高的纯度。
根据上述三个公式,可以得到描述属性Af(f=1,2,…,d)的信息增益,如下式所示:
Gain(Af)=I(n1,n2,…,nm)-E(Af)
(4)
该决策树将以“最大”信息增益值的描述属性作为根节点,自上而下进行计算,直到某个分枝上的所有数据不再具有多个不同类别时停止划分,在每个停止点上的叶节点定义为一个分类。
三、应用实例
本文选取的电子商务商铺样本百家(即:total=100),表现为“稳定性”的类别属性(m=3)的值域为{高;中;低}。设c1为“高”,包含的样本量n1=37,c2为“中”,包含的样本量n2=30,c3为“低”,包含的样本量n3=33。本文使用SQL Server 2008进行决策树分类验证,采用Analysis Services以导入的网络商城商铺数据进行决策树分类挖掘。将客户稳定性作为基础及其他属性进行导入,进而创建决策树用于“商铺数据挖掘”,结果如下图3、图4所示。
图3 客户稳定性决策树结果图
图4 属性依赖关系图
四、结果分析
基于数据挖掘的思想,本文利用决策树ID3算法研究并分析了在电子商务平台上的百家商铺客户数量的稳定性。本文所提取的商铺属性划分为高、中和低三类,该算法有效地避免了对商铺属性数量值的依赖。通过ID3算法所确定的属性指标能够客观真实地反映了网络商铺客户数量的稳定性。结果表明:通过本文建立的模型可以有效、定量地对网络商店进行较为全面的综合评价,同时也为网店的管理、为网络商铺发展等提供了重要的数据参考依据。