基于数据挖掘的电商用户行为研究
2016-05-30林杰
安徽财经大学统计与应用数学学院,安徽蚌埠,233030
【摘要】本文在基于数据挖掘的电商用户行为分析研究中,以某地区内淘宝店铺在运营过程中所产生的数据作为研究基础,通过购物车及熵值法对店铺产品进行分析研究,分析电商用户是否会再次购买淘宝店铺内的产生,按照预测结果,淘宝店铺产品销售数量能够得到显著提升。
【关键词】网络购物;数据挖掘;购物车分析;电子商务
伴随着电子商务平台的快速发展,有关物流产业不断完善,网络购物已经成为人们最常见的购物形成,在社会经济建设内所具有的作用显著提升。人们通过点击鼠标就能够完成产品浏览及购买的流程,购物并不需要受到时间及空间的限制,网络购物已经成为社会大众常见消费形成,消费者消费理念与消费行为已经发生了显著改变,进而对商业运营模式与生态系统造成严重影响。
1、数据统计与分析
按照有关部门对网络购物用户行为统计之后发现,其中有三分之一的用户在2015年购物次数超过40次,主要购物次数集中仔30次左右,网络购物已经成为用户常见消费模式。科研人员根据网络购物数据进行分析研究内发现,大部分消费者网络购物都具有较高满意度,其中年轻妈妈及准妈妈该类人群成为网络购物的主要消费群体。
本文在分析研究内所选取的地区店铺覆盖范围十分广泛,分析内数据是按照某淘宝店铺在2015年第四季度所产生的销售数据作为基础,主要数据包含电商用户基础信息、购物时间、购买产品有关信息等。
1.1性别分析
在淘宝店铺内电商用户性别分析内发现,该淘宝店铺内主要为女性消费者,所占据的比例超过五分之四,远远多于男性消费者。造成淘宝店铺性别比例差异如此明显的主要原因是由于女性要远远比男性更加关注服饰及装饰的搭配。
1.2年龄分析
在该淘宝店铺内,电商用户年龄主要集中在18岁到36岁之间,该类用户所占据的比例超过三分之二,主要以青年群体作为主要人群,其中网络购物次数最为的群体年龄为25岁到29岁之间。造成淘宝店铺内消费群体年龄比例的原因是由于网络购物与年轻人的销售模式更加温和。
1.3城乡属性分析
在改淘宝店铺内,超过90%电商用户都是城镇用户,城镇用户为淘宝店铺主要消费群体,这种消费模式与我国城市化建设相吻合。目前,农村地区电商用户数量与城市电商用户数量之间存在较大差异,主要原因是由于农村地区内青年群体大部分都在城市内生活。
2、数据挖掘分析
数据挖掘主要是从大量数据信息内,利用数学算法完成数据挖掘及知识获得阶段,其中主要是对数据类别及相关性进行分析研究。本文在分析研究内,主要从购物车分析及潜在用户挖掘角度分析研究。
2.1购物车分析
购物车主要表示超市内为消费者购物所提供的车辆,主要作为放置商品,消费者准备付款过程中,只需要将购物册内产品进行结算即可。购物车分析主要是按照购物车内所具有的产品信息,对消费者的消费行为进行分析研究,主要体现在:消费者在购买某件产品之后,产品能够被消费者选中可能性,要是A类产品购买可能性较高,这样就能够发现消费者在消费过程中所具有的目标,了解消费者购买该类产品的原因,找到不同产品之间所具有的关联性。商家就能够根据消费者消费行为获得更高的经济效益,提升自身在市场建设内所具有的优势。淘宝店铺在对购物车分析之后,能够按照电网用户实际需求对上架产品顺序进行调整。淘宝店铺购物车数据主要包含产品数据、购买数据与用户数据。
在对购物车分析过程中,最为关键制表为支撑度与置信度。在对淘宝店铺内消费者分析研究内,探索m个消费者对n个产品购买积极性,就可以通过对m个消费者购物车内数据及购买记录进行分析。支撑度主要是判断产品在消费者内的欢迎情况,置信度主要是判断两个产品之间所具有的关联性,也就是消费者在产品某一件产品之后,在选择购买其他产品的可能性。
2.2潜在客户挖掘
为了能够对淘宝店铺内潜在客户进行了解,能够通过分析已购买消费者消费习惯及信息记录等信息,了解到影响消费者再次购买的主要因素,进而通过这些因素构建回归逻辑模型,按照淘宝店铺内10月份的数据信息,分析出淘宝店铺在11月份及12月份内客户数量。
按照有關电子商务平台所潜在客户挖掘内所取得的成功经验,本文在分析研究内,选取了三种指标,分别是用户可能在次购买有关性指标、用户基数指标与行为指标。其中用户基础指标主要表示消费者基础信息、产品购买数量、历史消费次数等;行为指标主要表示消费者在购买完毕之后是否会给予好评、是否通过手机终端进行购买。在对不同数据指标进行全面性了解之后,能够将不同指标之间所具有的关联性进行了解,训练集对象选取更加科学合理。通过熵值法在对数据样本分析研究中,可以分为以下几个步骤:
首先,对训练集进行划分。在该淘宝店铺10月份众多网购用户内,选择4000条销售数据作为训练集内对象,剩下销售数据则作为验证用户数据信息的验证集。
其次,数据标准化。指数取值过程中,因该选取超过5个的指标对进行划分,进而保证每一个指标都具有6个层级数字进行表示。
最后,对用户再次购买信息增加效益进行指标计算。熵值法在实际应用过程中所需要剔除的信息数据数量较少,同时能够所提取的信息数据数量较多,进而熵值法能够应用到关键指标选取上,所遵循的原理如下:
假设z为训练集,训练集内所涉及到的样本标识都是确定完毕的,在众多样本内都包含一个原始集合,所具有的属性能够对训练集样本所具有的类别进行客观划分,例如消费者是否通过手机终端进行购买,就能够作为某一个样本标志,要是一共具有n类产品,其中所包含的样本一共为a个,这样消费者选中任何一种产品进行购买的可能性也就为a/n。由表一内数据可知,熵值法在实际应用过程中,能够有效对用户是否再次购买产品所具有的经济效益进行分析研究,按照淘宝店原有消费数据作为研究对象,对再次购买用户分布情况进行了解。
按照熵值法在计算过程中所应用到的数学公式,能够将淘宝店内历史消费数额与用户再次购买所具有的信息增值为0.01.45,剩下有关数据也都是按照该方法进行计算。
结论:按照淘宝店铺在运营过程中所产生的数据信息,对淘宝店铺电商用户的个人特征及购物模式进行分析研究。在研究之后得出以下结论:女性是淘宝主要用户群体,年龄主要集中在25岁到29岁之间,电商用户在消费过程中所具有的忠誠度有限,大多数消费者产品购买频率都为1次。基于数据挖掘的电商用户行为分析研究之中,淘宝店铺管理人员能够选择合理的营销模式开展后期运营,提高自身经济效益。
参考文献:
[1]牛红惠,金显华.Web数据挖掘技术在电子商务中的应用[J].淮阳职业技术学院学报,2015(8)
[2]张娅妮.Web数据挖掘技术在电子商务中的应用[J].福建电脑,2013(5)
[3]蔺莉,潘浩.Web数据挖掘技术在电子商务中的应用[J].电脑知识与技术,2014(4)
作者简介:作者姓名:林杰,男,1996年8月,汉族,山东省临沂市人,本科在读,主要研究方向:信息与计算科学、金融信息分析。