Web数据挖掘技术在东莞电子商务中的应用研究
2018-07-12吉珊珊
摘 要:本文从东莞电子商务的现状出发,对在Web数据挖掘技术影响下,东莞电子商务企业产生的大量复杂信息进行了实时和深层次地分析。随着数据仓库及Web等新型数据源的日益普及,在庞大的信息海洋中找到有用的数据,并对这些数据进行分析处理,从而发现数据之间的关联性变得越来越重要。在对数据进行推理的过程中找到对企业有用的信息,从而提高企业在电子商务中的竞争力,为企业谋取更多的利润。
关键词:东莞电子商务;数据挖掘
中图分类号:TP311.13 文献标识码:A 文章编号:2096-4706(2018)04-0021-03
Abstract:In this paper,for the current situation of electronic commerce in Dongguan,the Web data mining technology was employed to deeply analysis the large number of complex information in real time which produced by Dongguan electronic commerce enterprise. With the growing popularity of data warehouses and new data sources such as Web,it is becoming more and more important to find useful data in a huge ocean of information,and to analyze and process these data. In the process of inference to the data,find the useful information to the enterprise,so as to improve the competitiveness of the enterprise in the e-commerce and make more profit for the enterprise.
Keywords:Dongguan e-commerce;data mining technology
0 引 言
東莞是一座工业大都市,地处广州与深圳之间。据不完全统计,东莞本地网民的数量已超过350万,且从事互联网相关的企业,包括网站营销、网站搭建和网络推广等业务的电子商务企业有近2000家。此外,在全市范围内,具备上网条件的企业达到95%,企业拥有自己网站的数目为32万家,其中具有电子商务功能的网站,比如能够进行商品订购或商品物流信息查询的网站约有1500家。据2016年统计,全市的企业借助自有的B2B网站开展网上贸易且完成的订单额达到300亿,故东莞拥有发展电子商务的天然优势,而且发展电子商务有利于促进企业信息与东莞工业智造相互融合,进而推动企业结构调整和转型升级。东莞目前正全力进行产业结构升级,传统的制造业经过几十年的高速发展,正面临转型升级的问题,这也让电子商务在东莞拥有更大的发展空间。2014年东莞获批创建国家电子商务示范城市,计划用3~5年的时间建设成为一个以“东莞制造”网络品牌和跨境贸易电子商务为核心的、具有国际影响力的电子商务名城,这是促进实体经济外贸转型的战略性决策。市政府出台了每年1.5亿的《东莞市电子商务专项资金管理暂行办法》和《东莞市进一步加快电子商务发展实施意见》,为电商发展保驾护航。可以说,东莞电子商务已经由表及里、从虚到实,从宣传、启蒙和推广阶段进入了务实发展的实施阶段。
电子商务的发展使企业积累了大量的数据,那么多的商业数据正迅速充实着数据库空间,特别是数据仓库及Web等新型数据源的日益普及。因此,在庞大的信息海洋中找到需要的或有用的数据,并将这些数据转化为综合性的信息成为需要解决的问题。通过对这些数据进行分析处理,找到数据间的关联性,转换成“数据资产”为企业服务,提高企业的竞争力,从而为企业谋求更多潜在的利润。Web数据挖掘技术为这一需求提供了强有力的技术支持,Web数据挖掘对Web页面内容及后台交易的数据库进行深度挖掘,在大量的数据海洋中提取对企业有用的信息和隐含的信息,有效地帮助企业进行分析统计和预测,使企业信息资源的价值得到充分地体现。本文从东莞电子商务的现状出发,对在Web数据挖掘技术影响下,东莞电子商务企业产生的大量信息进行了实时和深层次地分析,通过分析和探究Web日志记录的规律,从中找出真正有用的信息,识别电子商务潜在的客户,提高对最终用户的服务质量。这对企业的决策支持有很大的帮助,可以促进企业优化资源,开拓市场,通过电子商务使企业更加智能化,使客户服务更加个性化,在网络时代为东莞的电子商务企业赢得竞争优势。
1 数据挖掘主要方法
数据挖掘的技术是从数据库的大量数据中揭示出隐含的、先前未知的、并有潜在价值的信息的非平凡过程,主要的方法有神经网络方法、统计方法、数据库方法和机器学习方法。统计方法又可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、CBR、贝叶斯信念网络、遗传算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。就电子商务行业来说,数据挖掘职位在企业内部非常重要,营销管理、客户管理等环节都需要应用数据挖掘的结果,利用数据分析来发现企业内部的不足、营销手段的不足和客户体验的不足等,同时还可以利用数据挖掘来了解客户的内在需求。为了达到这些效果,在电子商务行业,大数据挖掘主要采用以下算法以及模型。
1.1 RFM模型
RFM模型是衡量客户价值和客户创造利润能力的重要手段,对于有过购买行为的客户,模型会通过对客户购买的时间、频率、金额等几个方面进行客户分析,并通过这个模型进行数据挖掘,确定该客户的价值,与客户建立长期的关系。对于一些长时间都没有购买行为的客户,会对他们做出一些有针对性的营销活动来刺激消费。使用RFM模型只要根据三个不同的变量进行分组就可以实现会员区分。
1.2 Apriori算法
Apriori算法是一种数据挖掘工具,属于关联性分析的一种。可以看出哪两种商品具有关联性。例如衣服和裤子等的搭配穿法,通过Apriori算法,就可以得出两个商品之间的关联性,确定商品的陈列等因素,也可以对客户的购买经历进行组套销售。
1.3 Spss分析
Spss分析主要是针对营销活动的精细化分析,它使营销活动对于客户而言更加有针对性,也可以对数据库中客户购买过的商品进行分析,例如哪些客户同时购买过这些商品。尤其现在针对电子商务的细分越来越精细,做好精细化营销地分析,对于企业的营销效果有很大的好处。
1.4 网站分析
访问量、页面停留等数据都是重要的流量指标。进行网站数據挖掘时,流量以及转化率是衡量工作情况的方式之一,通过这个指标来了解其他数据的变化也至关重要。
2 数据挖掘在电子商务中的应用流程
数据挖掘在电子商务中的应用流程图如图1所示。
图1 数据挖掘在电子商务中的应用
2.1 数据准备与数据预处理
(1)数据准备:根据数据挖掘任务的具体要求,在相关数据源中抽取与挖掘任务相关的数据集。
(2)数据清洗:清除错误异常样本,处理缺失数据,清除重复样本。
(3)数据审核:数据统计错误审核、数据源错误审核和数据统计口径审核。
2.2 数据探索和准备
通知输入的数据质量决定着模型输出的结果,所以我们要先花时间对收集的数据进行分析和处理。一般来说,这个阶段基本上占据了整个项目周期70%的时间,主要涉及两项工作:第一,对数据进行单变量分析和双变量分析,验证数据是否符合相关的指标;第二,因为缺失的值会削弱模型的拟合能力或者得到的结果会变成有念头的模型,故需要对数据中的缺失值和异常值进行处理,变量转换后产生新的变量。
2.3 算法选择
根据建模场景进行算法选择。描述类有分类规则、聚类分析;预测类有神经网络、决策树、时间序列、回归分析、关联分析、贝叶斯网络、偏差检测;评估类有因子分析、主成分分析、数学公式。结合数据情况(如离散值、连续值、数据量大小)等选择合适的算法。
2.4 模型及评估优化
(1)模型选择:对于数据挖掘任务,可以先采用LR(分类)测试效果,数据挖掘3架马车(分类/回归),即RF、GBM和XGBOOST。
(2)Baseline设置:可利用一些简单规则,比如global average预测和众数预测等。
(3)评估方法:1)留出法(hold-out):直接将数据集分为互斥的两个集合,一个拿来训练,另一个拿来验证训练的模型,注意保持数据分布的一致性;2)交叉验证(cross-validation):将数据集随机分为N份,依次拿一个fold作为测试,剩下的N-1个fold作为训练,共实验N次。
(4)分类任务:错误率与精度;查全率、查准率与F1;ROC与AUC等。
(5)回归任务:平均绝对值误差;均方误差;方差等。
另外,可根据实际的业务指标设定自己的度量标准。
3 创新点
利用数据挖掘技术可以节约企业的成本。节约成本是企业盈利的关键,将电子商务中产生的数据信息,比如交易数据、库存数据和财务数据,采用数据挖掘技术,找到企业的投入产出比例,最大限度地利用已有的客户资源,开发新的客户,增加客户的回头率,在数据挖掘的过程中提取有价值的商业信息,为企业的资源优化配置提供依据,使企业最大限度地利用人力资源、物质资源和信息资源,合理协调企业内外部资源的关系,实现最佳的经济效益。
4 结 论
数据挖掘作为一个新兴的技术手段已经表现出巨大的应用潜力。目前,数据挖掘技术在电子商务方面的应用已经不仅仅是商家掘取和利用数据,电子商务行业竞争越来越大的今天也是一个花钱的时代,花出去的钱能否得到收益是企业最关注的,投资回报率是大家都要考虑的,利用数据挖掘技术来分析电子商务产生的大量数据,可以充分挖掘客户的商品消费规律以及客户的访问模式,更有效地帮助企业制定有针对性的营销策略,充分发挥企业自身的优势,提高企业的竞争力。因此数据挖掘技术在电子商务行业的位置也越来越重要。
参考文献:
[1] 姜宁,牛永洁.Web数据挖掘在电子商务中的应用——以淘宝网为例 [J].计算机时代,2016(7):49-52.
[2] 程宏水.网络数据挖掘在电子商务网站设计的应用 [J].中山大学研究生学刊(社会科学版),2007(1):107-114.
[3] 孙铭蔚.面向电子商务的WEB数据挖掘技术的应用研究 [J].中国新通信,2016,18(19):101.
作者简介:吉珊珊(1985-),女,广东梅州人,讲师,网络工程师,研究生。研究方向:计算机教育。