基于电子商务Web的数据挖掘技术研究
2016-03-04韩龙
韩龙
摘要:随着目前互联网技术的广泛应用,电子商务这种商业模式已经逐渐取代传统的商业模式,电子商务带来的商机对现今社会经济结构的影响也越来越大。电子商务的蓬勃发展和规模壮大,导致WEB服务器中储存了海量的访问信息和各种用户数据。如何从这些海量的数据中挖掘出有价值的信息,就成了现今电子商务网站系统的首要任务。
关键词:电子商务;数据挖掘;算法
1引言
电子商务是指利用互联网,通过数字化电子信息传送的方式进行的商业活动或者商业信息的交流,目前已经产生了各种各样的电子商务形式,例如网上购物、网上银行、网上付账、电子票据交换、网上招商广告等等。电子商务有它独特的特色优势:电子商务不受时间和地域的限制,只要能够上网,无论什么时间、身处何地,即使足不出户也能够通过网络时刻关注商业行情,进行买卖交易和商业活动;电子商务还大大降低了商家的运营成本,不再像传统商业那样需要实体店铺,也不需要销售员工和店员,可以直接通过网络进货、销售,减少仓储、节省出大量的人力、物力和财力,因此电子商务的经营方式更受到广大商家的青睐。
电子商务网站系统里面经常会用到数据挖掘技术,数据挖掘是一种使用广泛的价值信息提取技术。它的根本含义是从大量的、无规则的、不完全的并且伴随绝大多数垃圾信息的数据中筛选出对自己有用的、有价值的信息。而目前存储于WEB上的各种关联电子商务的数据信息量十分庞大,这些信息还有着动态性和不确定性,更是加大了提取有价值信息的难度。如果想从中获取对自己有用的信息,需要通过WEB数据挖掘对信息进行有效的筛选和提取,最终获得所需的价值信息。
2WEB数据挖掘在电子商务中的实际应用
目前随着电子商务的蓬勃发展,商家对于市场竞争也变得越来越激烈。对于商家来说,掌握任何买家的相关信息都有可能带来一次绝好的商机。例如商家如果能够从海量的WEB数据中发现买家的兴趣爱好、购买需求、价值取向等信息,就可以随时灵活的改变自己的销售策略,使产品的种类、价格更能迎合消费者的心理,取得更大的经济利益。而目前使用的WEB数据挖掘技术的目的都是为了获得这样的实际意义。WEB数据挖掘技术的应用在目前来看主要有几个方面,一是建立一些智能化的产品搜索引擎,通过WEB数据挖掘技术来找出顾客的兴趣爱好,从顾客以往的消费记录和浏览信息中分析出顾客的一些特点,提供适合顾客的一些服务,提高顾客对商务网站的满意度;二是在WEB客户访问信息中进行数据挖掘可以发现潜在的客户群体,获得更多潜在的客户市场;三可以通过WEB数据挖掘对客户的访问信息和访问模式进行分析,通过客户的使用习惯、兴趣爱好和消费习惯等信息来优化网站结构,使网站组织结构更加合理,符合客户的使用习惯,增加客户再次访问的几率。而这些都是WEB数据信息进行数据挖掘所带来的好处和实际利益。因此说在电子商务中进行WEB数据挖掘所带来潜在的经济收益是十分客观的。
3电子商务挖掘系统的逻辑架构
WEB数据挖掘技术如果应用在电子商务活动中,可以获得大量有用的商业信息,给电子商务网站带来丰厚的商业价值,因此如何使电子商务网站在海量的WEB信息中挖掘出这些商机,让WEB挖掘系统的功能变得更加强大、挖掘信息效率更高、实时性更好,这些就是电子商务挖掘系统的重点研究课题。基于普遍应用的电子商务系统,这里给出了一般的逻辑架构:首先逻辑架构的最外层模块是系统的WEB界面、图形操作界面和命令操作界面,这些都是管理者负责设计、修改、管理的可视化功能界面,可以根据需要对网站的界面、结构和内容信息随时进行修改。内部数据挖掘模块是数据挖掘、数据转换、数据处理的内部组件构成,主要负责从各类数据信息中截取挑选数据,并把挖掘转换出的数据输送到数据库,并处理掉垃圾信息,最后的数据模块就是网站的后台数据库管理模块,负责数据的存储和备份。在这个逻辑架构中,最重要的部分就是数据挖掘模块,是否能够挖掘出有价值的信息、对信息进行数据挖掘的效率是否够快就变得尤为重要,毕竟抢先一步获得商机就意味着巨额的利润。为了提高效率在数据挖掘过程中会应用到各种不同的算法,应用得比较多的有Apriori算法和K-means聚类算法。下面来具体介绍一下这2种算法以及改进的方法。
4Apriori算法及其改进
Apriori算法是在1994年由R.Agrawal和R.Srikant提出的布尔关联规则挖掘频繁项集的原创性算法。Apriori算法思想是通过使用了数据项频集理论,对关系数据库经过一定次数的遍历,最终筛选出符合关联规则的频繁项集,这些频繁项集则是数据挖掘算法的中心数据。Apriori算法的挖掘过程大致可以分为2步:第1步是搜索出符合关联规则的频繁项集,这些频繁项集需要满足本身的所具有的支持度要大于选定的最小支持度的项集;第2步是找出频繁项集之间的关联规则。但是Apriori算法在实际应用中有一个明显的缺陷,那就是在选出备用的候选项集时会浪费大量的时间,因为每次选取候选项集时都需要对数据库进行一次遍历搜索,如果在遍历搜索过程中产生大量的候选项目集时,需要遍历产生的时间就会大大增加,这样就降低了算法的效率。针对5:Apriori算法这个缺点,提出了算法的改进,改进的方面主要是为了提高算法的效率并且让产生的频繁项集更加准确。Apriori算法的改进可以分为4步:第1步,根据信息数据库的信息量大致分为若干个数据量相等的模块。第2步,对划分的这些模块各自进行频繁项集的搜索工作,最终每一个模块将得到一个频繁项目集。第3步,通过算法的筛选,去掉这个频繁项目集中包含错误信息的项集,形成一个最终的适合所有数据的候选频繁项目集。第4步,把产生的候选频繁项目集应用于整个数据库,计算出候选项目集中项目的实际支持度,最后确定出Apriori算法需要的频繁项目集。这样改进的好处就是频繁项目集的选取不再需要对数据库中所有数据进行遍历,节约了算法大量的时间,而且通过先找出潜在频繁项目集进行对比计算的方法,可以提高算法频繁项集选取的精确度。
5K-means聚类算法及其改进
K-means聚类算法是数据挖掘中使用比较广泛的经典算法。它主要的功能是为了研究检测数据对象之间的差异度,通过差异度的比较筛选出符合目标要求的中心元素。K-means聚类算法的核心算法是:从待选的所有数据信息中随意挑选出一定数量的数据作为最开始的聚类元素中心,起始数据的挑选具有随机性。然后通过具体的关联规则算法计算出余下的全部数据与中心数据的相异度,根据相异度的平均值确定新的中心元素,一直到所有元素都被划分到所选出的聚类集合当中为止。但是这种算法还是有一定的缺陷的。缺陷主要有2点:一是由于初始的聚类中心K个元素是随机选取的,有一定的随机性,那么再重新确定K个聚类中心就需要大量的时间重新计算。二是在选取好K个聚类中心后还有可能产生孤立点的因素,可能会造成筛选结果的偏差,这样还需要对产生的聚类结果进行检测分析,避免孤立点的情况出现。针对于这2种情况,对K-means聚类算法进行改进:首先在选取K个聚类中心的时候,可以使用模糊算法的理论,用模糊算法的C均值算法对K的数量进行计算划分,可以把所有信息数据看做是模糊算法中的整体类,信息数据之间的差异度看作是针对于这个类的隶属关系,每个数据项与整个类之间的隶属关系通过计算能得出一个[0,1]范围的隶属度。最后通过所有数据的隶属度的平均值来确定聚类中心数量K的值。在计算所有数据与聚类中心隶属度的时候,可以通过隶属度值的大小来判断所选取的聚类中心是否是孤立点,如果计算出的隶属度大,说明选取的两个聚类是相异度很大的区域,是高质量的区域,符合挑选的要求,如果隶属度值比较小,说明选取的聚类中心相异度小,那么这两个区域本身有可能是孤立点,就需要重新划分聚类中心。通过改进的方法可以使K-means聚类算法在选取聚类中心K值时降低计算的时间复杂度,而且选取的数值K比较准确,不会像传统算法那样具有随机性、不确定性,选取的K值也更加合理、降低了由于K值选取错误带来的对计算结果的影响。
6结语
WEB数据挖掘算法的研究对电子商务的发展具有重要的实际意义,可以通过对WEB访问所产生的数据信息进行筛选查找,进而得到有价值的商业信息和客户信息,直接给网站的经营者带来巨额的经济利益。本文针对数据挖掘中常用的Apriori算法和K-means聚类算法进行改进,使算法变得更加完善,提高了WEB数据挖掘技术的应用效率,也提升了数据信息的应用效率。