APP下载

面向电子商务的Web数据挖掘应用研究

2010-08-15孙学军

枣庄学院学报 2010年5期
关键词:日志页面站点

孙学军

(1.山东大学计算机科学与技术学院 计算机应用技术专业,山东 济南 250101;2.临沂师范学院 费县分校,山东 费县 273400)

0 引言

简单说来,所谓电子商务 (E lec tron ic Comm e rce)是利用计算机技术、网络技术和远程通信技术,实现整个商务 (买卖)过程中的电子化、数字化和网络化.人们不再是面对面的、看着实实在在的货物、靠纸介质单据 (包括现金)进行买卖交易.而是通过网络,通过网上琳琅满目的商品信息、完善的物流配送系统和方便安全的资金结算系统进行交易或买卖.

电子商务是商业领域的一种新兴商务模式,它是以网络为平台,以现代信息技术为手段,以经济效益为中心的现代化商业运转模式,其最终目标是实现商务活动的网络化、数字化和智能化.电子商务的产生改变了企业的经营理念、管理方式和支付手段,给社会的各个领域带来了巨大的变革,而电子商务的发展也使得公司内部积累了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司谋求更多潜在的利润.利用功能强大的Web数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据,提取出有效信息,进而指导企业和商家调整营销策略,给客户提供动态的个性化的高效率服务.

1 数据挖掘技术简介

1.1 数据挖掘的定义.数据挖掘 (datamining,DM)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程,它包括存储和处理数据、选择处理大数据集的算法、解释结果和使结果可视化等操作.

1.2 数据挖掘的方法.从商业的角度来看,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据.数据挖掘的方法大致可以分成以下 4类:

(1)关联分析:分析表面上不相关数据之间的内在联系,揭示各事之间的依赖性和相关性,分析范围包括简单关联、因果关联等.

(2)概括分析:即提取数据库中指定的数据集合的一般特性,找出遍性规律.

(3)分类分析:设置分类规则,把各个事务或实体按照性质和特征不同进行归类,把数据层次化和规整化,从而建立数据的分类模型.

(4)聚类分析:通过分析和归纳实体之间的特征差异,选出具有相似特征的实体聚合成为一个类,并用某种规则来描述该类的相同属性,形成一种聚类规则,实际上,它是与分类分析法互逆的过程.

1.3 数据挖掘的过程.该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识.数据挖掘的过程通常有以下几步:

(1)确定业务对象:清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的.

(2)数据准备.该步骤主要是数据的选择,即搜索所有与业务对象有关的内部的和外部的数据信息,并从中选择出适用于数据挖掘应用的数据.

(3)数据挖掘:对所得到的并经过转换的数据进行挖掘.该步除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.

(4)结果分析:解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.

(5)知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去.

2 Web数据挖掘技术概述

2.1 Web数据挖掘技术概念

Web数据挖掘是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的信息.它是一项综合技术,涉及 Internet技术、人工智能技术、计算机语言学、信息学、统计学等多个学科领域.Web数据挖掘是对数据挖掘的一种新的应用,但又不同于传统的数据挖掘.其主要区别在于:传统的数据挖掘的对象局限于数据库中的结构化数据,并利用关系表等存储结构来挖掘知识;而Web挖掘的对象是半结构化或非结构化数据.

2.2 Web数据挖掘技术的分类

Web数据挖掘依靠它所挖掘的站点信息来源可以分为以下三种类型:

(1)Web内容挖掘

Web内容挖掘是指对站点的Web页面内容进行挖掘.该类挖掘目前主要包括以下几种方法:

①改进传统的 WWW 搜索引擎 ,包括 Lycos、Vista、WebCrawler、ALIWeb、MetaCrawler等.

②在WWW上更智能的提取信息的搜索工具,包括 IntelligentWeb Agent、Information Filtering/Categorization、Personalized Web A gen ts.

③数据库方法:把半结构化的Web信息重构得更结构化一些,然后就可以使用标准化的数据库查询机制和数据挖掘方法进行分析.

④对 H TM L页面内容进行挖掘,对页面中的文本进行文本挖掘,对页面中的多媒体信息进行多媒体信息挖掘.包括对页面内容摘要、分类、聚类以及关联规则发现等.

(2)Web访问挖掘

Web访问挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘,即对用户访问Web站点的存取方式进行挖掘.挖掘的对象是在服务器上的包括 Se rve r Log D a ta等在内的日志文件记录.目前,该类挖掘流行的手段包括路经分析、关联规则和序列模式的发现、聚类和分类、改进Web站点的效率、实现个性化推荐、商业智能的发现、发现导航模式和抽取访问信息特性等.

(3)Web结构挖掘

Web结构挖掘是对Web页面之间的链接结构进行挖掘.在整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中.例如,如果我们发现一个论文页面经常被引用,那么,这个页面一定是非常重要的.发现的这种知识可以被用来改进搜索引擎,如 PageRank和 C leve r方法等.

2.3 Web数据挖掘的过程

电子商务中Web数据挖掘的过程一般由 3个主要的阶段组成:数据准备、挖掘操作、结果表达和解释.

(1)数据准备这个阶段又可进一步分成 3个子步骤:数据集成、数据选择、数据预处理.数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊数据准备,这个阶段又可进一步分成为处理数据中的遗漏等.数据选择目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量.预处理是为了克服日前数据挖掘工具的局限性.

(2)数据挖掘这个阶段进行实际的挖掘操作,包括的要点有:

①首先决定如何产生假设;

②选择合适的工具;

③发掘知识的操作;

④证实发现的知识.

(3)结果表述和解释根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分开来.并且通过决策支持工具提交给决策者.因此,这一步骤的任务不仅是把结果表达出来,还要对信息进行过滤处理,如果不能令决策者满意,需要重复上述过程.

3 Web数据挖掘技术在电子商务中的应用

电子商务的产生,改变了企业的经营理念,给社会的各个行业带来了巨大的变化,已成为引导经济发展的新潮流.而数据挖掘的应用又将极大地提高企业获取信息的能力,使企业信息资源的价值得到充分地体现.那么如何很好将Web数据挖掘技术应用于电子商务中呢?我认为应主要从以下几个方面进行探讨.

3.1 电子商务中Web数据挖掘的基本问题

按电子商务目标的不同,Web数据挖掘大致可分为 3类:以分析系统为目标;以设计系统为目标;以理解用户意图为目标.由于各目标针对的功能不同,采取的主要技术也不同.究竟采取何种技术,主要取决于以下三个方面:

(1)用户的确定.用户是指通过一个浏览器访问一个或几个服务器的个体.在Web数据挖掘中,对于实际使用要想确定唯一的一个用户很难,这时我们可以把服务器日志、代理 (agen t)和参照 (refe rence)页面日志结合起来确定一个用户.

(2)用户访问序列的确定.它就是按照时间顺序找出用户请求的一系列页面.一般服务器日志是以访问用户的 IP地址为辅键、访问时间为主键排列的,因此,找出统一的 IP按时间访问的页面序列,就构成了用户访问系列.用户 session的确定,一次访问中用户访问所有的页面,最简单的方法就是按时间的长度确定

(3)完善访问路径.由于存在着客户端的缓存,用户浏览页面时能使用浏览器的后退功能,要根据用户访问的前后页面进行推理,将其疏漏的页面补在路径里.另外,执行CG I程序时,由于其传递的参数不同,最后的输出结果不同,必要时还要结合参数确定显示的页面内容.

3.2 电子商务中Web数据挖掘的作用

Web数据挖掘有利于合理建造网站及合理设计服务器,如辅助改进分布式网络系统的设计性能,在有高度相关的站点间提供快速有效的访问通道;帮助更好地组织设计Web主页;帮助改善市场营销决策,如把广告放在适当的Web页面上或更好地理解客户的兴趣,这样的知识将有助于商家制定促销策略.

在电子商务中,客户浏览信息被Web服务器自动收集并保存在访问日志、引用日志和代理日志中.这些日志数据信息被组合应用于计算机并行处理、神经元网络、模型化算法和其他信息处理技术手段.对此进行分析加工,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息.同时有效地对这些Web日志进行定量分析,揭示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,不但可为优化Web站点拓扑结构提供参考,而且还可以为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助.

3.3 电子商务中的Web数据挖掘工具

目前,应用于电子商务的 Web数据挖掘工具有很多.其中,比较典型的主要有SurfAid、LeviStrauss、In te lligentM iner for Text、Analog、W UM 和 ACCRUE In sigh t 5等几种工具.

3.4 Web数据挖掘在电子商务中的具体应用

下面是Web数据挖掘在电子商务中的几点具体的应用.

(1)发现潜在客户:在对Web的客户访问信息的挖掘中,利用分类技术可以 Internet上找到未来的潜在客户.通过分类技术,对新访问者的网页浏览纪录进行分析,就可以判断出该访问者是属于哪一类客户,是有利可图的潜在客户还是毫无价值的过客,从而挖掘潜在客户.

(2)提供优质个性化服务:在网上,每一个销售商对于客户来说都是一样的,那么如何使客户在自己的销售站点上驻留更长的时间,对销售商来说将是一个挑战.为了达到这一目的,就应该了解客户的浏览行为,知道客户的兴趣及需求所在,动态地调整Web页面,以满足客户的需要.通过对客户访问信息的挖掘,就能知道客户的浏览行为,从而了解客户的兴趣及需求.

(3)改进站点设计:对Web站点的链接结构的优化可从三方面来考虑:(1)通过对Web Log的挖掘,发现用户访问页面的相关性,从而对密切联系的网页之间增加链接,方便用户使用.(2)利用路径分析技术判定在一个Web站点中最频繁的访问路径,可以考虑把重要的商品信息放在这些页面中,改进页面和网站结构的设计,增强对客户的吸引力,提高销售量.(3)通过对Web Log的挖掘,发现用户的期望位置.如果在期望位置的访问频率高于对实际位置的访问频率,可考虑在期望位置和实际位置之间建立导航链接,从而实现对Web站点结构的优化.

(4)聚类客户:通过把具有相似浏览行为的客户分为一组,并分析组中客户的共同特征,可以帮助电子商务的组织者更好地了解自己的客户,向客户提供更适合、更面向客户的服务.

(5)广告效益评价.利用Web挖掘对大量消费行为模式进行分析,可精确地评价各种广告手段的效益,并组合设计出最佳的商品宣传组合方案,根据关心某产品的访问者的浏览模式来决定广告的位置,增加广告针对性,提高广告的投资回报率.

(6)搜索引擎的应用:通过对网页内容的挖掘,可以实现对网页的聚类和分类,实现网络信息的分类浏览与检索;通过用户使用的提问式历史记录分析,可以有效地进行提问扩展,提高用户的检索效果 (查全率、查准率);通过运用Web挖掘技术改进关键词加权算法,可以提高网络信息的标引准确度,改善检索效果.

(7)网络安全:分析网上银行、网上商店交易用户日志,可以防范黑客攻击、恶意诈骗.

4 结束语

电子商务以所具有的开放性和全球性正逐步代替实物流,从而减少了人力、物力,减少了中间环节,降低了成本,突破了时间和空间的限制,使得交易活动可以在任何时间、任何地点进行,提高了效率.但是,在现实情况下,电子商务企业常常面临着数据庞大而真正有效数据却很少的困境.而利用Web数据挖掘技术,可以从各种烦乱复杂的数据中挖掘出有效的信息,从而为企业的做出正确的决策提供支持,进一步提高企业的竞争力,这样可以有利于促进企业开拓市场,优化企业资源,提高企业的经营效率和管理水平,为企业资源计划 (ERP)、客户关系管理 (CRM)、产品数据管理 (PDM)和商业信用评估等提供有效的技术途径.

[1]方真等.电子商务教程[M].北京:清华大学出版社,2004.

[2]张云涛,龚铃.数据挖掘原理与技术[M].北京:电子工业出版社,2004.

[3]林瑞娟,侯德文.Web挖掘及其在电子商务中的应用研究[J].计算机技术与发展,2006,16(8):186-188.[4]袁学松,宣宾.Web挖掘技术在电子商务中的应用[J].电脑知识与技术,2006,14(8):78-79.

[5]张冬青.数据挖掘在电子商务中应用问题研究[J].现代情报,2005(09).

[6]陆垂伟.电子商务中数据挖掘技术的研究与应用[J].商场现代化,2006(04).

[7]龚晓君.数据挖掘算法研究及在电子商务中的应用[D].杭州:浙江大学,2005.

猜你喜欢

日志页面站点
刷新生活的页面
一名老党员的工作日志
答案
扶贫日志
基于Web站点的SQL注入分析与防范
雅皮的心情日志
游学日志
积极开展远程教育示范站点评比活动
首届欧洲自行车共享站点协商会召开
怕被人认出