Web数据挖掘技术及其在旅游电子商务的应用
2010-10-17辛海涛
辛海涛
(哈尔滨商业大学计算机与信息工程学院,哈尔滨150028)
随着现代信息技术的迅猛发展,在全球内掀起了信息化浪潮.信息产生的渠道越来越多,信息更新的频率日益加快,各行业均产生了数以万计的数据库.人们面对着大量的数据,却往往无法找到需要的信息,很难发现数据之间的相互关系,这就是“信息爆炸”带来的困惑.如何有效地利用和处理大量的数据成为当今世界共同关心的问题.随着数据库技术、人工智能、数理统计和并行计算等技术的发展和融合,数据挖掘(Data Mining,DM)技术应运而生[1].
1 数据挖掘技术分析
数据挖掘是一个利用各种分析工具在大量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测.数据挖掘的第一步是了解数据、描述数据,计算统计变量(比如平均值、均方差等),再用图表或图片直观地表示出来,进而可以看出一些变量之间的相关性[2].选择正确的数据源对整个数据挖掘项目的成败至关重要.然后我们用历史数据建立一个预测模型,再用另外一些数据对这个预测模型进行测试.当然,一个很好的模型也不可能做到与实际系统中的数据100%相符,但是只要它同实际数据在相当程度上是符合的,那么,这个预测模型就可以为决策者提供一个指南和依据.最后一步是验证模型.如果模型同实际数据差异很大,说明模型的可信度较差,需要对模型进行进一步改进.如果模型同实际数据已经比较符合,我们可以认为模型的可信度已经达到了要求,可以利用模型对系统进行预测[3].
2 Web上数据的特点分析
1)Web页面的复杂性高于传统的文本.
Web页面缺乏统一的结构,它包含了远比任何一组书籍或其他文本文件多得多的风格和内容.Web可看作一个巨大的数字化图书馆.但这一图书馆的大量文件并不根据任何有关排列次序加以组织.
2)Web是一个动态性极强的信息源.
Web以极快的速度增长,而且其信息还在不断的发生更新.链接信息和查找记录也在频繁地更新之中.
3)Web面对的是一个广泛的形形色色的客户群.
目前国际网络上连接有数千万台工作站,其客户群仍在不断地扩展当中.各个客户可以有不同的背景、兴趣和使用目的.
3 Web上使用记录挖掘分析
Web挖掘指在人为构造的WWW上挖掘有趣的、潜在的、有用的模式及隐藏的信息的过程.根据侧重点不同,Web挖掘可以分为Web内容挖掘、Web结构挖掘、Web记录挖掘3种.
Web使用记录挖掘的目的就是在海量的Web日志数据中自动、快速发现用户的访问模式,如频繁访问路径、频繁访问页组、用户集类等[4].
Web使用记录挖掘分为3个步骤:数据预处理、模式发现、模式分析.
Web服务器日志记录了用户访问本站点的信息,其中包括IP地址、请求时间、方法,被请求文件的URL、返回码、传输字节数、引用页的URL和代理等信息.这些非结构化信息首先要进行预处理才能进行挖掘.数据预处理包括记录预处理、内容预处理、结构预处理.
模式发现是指利用各种算法和工具对已预处理过的数据进行挖掘,得到各种模式集合.模式发现中常用的方法有统计分析、关联规则分析、集类、分类、系列模式分析、路径分析等等.
模式分析是整个Web使用记录挖掘的最后一步,是指从模式发现集中过滤出不感兴趣的规则或模式.
Web使用记录挖掘所得到的结果既有助于提高网站的性能和安全性,也可以作为优化网站拓扑结构及页面之间的超链接关系的依据,也是在Web上进行市场开发和开展电子商务活动的依据,也可以作为网站为用户提供个性化服务和构建智能化Web站点的依据.
4 Web使用记录挖掘技术在旅游电子商务中的应用
近几年,旅游电子商务市场竞争日益激烈.专业性的旅游电子商务网站不计其数,如全程旅行网(WWW.CTRIT.COM)、E龙商务旅游网(WWW.elong.COM)、华夏旅游网(WWW.ctn.COM.cn)等等,而且旅游景区、酒店、旅行社大都建立了自己的网站,一些知名的网站也建立了旅游频道.旅游网站一般包括两方面的内容:一方面,提供旅游景点、旅游线路、旅游知识等服务;另一方面,提供网上在线订票和订房.因此旅游企业建立旅游网站的目标是:让更多的浏览者通过浏览网站了解提供的旅游产品和服务,进行网上订购,实现企业的产品销售和利润[5].
如前所述,Web记录挖掘技术却具有足够的功能来解决这一问题,它通过对旅游网站服务器数据、客户登记信息,日志文件的深层次、多角度的挖掘,得到旅游电子商务中内在的规律,从而得到宝贵的商业信息,帮助旅游网站作出正确、快速的决策,及时满足访问客户的个性需要,使预定率提高.
1)个性化旅游网站的建立
当游客浏览网页时会在服务器上产生相应的服务器数据,如SERVER LOG、ERROR LOGS和COOKIE LOGS文件.通过分析这些文件,利用数据挖掘方法发现用户的使用模式,掌握了访客的浏览兴趣和基本特征,及时调整旅游信息,迎合用户的需要,从而向用户提供个性化服务.
例如网页A是有关安徽黄山旅游的信息,而网页B是有关九华山旅游的信息.假如通过关联分析得到:50%的客户浏览页A时,同时浏览页B,则说明页A和页B之间有一定的相关性,从而可以在页A推荐例表加上网页B.
图1 个性化旅游网站的建立示意图
2)群集客户
对Web查找信息数据进行聚类分析,对具有相似浏览行为的客户进行分组,找到分组中客户的共同特征,帮助旅游电子商务的组织者更好地了解自己的客户群,从而更深层次地了解旅游目的地或旅游产品的细分市场,并通过调整网站信息向不同的客户群提供相应的更适合、更具有客户满意度的服务.
例如,经常性浏览探险刺激类旅游项目(如漂流、生态探险等)的访客,可以将他们聚集为青年旅游市场,对这类访客提供新奇、动感、参与性强、刺激性强的旅游产品推荐;而经常性浏览历史文化类旅游项目的访客,则可以聚集为中老年旅游市场,为这类访客提供更多的历史类、革命纪念地等类型的产品推荐,满足他们对旅游信息的需求.
3)提高旅游者的忠诚度
根据原始数据对网站的运行状况做深入、细致和准确的分析,通过分析访客的行为模式,帮助旅游网站采取措施来提高访客对于旅游网站的忠诚度,从而建立长期的顾客关系.
例如通过系列模式的发现,客户在一周以来经常浏览关于某旅游地方面的资料,可以预测他有该地的想法.这样,网站可以把有关该旅游地最近的旅游活动和广告,放置在主页,以使客户能继续保持对查找网站的兴趣.
4)目的地推荐和旅游项目推荐
推荐引擎技术是利用Web挖掘技术开发的网上客户关系管理工具.首先创建一个关于旅游目的地的信息数据仓库,并分析访客的兴趣、个性、偏好、人口特征等,形成包含一系列针对各种类型旅游者的旅游服务方案,并针对旅游者的旅游偏好、旅游需求、旅游心理提供个性化的旅游建议和线路推荐,提高满意度,赢得效益.旅游网站的推荐引擎通常包括目的地推荐和旅游项目推荐引擎.
目的地推荐引擎帮助旅游者在选定旅游目的地后,推荐个性化的旅游服务项目,协助旅游者作出在目的地其间的旅游服务项目,协助旅游者做出在目的地期间的旅游计划.这类推荐引擎为旅游者提供更为具体的旅游服务信息,涉及到所在目的地“食、住 、行 、游、购、娱 ”各个方面.包括目的地的旅游交通、旅游线路、住宿、用餐、夜生活、娱乐、购物街、特产和观光项目等.
目的地推荐引擎适用于大型旅游批发商、旅游营销商和专业旅游网站,而旅游项目推引擎则适用于地方旅游营销商.对于各级旅游管理部门和旅游协会的网站建设来说,目的地推荐引擎适用于国家级和省级旅游管理部门和旅游协会组织;旅游项目推荐引擎则适用于城市旅游管理部门和旅游协会组织.
5 结 语
Web挖掘技术从Web数据挖掘中挖掘出有意义的规则和知识.CRM是为帮助企业制定决策,从而提高企业利润的客户关系管理.将Web挖掘技术与CRM结合,必是电子商务时代的趋势.随着数据挖掘技术以及Web挖掘技术的不断深化,将会有更多、更好的方法应用到旅游电子商务中.
[1]查良松.信息技术及其在旅游业中的应用[J].黄山学院学报,2005,7(5):28-31.
[2]梅绍组.电子商务与物流[M].北京:清华大学出版社,2000.
[3]邸德海.旅游企业计算机管理应用[M].北京:高等教育出版社,1999.
[4]张树民.国际电脑网络发展对我国旅行社业的影响[J].旅游学刊,1998(3):50-54.
[5]刘赵平.美国旅行社业最新发展态势研究[J].旅游学刊,1999(3):27-31.