APP下载

基于Web的用户行为模式挖掘研究

2009-07-02赵井文

新媒体研究 2009年10期
关键词:数据挖掘

邓 悦 赵井文

[摘要]随着互联网的飞速发展,互联网和人们日常的生活、工作、学习等各方面的结合越来越紧密,Web用户行为模式挖掘能更好的使互联网服务于用户(通过Web个性化服务等方式)。目前,Web用户行为模式挖掘仍然是一个新兴的研究领域,从模式挖掘结构体系、模式挖掘过程,模式挖掘应用等方面对Web用户行为模式挖掘中关键问题的研究进行探讨。

[关键词]数据挖掘 Web挖掘 Web用户行为模式挖掘

中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0520034-01

一、引言

随着Internet的飞速发展,网络上的数据资源越来越丰富,其中蕴涵着巨大潜在价值的信息。如何从浩瀚如烟的网络信息中快速准确地发现知识,如何高效利用网络资源服务于用户,是互联网用户迫切需要解决的一个重要课题。将传统的数据挖掘技术与Web技术相结合,进行Web挖掘。根据用户在浏览站点时的行为,掌握用户使用互联网的规律性特点,将挖掘出的用户访问模式应用于网站上,可以提高站点的服务质量,方便用户的使用。

二、Web数据挖掘

Web挖掘是数据挖掘在Web上的应用,指从大量非结构化、异构的Web信息资源中发现有效的、新颖的、潜在可用的及最终可理解的知识(包括概念、模式、规则、规律、约束及可视化等形式)的过程,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。

根据关注对象的不同,Web 挖掘一般可分为Web内容挖掘、Web结构挖掘和Web访问模式挖掘。Web访问模式挖掘是通过处理Web使用数据,以发现用户的访问模式,理解用户的行为。用户访问模式的挖掘过程就是通过数据挖掘技术从Web使用数据中自动抽取访问模式的过程。

三、Web用户行为模式挖掘结构

目前的Web用户行为模式挖掘系统结构差别较大,但基本的Web用户行为模式挖掘结构由数据源、数据预处理、模式挖掘、模式分析和模式应用几部分构成。

Web用户行为模式挖掘基本体系结构中所涉及原始文件主要包括 Web服务器日志等;所进行的数据预处理过程一般包括数据清理、用户识别、会话识别、路径补充、事务识别等;对数据预处理的结果(事务文件等)进行模式挖掘可采用的技术包括统计分析、关联规则、序列模式、聚类/分类、依赖性建模等;对模式挖掘得出的结果即规则/模式可进行olap等查询和分析评估;对于有效的、用户感兴趣的模式可用于具体的应用比如个性化服务等。

四、Web用户行为模式挖掘过程

(一)数据预处理

在Web挖掘中,主要分析的数据源是服务器日志,但是由于服务器日志记录的数据并不完整,直接在其上进行挖掘非常困难。进行预处理的结果直接影响到挖掘算法产生的规则与模式。主要包括以下步骤:(1)数据转换:将原始日志文件导入数据库。(2)数据清理:删除与分析目的无关的记录。(3)用户识别:将用户和请示的页面相关联。(4)会话识别:将用户在一段时间内的请示页面分解成能反映实际浏览习惯的用户会话。(5)路径补充:将本地或者代理服务器中缓存而没有被日志记录的请求页面增加到会话中。

(二)模式挖掘

1.通过路径分析技术分析访问者的访问路径。路径分析技术利用链接日志文件项中访问者的访问路径,并将路径按时间排序。可以得到网站、特定频道的页面阅览数、用户会话数、页面浏览时间、最常访问页面等基本数据。其统计分析结果是理解、应用后续挖掘出的模式的一个基础。

2.通过关联规则分析挖掘出频繁页面集。挖掘关联规则的大多数算法是基于Apriori算法的。其主要思路是找出事务中频繁(满足规定的最小支持度的对象可以认为是频繁的)同时出现的页面对象,在算法中称为频繁集,之后在频繁集中找出满足置信度要求的规则,这些规则就是挖掘出的关联规则。

3.通过聚类分析挖掘出具有相似特征的客户或者页面。聚类分析主要作用于具有类似特征或行为的对象。其中的页面聚类则多应用在搜索引擎方面。对于具有相似喜好的客户,企业可以为其动态的提供个性化服务。常用的算法主要有划分方法、基于密度的方法等。

4.通过分类和预测。按照用户的特征数据或者行为数据将用户划分到特定的类别中,这对于为用户提供个性化服务是一个极好的选择。然后依赖关系建模建立能够描述Web领域中变量之间的依赖关系模型,比如建立一个描述用户在电子商务网站中消费的模型 这有助于将潜在用户转化为真正的消费用户。

(三)模式应用

1.网站设计的优化。根据Web用户行为模式挖掘结果,网站所有者可据实际浏览情况调整网站的网页链接结构、内容和建立自适应网站,对网站进行优化,从而更好地为用户服务。

2.Web个性化。基于Web用户行为模式挖掘的个性化推荐服务中采用关联规则技术的较多,但是所带来的问题也较多,比较典型的就是遗失重要模式、使用者对挖掘出的模式不感兴趣等问题而带来的推荐效果差问题;序列模式应用于个性化推荐系统中准确度比较高,但覆盖率较低;聚类技术应用于个性化推荐服务中则在一定程度上改善覆盖率问题。因此目前出现一种将不同方法综合应用的思路。

3.电子商务方面的应用。结合Web用户行为模式挖掘,可以为商家更有效的确认目标市场,对客户进行分类分析,向客户提供更有针对性的服务,找到未来的潜在客户,最后保留客户的驻留时间,从而确定用于特定消费群体或个体进行定向营销的决策。

4.系统优化。用户使用互联网的满意度,除了受到内容的影响外,很大程度上受访问速度等性能的影响。目前,Web用户行为模式挖掘的这类应用主要应用于代理服务器提高性能(比如进行页面预取等)。

五、结束语

在互联网域名数量、网站数量、网页数量飞速增加的今天,如何使得用户更好地使用互联网是互联网从业者必须要面对的问题,Web用户行为模式挖掘可以在一定程度上为此问题的解决提供基础。Web数据挖掘应该着重在Web挖掘的内在机制的研究及其实现;Web挖掘算法在海量数据挖掘时的适应性和时效性;关联规则和序列模式在构造自组织站点的研究等方面。

参考文献:

[1]曼丽春、朱宏、杨全胜,Web数据挖掘研究与探讨[J].现代电子技术,2005(8):3-6.

[2]夏火松,数据仓库与数据挖掘技术[M].利学出版社,2004:207-227.

[3]Brian Pinkerton,Web Craw ler Finding Whate people want Ph.d Thesis[M].Universitv of Washington,2000.

[4]Chakrabarti S,Dom B E,Kumar S R,et al.Mining the Web's LinkStructure,Computer,1999.32(8):60-67.

作者简介:

邓悦(1971-),女,河北遵化人,辽工大职业技术学院,讲师。

猜你喜欢

数据挖掘
近十年国内教育数据挖掘领域的应用技术分析
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘技术在物流企业中的应用
数据挖掘过程模型及创新应用
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
电子政务中基于云计算模式的数据挖掘研究
数据挖掘创新应用
数据挖掘的系统构成与发展趋势