APP下载

Web数据挖掘技术

2011-08-15李培培北京吉利大学信息学院中国北京102202

科技视界 2011年23期
关键词:日志结构化文档

李培培 曹 芳(北京吉利大学信息学院 中国 北京 102202)

0 引言

随着Internet/Intranet技术的发展,尤其是Web的全球普及使得Web上信息量无比丰富,Web已经成为人们获取信息的重要途径,但最先进的搜索引擎也只能找到Web网页上面很少的网页,而且无论怎么选择关键词都会返回大量并不需要的结果。如何从非格式化数据信息中有效地挖掘出有用的信息是对数据挖掘领域的一个新挑战。

Web上的数据信息不同于数据库。它主要是些大量的、异质的Web信息资源,文档结构性差,其数据多为半结构化或非结构化,信息不能清楚地用数据模型来表示。因此在Web的数据挖掘需要用到很多不同于单个数据仓库挖掘的技术。

1 Web数据挖掘概述

1.1 Web数据挖掘概念

Web数据挖掘是一项综合技术,是利用数据挖掘技术从WWW数据资源中抽取信息的过程,结合了数据挖掘、信息处理、可视化、数理统计等领域的成熟技术,是对Web数据资源中蕴含的未知的有潜在应用价值的模式的提取。

1.2 Web数据挖掘原理

通常Web挖掘过程可以分为以下几个处理阶段:资源发现、数据抽取及数据预处理、数据汇总及模式识别、分折验证。目标数据集根据用户需求,从Web数据源中提取的相关数据,Web数据挖掘主要从这些数据通信中进行数据提取;预处理过程从数据中去除明显错误或冗余的数据,并将数据转换成为有效和易于理解的形式;模式分析对发现的模式进行解释和评估;最后将发现的知识以用户能理解的方式提供给用户。

1.3 Web数据挖掘分类

根据挖掘对象的不同,Web挖掘可以分为三类,Web内容挖掘 (WCM)、Web结构挖掘 (WSM) 和 Web使用挖掘(WUM)。

1.3.1 Web内容挖掘

Web内容挖掘实际上是从Web文档及描述中获取知识,具体来说就是对Web上大量的文档集合的内容进行摘要、分类、聚类、关联分析、以及利用Web文档进行趋势预测等。Web内容挖掘的对象包括文本、图像、音频、视频、多媒体等各种类型的数据。其中聚类是事先没有确定类别,但要求把相似度高的文档归于相同的类。

1.3.2 Web结构挖掘

Web结构挖掘是从WWW的组织结构和链接关系中推导知识的过程。主要是通过对Web站点的结构进行归纳、分析和变形,将Web页面进行分类,以利于信息搜索。HTML页面所包含的知识不仅存在于各个页面的内容中,也存在于这些页面之间的相互链接中。利用这方面的知识可以对页面进行排序以发现重要的页面。

1.3.3 Web使用挖掘

Web使用挖掘就是对用户访问Web时在服务器留下的访问记录进行挖掘,也叫网络使用挖掘。挖掘对象是在服务器上的日志信息,也称Web日志挖掘。它通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。

2 Web数据挖掘的关键技术

Web数据挖掘中常用的技术有Web使用的特有路径分析技术和数据挖掘领域常用的关联规则、序列模式、分类聚类技术以及中文分词处理和词频统计技术等。

2.1 路径分析技术

使用路径分析技术进行Web数据挖掘时,最常用的是图。图最直接的来源是网站结构图,网站上的页面定义为节点,页面之间的超链接定义为图中的边。基于Web的数据挖掘,就是从图中确定最频繁的路径访问模式。

2.2 关联规则挖掘技术

关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则。在Web数据挖掘中,它负责挖掘出用户在一个访问期间从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引关系。

2.3 序列模式挖掘技术

序列模式数据挖掘负责挖掘交易集之间的有时间序列的模式。例如,最出名的尿布与啤酒,这种信息对于电子商务网站非常有用。

2.4 聚类分类技术

分类规则可以挖掘某些共同的特性。这个特性可用来对新添到数据库里的数据项进行分类。

2.5 中文分词处理技术

中文信息处理的一大障碍是词与词之间没有物理的分隔符。因此在进行词频统计等处理前先要进行词条切分处理。中文文本的分词方法有很多种,一般采用较为简单的基于词典的正向匹配遍历分词方法。词典的选取通常根据挖掘目标建立专业的分词词典,以提高系统的运行效率。

3 Web数据挖掘的方法

3.1 Web数据的半结构化

3.1.1 异构数据库环境

从数据库研究的角度出发,Web网站上的信息也可以看作一个更大、更复杂的数据库,每个站点之间的信息和组织都不一样。如果想要利用这些数据进行数据挖掘,首先必须要研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取信息。其次还要解决Web上的数据查询问题,因为如果不能有效地得到所需的信息,则对这些数据进行分析、集成、处理就无从谈起。

3.1.2 半结构化的数据结构

Web上的数据与传统的数据库中的数据不同,Web上的每一站点的数据都各自独立设计,数据没有特定的模型描述,并且数据本身具有自述性和动态可变性。因而,Web上的数据这也被称之为半结构化数据。

3.2 用XML技术进行Web数据挖掘

针对Web上的数据半结构化的特点,XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确的查询与模型抽取。

XML是一种中介标示语言,可提供描述结构化资料的格式。XML解决了两个Web问题,即Internet发展速度快而接入速度慢的问题,以及可利用的信息多,但难以找到自己需要的信息的问题。运用XML的扩展功能不仅能从Web服务器下载大量的信息,还能大大减少网络业务量。

3.3 具体实现

其实现过程可以由以下四个步骤来实现:第一步得到XHTML格式的源信息,即确定了信息源,将数据从HTML转换成XML,目前在高级语言中例如JAVA、VC等都有专门的函数或类来实现;第二步查找数据的引用点,完成这一任务的最简单的办法通常是,检查Web页面,然后使用XML。只需要看一下页面,记下观察到的内容,考虑页面所生成的XHTML,并将把记录的信息作为引用点;第三步将数据映射成XML,找到了这个引用点,就可以创建实际抽取数据的代码;第四步合并与处理结果,需要反复执行抽取过程,把结果合并到单个XML数据文件中。可以再次使用XSL执行,也可以创建类的方法把在当前抽取中获得的数据合并到包含以前抽取数据的文档中。

4 总结

基于WWW技术的应用正以惊人的速度向社会生活的方方面面渗透,人类交互信息不可避免地电子化和海量化,从这些大量数据中发现有用的重要的知识是数据挖掘与知识发现的是一个重要研究和应用领域。本文讨论了Web数据挖掘的一些基本知识、方法、技术。Web挖掘是一项综合技术涉及多个领域,目前随着XML技术的成熟,研究利用XML技术进行Web的数据挖掘必将越来越深入。

[1]王志明,沙莎.Web 数据挖掘技术及其应用.软件导刊,2006,10.

[2]李健.Web 的数据挖掘.电脑知识与技术,2006.

[3]原娇杰,赵杰文.基于 Web 的数据挖掘.软件导刊,2006,10.

[4]于升峰.Web 使用挖掘的模式发现.情报学报,2006-10-25.

[5]崔建群,何炎祥.基于XML的Web数据挖掘关键技术的研究.计算机工程,2006-10-32.

猜你喜欢

日志结构化文档
浅谈Matlab与Word文档的应用接口
一名老党员的工作日志
有人一声不吭向你扔了个文档
促进知识结构化的主题式复习初探
扶贫日志
结构化面试方法在研究生复试中的应用
游学日志
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于图模型的通用半结构化数据检索