基于Web的数据挖掘技术研究

2015-03-02胡秀

软件导刊 2015年1期

关键词：数据挖掘技术

胡秀

摘要：随着因特网的迅速发展，数据资源量越来越庞大，为从这些资源里迅速、准确找到需要的知识，数据挖掘技术应运而生。介绍了基于Web的数据挖掘技术，阐述了该技术的特征并分类作了介绍，对数据挖掘技术的几大研究方向作了展望。

关键词：Web；数据挖掘技术；XML

DOIDOI：10.11907/rjdk.143785

中图分类号：TP392

文献标识码：A 文章编号文章编号：16727800（2015）001014902

1 Web挖掘简述

数据挖掘指从随机又模糊的庞大数据里，把那些潜在但很实用的信息、趋势或模式提取出来。

被视为新兴领域的Web挖掘，实质是数据挖掘的升级版。Web信息有着极为特殊之处，这样在数据挖掘上必须添加匹配的新特性。这些特性包含：①在挖掘对象上，Web挖掘的数据源全部是异构的；② Web文档是机器理解不到或者没有结构、半结构的语义。

2 Web挖掘特性

2.1 缺乏智能化理解

Web中的数据的格式几乎都是HTML，与主题相关的信息往往杂乱地在Web站点的目录下散布开来。因此，必须有非常强大的一个搜索引擎，通过对关键字查找，实现对超文本位置的定位。数据格式不尽相同，必须有一个智能化的系统对自然语言陈述的数据作理解。然而，当下自然语言理解的有关技术还不成熟，所以很难对所有数据都理解到位。另外，数据源冗余或极为矛盾等问题也对此产生影响。

2.2 数据源过于庞大

Web对于有效的数据仓库和数据挖掘而言似乎太大了[1]。目前在计算上，Web数据已经达到用几百兆字节来表示的地步，并朝着更大单位来表示的趋势发展，有两点特别明显：

（1）动态性强。因特网时时刻刻都在变化、更新中，于是需要借用某些数据仓库技术，才能保留Web上已更新过的数据。

（2）多样性。过滤后的Web数据包含4种：①以实型、整型为实例的数值型；②布尔型；③描述数据及分类数据；④邮箱地址、网址等仅为Web所有的数据型。新的数据类型有新的特征，原先的挖掘方式行不通，必须对原有方式作扩充、改进。

2.3 用户目标极为模糊

在基于因特网下作数据挖掘，用户往往对挖掘主题认识很粗浅，说不出特别准确的目标。因此，数据挖掘系统必须具备学习机制及智能化特征，对用户的兴趣不断跟踪，才能详细、清晰地对挖掘结果做出阐述。它涵盖Web的结构、存取模式及动态查找，由此表明Web挖掘极具挑战性。

3 Web挖掘分类

3.1 基于内容的Web挖掘

指在Web文件内容、描述信息中，取得潜在但实用的知识、模式的过程，分为文本挖掘、多媒体挖掘。

（1）文本挖掘。特指对文本文档的挖掘。在Web庞大文档里，可对内容作出分类别、总结、关联性分析及趋势分析等。

（2）多媒体挖掘。指对多媒体文档的挖掘，即对Web上图像、音视频预处理，利用挖掘技术对有意义的、潜在信息及模式作挖掘的一个过程。提取特征不同是多媒体与文本挖掘最不一样的地方。在挖掘时，对文件或者视频的键值表、文件名、颜色向量及类型等进行提取。

3.2 基于结构的Web挖掘

在结构上，Web包括超链接结构、树形结构及目录路径结构等[2]。这样，在结构上，可用有向图对Web进行表示，有向图中点对应的是页面，有向图中边对应的是超级链接。用此方法可得到站点的主页到任一定点的最短路径，也就是用较小代价获取最多文档。

（1）HITS算法。对一给定的话题进行搜索，往往不只期望获取相关联的Web页，还期望被检索出的页面质量高且具权威性。而Web不只包含页面，还包含超链接。超链接简单说就是一个页面向另一个页面指向。若作者先建立一个页面，接着又让该页面向另一页面指向，就可认为作者对另一页面持认可态度。同一页面，收集源自不同作者的不同注解，便能反映此页面的重要性，而且可非常自然地用作权威页面。可是在链接结构上，Web有一定的局限：①并非每个超链接都认可此寻找；②商业竞争中，不可能有Web页面与自家竞争的页面指向；③难有权威页面具备特别性描述。鉴于以上情形，研究者不得不提出另一种Web页面（俗名Hub页面）。一个Hub页面可代替一个或多个Web页面，提供的是集合性链接。同时，任何话题，Hub页面都向着最显眼的链接指向。

（2）PageRank算法。Web超链接有下列几种假设：①网页A的作者向网页B推荐；②网页A、B在主题相同时，超链接便把两个网页连接；③基于前两种，某页面数次被引用，说明此页面也许特别重要；④某页面虽然未被数次引用，但却被某重要页面引用，说明它也很重要。此算法便是针对上述4种情形做的专门研发。

3.3 基于访问的Web挖掘

网页点击数、浏览量、独立IP 等是显示网站访问情形的核心指标[3]。可细致分析网站关联的LOG文件，取得关系访问情形的详尽数据，这种挖掘归属于静态访问，这对完善网站极为有益。譬如：对访问者来源细致分析，可使网站内容更有针对性；对在不同时段访问者人数的细致分析，可依据时段来更新，这种Web挖掘利用极为广泛。不只是静态研究，动态访问研究也很热门。

4 Web挖掘研究方向

4.1 搜索引擎挖掘

当下的搜索引擎几乎全是基于关键字，搜出的文档数量极大，高质量的内容却极少。加上某些文档跟话题是关联的，但关键词：找不出来，这就使得搜索结果不全面。针对这种情形，某些专家提出用概念层或多义字的办法对文档进行搜索。

4.2 日志挖掘

对日志文件（Web服务器）细致分析，会发现用户访问网站所用的浏览模式，这对有效改进网站提供了信息。信息包含：对系统设计作改进、对导航功能作改善等。日志挖掘有3个阶段：①预处理数据；②挖掘数据；③分析模式。由于存在代理服务器及防火墙，使得日志数据难以准确，所以在第一阶段便必须做用户识别、数据净化、路径补充、会话识别工作。挖掘阶段指依据语义，将用户的会话作分割，形成一项项事务，利用挖掘算法，对识别结果作出规则、模式。

4.3 XML结合Web挖掘

4.3.1 XML简述

XML由万维网协会设计，是特别为Web应用服务做的一个分支[4]。XML是一种典型的中介标识语言，它为结构化资料提供对应的格式。

半结构化是Web数据所有特征中最显著的一点，因为只有把半结构化对应的抽取技术作为前提，才能面向Web做需求的数据挖掘。新生代的www环境把XML作为基础，它可直接面向Web 数据。一方面兼容已有的Web应用，另一方面对Web中的信息更好地交换、共享。XML可看作是半结构化下的数据模型，所以它能把属性（关系数据库）与文档描述一一对应，实施模型抽取、精确查询。

4.3.2 XML应用

XML已经成为正式规范[5]。开发时，XML格式可当作数据标记。在三层架构情况下，用XML对数据处理是最好的方法。运用XML，设计员不仅能对文字、图形进行创建，还可对数据树、超链接结构、样式表、元数据等进行构建。

Web数据挖掘是非常复杂的一项技术，因XML的出现，使Web挖掘中遇到的问题迎刃而解。因为XML可以让来源不同的结构化数据轻松地结合在一起，让不兼容的多样数据库搜索变成可能。由于XML具备灵活性、可扩展性，因此对不同类型应用软件中的数据XML都能描述，从而对Web中的各种数据记录也能描述；再加上XML下的数据全为自我描述，所以即使在内部描述数据完全缺乏时，处理、交换一样可实现。

4.4 未来趋势

目前， Web挖掘研究处于初始阶段，有价值的几大研究方向是：①动态更新；②Web知识库维护；③内在机制研究；④专注多媒体挖掘，研发出高效算法；⑤图像、文本对应的挖掘算法（结构、半结构下）；⑥搭建自组织网站时，对序列模式、关联规则进行细致研究。

参考文献：

[1] 李泽文.基于Web的数据挖掘技术[J].现代计算机，2011，3（15）：5158.

[2] 陈二忠.基于Web的数据挖掘技术[D].沈阳：东北财经大学，2012.

[3] 姜丽华.基于Web的数据挖掘技术[J].微机发展，2012，8（12）：3142.

[4] 史秦格.基于Web的数据挖掘技术研究[D].西安：西安工业大学，2012.

[5] 马丽娜.基于Web的数据挖掘技术应用[D].济南：山东师范大学，2012.

猜你喜欢

基于Web的数据挖掘技术研究

猜你喜欢

杂志排行

软件导刊的其它文章