基于Web的数据挖掘技术研究
2015-03-02胡秀
胡秀
摘要:随着因特网的迅速发展,数据资源量越来越庞大,为从这些资源里迅速、准确找到需要的知识,数据挖掘技术应运而生。介绍了基于Web的数据挖掘技术,阐述了该技术的特征并分类作了介绍,对数据挖掘技术的几大研究方向作了展望。
关键词:Web;数据挖掘技术;XML
DOIDOI:10.11907/rjdk.143785
中图分类号:TP392
文献标识码:A 文章编号文章编号:16727800(2015)001014902
1 Web挖掘简述
数据挖掘指从随机又模糊的庞大数据里,把那些潜在但很实用的信息、趋势或模式提取出来。
被视为新兴领域的Web挖掘,实质是数据挖掘的升级版。Web信息有着极为特殊之处,这样在数据挖掘上必须添加匹配的新特性。这些特性包含:①在挖掘对象上,Web挖掘的数据源全部是异构的;② Web文档是机器理解不到或者没有结构、半结构的语义。
2 Web挖掘特性
2.1 缺乏智能化理解
Web中的数据的格式几乎都是HTML,与主题相关的信息往往杂乱地在Web站点的目录下散布开来。因此,必须有非常强大的一个搜索引擎,通过对关键字查找,实现对超文本位置的定位。数据格式不尽相同,必须有一个智能化的系统对自然语言陈述的数据作理解。然而,当下自然语言理解的有关技术还不成熟,所以很难对所有数据都理解到位。另外,数据源冗余或极为矛盾等问题也对此产生影响。
2.2 数据源过于庞大
Web对于有效的数据仓库和数据挖掘而言似乎太大了[1]。目前在计算上,Web数据已经达到用几百兆字节来表示的地步,并朝着更大单位来表示的趋势发展,有两点特别明显:
(1)动态性强。因特网时时刻刻都在变化、更新中,于是需要借用某些数据仓库技术,才能保留Web上已更新过的数据。
(2)多样性。过滤后的Web数据包含4种:①以实型、整型为实例的数值型;②布尔型;③描述数据及分类数据;④邮箱地址、网址等仅为Web所有的数据型。新的数据类型有新的特征,原先的挖掘方式行不通,必须对原有方式作扩充、改进。
2.3 用户目标极为模糊
在基于因特网下作数据挖掘,用户往往对挖掘主题认识很粗浅,说不出特别准确的目标。因此,数据挖掘系统必须具备学习机制及智能化特征,对用户的兴趣不断跟踪,才能详细、清晰地对挖掘结果做出阐述。它涵盖Web的结构、存取模式及动态查找,由此表明Web挖掘极具挑战性。
3 Web挖掘分类
3.1 基于内容的Web挖掘
指在Web文件内容、描述信息中,取得潜在但实用的知识、模式的过程,分为文本挖掘、多媒体挖掘。
(1)文本挖掘。特指对文本文档的挖掘。在Web庞大文档里,可对内容作出分类别、总结、关联性分析及趋势分析等。
(2)多媒体挖掘。指对多媒体文档的挖掘,即对Web上图像、音视频预处理,利用挖掘技术对有意义的、潜在信息及模式作挖掘的一个过程。提取特征不同是多媒体与文本挖掘最不一样的地方。在挖掘时,对文件或者视频的键值表、文件名、颜色向量及类型等进行提取。
3.2 基于结构的Web挖掘
在结构上,Web包括超链接结构、树形结构及目录路径结构等[2]。这样,在结构上,可用有向图对Web进行表示,有向图中点对应的是页面,有向图中边对应的是超级链接。用此方法可得到站点的主页到任一定点的最短路径,也就是用较小代价获取最多文档。
(1)HITS算法。对一给定的话题进行搜索,往往不只期望获取相关联的Web页,还期望被检索出的页面质量高且具权威性。而Web不只包含页面,还包含超链接。超链接简单说就是一个页面向另一个页面指向。若作者先建立一个页面,接着又让该页面向另一页面指向,就可认为作者对另一页面持认可态度。同一页面,收集源自不同作者的不同注解,便能反映此页面的重要性,而且可非常自然地用作权威页面。可是在链接结构上,Web有一定的局限:①并非每个超链接都认可此寻找;②商业竞争中,不可能有Web页面与自家竞争的页面指向;③难有权威页面具备特别性描述。鉴于以上情形,研究者不得不提出另一种Web页面(俗名Hub页面)。一个Hub页面可代替一个或多个Web页面,提供的是集合性链接。同时,任何话题,Hub页面都向着最显眼的链接指向。
(2)PageRank算法。Web超链接有下列几种假设:①网页A的作者向网页B推荐;②网页A、B在主题相同时,超链接便把两个网页连接;③基于前两种,某页面数次被引用,说明此页面也许特别重要;④某页面虽然未被数次引用,但却被某重要页面引用,说明它也很重要。此算法便是针对上述4种情形做的专门研发。
3.3 基于访问的Web挖掘
网页点击数、浏览量、独立IP 等是显示网站访问情形的核心指标[3]。可细致分析网站关联的LOG文件,取得关系访问情形的详尽数据,这种挖掘归属于静态访问,这对完善网站极为有益。譬如:对访问者来源细致分析,可使网站内容更有针对性;对在不同时段访问者人数的细致分析,可依据时段来更新,这种Web挖掘利用极为广泛。不只是静态研究,动态访问研究也很热门。
4 Web挖掘研究方向
4.1 搜索引擎挖掘
当下的搜索引擎几乎全是基于关键字,搜出的文档数量极大,高质量的内容却极少。加上某些文档跟话题是关联的,但关键词:找不出来,这就使得搜索结果不全面。针对这种情形,某些专家提出用概念层或多义字的办法对文档进行搜索。
4.2 日志挖掘
对日志文件(Web服务器)细致分析,会发现用户访问网站所用的浏览模式,这对有效改进网站提供了信息。信息包含:对系统设计作改进、对导航功能作改善等。日志挖掘有3个阶段:①预处理数据;②挖掘数据;③分析模式。由于存在代理服务器及防火墙,使得日志数据难以准确,所以在第一阶段便必须做用户识别、数据净化、路径补充、会话识别工作。挖掘阶段指依据语义,将用户的会话作分割,形成一项项事务,利用挖掘算法,对识别结果作出规则、模式。
4.3 XML结合Web挖掘
4.3.1 XML简述
XML由万维网协会设计,是特别为Web应用服务做的一个分支[4]。XML是一种典型的中介标识语言,它为结构化资料提供对应的格式。
半结构化是Web数据所有特征中最显著的一点,因为只有把半结构化对应的抽取技术作为前提,才能面向Web做需求的数据挖掘。新生代的www环境把XML作为基础,它可直接面向Web 数据。一方面兼容已有的Web应用,另一方面对Web中的信息更好地交换、共享。XML可看作是半结构化下的数据模型,所以它能把属性(关系数据库)与文档描述一一对应,实施模型抽取、精确查询。
4.3.2 XML应用
XML已经成为正式规范[5]。开发时,XML格式可当作数据标记。在三层架构情况下,用XML对数据处理是最好的方法。运用XML,设计员不仅能对文字、图形进行创建,还可对数据树、超链接结构、样式表、元数据等进行构建。
Web数据挖掘是非常复杂的一项技术,因XML的出现,使Web挖掘中遇到的问题迎刃而解。因为XML可以让来源不同的结构化数据轻松地结合在一起,让不兼容的多样数据库搜索变成可能。由于XML具备灵活性、可扩展性,因此对不同类型应用软件中的数据XML都能描述,从而对Web中的各种数据记录也能描述;再加上XML下的数据全为自我描述,所以即使在内部描述数据完全缺乏时,处理、交换一样可实现。
4.4 未来趋势
目前, Web挖掘研究处于初始阶段,有价值的几大研究方向是:①动态更新;②Web知识库维护;③内在机制研究;④专注多媒体挖掘,研发出高效算法;⑤图像、文本对应的挖掘算法(结构、半结构下);⑥搭建自组织网站时,对序列模式、关联规则进行细致研究。
参考文献:
[1] 李泽文.基于Web的数据挖掘技术[J].现代计算机,2011,3(15):5158.
[2] 陈二忠.基于Web的数据挖掘技术[D].沈阳:东北财经大学,2012.
[3] 姜丽华.基于Web的数据挖掘技术[J].微机发展,2012,8(12):3142.
[4] 史秦格.基于Web的数据挖掘技术研究[D].西安:西安工业大学,2012.
[5] 马丽娜.基于Web的数据挖掘技术应用[D].济南:山东师范大学,2012.