APP下载

Web数据挖掘系统的设计及关键技术研究

2019-07-14

探索科学(学术版) 2019年12期
关键词:日志结构化页面

西南科技大学 四川 绵阳 621000

在Web上有着大量的信息,当前数据挖掘领域所面临的新问题就是如何从非格式化的数据信息中挖掘出有用的信息,与数据库中所存在的信息不同,Web上的数据信息,没有统一的格式,因为他无法向数据库一样,有着规范的结构,另外,对于数据对象的处理,Web挖掘技术与传统数据挖掘技术之间也完全不同,一些异质的非结构化信息是传统数据挖掘技术的死角,但自从Web挖掘技术应用以后,大量的Web信息资源,不再能够用数据模型来表示,因为这些数据大部分是非结构化,或者是半结构化,因此,必须以很多个数据仓库挖掘技术来进行Web的数据挖掘,显然,这挑战性是非常强的。

一、Web挖掘的概念

众所周知,Web挖掘是数据挖掘的过程,在这个挖掘过程中主要针对的内容是Web页面内容,用户访问信息,用户注册信息以及电子商务交易信息等等,在数据挖掘方法下,Web挖掘能够获取到很多有用的知识,借助Web挖掘技术,人们可以对站点设计进行改进,确保个性化服务能够得到有效提供。因此一般情况下加等不利弊挖掘分为三种,分别是内容挖掘使用挖掘以及结构挖掘。

1.1 Web内容挖掘 所以Web内容挖掘指的就是对Web页面的内容进行挖掘,Web页面内容中包括以音频数据,图像数据或文本数据为主的非结构化的数据,另外还包括这些数据相融合的多媒体数据等。

文本挖掘是Web挖掘的基础,因此,在内容挖掘上,这种方式也占据主导地位,通常情况下,平面文本挖掘功能和方法与之相类似,相对于数据库中的结构化数据来说,Web文档的结构是比较有限的,甚至有的Web文档根本没有结构,这些是文本信息资源的主要特征,现有的很多数据挖掘技术之所以无法在文本上进行预处理,都与这些文本信息源的特征有关,为了成为文档,中间的表现形式可以在挖掘过程中抽取其特征,并采用结构化的形式进行保存。以文本特征表示为基础,对特征子集进行提取,文档特征在子集算法上一般会选取一个评价函数,针对特征进行独立的评估,这样确保每一个特征都会有一个属于自己的评估分,按照评估分的大小进行排序,选择预订数目最佳的特征,作为最终的结果,当Web文本实现结构化以后,Web上的大量文档内容都可以进行总结分类,这一系列的挖掘工作都能够得以实现。

1.2 Web结构挖掘 对web页面内部或者是之间的结构进行挖掘的基本思想,指的就是Web结构挖掘,Web,结构挖掘实际上,可以将其看做一个有相图,W页面是它的顶点,有相图的编制的就是页面间的超链接,结合图论,对Web的拓朴结构进行分析,Web,结构的基本算法是hs,它有两部分构成,分别是构造纸图和迭代计算,Web结构挖掘以一个网页的归类为基础,展开不同页面关联度与像素信息的获取。

总的来看,Web文本挖掘与Web结构挖掘的局限性还是比较大的,前者对于页面的拓扑结构信息没有进行充分的考虑,后者对于Web,数据挖掘的文本信息没有得到充分考虑,因此,在使用过程中,Web文本挖掘和Web结构挖掘进行结合,可谓是最好的使用方法,两者结合对于Web页面能够实现更好的评价。

1.3 Web日志挖掘 从Web访问日志中发现到用户的访问模式,从而对用户的测览行为进行预测,就是Web的日志玩具,虽然Web属于一个比较庞大的信息,但是每一个Web服务器中,访问日志都得以保留,而且Web服务器中的日志结构非常完,你要用户访问Web战,间页面用户的相关信息都能够在日志中有所记录,因此,Web日志挖掘主要是挖掘Web用户访问时的痕迹。

二、基于数据挖掘的Web挖掘系统

2.1 Web挖掘系统的逻辑架构 以数据挖掘为基础的Web挖掘系统模型为Web挖掘提供了一个良好的集成环境,这环境中,整个挖掘系统的整体性能得到有效提高,Web挖掘系统原型Web MS的三个逻辑层次。数据获取层的主要功能是对半结构化的Web数据进行模型抽取和调换,并用结构化的数据来表示,最终抽取和转换的结果,利用结果建立起多层次的Web数据库,采用预筹里的手段,对Web服务器的日志数据进行处理,这样Web日志数据库就形成了。在数据存储层多层Web数据库,以及Web日志数据库都被称作Web信息库。

2.2 Web MS原型 Web MS是Web,数据挖掘系统的原型,WebMS的基本挖掘功能多面性更强,使Web内容挖掘和使用挖掘在整个系统中得得到集成,在Web MS中多种挖掘算法都实现了嵌入,并且与系统中的其他模块之间实现了紧密配合,结合Web挖掘方法库调用方法以及接口规范,使Web挖掘能够共同完成。

在整个系统内部中各个模块之间的功能是相对独立的,他们在使用过程中又产生了一定的协同配合,用户的需求下,数据采集对Web资源进行搜索,在相关处理器过滤器的处理下,形成数据存储形式,挖掘综合器并能够对这些数据进行使用,结合挖掘要求,挖掘综合器可以在方法库中选择恰当的方法对其进行挖掘,并输出挖掘结果,用户根据结果,来判定是否结束任务,如果用户满意,那么任务就会随时截止,如果用户不满意,则会对挖掘要求进行调整,从而进行新的挖掘,可以在系统维护过程中实现新挖掘方法的加入,这样系统并能够实现升级。

总结

Web挖掘可谓是当今最热门的研究领域,而且伴随着信息技术的不断发展,这么个领域的应用前景非常广阔,无论是在技术上,还是在工具上Web挖掘都具有无限的潜力,因此,在Web的挖掘上还应该更深入。

猜你喜欢

日志结构化页面
刷新生活的页面
一名老党员的工作日志
答案
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
让Word同时拥有横向页和纵向页
扶贫日志
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
雅皮的心情日志