APP下载

Web数据挖掘技术模型分析

2014-04-21王晓艳

新媒体研究 2014年3期

王晓艳

摘 要 随着我国信息技术的不断发展,Web挖掘技术被广泛应用,为此,文章对Web挖掘技术进行分析,主要从Web内容挖掘、Web结构挖掘和Web访问信息挖掘三方面展开论述。

关键词 Web数据挖掘;技术模型;具体解析

中图分类号:TP393 文献标识码:A 文章编号:1671-7597(2014)03-0055-01

Web框架下的数据挖掘,主要经由对数据挖掘类技术的现实利用,从网络供应的服务,以及现有的网络文档中,发觉并提炼信息。数据挖掘含有的对象不同,可以将现有的Web挖掘,分为三个类别:Web框架下的内容挖掘、Web框架下的信息挖掘、Web带有的结构挖掘。

1 新颖的内容挖掘

伴随信息技术延展,Web框架下的数据类别也在递增,从本源层级上来讲,主要涵盖了图像类、文本类、声音类、元数据类、视频类等。在不同类别的数据以内进行挖掘,就构造出了多媒体属性的数据挖掘。

1) Web框架下的文本挖掘。数据挖掘,应指代在很不完备的、数目偏多的、很含糊的、带有杂声的、带有随机特性的数据内,将其中潜藏着的各类别信息及关联知识,予以提炼。若数据挖掘的目标对象,只归属于文本,便构造出文本属性的数据挖掘。挖掘对象,涵盖着半结构类、非结构类、结构化框架下的数据;而非结构化属性的数据,是侧重的挖掘成分。

在IR这一领域中,文档采纳了空间向量模型这一独有的形式,空间配有的向量,便归属于文档。对文档含有的特征集,予以提炼时,常常会多遍扫描,而获取到特征向量,其现有维数非常高,这就增添了必备的处理时段。所以,在没能影响到现有匹配结果及关联分类的根基上,需要对原有的特征子集,予以选取。选取时,先对某个特有函数,创设构造,然后对这一子集中含有的特征进行评判,将评判价值偏高的那些特征,选取出来,归结成特征子集。常常见到的评价函数,归属于交叉熵等。

对文本类别的数据去挖掘时,所接纳的模型质量类评价方法,和惯用的挖掘方法很近似,分类算法之内,朴素贝叶斯这一类别的算法,很常见。评判现有的模型质量,主要涵盖着分类带有的准确率、分类带有的正确率、惯用的信息估值。

中文框架下的信息编码,是偏复杂的,这一类别的编码,在Web内,较为常见的,归属于BIG5属性的编码、GB类别的码、HZ类别的码等。对带有中文类码的HTML,采纳数据挖掘,要对这一类别的编码标准予以辨识,并更替成带有统一性的惯用指标,然后才可挖掘。

2)对Web框架下多媒体挖掘,予以解析。在数据挖掘内,多媒体属性的挖掘,是一个凸显出来的挖掘领域,它从多媒体属性的数据库内,提炼出潜藏着的知识。多媒体属性的数据挖掘,带有广义性,涵盖着对声音、多样的视频以及各类别图像的挖掘,同时涵盖着文本类数据挖掘。

进行多媒体属性的数据挖掘,要先凝练得来必备的信息,然后对惯用的挖掘方式,予以挖掘。对网页中潜藏着的多媒体类别数据,凝练属性时,要对HTML类别的标签信息充分利用。

2 Web框架下的结构挖掘

这种构架,被当成Web,因为它没能由HTML类别的页面,单纯堆积而构造出来,而是在Web含有的页面间,有着各类别的关系,而能在现有的Web之间,架设出桥梁,因此归属于超链。超链能对现有的Web类页面关联,选取出适宜的表征形式,如引用类的关系和继承类的关系等。但是对于现有的Web框架下搜索工具,不会顾及到Web结构,仍然把这种Web,当成独立框架下文档的集中。Web现有的结构挖掘,是经由对引用解析类技术与服务类技术的可行利用,对Web框架下的结构衔接进行分析,将其中可用的所有模式,予以提炼。进行这一类别的结构挖掘时,其潜藏着的结构对象,既可以是现有的Web页面构架,也可以是现有Web页面搭配的超链。前者含有针对性,带有特定的应用层级内目的,而后者存在着普遍价值。

Web框架下的结构挖掘,把Web当成了独有的有向图,Web含有的页面,当成顶点,而图含有的边,归属于超链。然后经由对图论的现实利用,对Web框架下拓扑结构去解析。常常见到的算法,归属于发觉相似页面、发觉虚拟社区、分出页面类别、发觉地理位置。结构挖掘算法,通常可分出两类,一类归属于查询无关,一类归属于查询相关。采用查询相关这一算法时,需要对各类别的查询,进行超链解析,获取到一次值的精准指派;接纳查询独立框架下的算法时,要对各类别的文档,去进行一次值的精准指派。

3 Web框架下的信息挖掘

对现有的交易及关联商务,都是经由Web去予以落实。因此,在各类别的服务器方,会产出数目偏多的数据,它们由服务器所产出,并存留在服务器配有的日志文件内,另外,还会产出很多数目的用户信息,如注册类的信息。对这些数据解析以后,可以让现有的商家,更好地明晰客户信息,从而对现有市场以及现有商品,进行更精准的决策;对于供应网络类服务的人员,可以整合起总括的站点,以便供应出带有个性化的新服务。

Web框架下信息挖掘,带有如下特性:当用户访问到既有网络,可对用户现有的活动及关联行为,予以推测。挖掘方法可分出以下两类:

原始数据,经由网络服务器搭配的日志文件,选用独有的处理方法,对其进行归整,然后再去挖掘。

把网络服务类日志,现有的文件,经由图表去展示,然后去挖掘。通常情形之下,只要对原始属性的数据,予以处理后,便可对旧有的数据挖掘,予以采纳,以便获取到挖掘目的。

数据清除流程终结以后,制备出事务标识类模块,对登录项含有的日志,分出逻辑类别。采用这样的事务标识,是为了让各类别的用户,都能产出带有一定含义的聚类。因此,这种事务标识含有的目的在于,将总括的大事务进行归整,以便分出几个分支属性的小事务。在这一过程中,可以分解出多样步骤,或者是接纳合并扩展这样的形式,从而产出最适宜的事务。

4 结束语

Web框架下的数据挖掘,是新产出的技术,关涉到各类别的多样技术,正处于初始时段中。国内对这一层级进行的研究,数目还是偏少,对于Web含有的中文信息的关联挖掘技术,没能制备出完善方案。但是,对Web框架下数据挖掘技术现有的研究,具有明显的实用价值和商业价值。

参考文献

[1]薛鸿民.Web数据挖掘技术研究[J].现代电子技术,2006(08).

[2]李亚哲,李雅莉.Web数据挖掘技术在电子商务系统中的应用[J].硅谷,2011(01).

[3]赵志升,罗德林,李海英.数据挖掘技术与应用[J].河北北方学院学报(自然科学版),2006(06).endprint