Web数据挖掘技术模型分析

2014-04-21王晓艳

新媒体研究 2014年3期

王晓艳

摘要随着我国信息技术的不断发展，Web挖掘技术被广泛应用，为此，文章对Web挖掘技术进行分析，主要从Web内容挖掘、Web结构挖掘和Web访问信息挖掘三方面展开论述。

关键词 Web数据挖掘；技术模型；具体解析

中图分类号：TP393 文献标识码：A 文章编号：1671-7597（2014）03-0055-01

Web框架下的数据挖掘，主要经由对数据挖掘类技术的现实利用，从网络供应的服务，以及现有的网络文档中，发觉并提炼信息。数据挖掘含有的对象不同，可以将现有的Web挖掘，分为三个类别：Web框架下的内容挖掘、Web框架下的信息挖掘、Web带有的结构挖掘。

1 新颖的内容挖掘

伴随信息技术延展，Web框架下的数据类别也在递增，从本源层级上来讲，主要涵盖了图像类、文本类、声音类、元数据类、视频类等。在不同类别的数据以内进行挖掘，就构造出了多媒体属性的数据挖掘。

1） Web框架下的文本挖掘。数据挖掘，应指代在很不完备的、数目偏多的、很含糊的、带有杂声的、带有随机特性的数据内，将其中潜藏着的各类别信息及关联知识，予以提炼。若数据挖掘的目标对象，只归属于文本，便构造出文本属性的数据挖掘。挖掘对象，涵盖着半结构类、非结构类、结构化框架下的数据；而非结构化属性的数据，是侧重的挖掘成分。

在IR这一领域中，文档采纳了空间向量模型这一独有的形式，空间配有的向量，便归属于文档。对文档含有的特征集，予以提炼时，常常会多遍扫描，而获取到特征向量，其现有维数非常高，这就增添了必备的处理时段。所以，在没能影响到现有匹配结果及关联分类的根基上，需要对原有的特征子集，予以选取。选取时，先对某个特有函数，创设构造，然后对这一子集中含有的特征进行评判，将评判价值偏高的那些特征，选取出来，归结成特征子集。常常见到的评价函数，归属于交叉熵等。

对文本类别的数据去挖掘时，所接纳的模型质量类评价方法，和惯用的挖掘方法很近似，分类算法之内，朴素贝叶斯这一类别的算法，很常见。评判现有的模型质量，主要涵盖着分类带有的准确率、分类带有的正确率、惯用的信息估值。

中文框架下的信息编码，是偏复杂的，这一类别的编码，在Web内，较为常见的，归属于BIG5属性的编码、GB类别的码、HZ类别的码等。对带有中文类码的HTML，采纳数据挖掘，要对这一类别的编码标准予以辨识，并更替成带有统一性的惯用指标，然后才可挖掘。

2）对Web框架下多媒体挖掘，予以解析。在数据挖掘内，多媒体属性的挖掘，是一个凸显出来的挖掘领域，它从多媒体属性的数据库内，提炼出潜藏着的知识。多媒体属性的数据挖掘，带有广义性，涵盖着对声音、多样的视频以及各类别图像的挖掘，同时涵盖着文本类数据挖掘。

进行多媒体属性的数据挖掘，要先凝练得来必备的信息，然后对惯用的挖掘方式，予以挖掘。对网页中潜藏着的多媒体类别数据，凝练属性时，要对HTML类别的标签信息充分利用。

2 Web框架下的结构挖掘

这种构架，被当成Web，因为它没能由HTML类别的页面，单纯堆积而构造出来，而是在Web含有的页面间，有着各类别的关系，而能在现有的Web之间，架设出桥梁，因此归属于超链。超链能对现有的Web类页面关联，选取出适宜的表征形式，如引用类的关系和继承类的关系等。但是对于现有的Web框架下搜索工具，不会顾及到Web结构，仍然把这种Web，当成独立框架下文档的集中。Web现有的结构挖掘，是经由对引用解析类技术与服务类技术的可行利用，对Web框架下的结构衔接进行分析，将其中可用的所有模式，予以提炼。进行这一类别的结构挖掘时，其潜藏着的结构对象，既可以是现有的Web页面构架，也可以是现有Web页面搭配的超链。前者含有针对性，带有特定的应用层级内目的，而后者存在着普遍价值。

Web框架下的结构挖掘，把Web当成了独有的有向图，Web含有的页面，当成顶点，而图含有的边，归属于超链。然后经由对图论的现实利用，对Web框架下拓扑结构去解析。常常见到的算法，归属于发觉相似页面、发觉虚拟社区、分出页面类别、发觉地理位置。结构挖掘算法，通常可分出两类，一类归属于查询无关，一类归属于查询相关。采用查询相关这一算法时，需要对各类别的查询，进行超链解析，获取到一次值的精准指派；接纳查询独立框架下的算法时，要对各类别的文档，去进行一次值的精准指派。

3 Web框架下的信息挖掘

对现有的交易及关联商务，都是经由Web去予以落实。因此，在各类别的服务器方，会产出数目偏多的数据，它们由服务器所产出，并存留在服务器配有的日志文件内，另外，还会产出很多数目的用户信息，如注册类的信息。对这些数据解析以后，可以让现有的商家，更好地明晰客户信息，从而对现有市场以及现有商品，进行更精准的决策；对于供应网络类服务的人员，可以整合起总括的站点，以便供应出带有个性化的新服务。

Web框架下信息挖掘，带有如下特性：当用户访问到既有网络，可对用户现有的活动及关联行为，予以推测。挖掘方法可分出以下两类：

原始数据，经由网络服务器搭配的日志文件，选用独有的处理方法，对其进行归整，然后再去挖掘。

把网络服务类日志，现有的文件，经由图表去展示，然后去挖掘。通常情形之下，只要对原始属性的数据，予以处理后，便可对旧有的数据挖掘，予以采纳，以便获取到挖掘目的。

数据清除流程终结以后，制备出事务标识类模块，对登录项含有的日志，分出逻辑类别。采用这样的事务标识，是为了让各类别的用户，都能产出带有一定含义的聚类。因此，这种事务标识含有的目的在于，将总括的大事务进行归整，以便分出几个分支属性的小事务。在这一过程中，可以分解出多样步骤，或者是接纳合并扩展这样的形式，从而产出最适宜的事务。

4 结束语

Web框架下的数据挖掘，是新产出的技术，关涉到各类别的多样技术，正处于初始时段中。国内对这一层级进行的研究，数目还是偏少，对于Web含有的中文信息的关联挖掘技术，没能制备出完善方案。但是，对Web框架下数据挖掘技术现有的研究，具有明显的实用价值和商业价值。

参考文献

[1]薛鸿民.Web数据挖掘技术研究[J].现代电子技术，2006（08）.

[2]李亚哲，李雅莉.Web数据挖掘技术在电子商务系统中的应用[J].硅谷，2011（01）.

[3]赵志升，罗德林，李海英.数据挖掘技术与应用[J].河北北方学院学报（自然科学版），2006（06）.endprint

新媒体研究

2014年3期

Web数据挖掘技术模型分析

杂志排行

新媒体研究的其它文章