Web数据挖掘综述
2016-10-24三峡电力职业学院电力工程学院熊富琴
三峡电力职业学院电力工程学院 熊富琴
Web数据挖掘综述
三峡电力职业学院电力工程学院熊富琴
本文对Web数据挖掘进行了详细的综述。首先探讨了Web上面数据特征提取方法,从Web内容挖掘、结构挖掘、使用挖掘三个角度介绍了相应的技术。由于Web的异构性,使得Web数据挖掘称为一个难点,必须综合数据挖掘的各种技术,才能得以实现。然后本文介绍了一个关于电子商务数据挖掘应用的实例并强调了Web数据挖掘的重要意义。最后总结和现存的问题,并对未来的研究热点进行展望。
Web数据挖掘;挖掘流程;网页;Web内容挖掘;Web日志挖掘
1 前言
随着互联网络蓬勃发展,计算机已经称为人们生活中无法缺少的工具,由此人人都在想互联网上增加信息,Web上的数据日益增多,从企业角度和普通用户角度,怎样更好的访问互联网,怎样更好的让互联网为人们服务,称为网络发展下一个重要课题,本文探讨了Web数据挖掘技术,它是胜过数据库技术的一种更高效获取信息的技术。
2 Web数据特征提取的方法
2.1Web数据挖掘概念
数据挖掘是指使用算法抽取信息和模式,是从数据中发现有用的信息和模式的过程的一个步骤。Web数据挖掘就是挖掘与万维网有关的数据,既可以是网页包含的数据也可以是Web操作所产生的数据。
2.2Web挖掘流程
Web上的信息是异构的或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的数据处理流程包括:(1)查找资源;(2)信息清理和预处理;(3)模式发现;(4)模式分析。
2.3Web数据挖掘活动分类[1]
Web数据挖掘活动可分为三种:Web内容挖掘,Web结构挖掘和Web使用挖掘。
(1)Web内容挖掘
网页使用HTML语言定义,因此是异构的,无法使用数据库的查询方法,查询变得异常困难,而XML用于描述结构化的文档,容易进行挖掘操作。基本的Web内容挖掘是一种文本挖掘。文本挖掘的功能可以用一个层状结构表示,最简单的位于最上一层,最下一层对应最复杂功能。目前已有研究把自然语言处理技术用于文本挖掘,以发现文本中隐含的语义。
(2)Web结构挖掘
Web结构挖掘是为Web的组织建立一个模型,模型用来对网页进行分类或者为网页建立相似性度量。同样用于提高搜索引擎的效率,通过度量网页的重要性,以及为传统搜索引擎使用关键字搜索的结果进行优先级排序。PageRank算法用于提高搜索引擎的效果和效率,网页的PageRank值通过指向它的网页计算。
(3)Web使用挖掘
Web使用挖掘的研究对象是Web使用数据或者Web日志,Web日志是一列网页访问数据。Web日志有时被称为点击数据流,当从服务器角度分析时,挖掘发现的是提供服务的网站的信息,挖掘的结果可以帮组改善网站的设计。Web使用日式的格式需要进行格式转换和清洗才能用于挖掘程序,称之为预处理。然后使用若干种数据结构来记录识别出的模式,例如trie就是一种树结构。通过对存储模式进行模式发现并归类,最后将发现的模式拿来分析以确定其如何使用,例如删除用户不感兴趣的模式。举例说明,对电子商务网站的顾客和非顾客用户的浏览模式进行比较,网站的访问者被分为短期访问者、调查者和顾客,通过预处理首先过滤掉短息访问者,使用概念层次把网页内容进行抽象,在将Web日志分为顾客和非顾客的,然后按照次数分析每部分日志以寻找模式,最后对每部分找到的模式作相似性比较,如果两个模式的序列最开始至少n个网页相同,那么这两个模式相似,否则不相似。如果发现非顾客的模式,并且没有相似的顾客模式,表明网站的链接结构或者网页的内容设计需要更新。
图1 Web挖掘分类
3 Web数据挖掘应用实例
随着互联网的规模壮大,许多企业都建立了自己的电子商务网站。通过Web数据挖掘,及时了解企业的整体运营情况,针对问题快速做出反应;收集市场信息,及时反馈给高层决策者和研究开发等有关部门,进行高效、准确的市场决策。对销售记录、顾客信息的挖掘与分析,掌握最新的信息以获得更多的市场,甚至可以根据顾客的查找兴趣、查找频率、查找时间动态地调整页面结构,改进服务,给客户个性化的界面,开发有锁定性的电子商务,以更好地满足查找者的需要。根据数据挖掘流程,建立以下模型[2],如图2所示。
图2 基于数据挖掘的电子商务模型
4 Web数据挖掘的意义
保存在计算机硬盘和数据库中的数据正在飞速的增长,否则也不会有海量存储问题的提出了。同时,这些数据是否值得继续存储,怎样从现有数据中获取更有价值的信息,成为计算机使用者的面临的问题和期望实现的目标。只要人们一直使用计算机,那么数据就会一直不断的增长,数据库管理系统中的查询即使再优化,它始终面临由于数据量太大而效率异常低的问题。人们希望能够更加高效的使用数据,数据挖掘就是能够解决这些问题的技术。
5 Web数据挖掘现存的问题
数据挖掘当前的研究进展类似于早期数据库的发展情况。由于可以将数据定义抽象化并且通过较少的必需的核心原语来存取数据,数据库管理系统获得了成功,对于数据挖掘任务也要进行这个抽象过程,并且分别处理每个任务。然后到目前为止数据挖掘工作都只是专注于特定的算法来实现每个单独的数据挖掘任务,并没有将数据挖掘任务进行抽象化。
6 Web数据挖掘的研究热点
在未来一段时间内,Web挖掘中的以下方面可能成为研究和应用热点[3]。
(1)高性能Web搜索引擎。
(2)Web数据的特征描述与监控。
(3)Web数据的获取与集成。
(4)Web数据流的挖掘。
(5)安全与非法访问检测。
(6)个性化与安全的隐私。
(8)Web挖掘的算法改进与质量的评估。
(9)Web挖掘在社会领域的应用。
7 小结
本文从Web数据特征提取的方法入手,详细介绍了Web数据挖掘技术的相关理论,数据挖掘流程、数据挖掘任务分类、数据挖掘相关算法等,并引用了一个在电子商务网站进行数据挖掘的实例对数据挖掘的重要性进行了验证,然后探讨了Web数据挖掘的意义和现存的问题,最后就当前社会应用问题对未来Web数据挖掘的研究热点进行了总结。
[1]Margaret H.Dunham.Data Mining[M].北京:清华大学出版社.
[2]程苗.电子商务网站的Web数据挖掘方案设计[J].计算机科学,2007(8):34.
[3]胡学钢.Web数据挖掘研究综述[J].计算机应用研究,2007(6):24.
[4]R.Kosla and H.Blockeel.Web mining research a survey[J].SIG KDD Explorations,vol.2,pp.1-15,July 2000.
[5]YANG Xin,LIU Heng.A Data Mining Based on Intrusion Detection System Model[J].Computer Science,2003,30(1):124-127.
[6]李娟,董军.Web数据挖掘技术综述[J].南京职业技术学院学报,2008,8(2).
熊富琴(1982—),女,湖北郧县人,三峡电力职业学院讲师,主要研究方向:计算机应用技术。