基于XML的Web内容挖掘方法
2012-01-08陈建国
郑 霞,陈建国
(1.闽江学院计算机科学系,福建福州 350001;2.福建工程学院软件学院,福建福州 350003)
基于XML的Web内容挖掘方法
郑 霞1,陈建国2
(1.闽江学院计算机科学系,福建福州 350001;2.福建工程学院软件学院,福建福州 350003)
在分析Web内容挖掘特征的基础上,提出一种基于XML技术的Web内容挖掘模型.利用HITS算法确定权威Web页面,利用HTML Tidy工具将非XML文件经过数据清洗后转换成结构良好的XML文档,结合互联网上传统科技论文的自动抽取系统实例,采用文本聚类分类技术进行面向XML文档数据的数据挖掘.实验结果表明,该模型工作良好,可以自动、有效地提取网页内容.
Web挖掘;数据挖掘;文本聚类;非XML文档
Web数据挖掘是从浩瀚的Web信息资源中发现未知的、潜在的、有价值知识的一种技术[1].由于Web数据具有数据量庞大,页面复杂,结构各异,冗余数据多等特点,并且大部分网页是非XML文档形式,因此Web数据挖掘比传统数据挖掘更复杂,难度更大.由于XML能够将不同来源的结构化的数据很容易地结合在一起,因此给Web数据挖掘带来了很大方便[2].
目前关于XML技术和Web内容挖掘技术的结合研究已取得一定成果,例如采用直接解析HTML页面[3],或者将HTML页面转换成XML格式后存入关系数据库,然后对关系数据库展开数据挖掘[4].本文以互联网上传统科技论文的自动抽取系统为实例,提出一种基于XML的Web内容挖掘模型和关键技术.
1 Web挖掘和XML技术
1.1 Web内容挖掘
数据挖掘就是从数据库或其他信息库中的海量数据源中获取蕴含的、潜在有用的信息和知识的过程[5].Web内容挖掘是从大量的Web数据中发现信息,抽取有用数据的过程[6].这些数据既有结构化数据,也有半结构化数据和无结构数据.
1.2 XML技术
XML(可扩展标记语言)是一个基于互联网的元数据标记语言,用于定义特定领域相关的,结构化的,语义的标记语言[5].XML具有平台无关性的信息内容,其结构分离,并能满足各种不同的需求[7];结构灵活,易于扩展,使Web的异构数据的转换和传输的XML成为标准.
2 基于XML的Web内容挖掘模型
2.1 数据准备及选择
数据是数据挖掘的基础,数据准备主要包括以下步骤:
(1)定义业务问题,确定挖掘目标,制定挖掘计划.
(2)数据选择,利用HITS算法确定权威Web页面.
2.2 数据预处理
对于数据挖掘来说数据质量是一个很关键的问题.因为如果数据挖掘基于的数据是不准确的,那么挖掘出来的结果也没有价值.数据预处理可以保证数据挖掘所需数据集合的质量.
(1)数据抽取:将非XML形式的Web页面内容转换为XML文档,对数据值进行统一的标准化描述,使其具有相同含义和具有相同的形式.
(2)数据清洗:对这些含有歧义、冗余、错误、空值的数据进行整理和清洗,从而保证数据的质量.
2.3 数据挖掘
采用扩展样式表转换语言XSLT析取数据,采用基于XML的查询语言XQuery(XML Query)的析取器来析取大量复杂的数据.
(1)文本聚类:利用文本聚类方法对经过预处理的数据进行聚类,将文档集合分成若干簇,且同一簇内的文档相似度尽可能大,使用户迅速定位到所需要的信息.聚类的结果可以用来指导分类.
(2)文本分类:按照定义的分类准则将文档集各文档放入相应类.包括特征表示、特征提取、特征匹配与分类步骤.
2.4 模式评价
对数据挖掘的结果进行解释和评价,将挖掘后的XML数据以不同的浏览形式提供给不同的用户,并将分析所得到的知识集成到业务信息系统的组织结构中.挖掘模型如图1所示.
图1 基于XML的Web内容挖掘模型图Fig.1 Model diagram of XML-based Web content mining
3 基于XML的Web内容挖掘技术实现
3.1 应用概述
本文选择一个传统科技论文网站作为Web内容挖掘和分析的来源.传统科技论文主要由文字、图表、图像等传统媒体格式所构成,以非结构化的形式保存,缺少统一的论文格式规范,限制了基于XML的快速检索机制以及开放存取在科技期刊的应用.如何快速地从这些信息中获取对用户有用的、结构良好的数据知识,成为人们关注的热点.因此本文以Web页面中的传统科技论文数据挖掘为例,利用XML技术来实现Web内容数据挖掘方法.
3.2 数据准备及选择
首先需要确定挖掘的目标和对象,本文选择一个科技论文网站作为Web内容挖掘的信息源;挖掘目标是将非结构化的传统论文经过数据挖掘转换成结构良好的XML文档格式.
本文利用HITS算法确定权威Web页面,HITS算法是通过页面间的超链接关系来挖掘其中有效信息,并通过内容权威度和链接权威度对网页质量进行评估.内容权威度与页面内部提供的信息质量有关,被越多页面引用的网页,说明其内容权威度越高;链接权威度与页面的超链接页的质量有关,也就是引用越多高质量页面的网页,说明其链接权威度越高.PageRank算法的基本思想是根据网页重要性来确定权威页面,即如果网页A在下一条指向网页B的超链接,则认为网页B得到了网页A的认可.如果有许多网页指向网页B,则说明网页B相对比较重要.
3.3 数据预处理
首先,利用HTML Tidy工具清除网页文件中格式不规范的地方,接着转换为XHTM格式文档.通过HTML Tidy工具的转换命令为:Tidy-asxhtml***.Html-gb2312***.html;本文采用程序编写,使用Tidy库提供的函数在XMLHelper.tidyHTML()方法中执行转换.该方法传入参考为页面URL,返回结果为一个XHML文档.核心代码如下:
接着在页面中找到论文所在区域,从中抽取数据.先定位到论文标题,接着搜索“作者”“摘要”“关键词”等论文要素.可以使用XPath表达式:
3.4 数据挖掘
(1)分类集合定义A=(a1,ai,...,an):本实例中,根据用户所输入的检索条件和检索对象,设置默认分类集合A=(标题,作者,摘要,关键词,内容,参考文献等…).
(2)训练文本集合B=(b1,…,bi,...,bn),统计V(bi)的所有文本的特征向量数据,以确定每个V(ai)的特征向量.本实例中训练集合B=(字体、字体大小、加粗、行间距、对齐等…),如表1所示.
(3)将文本集合B和集合ai的每个文本依次进行匹配,计算V(bi)和每个V(ai)之间的特征矢量mix(bi,ai);
表1 科技论文网站论文格式-训练文本集(节选)Table 1 Format of papers of scientific papers website-training text set(Excerpt)
(4)选择具有最大相似度的两个特征向量,即集合间两个特征向量的重复程度,将其放入新的文本集合中.
3.5 模式评价
处理后的数据保存到成结构化的XML文档格式,使用户能够准确地进行数据检索和分析及进一步的处理.处理的数据格式如下(节选):
4 结 论
本文在介绍了Web数据挖掘的有关理论的基础上,提出一种基于XML技术的Web内容挖掘的模型,并结合互联网上传统科技论文的自动抽取系统实例,重点阐述基于XML的Web内容挖掘模型的实现方法.实验表明,利用HITS算法能够准确定位权威Web页面,采用XSL技术进行数据析取能够精确地分析抽取Web文本内容,采用文本聚类分类技术进行面向XML文档数据的数据挖掘效率更高,数据质量更好.
[1]何慧.Web文本挖掘中关键问题的研究[D].北京:北京邮电大学,2009.
[2]王礼刚.基于XML的Web文本数据挖掘研究[D].重庆:西南大学,2007.
[3]梅东霞.面向XML文档的数据挖掘技术研究[D].北京:北京化工大学,2007.
[4]孙琳琳,霍泓.二次挖掘:新闻报道的一种尝试[J].沈阳大学学报,2004,16(5):104-106.
[5]何波,李建国.基于XML的Web数据挖掘系统框架的设计与实现[J].西南师范大学学报,2002(6):34-36.
[6]王勇.WEB数据挖掘研究[D].西安:西北工业大学,2006.
[7]陆宜梅.Web搜索技术现状分析[J].沈阳大学学报,2006,18(2):34-36.
Method of Web Content Mining based on XML
ZHENG Xia1,CHEN Jianguo2
(1.Department of Computer Science,Minjiang University,Fuzhou 340001,China;2.Software College,Fujian University of Technology,Fuzhou 350003,China)
The characteristics of Web content mining were analyzed and a model of Web content mining was proposed base on XML.The HITS algorithm was used to determine the authority of Web pages,the HTML Tidy tool was used for non-XML documents through the data cleansing and transform XML documents into well-formed,and text clustering techniques were used for XML document classification data in data mining.Combining with the examples of traditional scientific papers of automated extraction system from Internet,the model is proved to work well,and it can automatically and effectively extract web page content.
Web Mining;data mining;text clustering;non-XML documents
TP 311.13
A
1008-9225(2012)03-0052-04
2011-12-14
郑 霞(1978-),女,福建南平人,闽江学院助教.
李 艳】