基于时间频率加权DOM的Web信息抽取方法

2011-02-10马瑞民东北石油大学计算机与信息技术学院黑龙江大庆163318

长江大学学报(自科版) 2011年1期

马瑞民,钱浩 (东北石油大学计算机与信息技术学院,黑龙江大庆163318)

当前,Web已经成为人们获取信息的主要渠道。怎样对Web上大量的数据信息进行抽取成了现今数据挖掘研究的热点。Web信息抽取是从网络中获得用户需要的信息的过程[1],目前已有的技术有基于归纳学习的信息抽取、基于DOM的信息抽取、基于Web查询的信息抽取、基于自然语言处理的信息抽取、基于模型的信息抽取和基于本体的信息抽取[1]等。其中基于DOM的Web信息抽取的特点是,将Web文档转换成反映HTML/XML文件层次结构的DOM树,通过自动或半自动的方式产生抽取规则。

以上的方法在技术方面都比较成熟,但均没有考虑到时间因素。为此,笔者结合DOM的Web信息抽取加上时间因素,提出了一种基于TFW-DOM的Web信息抽取方法。该方法考到多次抽取的情况,通过对页面DOM树加权,利用公式计算每次的抽取时间,结合基于DOM的抽取方法完成每次的信息抽取。

1 基本定义

图1 DOM树

定义1(抽取项) 抽取项即用户想在页面中抽取的文本内容[2]。

定义2(抽取规则) 抽取规则是对抽取项在整个文档中的定位,表现在DOM树上就是由根节点到抽取项路过的节点序列所表示的路径信息。假设DOM树中的节点用element(i)(i=0,1,2,…)表示,抽取项的路径信息就是一组element(i)(j)序列 (其中i≠j,i＜j)。如图 1所示,如果要定位Text:“My link”节点,它的路径就应该是element(0)element(2)element(4)。

定义3(T加权) T加权是对DOM树中每个元素添加时间属性的过程,这2个属性分别是最近一次(假设是第n次)抽取该节点信息的时间e-time和第n次抽取与第n-1次抽取的时间间隔et-interval。

定义4(F加权) F加权是对DOM树中每个元素添加频率的过程,表示调用信息抽取模块用到该属性的频率。

图2 TFW-DOM抽取流程

定义5(TFW-DOM) 经过了T、F加权后得到的DOM树。TFW-DOM树的每个元素至少有3个属性:e-time、et-interval、frequcency。

2 TFW-DOM抽取算法

基于 TFW-DOM的 Web信息抽取方法(简称 TFW-DOM抽取)考虑的是多次抽取的情况,用户无需手动抽取,系统通过抽取时间计算公式计算出每次的抽取时间,然后按照基于DOM的抽取方法进行抽取。该方法适用于多级管理层,每级管理层对数据的实时性要求不一,在时间上具有很大的灵活性。基于TFW-DOM的Web信息抽取方法的处理流程如图2所示。

首先根据用户的需求,获得相关Web页面URL,通过页面清理把不规则的源代码变为符合W3C标准的 HTML/XML文档;对于规则库中没有现成规则的URL,进入DOM树加权,然后在基于DOM的Web信息抽取方法[3]的基础上,通过抽取时间计算得到抽取规则,将生成的抽取规则分别输入规则库和抽取的执行模块,下次再遇到类似的抽取任务就可以直接从规则库中调取抽取规则;根据抽取规则在执行模块完成抽取后,结果进入数据处理部分,最后生成结构化数据。生成的数据结构可根据用户的实际需要选择,具有很大的灵活性。

1)页面清理模块在页面清理模块中,利用Tidy库提供的功能对Web页面进行标准化处理,得到符合W3C的HTML/XML文档,部分纠错过滤代码如下:

2)计算抽取时间算法在这个模块主要使用一个循环利用2个计算公式,完成抽取时间的计算,算法步骤如下:

其中,frequency是原频率;frequency是新产生的频率;time为系统当前时间。

3 试验

选取中国石油化工股份有限公司企业网站对其化工产品进行实验,对于抽取方法主要从抽取速度、时间准确性、召回率和准确率4方面来检验,试验数据比较结果如表1。

因为针对专门的领域,所以TFW-DOM抽取法有很好的准确率和召回率;同时试验结果表明TFW-DOM抽取法对多次抽取的效率明显高于文献 [4]的方法;因为受抽取时间计算公式中各计算因子影响,在抽取时间准确率上不能达到100%,但基本能够满足用户各管理级的时间要求。

表1 试验比较结果

4 结语

笔者提出的抽取方法在初次抽取后得到的抽取规则存入规则库中,可重复使用,避免了抽取规则的重用,在整个抽取过程中不需要人工参与,在提高效率的同时也减轻了用户的操作负担。基于TFWDOM的Web信息抽取方法通过抽取规则文件得到抽取任务的相关信息和执行抽取的条件,因此,用户只需改变输入的页面URL,完成初次抽取时的抽取规则文件生成,即可完成全新的抽取任务,并且最终得到的数据在数据结构上有相应的灵活性,这些使得基于TFW-DOM的Web信息抽取方法具备良好的可用性、易用性和通用性。

[1]色菲,王佳,潘超.基于XML描述的WEB信息抽取技术研究[J].计算机与信息技术,2007,34(2):403,380.

[2]陈晓锋,张凌,董守斌.基XPath比较Web数据抽取方法[J].郑州大学学报,2007,39(2):161-166.

[3]李效东,顾毓清.基于DOM的Web信息提取 [J].计算机学报,2002,25(5):526-533.

[4]于静,李森.基于信息抽取的主动服务技术研究[J].计算机系统应用,2008,(1):54-56,60.