基于决策树的自适应网页正文抽取方法
2019-04-12吕容政刘嘉勇
吕容政,刘嘉勇
(1.四川大学电子信息学院,成都610065;2.四川大学网络空间安全学院,成都610065)
0 引言
Web 页面是目前人们获取信息的主要方式之一,也是舆情监测、数据分析和处理的一个重要来源。常见的Web 网页中除了主要的内容外,还包含大量与主题内容无关的噪声信息,如广告链接、推荐链接、导航信息等。因此,过滤网页中的噪声信息,抽取网页的正文内容,具有重要的研究价值和应用前景。现有的常见Web 信息抽取技术有基于特定网站模板,基于视觉特征,基于DOM 结构和基于数理统计。目前基于DOM 树结构和基于模板的抽取技术得到了广泛的运用。
基于模板的Web 信息抽取技术是假设网页使用相同或者相似的模板构建的,这类方法通过具有相同或者相似模板的网页训练生成一个通用的模板结构进行网页的信息抽取。Bar-Yossef 等人[1]采用基于模板的方式进行正文抽取,但是这种方法难以应对网页结构的更新和修改。Song 等人[2]将文本密度定义为标签内所有文字与所有标签数量之比,这种定义对于标签量大的正文密度评估会有较大偏差,而且计算量较大。基于统计原理的技术在理论上易于实现,但其难点在于确定一个合理的阈值,因此对于内容丰富度网页差异很大的网页效果不理想[3]。李伟男等人[4]基于VIPS 算法,提出了改进的隐马尔可夫模型,实现Web信息抽取。基于VIPS 算法的Web 信息抽取的优点是面对许多表现形式单一、代码层次上区别很大的网页时,有很好的抽取性能,但是这种方法需要对网页进行渲染,相对于其他方法,需要占用更多的计算资源。
在实际应用中,基于密度及文本特征的新闻正文抽取算法往往适应性不高[5]。本文利用节点多个特征,提出一种基于决策树的自适应网页的正文抽取方法。本文以网页中一个叶子结点为单位,分析计算特征向量,然后使用决策树分类方法判断节点是属于正文还是噪声。之后通过信噪比衡量正文信息和噪声信息的相对比重,最终抽取出网页的正文。相对基于文本块密度和标签路径覆盖率的网页正文抽取[6],本文引入信噪比有效减少了由于分类错误而导致的误差。另外,通过选取信噪比值最高的结点,可有效避免阈值需要人工确定的问题,实现网页正文抽取算法的自适应。
1 特征向量提取
对于Web 上的网页,依据其网页类型可以将它们分为三类[7]:主题型网页、Hub 型网页和图片型网页。本文的研究对象是主题型网页,即从主题型网页中抽取网页主题相关的正文信息。由于主题型网页不仅承载有主体内容,有时还会添加一些导航、推荐或者广告链接。本文将网页正文定义为以网页主体内容区域,网页中其他除主体内容以外的部分定义为噪声[8]。
考虑到HTML 文档中