一种新闻网页关键信息的提取算法
2016-09-29向菁菁耿光刚李晓东
向菁菁 耿光刚 李晓东
摘要:针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法newsExtractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件newsPaper进行提取准确率的对比实验。实验结果表明,newsExtractor在正文、标题、时间、来源的平均提取准确率上均优于newsPaper,具有通用性和鲁棒性。
关键词:网页信息提取;新闻信息提取;网页去噪
中图分类号:TP391
文献标志码:A
0引言
信息抽取[1]的概念最早是由Jim Cowie和Yorick Wilks于1996年提出,他们称信息抽取就是任何能够选择性地将显式或隐式的文本进行组织和结合的方法,该概念的提出是为了解决互联网中信息量大且过于繁杂、无法让用户快速获取需要的信息的问题。在近20年的发展中,已有诸多学者针对不同的抽取需求提出了不同的信息抽取方法。在网页信息提取方面,被提及最多的是网页正文提取算法,但目前网页正文提取算法尚存在缺点:首先,算法普遍存在缺乏通用性的问题;其次,在某些应用场合(如:新闻溯源)除正文之外还需要新闻的标题、时间和来源信息,但目前尚没有能够完全满足需求的方法。因此,本文主要基于此展开研究。
1相关研究
针对不同的信息抽取需求,不同的学者提出的算法也不尽相同。
比如,识别网页中的实体(如:人名、地名、事件名、时间等),文献[2]提出了一种算法用于识别生物期刊摘要中的人体蛋白质名称;根据抽取规则生成方式的不同,又可以分为自动生成[3-4]和半自动生成[5]两类。
对于网页正文的提取算法,国内外也已有许多方法,简单归类如下:
1)基于网页标签[6-8]。这类方法依赖HTML语言中的闭合标签对(如:
、
)进行提取。但HTML语言本身对使用者来说不具有标准的格式,再加上层叠样式表(Cascading Style Sheets, CSS)盛行之后,为了显示的美观而添加的各类元素使得页面内容变得更为复杂,因此,该方法并不具备鲁棒性。
2)基于模板[5,9-10]。这类方法通过给定的模板将需要的网页信息输出,优点在于准确率较其他方法高;缺点是如果为每个待提取的网页都设计模板,计算和时间开销大,缺乏通用性。
3)基于文档对象模型(Document Object Model, DOM)树结构[11-13]。HTML网页可以解析成DOM树的结构,然后根据DOM树的结构特性提取正文。文献[11]中就提出了一种方法:首先确定部分正文内容,然后依据路径相似度寻找其他正文,最终合并为网页正文。文献[12]则在文献[11]的基础上进行了改进。
4)基于布局相似性[14-16]。网页所属网站的网页具有布局相似的特点,在同一个网站多个网页中频繁出现的内容具有极大概率为噪声。该方法不具备实时性,在对于某一网页进行提取时,必须先获取与其布局类似的其他网页。
5)基于视觉热区[17]。这种方法主要依据人们在浏览网页时视觉频繁停留的区域去判断正文的位置进行提取。该方法的理论支撑不足,同时也缺乏大量的视觉数据支持
此外,还有学者使用了不同方法的结合[18]以及融合了机器学习的方法[19]。
综上所述,以上提及的方法或过时(例如基于网页标签的方法中依赖