APP下载

一种基于领域本体的Deep Web实体信息提取的后处理方法

2016-12-19伟,陶

安徽工程大学学报 2016年5期
关键词:本体页面语义

余 伟,陶 皖

(1.安徽工程大学 计算机与信息学院, 安徽 芜湖 241000;2.安徽工程大学 计算机应用技术重点实验室, 安徽 芜湖 241000)



一种基于领域本体的Deep Web实体信息提取的后处理方法

余 伟1,2,陶 皖1,2*

(1.安徽工程大学 计算机与信息学院, 安徽 芜湖 241000;2.安徽工程大学 计算机应用技术重点实验室, 安徽 芜湖 241000)

目前大多数的Deep Web信息抽取方法依赖Web页面结构,忽略了页面中包含的语义信息及关系,导致抽取结果不理想.针对此问题,提出一种基于领域本体的Deep Web实体信息后处理方法.首先,根据DOM树节点相似性原理和VSM(Vector Space Model)的余弦值方法确定数据区域和实体区域;然后,依据数据区域和实体区域的概念和实例构建领域本体,在领域本体的指导下对实体进行语义标注,将量化的标注结果添加到实体与本体的相似度计算中;最后,提出基于领域本体的实体信息抽取算法,获得实体中与本体相似度最大的子树.选取天气、图书、购物网站数据进行测试,实验结果表明,与已有方法相比,所提方法的F值提高了3.6%~4.9%.该方法不仅能减少抽取信息时对Web页面结构的依赖,而且能充分利用页面中的语义信息和关系,使得抽取结果更精确.

Deep Web;信息抽取;实体区域定位;领域本体;后处理

随着Web数据库的增长,Deep Web中隐藏着大量的信息.获取Deep Web中信息的主要方式是通过向各个数据源提供的查询接口发送查询请求,获得某些实体记录如书籍、商品等,它们由相关属性(作者、出版单位、价格等)信息来描述.返回的查询结果往往是在HTML页面进行显示的,其中不仅包含了实体数据,还包含了广告、导航等无关内容.如何有效抽取Deep Web结果页面中的实体信息,并将其进行结构化表示成为当下研究的一个热点.

按抽取原理和抽取方式的不同,Deep Web实体信息抽取方法可以分为基于自然语言处理的方法[1]、基于归纳学习的方法[2]、基于视觉特征的方法[3-4]、基于DOM树的方法和基于本体的方法,其中基于DOM树的抽取和基于本体的抽取方法使用较多[4-6].但是目前大多数方法抽取结果的准确率太过依赖Web页面的结构,在不同页面的抽取效果存在一定的差异性.

针对研究中存在的不足,提出一种基于领域本体的Deep Web实体信息后处理方法.首先,利用DOM树节点相似性原理和VSM的余弦值方法确定数据区域和实体区域;然后,依据数据区域和实体区域的概念和实例构建领域本体,利用领域本体指导下的基于上下文距离和共现次数的语义标注方法对实体进行标注;最后,依据标注结果得到实体记录中的各属性与本体中属性的关联度,将其添加到实体记录与本体的相似度计算中,在此基础上提出一种实体信息抽取算法,利用该算法获取实体记录中与本体相似性最大的子树.实验结果也表明,与上述方法相比较,所提方法对页面结构的依赖性要低,且抽取性能更好.

1 数据区域定位

通常来说,一个Deep Web查询结果页面包含有广告、实体信息和导航等内容,用户感兴趣的只是实体信息,因此需要准确定位包含实体记录的数据区域.而目前经常采用两种数据区域定位方法,一种是基于页面结构的方法,认为数据区域一般都是集中在页面的中心部位;另一种是基于空间比例的方法,认为数据区域在整个页面中的空间比例是最大的.这两种方法都依赖于页面的视觉效果,定位数据区域的准确性随着页面结构的变化而不断浮动.为了更精准地定位数据区域,采用基于DOM树节点相似性原理去定位数据区域.

1.1 去除噪音节点

在定位页面数据区域之前,先将查询结果页面解析成DOM树结构,采用广度优先算法[7]去除DOM树中包含的噪音节点,噪音去除示意图如图1所示.噪音节点的标签包括