基于本体的网页数据抽取技术的研究

2014-07-28常丽君

电脑知识与技术 2014年16期

常丽君

摘要：随着网络上信息的飞速增长，网络已发展成为一个巨大的数据库，人们对快速准确地获取网页数据提出了更多的需求。目前，自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识，在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中，利用领域本体的关键词、概念及关系来生成抽取规则，采用语法分析模块对输入的文档进行预处理，最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明，该方法具有良好的性能。

关键词：本体；网页数据抽取；包装器

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2014）16-3726-03

Abstract： With the rapid growth of information on the network， the network has developed into a huge database， people are more desirable to get pages of data quickly. Currently， the field of natural language processing has focused the web information extraction. First this pager introduces the basic knowledge of ontology. Based on this， this pager presents a new approach to extracting information from normal document based on ontology. This paper first introduces some basic knowledege about the ontology， then proposed and implemented a web data extraction method. In this pager， it used domain ontology words， concepts and relationships to generate extraction rules， used the syntax analysis module for pre-processing the input document. At last， it achieve the data according to extraction rules and documents generated by parsing. The experiment has shown that the approch got a very good performance.

Key words： ontology； web information extraction； wrapper

1 相关背景

随着网络的快速发展以及计算机在各个领域的广泛应用，网络已发展成为一个巨大的数据库。针对这些挑战，人们对在海量WEB信息中快速准确地找到所需的数据提出了更高的要求。为了解决这个问题，Web信息抽取开始逐步得到研究。目前Web信息抽取技术存在的主要问题有：（1）人工干预较多，大部分技术中都需要大量的样本训练集，给用户带来比较大的负担。（2）适应性差，根据具体信息源生成的包装器程序只能用于某种具体的网页结构。针对目前Web信息抽取技术存在的一些问题，通过研究已有的信息抽取技术，该文提出了一种基于本体[1]的信息抽取方法，HTML源文件作为本系统的输入参数，输出的结果是包含主、谓、宾三种成分的三元组，可以将结果存入数据库。

2 基于本体的数据抽取的过程

本文在研究了已经存在的网页信息抽取相关技术之后，设计了一个新的基于领域本体的网页数据抽取系统。抽取的主要过程分为以下几个步骤：

1）信息抽取规则的生成。首先本体解析器对领域本体进行解析，再根据得到的结果自动生成数据抽取规则。

2）对HTML文档进行预处理。对于实验所用的文件，经过预处理之后，语法分析过程再采用分词处理模块和句法分析模块对文本处理。

3）数据抽取。根据前面的抽取规则，数据抽取过程采用它抽取规则对预处理后的文本实现数据抽取。

2.1 信息抽取规则的生成

首先介绍一下本体的基本知识。本体是关于某一领域的概念、关系等的描述。基于领域本体的网页数据抽取技术是针对某一具体领域的。该文使用的本体是OWL本体。本系统采用protege工具建立本体。本系统建立了一个手机领域的本体，如图1所示。

定义了手机的本体之后，接下来的工作是本体解析器的设计。经过对多种本体的数据库存储模式的观察与分析，该文提出一种新的存储模式来存储OWL本体。设计的表主要包括class表，property表和restriction表。通过对本体的解析，将得到抽取数据的抽取规则。对于本系统中的手机本体，得到的抽取规则[4]见图2：

2.2 对HTML文档的预处理

首先将HTML网页转化为对应的非格式化的文本文件，然后采用已有的汉语词法分析系统ICTCLAS对文本文件进行处理。得到了分词结果之后，接下来的工作是采用句法分析模块对分词结果进行分析。本系统的句法分析模算法是对已有的自然语言句法分析器的改进。系统通过加入结构上下文相关条件，提高了分析结果的准确率。

通过对句子的句法分析之后，接下来的工作是抽出它的名词短语以及动词短语结构。主要包含以下4个步骤：

1）通过句法分析之后，对于np（）结构，抽取出句子里的n（）（名词）成分和v（）（动词）成分，“/nn”表示名词，”/v”表示动词。endprint

2）对于vp（）结构，抽取出句子里的n（）（名词）成分和v（）（动词）成分，“/vn”表示名词，”/v”表示动词。

3）当np（）里面还存在vp（）或者np（）时，继续采用前面两个步骤进行处理。

4）同样当vp（）里面还存在vp（）或者np（）时，也继续采用前面两个步骤进行处理。

实验结果表明，通过语法分析之后，输入的句子被转换成了包含对应的主语、谓语以及宾语等成分的词语串。

3 信息抽取模块的实现

首先形成一个关于可以匹配的词的关系链表，接下来的工作是匹配得到的关系链表，完成该功能的方法是Match（），包含下面四个步骤：

1）对于三元组里的主语，我们在链表里查询是否存在标识为“/nn”（代表句子里的主语）的成分。

2）当前面第一步成功了，对于三元组里的谓语，我们在链表里查询是否存在标识为“/v”（代表句子里的谓语）的成分。

3）当前面第二步成功了，对于三元组里的宾语，我们在链表里查询是否存在标识为“/vn”（代表句子里的宾语）的成分。

4）当前面三步都成功之后，一个三元组就从句子中抽取出来了，实验成功。

4 实验和结果

本系统使用JAVA语言实现，抽取到的结果如图3所示，图3为数据抽取得到的一个三元组表，第一列id是实验所用的网页URL的序号，第二列是三元组的序号，也就是本次实验抽取到的结果，第三列http是实验所用的网页的url，最后一列sentence表示从该句子中抽取数据。

下面具体分析本文所实现的基于领域本体的Web数据抽取系统的性能：

一般采用正确率和召回率两个指标来评价数据抽取系统的性能，通过对实验所用的网页的统计，网页中宗的正确数据有93个，本系统一共抽取到80个数据，其中有61个正确的，召回率=（61/93）*100%=66.3%，准确率=（80/93）*100%=86.1%。可见，本系统取得了良好的性能。

5 小结

本文论述了基于本体的网页数据抽取系统。在数据抽取过程中加入了语法处理，将HTML网页转换为对应的非格式化的文本文件，然后对得到的文本文件进行分词处理和句法分析。实验证明，该方法具有良好的性能，但是目前由于对中文信息的语法处理的研究还不够，分词和处理和句法分析本身的正确率不是很高，因此，今后的方向将是针对这些问题作进一步的研究。

参考文献：

[1] 邓志鸿，唐世渭.Ontology研究综述[J].北京大学学报：自然科学版， 2002，38（5）.

[2] The Protege project，http：//protege.stanford.edu，2008.

[3] Sealable Web Data Extraction for Online Market Intelligence.B.Robert，G.Georg and H.Marcus. Proceedings of VLDB ， 2010.

[4] 赵波，陶跃华.ontology论及ontology论在计算机科学技术中的应用[J].云南师范大学学报，2002（6）.

[5] 陈兰.基于ontology的信息抽取系统的研究与实现[D].成都：电子科技大学，2004.

[6] 胡思康，曹元大.Web网页知识获取技术[J].北京理工大学学报，2006，25：12.endprint

2）对于vp（）结构，抽取出句子里的n（）（名词）成分和v（）（动词）成分，“/vn”表示名词，”/v”表示动词。

3）当np（）里面还存在vp（）或者np（）时，继续采用前面两个步骤进行处理。

4）同样当vp（）里面还存在vp（）或者np（）时，也继续采用前面两个步骤进行处理。

实验结果表明，通过语法分析之后，输入的句子被转换成了包含对应的主语、谓语以及宾语等成分的词语串。

3 信息抽取模块的实现

首先形成一个关于可以匹配的词的关系链表，接下来的工作是匹配得到的关系链表，完成该功能的方法是Match（），包含下面四个步骤：

1）对于三元组里的主语，我们在链表里查询是否存在标识为“/nn”（代表句子里的主语）的成分。

2）当前面第一步成功了，对于三元组里的谓语，我们在链表里查询是否存在标识为“/v”（代表句子里的谓语）的成分。

3）当前面第二步成功了，对于三元组里的宾语，我们在链表里查询是否存在标识为“/vn”（代表句子里的宾语）的成分。

4）当前面三步都成功之后，一个三元组就从句子中抽取出来了，实验成功。

4 实验和结果

下面具体分析本文所实现的基于领域本体的Web数据抽取系统的性能：

5 小结

参考文献：

[1] 邓志鸿，唐世渭.Ontology研究综述[J].北京大学学报：自然科学版， 2002，38（5）.

[2] The Protege project，http：//protege.stanford.edu，2008.

[3] Sealable Web Data Extraction for Online Market Intelligence.B.Robert，G.Georg and H.Marcus. Proceedings of VLDB ， 2010.

[4] 赵波，陶跃华.ontology论及ontology论在计算机科学技术中的应用[J].云南师范大学学报，2002（6）.

[5] 陈兰.基于ontology的信息抽取系统的研究与实现[D].成都：电子科技大学，2004.

[6] 胡思康，曹元大.Web网页知识获取技术[J].北京理工大学学报，2006，25：12.endprint

2）对于vp（）结构，抽取出句子里的n（）（名词）成分和v（）（动词）成分，“/vn”表示名词，”/v”表示动词。

3）当np（）里面还存在vp（）或者np（）时，继续采用前面两个步骤进行处理。

4）同样当vp（）里面还存在vp（）或者np（）时，也继续采用前面两个步骤进行处理。

实验结果表明，通过语法分析之后，输入的句子被转换成了包含对应的主语、谓语以及宾语等成分的词语串。

3 信息抽取模块的实现

首先形成一个关于可以匹配的词的关系链表，接下来的工作是匹配得到的关系链表，完成该功能的方法是Match（），包含下面四个步骤：

1）对于三元组里的主语，我们在链表里查询是否存在标识为“/nn”（代表句子里的主语）的成分。

2）当前面第一步成功了，对于三元组里的谓语，我们在链表里查询是否存在标识为“/v”（代表句子里的谓语）的成分。

3）当前面第二步成功了，对于三元组里的宾语，我们在链表里查询是否存在标识为“/vn”（代表句子里的宾语）的成分。

4）当前面三步都成功之后，一个三元组就从句子中抽取出来了，实验成功。

4 实验和结果

下面具体分析本文所实现的基于领域本体的Web数据抽取系统的性能：

5 小结

参考文献：

[1] 邓志鸿，唐世渭.Ontology研究综述[J].北京大学学报：自然科学版， 2002，38（5）.

[2] The Protege project，http：//protege.stanford.edu，2008.

[3] Sealable Web Data Extraction for Online Market Intelligence.B.Robert，G.Georg and H.Marcus. Proceedings of VLDB ， 2010.

[4] 赵波，陶跃华.ontology论及ontology论在计算机科学技术中的应用[J].云南师范大学学报，2002（6）.

[5] 陈兰.基于ontology的信息抽取系统的研究与实现[D].成都：电子科技大学，2004.

[6] 胡思康，曹元大.Web网页知识获取技术[J].北京理工大学学报，2006，25：12.endprint

猜你喜欢

链表三元组分词

基于带噪声数据集的强鲁棒性隐含三元组质检算法*

基于链表多分支路径树的云存储数据完整性验证机制

链表方式集中器抄表的设计

电脑知识与技术

2014年16期

基于本体的网页数据抽取技术的研究

猜你喜欢

杂志排行

电脑知识与技术的其它文章