APP下载

基于HNC理论的本体知识库建设初探

2011-04-13

科技传播 2011年7期
关键词:插件知识库实例

陈 欣

解放军外国语学院,河南 洛阳 471003

在自然语言处理(Natural Language Processing,NLP)领域,如何利用计算机高效地理解和处理自然语言日益成为一个核心课题。自然语言处理须以语言知识为依托(黄曾阳,1998∶99),它包括语法、语用和语义知识,其中语法知识最早应用于自然语言处理。自20世纪70年代起,对语义知识的研究日益受到重视,研究者们相继提出了语义网络(Semantic Network)、概念依存理论(Conceptual Dependency Theory)、格语法(Case Grammar)等语义表示理论。这些理论的发展和应用使自然语言处理从语法层面深入到了语义层面,完成了形式到内容质的飞跃。

近年来,基于本体(Ontology)形式来表达和组织语义知识的方法成了人工智能领域的研究热点之一,Nirenburg和Raskin(2004)提出了一种基于本体的语义理论,即本体语义学(Ontological Semantics),在这个理论中,本体是析取和表示自然语言文本意义的核心资源。在自然语言处理中,语义分析需要庞大的语义知识库,20世纪80年代以来,国内外发展了一批语义知识库,著名的有WordNet、HowNet、北大的CCD等,从知识表示的角度来说,上述知识库都可成为本体知识库。

概念层次网络(Hierarchical Network of Concepts,HNC)理论是由中国科学院声学研究所黄曾阳研究员创立的自然语言理解和处理的理论体系,它紧扣建立概念联想脉络、模拟大脑语言感知过程这条主线,设计了一套符号体系来表达自然语言的语义知识。作为HNC理论的一大特色,精心设计的符号体系使得HNC理论的多个处理模块环环相扣。这种高度抽象的符号化表达方式新颖简介且便于计算机处理,但另一方面,其符号体系的独特性、系统性和复杂性也增加了人们学习、理解、发展和应用HNC理论的难度。与HNC符号化的表示不同,本体的表示可以将概念间的层次结构和概念之间的关系明确地表达出来,便于人们的理解和应用,同时用形式化描述语言的本体也可直接应用于自然语言的计算机处理。如果将HNC理论对概念的表述用通用的本体形式表示出来,无疑将促进HNC理论的发展和应用,实现人和机器之间的知识共享。

本研究将基于HNC概念基元符号体系所揭示的概念知识,探讨如何采用本体的方法和技术构建知识库,并进行智能查询。

1 本体知识库开发环境

本研究将采用Windows XP Professional SP1作为本体的建构环境与使用环境。所要使用的软件有本体编辑软件Protégé3.4.1和JRE。Protégé3.4.1的安装文件可从http∶//protege.stanford.edu下载,它集成了JRE的安装文件,因此无需单独下载JRE的安装文件。

2 本体知识库开发整体思路

综合分析常见本体知识库的功能和特点,紧密结合实际学习过程中的需求,以HNC理论为核心,建立一个本体知识库,并通过Protégé软件对知识进行管理,实现对知识的更新,达到使本体知识库高效率、高质量、低成本的建设目标。

3 知识库设计及主要功能

3.1 知识库体系结构(如图1所示)

图1 知识库体系结构

3.2 本体构建方法

现有的本体构建方法一般都是本体通过研究组织和团体本体项目开发的经验总结而来的,方法很多但相互之间又有重叠的部分,Noy和McGuinness提出了一个简单的知识工程方法——“七步法”,主要针对领域本体的构建。我们以编辑工具Protégé为例来说明本体构建的步骤。主要步骤如下:

1)确定本体的领域和范围;

2)考虑重用已有的本体;

3)列举本体中的重要的术语;

4)定义类及类的层次结构;

5)定义类的属性;

6)定义属性的限制条件;

7)创建实例。

3.3 知识库主要功能

基于HNC理论的本体知识库主要包括三大模块,即“HNC概念表示”模块、“实例”模块、“查询”模块,下面对每个模块做一介绍。

“HNC概念表示”模块。根据HNC概念节点的语义网络及其相互联系,在模块中把HNC概念以树形图的形式表示出来,通过此模块,我们可以更加清晰直观地观察HNC语义网络中各节点之间的关系,对我们更加深入地研究HNC理论大有裨益。在属于不同级别节点的概念间,我们也可以通过属性的设计建立联系,使概念更加网络化。

“实例”模块。在概念节点的底层我们可以建立实例来具体说明这一概念。下面我们以“飞机”实例来具体解释。比如,在“飞机”实例中我们可以建立不同的飞机型号,而不同型号的飞机的性能也不尽相同,在Protégé软件中,我们可以把不同“性能”进行赋值,从而完成实例的具体化和形象化,这也为进行智能查询进行了铺垫。

“查询”模块。Protégé自带插件String Search和Queries可提供检索服务。String Search插件只能进行简单的基于字符串的查询,且功能单一,对中文的支持性也欠佳,因此主要采用Queries插件实现本体知识库的智能查询。由于基于HNC理论的本体知识库中的术语由于定义清晰、表述准确,并在概念层次上是统一的,因此检索的时候不会返回重复的和无关的结果。本体中的概念描述主要是通过建立概念间关系和为概念定义各种属性来实现的,所以本体不但能对概念进行单独的描述,而且可以从整个领域的高度出发来描述概念,具有较强的知识表现能力,能够提供较高的查准率与查全率。

4 结论

基于HNC理论的本体知识库建设,对HNC相关概念及概念间关系进行了清晰直观地表述,并实现了智能查询,提供了较高的查准率和查全率。但是,知识库仍存在以下不足,首先是概念中具体属性间的联系无法建立,无法在深层次上进行知识表示,其次是随着HNC理论的发展,其扩展空间还很大,最后是使用的Protégé软件及其插件还有更进一步的扩展空间,以提高知识库的质量。

综上所述,基于HNC理论的本体知识库建设是对HNC理论的与本体知识库建设之间的有益结合,相信随着HNC理论的发展和本体知识库建设技术的进步,此研究还有更大的应用价值。

[1]Nirenburg, S.& Raskin, V.Ontological Semantics[M].Cambridge, MA: The MIT Press,2004.

[2]黄曾阳.在反思中前进在碰撞中成长[D].第二届HNC与语言学研究学术研讨会论文集. 北京:海洋出版社,2004.

[3]黄曾阳(口述),池毓焕(整理).HNC概念基元符号体系概览.HNC内部资料,2006.

[4]苗传江.HNC(概念层次网络)理论导论[M].北京:清华大学出版社,2005.

[5]郁书好.基于本体的教学知识库研究[D].河海大学硕士学位论文,2006.

[6]张克亮.面向机器翻译的汉英句类及句式转换[M].开封:河南大学出版社,2007.

猜你喜欢

插件知识库实例
自编插件完善App Inventor与乐高机器人通信
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
MapWindowGIS插件机制及应用
基于Revit MEP的插件制作探讨
完形填空Ⅱ
完形填空Ⅰ
位置与方向测试题