APP下载

基于英、维匹配技术的跨语言领域本体构建方法研究

2018-07-05库都来提阿布都热合曼哈妮克孜伊拉洪艾斯卡尔艾木都拉新疆大学新疆乌鲁木齐830046

计算机应用与软件 2018年6期
关键词:三元组维吾尔语实例

库都来提·阿布都热合曼 哈妮克孜·伊拉洪 艾斯卡尔·艾木都拉(新疆大学 新疆 乌鲁木齐 830046)

0 引 言

本体在信息科学领域和人工智能领域中的作用越来越显著。本体是共享概念模型的形式化规范说明[1]。本体用来研究领域或更广范围的知识对象、分类和属性以及它们之间的关系,从而描述领域知识,本体中的所有的概念的定义必须明确且无歧义[2]。作为专业性较强的领域本体,其描述的是特定领域中的概念和概念之间的关系。在本体构建方面,国内外的文献中出现了一些较成熟的方法。文献[3]提出TOVE法是先建立本体的非形式化描述 后将这种描述形式化。文献[4]提出 METHONTOLOGY方法支持在知识的层次上完成本体构建。国内用的较多的本体构建方法是基于虚词表的方法,如唐爱民[5]提出了一种基于叙词表构建领域本体原型的方法。李景[6]提出的大规模本体开发环境原型系统(LODE)以农业叙词表为中心知识库基础。

而维吾尔语中本体的研究相对于英语和中文开始的比较晚,领域本体构建方法的研究也相对较少[7]。朱昊天等[8]提出基于跨语言本体转换的维吾尔语舆情本体。因此,本文的研究目的是通过提出一种新的维吾尔语领域本体构建方法来丰富维吾尔语中本体的研究及应用。

1 概念及重用本体集合

1.1 基本概念

本文在领域本体构建过程中主要基于概念、关系以及实例层次的构建。基本元素可以用公式表示[9]:

O=〈C,R,A,I〉

(1)

式中:O表示本体,C表示概念或者类的集合,R表示关系集合,I表示实例的集合。概念Concept或者类Classes在本体中意思相同,可以通用。

(1) 概念和类用来描述知识。任何知识都能够用概念具体化。一个本体通常由多个概念组成,形成概念集合。

(2) 关系Ralations用来定义概念之间的联系。关系分为等级关系和非等级关系。表1是几种常见的基本关系。

表1 本体中基本关系

(3) 公理Axioms。无需证明的不随时间变化而发生结论变化的概念、关系之间的关系描述。公理是构建本体模型的基础。

(4) 实例Instances是抽象类的具体实物。实例和类的区别并不明显。在构建本体层次模型时,最底层的抽象类充当实例的角色。当对最底层的抽象类进一步细分时,实例充当类的角色。实例的角色有新的最底层类充当。类和实例的角色是可以互换的。

(5) 三元组是一种信息的表达方式。一个三元组可表示为T={A,R,B}。在本研究中,A和B可以理解为两个不同的概念或实例,R同式(1)。

1.2 重用本体集合

概念在多语种环境下所表达的内涵是一致的[10]。司莉等[11]在论文中实验验证了跨语言本体技术在研究信息检索模型领域中的作用。因此在本文中,使用本体研究技术较成熟的英语领域本体进行重用来弥补维吾尔语中本体构建研究的不足。本研究所选择的领域为旅游领域,通过互联网等途径,收集构建维吾尔语领域本体所使用的英文领域本体集合EO。EO的公式如下:

EO={EO1,EO2,…,EOi,…,EOn}

(2)

每一个选择本体EOi都表示旅游领域中的部分知识库。其中需包含式(1)中所包含的概念、关系、实例,同时都体现旅游领域知识。本研究充分利用每一个选择的本体所体现的领域知识,将其中所包含的领域知识结合并进行处理。

2 领域本体构建模型

2.1 领域本体构建模型

构建维吾尔语领域本体的过程中,将该方法的实现分阶段进行。因此,构造出领域本体构建模型如图1所示。

图1 领域本体构建模型

领域本体自动构建主要按图1模型进行,主要分为三个步骤。

首先是收集领域本体,收集的本体必须包含所研究领域的知识。以三元组为单位,使用Apache Jena开源工程自动提取本体集合中的三元组[12]。

其次对提取到的三元组进行维吾尔语三元组匹配和整理操作。

最后基于处理后的维吾尔语三元组库进行领域本体的实现。完成领域本体的构建后,对构建的领域本体进行评价并完善。

2.2 领域本体的收集

研究中在Protege Ontology Library[13]与Swoogle[14]等互联网途径收集了3种不同的英语旅游本体。它们分别是:ETP-tourism.owl、Travel-ontology-ontologies.owl与TravelOntology.owl。虽然这些本体知识库都代表英语旅游领域种的知识,但是这些本体的领域侧重点也有所差异。如ETP-tourism.owl中类个数较多,而TravelOntology.owl中对象属性和实例个数较多。因此,通过对这些本体重用来构建的维吾尔语领域本体结构有所区别并规模也会较大,因此需要进一步处理并完善。

2.3 提取三元组集合及数据处理

2.3.1 Apache Jena

Apache Jena是目前已经被广泛运用于语义网应用[10]。Jena提供以下6个功能:

(1) 以XML、N-triples和Turtle格式读入、处理、存储RDF数据的API。

(2) 处理OWL和RDFS本体的API[15]。

(3) 基于规则的推理引擎,用于推荐RDF和OWL数据。

(4) 高效存储大规模RDF三元组到硬盘的功能。

(5) 基于三元组SPARQL的查询服务。

(6) 将RDF数据发布到其他应用程序的功能。

利用Jena提供的API能够访问RDF三元组。该研究的算法实现部分就利用Jena这一优势,对在三元组层面上对其进行研究。而且构建的实验平台可移植性高,可以运用到其他系统平台或其他领域。

2.3.2 构建三元组库ET

关系在领域本体中的重要性毋庸置疑,也是在本体构建过程中难度最大的[16]。在领域本体构建过程中,如果只收集领域知识中的概念,仍然无法知道这些概念之间的关联关系,也无法更好地表示该领域知识。如表2所示,在三元组库中主要有2种关系,等级关系与非等级关系。等级关系比较单一,表示包含与被包含关系。在本研究中使用概念和属性的等级关系。而非等级关系比较复杂,非等级关系是指除了等级关系之外的其他所有领域概念之间的关系。本研究主要选择3种非等级关系。

表2 三元组分类表

确定要提取的三元组形式之后,使用已收集的领域本体集合进行三元组自动提取并构建英语领域本体三元组库ET。表3是集合ET种概念等级关系的部分显示。构建的领域本体集合需保存三元组的来源与三元组本身,这样便于最后的结果分析。

表3 英语概念等级关系三元组库ET

2.3.3 元素匹配

在构建英文三元组库ET之后,对该集合的每一个三元组中的每一个元素进行维汉匹配。其中,在对英语本体三元组进行维吾尔语元素匹配过程中,需使用英语、维吾尔语词汇库。将英文三元组通过匹配转换成维吾尔语三元组并构建维吾尔语三元组库UT,此库中包含的三元组类型与ET中相似。需要说明的是,为了使用Protégé 5.0工具验证构建的领域本体的语法规则,在对维吾尔语三元组库中概念和属性的等级关系三元组在匹配时,只对概念词进行匹配,对关系词不需要匹配。但是,对非等级关系进行匹配时不仅对概念词进行匹配,同时也对关系词进行匹配。图2是元素匹配中等级关系匹配过程。C1与C2是英文概念,且C1是C2的子集。子集关系在Protégé 5.0工具中用Subclass_of来表达。C1通过利用英语、维吾尔语词汇库匹配来获取概念C1对应的维吾尔语概念UyC1,同理获取概念C2对应的UyC2。完成匹配之后将匹配后的三元组放入到UTi中。

图2 三元组等级关系匹配

3 基于三元组的本体构建

3.1 领域本体构建模型

本研究选择的领域是旅游领域,因此在本研究中使用的重用本体均表示旅游领域知识。它们的规模较小,所表示的领域知识不能完全涵盖这个领域。其中大部分都是该领域较顶端的领域知识。因此重用的本体出现了领域知识部分重叠等现象。表4为构建的部分维吾尔语三元组库。

表4 维吾尔语概念等级关系三元组库UT

可以发现,这些重叠的部分在三元组集合中的表现为:一些三元组会重复的出现。因此,需对三元组集合UT进行进一步处理。具体方法是:将重复出现的三元组关系删除,并将不符合维吾尔语语言规则的三元组进行修改或删除,提高三元组集合的精准度最终得到三元组集合UT*如表5所示。

表5 维吾尔语概念等级关系三元组库UT

3.2 构建维吾尔语领域本体

为了创建维吾尔语旅游领域本体UyTravelOntology,需使用处理过的三元组集合UT*,基于相同关系类型的三元组逐步扩充领域本体。其中概念词或属性词为节点,关系为连接关系构建维吾尔语领域本体。如图3所示,将表示相同概念的节点相互连接,最终实现规模较大的领域本体。

图3 维吾尔语本体构建过程

3.3 构建维吾尔语领域本体

在完成维吾尔语领域本体之后,通过Protégé 5.0工具对所构建的领域本体进行及基本语法验证[17]。图4为维吾尔语领域本在Protégé 5.0工具中的部分图的显示。从图中可以看出,构建的维吾尔语领域本体通过了Protégé 5.0工具的语法检测。之后再对构建的领域本体进行数据统计如表6所示。从表6中可以看出,构建的领域本体类、对象属性、数据属性与实例的总数为506大于任何一个收集的英语领域本体的总数。说明不仅完成了领域本体构建工作,同时也扩大了领域本体。此外,收集的领域本体中类总数为318,而构建的领域本体中类个数为278,说明领域本体中出现了重复的类节点。

图4 维吾尔语领域本体

表6 领域本体构建结果对照表

4 结 语

本文通过英文本体重用的方法来构建了维吾尔语领域本体,并提出了基于跨语言本体重用的维语本体构建方法,扩充了维文本体构建领域,实现了对重用的本体三元组提取。使用Jena开源工程搭建了领域本体构建平台,并证明了该平台的可用性和高效性。在接下来的研究中,主要是完善理论知识和领域本体构建的模型框架。通过扩充重用的本体集合,进一步研究提高所构建领域本体的规模。

[1] Studer R, Benjamins V R, Fensel D. Knowledge engineering: principles and methods[J]. Data & Knowledge Engineering, 1998, 25(1- 2):161- 197.

[2] Trinkunas J, Vasilecas O. Building ontologies from relational databases using reverse engineering methods[C]// International Conference on Computer Systems and Technologies. ACM, 2007:13.

[3] Tham K D, Fox M S, Gruninger M. A cost ontology for enterprise modelling[C]// The Workshop on Enabling Technologies: Infrastructure for Collaborative Enterprises. IEEE, 1994:197- 210.

[4] Fernández-López M, Gómez-Pérez A, Juristo N. METHONTOLOGY: from ontological art towards ontological engineering[C]// Proceedings of the Ontological Engineering AAAI-97 Spring Symposium Series. 1997.

[5] 唐爱民, 真溱, 樊静. 基于叙词表的领域本体构建研究[J]. 现代图书情报技术, 2005, 21(4):1- 5.

[6] 李景.领域本体的构建方法与应用研究[D].北京:中国农业科学院农业信息研究所,2009.

[7] Hankiz Y, Seyyare I, Askar H. A Mixed Method for Building the Uyghur and Chinese Domain Ontology[C]// China Conference on Knowledge Graph and Semantic Computing. Springer Singapore, 2016:124- 129.

[8] 朱昊天. 基于跨语本体转换的维吾尔文舆情本体构建研究[D]. 新疆大学, 2015.

[9] Perez A G, Benjamins V R. Overview of Knowledge Sharing and Reuse Components: Ontologies and Problem-Solving Methods[C]//Proceedings of the 16th International Joint Conference on Artificial Intelligence (IJCAI’99) Workshop KRR5: Ontologies and Problem-Solving Methods: Lesson Learned and Future Trends.1999.

[10] 吴丹, 王惠临. 本体在跨语言信息检索中的应用机制研究[J]. 图书情报工作, 2006, 50(9):10- 13.

[11] 司莉, 陈雨雪, 曾粤亮. 基于多语言本体的中英跨语言信息检索模型及实现[J]. 图书情报工作, 2017,61(1):100- 108.

[12] Benafia A, Mazouzi S, Benafia S. Building Ontologies from Text Corpora[C]// The International Conference on Engineering & Mis. ACM, 2015:28.

[13] Search travel ontology [EB/OL]. [2017- 04- 05]. http://swoogle.umbc.edu/2006/.

[14] Search tourism ontology [EB/OL]. [2017- 04- 05]. https://protegewiki.stanford.edu/wiki/Protege_Ontology_Library.

[15] 向阳, 王敏, 马强. 基于Jena的本体构建方法研究[J]. 计算机工程, 2007, 33(14):59- 61.

[16] Kavalec M, Vojtech S V. A Study on Automated Relation Labelling in Ontology Learning[C]// Ontology Learning from Text: Methods, Evaluation and Applications. IOS. 2005:44- 58.

[17] 李连倍, 刘胜全, 刘艳,等. 基于跨语本体重用的维语本体构建方法[J]. 计算机工程与应用, 2015, 51(11):104- 108.

猜你喜欢

三元组维吾尔语实例
时序知识图谱的增量构建
浅析维吾尔语表可能语气词
关于余挠三元组的periodic-模
一个时态RDF存储系统的设计与实现
维吾尔语数词历时演变发展研究
现代维吾尔语的词缀功能及从中存在的奇异现象的处理探讨
维吾尔语助动词及其用法
基于Spark的分布式并行推理算法①
完形填空Ⅱ
完形填空Ⅰ