面向提升东北亚航运中心信息化水平的语义检索研究
2017-08-07冯士轩张益民
冯士轩,张益民
(大连东软信息学院,辽宁 大连 116023)
面向提升东北亚航运中心信息化水平的语义检索研究
冯士轩,张益民
(大连东软信息学院,辽宁 大连 116023)
首先对东北亚航运中心信息化研究现状作了综述,介绍了本体构建的方法,在给出本体的形式化定义基础上构建了航运领域本体,并使用网络本体语言OWL加以描述。利用构建的本体对航运事故信息进行了形式化表示,给出了基于本体的语义检索系统的设计与实现过程,研究结果表明,本体在实现知识的语义化推理和智能化检索方面有明显的优势,能较大地提升检索的查全率和查准率。
本体;东北亚航运中心;语义信息检索;信息化
1 引言
2003年10月中共中央和国务院共同下发了《关于实施东北地区等老工业基地振兴战略的意见》,该意见中强调:“要充分利用东北地区现有的港口优势和条件,力争把大连建设成为东北亚地区最重要的国际航运中心;2006年国务院又将大连确认为继上海之后的第二大国际航运中心。政府的政策支持对大连乃至整个东北老工业地区都是极大的机遇,东北亚航运中心的建立能够增强其对经济的牵动和辐射能力,实现内地和口岸的经济互动,更能提升大连在亚太地区甚至全世界的重要影响。在东北亚航运中心的建设过程中,信息化的建设起着至关重要的作用,信息的及时获取与管理对提升该航运中心的服务水平和完善航运中心的运作效率有着极大的帮助。基于此,很多的航运管理中心相继建设了针对航运信息进行集中管理的信息系统,如:桑凌志等[1]针对水上交通事故调查处理,提出了一个协同事故系统的建设框架,旨在提升对航运事故处理的效率和透明度;肖智等提出使用J2EE技术的构建地方海事信息平台,力图实现对地区海事信息的大范围整合。然而,总体来看,当前的信息管理方式仍较为落后,基于关系型数据库的数据存储方式导致了大量信息分散存储在不同的地点,形成了一座座信息孤岛;另外,不同系统的设计模式、实现结构等存在着差异,使得不同数据间呈现了很大的异构性,对资源的信息整合提出了艰巨的挑战。究其原因,基于关系型数据管理的解决方案还是建立在关键字匹配的基础上,缺乏对资源对象语义方面的描述,更无法实现不同资源对象之间语义层面上的互连。
本体是起源于哲学的概念,它在哲学的作用在于“对大千世界中客观存在事物进行系统性地描述和表示,即事物存在理论”,它关心的是客观现象的本质抽象,是对客观存在性的系统说明和解释[1]。后来,相关学者将本体的概念引入了信息处理领域,Neches等人给出了最早的本体定义,他将本体定义为“给出构成某个相关领域词汇集的基本术语和关系描述,以及利用这些关系和术语构成的规定词汇外延规则的定义[2]。之后,Cruber又给出一个最经典的本体定义,即“本体是对某种概念化体系的规范化说明”[3]。
在人工智能领域,本体已经受到了广大学者的关注,并开展了广泛的研究,在信息资源管理、智能系统设计、知识的管理与组织方面都取得了较大的进展。因此,本文的工作主要在于:立足于东北亚航运中心信息化水平的提升,借助本体实现信息的语义化表示与智能化检索。本文的主要内容包括:先给出本体的构建方法,再参考本体的形式化定义给出具体的本体构建过程,之后基于实现基于本体的语义信息检索,以体现本体在知识重用与共享方面的优势,最后给出本文结论。
2 本体的构建方法
本体的构建方法主要包括以下几种:
(1)企业建模法[4]。该方法是多伦多大学的一个研究项目,目的是建立一套为公共企业和商业建模所使用的集成本体。同时,它设计并开发了一套评价本体的体系和方法。该方法包括的主要步骤如图1所示。
(2)骨架法[5]。该方法只提供了开发本体的方针指导,可用于描述企业之间定义和术语的集合,包括的主要步骤如下:
a.确定本体的应用范围。范围越大,本体构建的工作量也越大,所以要把本体的目标限定在合理的范围内,以保证本体构建的可行性。
b.分析本体。明确本体内的术语及其相互关系,对领域中的术语掌握得越多,本体构建的就越完善。
c.模型表示。使用语义模型描述本体,使之具备机器可处理的语义基础。
d.对本体评价。通过引用一致性、可扩展性、完善性和清晰性等标准评价本体的结果。
图1 企业建模法的步骤及流程
3 本体的形式化定义及构建过程
3.1 本体的形式化定义
本文使用由德国卡尔斯鲁厄大学所属的AIFB研究所提出的基本本体模型[6]作为本体的形式化描述方式,并以此为指导构建航运领域的本体。
定义 本体是一个五元组O:=(C,R,⊆,σ,A),其中:
(1)C是一个概念集合,C中的每一个元素称为概念(concept)。
(2)R是一个关系的集合,R中的每一个元素称为关系(relations)。C与R是两个不相交的集合。
(3)概念集C上偏序关系⊆,体现的是概念间的父类与子类关系,被称为概念的层次结构(concepthierarchy)。
(4)函数σ:R→P(C×C),其中,函数的作用是将R中的每个元素映射为C×C的子集,P(C×C)是幂集;
(5)A定义的是公理集合。
3.2 本体的构建过程
根据上述本体的形式化定义,构建如下的东北亚领域航运事故本体:
步骤①:构建核心概念集C。可参考相关的主题词表,如《交通汉语主题词表》对船舶的分类,构建相应的船舶类,通过对航运领域的进一步分析,提取其它相关的概念,构成核心概念集。概念集C的构建过程如下:
C={航运,船舶,商用船,军用船,科学考察船,事故,事故类型,碰撞事故,沉船事故,船员,船公司,事故地…}
步骤②:构建核心关系集R。使用对象类型属性可以描述概念间存在的某种语义关联,部分关系集Robject构建如下:
Robject={拥有的事故类型,事故所在地,公司拥有的员工,…}
使用数据类型属性可以描述对象与某些类型文字之间的关系,部分关系集Rdatatype构建如下:
Rdatatype={事故时间,事故伤害人数,事故描述,事故经济损失,…}
步骤③:构建概念集间的偏序关系⊆。⊆={<船,航运>,<商船,船>,<船类型,航运>,<碰撞事故,事故类型>,<事故等级,航运>,…}
步骤④:构建概念的映射函数σ。将关系R映射为C×C的子集,构建的映射函数σ如下:
σ={σ(拥有的事故类型)={<航运,事故类型>},σ(事故所在地)={<事故,事故地>},…}
步骤⑤:构建相关的公理集A。公理集可用于提供领域中事实和规则的描述,是语义推理的基础,公理集一般采用“如果-则”的形式表示。公理集A构建如下:
A={如果?x是事故类型,?y是货船,?z是船类型,?y碰撞了?z,?x受伤人数是?a,?a的人数大于1,?y与?z不相等,则?x可判定为是碰撞事故类型…}
4 基于本体的东北亚航运事故信息描述
依据上述本体描述,本文选取发生在东北亚大连地区的一起航运事件,以实例的形式说明事件的语义标注结果,并给出关于该碰撞事件的OWL描述,如下所示:
<!—事件的OWL语句片段-->
<owl:NamedIndividual rdf:about="事故&;锦乐 67 轮与辽普渔运13 碰撞事故">
<rdf:type rdf:resource="事故事故类型"/>
<rdfs:label>
锦乐67轮与辽普渔运13碰撞事故
</rdfs:label>
<受伤人数>12</受伤人数>
<事件描述>
渔船船体漏水,发生倾斜,需要救助。 ……
</事件描述>
<事故地点>
大连港进港航道H2浮附近
</事故地点>
<事故时间>2017-03-04</事故时间>
</owl:NamedIndividual>
5 基于本体的航运信息语义检索
本节首先给出基于本体的语义信息检索系统原型,之后给出Java实现的核心代码,最后对语义检索的应用效果进行分析,以揭示本文方法的有效性。
本文的语义检索系统原型如图2所示,并给出每个模块的详细说明。
图2 基于本体的语义检索系统
5.1 资源采集模块
资源采集模块用于对东北亚地区发生的所有航运事故信息进行采集,获取的资源渠道较为丰富,比如:从已有的资源库获取或者是来源于网络的信息资源。资源采集模块收集的数据大多数都是非结构化或半结构化的,且彼此之间是异构存在的,需要进一步进行语义化描述。
5.2 语义处理模块
在语义处理模块中需要对获取的各种资源文件进行元数据的描述,通过数据抽取、转换和装载获取原始数据资源,并对原始数据进行标注,使资源具备一定的语义信息,重组为语义元数据库,为进一步的语义检索提供基础。
5.3 本体管理模块
通过本体模块可以管理本体的构建过程,并不断补充、丰富和完善本体的词汇库,不仅可用于对资源的语义标注,也可以为基于本体的推理提供语义的基础,以提升东北亚航运中心的信息化水平,该模块是语义检索系统的核心。
5.4 检索模块
检索模块接受用户的检索输入,并通过本体标注自动实现将关键字检索向语义检索转换,由检索器控制整个转换的过程,并向推理机发出推理的指示。推理机通过调用事先存储好的公理执行推理过程,可以发现新的事实和知识,从而向用户返回语义层面的检索结果。以下给出基于JAVA实现语义检索的部分核心算法代码。//提取本体文件到内存模型中
Modelschema=loadModel(“…/filepath/…/本体文件.owl”);
schema=loadModel(“…filepath…/实例文件.owl”);
//读取规则文件到列表容器中
Listrules=rulesFromURL(“…/filepath/…/规则文件.rule”);
//创建执行推理的推理机对象
GenericRuleReasoner reasoner=new Generic-RuleReasoner(rules);
//设置基于Rete算法的正向链式推理方式
reasoner.setMode(GenericRuleReasoner.FORWARD_RETE);
//执行推理过程并在InfModel中保存结果
InfModel infmodel=ModelFactory.createInf-Model(reasoner,schema);
//将推理结果写回实例文件中
infmodel.write(newFileOutputStream(“…/filepath/…/资源文件.rdf”));
在传统的基于关键字的检索中,检索的过程只会按照提供的关键字执行“精确”或“模糊”的匹配,存在着较大的漏检与错检情况。而基于语义信息检索的优势在于根据本体事先定义好的语义关系,可借助推理机的推理功能,实现智能化的语义检索,扩大检索的范围和深度。以语义检索“事故类型”为例,在本体模型中,定义了“碰撞事故”、“沉船事故”等都是“事故类型”的子类,如果是以“事故类型”为输入对象,则智能检索系统会根据以上定义的语义关系,将检索的范围自动扩展为包含“碰撞事故”、“沉船事故”等所有类型的事故实例,从而提高信息检索的查全率和查准率。
6 结论
本文以提升东北亚航运中心信息化水平为目标,尝试性地引用人工智能领域中的本体技术,在介绍本体构建的方法与形式化定义后,给出了航运领域本体的具体构建过程。以此为基础,设计并实现了语义信息检索系统,从而实现了东北亚航运信息的智能化检索,提高了检索的查全率与查准率。
[1]朱礼军,陶兰,黄赤.语义万维网的概念、方法及应用[J].计算机工程与应用,2004,40(3):79-83.
[2]Neches R,Fikes R,Finin T,et al.Enabling Technology for Knowledge Sharing[J].Ai Maga-zine,1991,12(3):36-56.
[3]Gruber T R.A translation approach to portable ontology specifications[J].Knowledge Acquisition,1993,5(2):199-220.
[4]Gruninger M,Fox M S.Methodology for the Design and Evaluation of Ontologies[Z].Work shop on Basic Ontological Issues in Knowledge Sharing,1995.
[5]Gruninger M U M.Ontologies:principles,methods and applications[J].Knowledge Engineering Review,1996,11(2):93-136.
[6]Stumme G,Ehrig M,Handschuh S,et al.The Karlsruhe View on Ontologies[R].Karlsruhe,Ger.:Universitat Karlsruhe(TH),2003.
Study on Semantic Retrieval to Improve IT Level of Northeastern Asian Shipping Center
Feng Shixuan,Zhang Yimin
(Dalian NeusoftUniversity of Information,Dalian 116023,China)
In this paper,we first summarized the current researches on the informatization of the Northeastern Asian Shipping Center,introduced the method for the construction of ontology,then on the basis of giving the formal definition of ontology,constructed the ontology in the shipping field and used the OWL to describe it.Next,we proposed the formal representation of the information concerning shipping accidents using the ontology constructed and introduced the process of the design and realization of the ontology-based semantic retrieval system.
ontology;NortheasternAsianShipping Center;semantic information retrieval;informatization
F253.9
A
1005-152X(2017)07-0150-04
10.3969/j.issn.1005-152X.2017.07.032
2017-06-01
辽宁省教育厅项目“面向东北亚的贸易人才国际化培养体系和质量研究”(ZX2015SK010)
冯士轩(1971-),男,吉林珲春人,硕士,副教授,大连东软信息学院副院长,研究方向:信息学、教育学、语言学;张益民(1975-),男,陕西华县人,副教授,硕士,研究方向:高等教育、电子商务信息平台、个性化推荐、数据挖掘。