APP下载

基于本体的大型设备维修文本案例检索模型研究

2015-07-10张星

卷宗 2015年1期

张星

摘 要:大型设备领域的维修案例大部分都是以文本的形式存储,而维修文本案例有自己的结构特点。在本文中,我们建立起基于本体的大型设备维修文本案例模型,通过语义相似度算法,为大型设备维修文本案例检索带来了极大的便利。

关键词:领域本体;文本信息;语义检索模型

1 引言

随着网络时代的发展,网络上的信息量越来越大,而且很多网络信息都是以文本方式存储,同时也出现信息冗余现象。由于基于本体的检索更加注重语义上的匹配,在充分考虑维修案例结构特点的基础上,利用本体对该领域知识进行建模,能够有效地提高信息检索的查全率和查准率。目前,对无结构或者半结构的文本信息的检索研究的相对较少,因此,对基于本体的信息检索研究显得十分重要。

国外对于本体的研究处于领先地位,研究出了一系列本体的开发方法,例如骨架法、企业建模法、Methodology法等。国内对本体的研究起步较晚,主要研究内容包括产品信息建模、虚拟企业建模、常识知识库等。其中比较有影响的有中科院数学所陆汝铃院士领导的常识知识的实用性研究[1]。宋峻峰提出的基于本体的信息检索模型采用了描述逻辑作为构造本体的本体语言,使用本体中定义的词汇来标记文档,生成基于本体的文档逻辑视图和用户信息需求逻辑视图,从而可以实现语义层次的检索,使检索性能大大改善[2]。

在设备维修领域,半结构化的文本非常常见。在设备维修工作中,故障是最核心的概念,而且,该领域在知识表达方面缺乏统一的知识模型,这样很容易造成对同一个知识的描述存在不同的表达方式,这影响了相关人员对领域知识的理解。因此,针对目前大型设备领域对故障知识实际应用方面的需求,并结合该领域知识的结构特点,本文首先对该领域的知识进行本体建模,并在本体模型的基础上建立基于语义的检索模型。

2 基于领域本体的构建

2.1 文本维修案例结构的特点

文本案例是指以文本方式存在的文本案例。我们称以文本方式存在的关于大型设备维修的案例为文本维修案例。由于该领域的文本维修案例的结构和表达形式相对规范,因此文本维修案例是一种半结构化的文本案例,简称为文本维修案例。文本维修案例主要包括摘要、故障车辆的基本信息、故障现象、故障诊断过程、故障原因分析、故障解决方法等主要部分。

2.2 大型设备文本维修案例故障本体的构建过程

第一步是明确领域本体的专业领域和范畴:设备故障本体的专业领域是设备在使用过程中出现的故障、情境等领域;用户对象是设备领域的相关技术人员。构建设备故障本体的目标是利用本体的思想和描述语言组织故障领域知识。

第二步是领域信息的收集和分析:我们通过书本、网页等知识来源获取领域信息,经过对领域信息的分析,得到该领域中的重要概念集及相关体系结构关系。

第三步是确定核心概念:列出所有潜在的核心概念,经过识别、分析和统计,最终确定设备故障领域知识的核心概念,包括“摘要”、“故障件基本信息”、“故障现象”、“故障诊断”、“故障原因”、“故障解决方法”等。

第四步是建立概念层次结构:确定好设备故障本体的核心概念之后,再对这组核心概念进行扩展,建立起整个本体的概念模型。经过对核心概念的层次体系结构的扩展,总结得出设备故障领域本体的概念层次模型。

第五步是定义概念和属性:概念层次结构建立起来之后,需要通过定义概念间的关系和属性来将这些概念连接起来。概念的属性一般分为两种,一种用于描述概念自身的信息和结构,一种用于描述概念之间的关系,即数值属性和对象属性,同时也要定义属性自身的性质。

第六步是本体编码:基于OWL本体描述语言应用Protege本体开发工具对概念模型进行形式化的编码,以便在计算机上能够理解。

第七步是实例化:故障领域本体借助Protege等本体构建工具自动生成符合OWL语法的库文件,然后采用手工方式在本体构建工具中进行实例声明、实例描述和关系关联完成大量的本体概念实例化工作。

3 基于本体的文本案例检索

故障知识的语义检索,是在本体建模的基础上实现基于设备故障领域概念的故障案例检索。根据输入的故障产品、故障现象、故障模式等检索条件,应用本体概念模型,语义检索引擎将检索条件映射到与其语义相关的概念上,应用规范的概念和相似度匹配算法进行检索,得到一组具有不同相似度的故障案例集作为检索的结果,从而可参考相似案例来解决当前的故障问题。本体映射采用XML映射配置技术,将用户查询条件映射为本体描述结构的三元组<概念,属性,匹配值>,进行查询条件三元组与本体模型三元组的匹配及语义推理。

图1故障知识语义检索模型图

语义检索的核心在于如何正确的定义和量化概念之间的“语义相似度”。最近邻法检索策略是一种应用较为广泛的语义相似度算法。基本思想是从多维度空间概念集中找出与目标概念最近的概念,概念的每一个特征属性即是一个维度。最近邻法检索的语义相似度函数如下:

(1)

表示概念A和概念B之间的相似度;为第i个特征属性的权重,;n为检索属性的个数;为第i个特征值的语义相似度函数,反映了两个特征概念之间的某种语义关系。根据概念词汇的可替换度和词义的符合程度,对应的相似值也不同。其对应的基于本体的文本案例检索模型如下图所示

图2基于领域本体的语义检索模型

4 结论

根据大型复杂设备文本维修案例这一领域中文本案例自己的结构特点,本文选择使用基于本体的方式对该领域的文本案例进行知识表示,将该领域中繁杂无序的知识以一定的结构层次展现出来,给该领域进行信息的检索带来了极大的便利。同时,针对文本信息的检索,我们设计了一套适合该领域信息检索的算法,最后本文给出了基于本体的文本案例信息的检索模型。

参考文献

1.中国科学院计算机技术研究所陆汝铃院十研究方向及主要科研成果[EB/OL]

2.宋峻峰,张维明,肖一东,唐九阳.基于本体的信息检索模型研究[J].南京人学学报.Vol.41,No.2, 2005.191-195