APP下载

语义网中基于相似度计算的本体映射研究

2022-12-06高慧星

网络安全技术与应用 2022年2期
关键词:异构实例本体

◆高慧星

语义网中基于相似度计算的本体映射研究

◆高慧星

(燕山大学里仁学院 河北 066000)

随着本体的应用越来越广泛,本体异构等问题也逐渐浮出水面。而语义网的基础就来自本体,成为当下自动处理大量信息的重要途径。本体的相似度计算也是语义映射等应用的基础。本文基于对本体的描述,进行对相似度计算的研究,对现存问题进行分析,对现有算法进行改良,并通过实例进行验证。

语义网;相似度;本体映射

本体的相似度计算是很多领域应用的基础,用来研究通过计算比较两个词语相似度的方法。我国在对语义相似度的计算方面起步较晚,方法研究还不够成熟,但进展飞速。很多专家学者在此方面的研究都有不小的突破,具有开创性的意义。针对我国当下现状,要对有关语义相似度的现存成果进行探讨分析,并指出未来发展方向。

1 本体映射研究背景

1.1 研究意义

语义网的核心是:通过万维网能够被计算机理解的语义,让互联网成为一个可以广泛通用的信息交换媒介。照目前情况看,应用万维网的主要方式是搜索和联系他人。但现在绝大部分网络机器无法对其进行解读,只能人工进行处理,而为了让其更容易被机器处理,同时方便结合智能技术[1],基于此,在1998年,语义网概念被万维网联盟的蒂姆提出。在语义网构成的体系中,本体负责进行语义的沟通,用于描述概念和概念之间的关系,提供某特定领域达成的共识。万维网数据极其分散,本体也是一样,而且本体的构建过程目前并没有一个明确的标准进行规范,不同的构建者会用不同的方式建模,得到内容和结构都不相同的本体。在实际操作中,有些项目需要多个本体协同工作,这些具有差异性的本体,会为知识表达语义信息的共享带来阻碍,这种现象被称为本体异构[1]。至于本体映射,指的是在一个领域内发现不同的本体之间有着相似甚至相同的语义,从而建立映射关系。本体映射可以消除上述的本体异构问题,促进信息的交流共享。在本体映射过程中,概念相似度的计算可以反映出异构的本体间的概念语义关系。由此,从语义网的角度来看,本体映射中概念相似度的计算对于其发展来说显得尤为重要[2]。

1.2 本体映射存在的问题

(1)效果和效率不平衡。本体内节点数过多会使效率下降,导致本体映射的效率和映射效果无法达到平衡。

(2)相似度计算不全面。当前绝大多数映射只看本体某些方面的信息来进行相似度计算,有一些隐含的语义信息被忽视,导致相似度计算的结果准确性不高[3]。

(3)通用性不高。系统开发要针对特定领域的本体,对其他领域应用并不适用,不具有通用性。

(4)标准不统一。对于映射结果的准确性事实上很主观,不同的专家会从不同方面进行考量给出截然不同的评价。

2 本体映射的相关研究

2.1 本体异构

(1)概念层异构:建模异构,采取UML或E-R图的方式建模。

(2)语言层异构:指描述语言的语法和语言表达能力不同。

(3)词汇异构:同一个词汇会在不同的本体中体现不同的概念,不同的词汇也可以体现同一个概念。

2.2 模型框架

本体异构妨碍了本体间的信息知识共享,在进行概念相似度的计算时,通过本体映射了解其间语义关系。本体映射的本质就是,存在本体A和本体B,A的任何一种概念意图在B中找到与其语义相同或相似的相对应的概念。源本体到目标本体的过程如下:

(1)特征提取。提取概念、属性、实例等本体特征,在计算相似度时为其提供数据基础。

(2)用户交互。分为提取候选概念和补充映射结果两部分。专家通过领域预定映射关系,错误匹配因此得以修正并依此进行重建。这种用户交互过程影响了概念的映射从而间接影响本体的映射,提高了映射的精准性[4]。

(3)相似度计算。相似度计算是本体映射过程中最核心的一部分。主要是以本体为基础,计算各种概念和特征的相似度。得到的概念相似度用0-1之间的一个数值表示。

(4)映射发现与解释。依据相似度计算得到的概念相似度进行选择最优的映射关系,并作出解释说明。

(5)迭代。在没有新的映射度出现之前,迭代计算相似度。

2.3 方法分类

每个本体映射系统会有多个匹配器产生的不同匹配算法,根据本体信息的类别可以将本体映射匹配方法分为以下几类:

(1)模式级匹配方法:模式信息指的是所有约束特征(实例数据除外),如:注释、属性、语义关系等。模式级匹配方法重点考虑的是本体的模式信息,忽视了实例数据[2]。

(2)实例级匹配方法:与模式级方法不同,实例级匹配方法只考虑本体的实例数据。此方法会运用多方面技术提取实例信息,然后据此进行相似度计算,如:概率论、神经网络等技术。

(3)元素级匹配方法:元素级匹配方法筛选出本体的概念和实例,使其保持独立,无需考虑与其他因素产生的联系。具体通过语言、约束、语义三种方法处理语义。

(4)结构级匹配方法:进行概念相似度的计算过程中,多多考虑与概念和实例有关的属性关系,父概念、子概念等。

2.4 常见的相似度计算方法

概念的描述通过语义表达式展现,计算相似度时要坚持,部分的相似是整体相似的前提。我们来假设分别有两个整体A和B,则第一独立义原即为A1、B1。

A=[A1,A2,...,An],B=[B1,B2,...,Bm]

此间的对应关系为mxn种。而对于语义表达式可以分为四个部分:

(1)第一独立原描述式Sim1(S1,S2)进行计算。

(2)其他独立原描述式Sim2(S1,S2)。其他独立原有很多个,首先把所有独立原进行任意的配对然后计算相似度[5]。得到最优相似度最大的组成一组。剩下的将最大的组成一组,反复进行至完成整个分组。

(3)关系义原描述式Sim3(S1,S2),将关系义原相同的组成一组计算相似度。

(4)符号义原描述式Sim4(S1,S2),和关系义原类似,将符号相同的组为一组计算相似度。

3 概念语义相似度计算方法的改进研究

3.1 基于名称

(1)同一个词汇具有不同的词义,相似度也随之不同,具体选择哪个语义有待考量。要把基于实例和基于名称的策略相结合,再对最终的相似度结果进行改良和优化。

(2)如果待比较的候补词汇是合成词,将它分解成单词序列这种方式达到的效果远远不够。应该完成对核心词汇和非核心词汇的提取,进行计算公式修正。

(3)Sense使用过多或过少都会为计算过程带来麻烦。应该运用字面概念和本体结构提高效率,在整个过程中只考虑深度这一要素来进行计算结果值。

3.2 基于实例

本体概念如果有相同的实例时概念可能相似,此过程忽视了实例个数的差异。对此要进行传统方式的改进,引进两个关键因素,即丰富度和差异度来进行语义相似度计算。

4 基于综合概念相似度计算的本体映射方法

4.1 本体映射过程总体结构

本体映射相似度计算分为概念名称、概念属性、概念实例和概念结构四个部分。在实际应用中,本体概念的数量、属性、实例等的计算量非常大,编程时很费空间。本体中概念间的相似度可以忽略不计,尽量减少概念对的计算数量。针对此问题,我们一定要确定异构本体中的两个概念是否相似,语义越相似,越有可能建立映射关系。相应的本体映射过程总体结构大致为:对本体A和本体B进行标准化及特征提取;进行用户交换过程;基于名称的概念相似度计算;提取候选对;基于属性的概念相似度、实例的概念相似度和结构的概念相似度进行计算;进行相似度综合;映射发现及输出[6]。

4.2 本体映射过程

(1)标准化及特征提取:本体的应用随着语义网的不断发展越来越普遍,如:信息的检索和集成、分类系统等。由于本体的表达方式多样,不同的专家会用不同的描述语言构建本体,其中参与映射的两个本体被转换成同一种描述语言的过程就是标准化。特征提取用来提取本体的特征词汇,如:本体概念和语义关系等。

(2)用户交互过程:此过程可选,无需用户参与,但结果质量不高。用户交互过程根据计算语义相似度选择候选映射对。

(3)基于名称的概念相似度计算:概念名称的相似度有时决定了两个概念的相似度。从语法和语义上来讲,对于没有被规定的概念计算机名称相似度,我们采用基于编辑距离的算法进行其语法相似度的计算。此处的编辑操作指:插入、改变和删除一个字符。据此分析,两个概念名称之间的编辑距离是1时只需要插入一个下划线,那么两者之间的相似度即为九分之八。由此可见,即使有些语法相似度低也能表达一种语义,两个概念名称语法相似度高也不能代表其概念相似。所以只看语法相似度便以此来判断概念名称的相似性不够严谨,整个过程中忽略了语义信息这一重要要素。

(4)映射发现:若想得到多种映射基数的映射关系,只需要选出相似度值高于阈值的映射对。除了最优映射,其他映射关系都被认为不正确,选择出最优映射就要删除其他相关映射关系。

5 结束语

随着时代发展和本体映射在各种领域的广泛运用,越来越可以体现概念相似度计算在研究进程中的重要性。虽然我们已经取得了一些成绩,但是有大部分问题还仍待解决,需要专家学者们进行进一步的研究和探讨,总结经验教训,及时进行改善,考虑更复杂的映射情况等,争取早日达到更高水准。

[1]张弛,周艳玲,张贯虹. 基于加权语义网的文本相似度计算方法研究[J]. 赤峰学院学报(自然版),2019,35(5):19-23.

[2]张弛,张贯虹,周艳玲. 基于加权语义网的改进文本相似度计算方法[J]. 邵阳学院学报:自然科学版,2019,16(3):18-26.

[3]Waheed,Yousuf,Ramay. 自动本体集成与语义网的语义注释[D]. 北京科技大学,2019.

[4]林龙成. 语义网中OWL本体概述及其构建方法研究[J]. 电脑知识与技术,2020,16(12):209-210.

[5]张芃. 基于关系数据库的本体自动化构建技术研究[D]. 中国科学技术大学,2019.

[6]王丰,王亚沙,赵俊峰,等. 一种基于迭代的关系模型到本体模型的模式匹配方法[J]. 软件学报,2019,30(5):312-323.

[7]兰美辉,范全润,高炜. 本体稀疏矩阵学习以及在相似度计算中的应用[J]. 西南大学学报(自然科学版),2020,301(1):124-129.

猜你喜欢

异构实例本体
ETC拓展应用场景下的多源异构交易系统
试论同课异构之“同”与“异”
眼睛是“本体”
多源异构数据整合系统在医疗大数据中的研究
一种基于社会选择的本体聚类与合并机制
吴健:多元异构的数字敦煌
完形填空Ⅱ
完形填空Ⅰ
专题
Care about the virtue moral education