一种基于设备指标参数的模糊匹配算法

2017-12-28李宁陈容容张宁中国航天科工集团三四研究所

数码世界 2017年11期

关键词：词序参量语义

李宁陈容容张宁中国航天科工集团三〇四研究所

一种基于设备指标参数的模糊匹配算法

李宁陈容容张宁中国航天科工集团三〇四研究所

近年来，制造业作为全球经济的主干正在起着带动全球经济再次发展的重担。以德国工业4.0、美国制造业复兴计划为主的新一代工业革命带动了全球制造业的快速发展。中国政府也推出了中国制造2025战略计划，旨在实现中国由制造大国向制造强国的发展。

模糊匹配算法是基于云计算的智能协同制造系统的核心，通过打通与各能力单元之间的关键资源、关键需求、状态信息等数据链，利用关键资源与任务聚集技术，形成最优化的制造能力集合。

本文提供一种在云资源环境下，海量设备制造服务能力与制造任务匹配的算法。根据制造资源与服务基于语义的建模方式以及形式化描述方法，可将服务资源描述信息划分为以下几类：

（1）概念词信息：例如服务名称等

（2）分句信息：例如服务基本描述。

（3）数值参量信息：包括数值区间和模糊数两类。例如服务成本区间或制造精度等。

目前的任务资源匹配的计算方法有多种，不同类型的描述信息具有不同的特征，因此针对每种类型信息应该采用对应的匹配方式对其进行计算。而目前针对云制造中的服务，缺少一个综合的相似度计算法对服务进行多维相似度度量。

针对以上问题，在构建的基于OWL-S扩展的制造云服务本体的基础上，针对三类不同服务描述信息，采用概念词匹配、分句匹配、数值参量匹配分别计算概念词相似度、分句相似度以及基于制造参数的能力约束匹配算法。

结合多种相似度来衡量服务间相似度，使得服务匹配度成为多维度量的准确结果，有利于提高服务匹配效果。

1 概念词匹配

概念词的相似度匹配计算方法采用基于制造领域知识的方法来计算。基本思想是，以概念间的结构层次关系组织组建的语义词典为依据，根据概念词之间上下位关系和同位关系来计算词语的相似度。本体中语义相似度计算主要影响因素有

（1）最短路径长度

首先，一种直接计算语义相似度的方法就是计算两概念词之间的最短路径长度。两个概念词的距离越大，其相似度就越低，反之距离越小，相似度就越高。因此本体分类体系树中，节点间的路径长度是重要考虑因素。

（2）层级差

本体分类体系树中，两个概念词所处节点的层级差也从另一角度表述了两者的距离。若层级差越大，表明距离越远，两者相似度越低；反之若层级差越小，表明距离越近，两者相似度越高。

（3）深度

在考虑节点间路径长度的同时，还应该考虑到概念词所处的节点在本体分类体系树中的深度，及该深度节点密度都会对相似度计算产生影响。处于本体分类体系树中较高位置的概念词，具有较广义的语义同时它们之间具有较低的相似性。

（4）信息共享性

根据基于信息内容的语义相似度计算方法的基本原理，如果两个概念共享的信息越多，那么两者的语义相似度就越大，反之如果共享的信息越少，相似度就越低。

概念词间的语义相似度由最短路径长度、层级差、深度、信息共享性四类主要影响因素决定。

2 分句匹配

分句相似度由关键词、词序和句长三个影响因素构成。

（1）关键词相似度

将分句看作分句中词语集合，利用概念词相似度的计算方法，分别计算资源与任务中所有词语的概念词相似度。

（2）词序相似度

为词语集合中每一单词设定唯一索引号，该索引号代表了该单词在句子出现的序列号，分别对资源词语集合和服务词语集合相邻序列号的逆序数求并取其绝对值，计算词序相似度。

（3）句长相似度

句长指句子中包含的所有单词的数量，并根据资源和任务描述的词语集中的个数计算句长相似度。

影响分句相似度的由三个因素中，关键词较词序和句长而言影响力更大。因此在计算分句相似度时，我们分别为关键词、词序、句长三个因素设置不同的权重因子。

3 数值参数匹配

云制造中，服务重要描述信息就是数值参数。数值参数可以分为区间数和模糊数两类，前者是用于描述特定的值或值区间，如成本范围或者发货时间；后者用于描述一些不确定参数，如模糊等级，模糊评价等。针对这两类数值参量，有不同的相似度计算方法。

（1）区间数相似度

服务请求者的服务请求为区间数时，当计算数值参量相似度时，服务中相关数值信息描述转换为区间数，对数值参量信息的匹配转变为对数值区间的匹配。

（2）模糊数相似度

在真实的制造任务中，常常出现定义的模糊现象，制造任务或需求的描述中很多概念具有模糊的、非定量的特点。例如，在对制造云服务进行服务质量评价时，现实中常常用的一些概念差、中等、一般、好、非常好等就具有模糊性。传统的量化表示方式很难合理的描述这类情况，模糊数学应运而生。模糊数学就是一种描述和加工模糊信息的数学方法，它在传统的经典数学与充满模糊性的现实世界之间架起桥梁，用数学的科学方法抽象描述了模糊现象的本质和规律。

为了让模糊性情况被机器识别和理解，将三角模糊数和梯形模糊数作为表述服务信息中模糊性因素的主要数值参量，即模糊数参量的相似度计算分为三角模糊数相似度计算和梯形模糊数相似度计算两类。

以表面处理的加工任务为测试用例，首先使用资源数字化建模方法从信息、物理构成信息、制造能力信息、状态信息、案例评价角度对设备资源进行建模，对生产任务以任务数字化建模方法从设备级资源进行描述，实现匹配，通过实验证明使用上述方法可有效的实现任务与服务的快速准确的匹配。