APP下载

知识创新网络中的知识融合机制研究*

2021-01-29谢雨杉

科技与创新 2021年2期
关键词:本体阈值对象

郭 韧,谢雨杉

(1.华侨大学工商管理学院,福建 泉州 362021;2.吉林大学管理学院,吉林 长春 130022)

知识及其主体间的交互、合作、联接构成了知识创新网络。各主体的知识在结构、表达上存在着差异性,影响着其吸收和应用,导致知识网络中虽存在大量的知识,却不能被有效利用的现象。把知识变成各主体可接受的形式,积累和产生新的知识,可以提高创新网络的效益。如何将知识分解融合为可被创新主体利用的知识,以及如何由知识的相互作用形成新的知识已成为各个领域关注的焦点。

YAGER 等人(1997)利用模糊度量的概念,建立了考虑了多个信息源的融合问题[1];XIE 等人(2005)在信息集成的基础上,建立一个XML 数据知识融合模型和KF-based信息访问架构[2];SAWARAGI 等人(2002)提出了一种将人类专家的数据和知识融合在信号理解任务中进行部分自动化的新方法[3];SMIRNOV 等人(2015)进一步研究了基于上下文的知识融合模式[4];狄强(2017)设计实现了对网页语义数据的抽取,知识的链接、扩展和融合[5]。知识融合涉及的领域广泛,在不同的应用领域各有特点,基于流程化的视角寻求研究的简单归一化和全面高效化,现有的研究中对融合规则的定义和流程化算法较少。很难从效率和实用性进行比对,挑选出最适合相应场合的融合算法。在典型流程化算法的基础上,基于匹配规则的融合算法更具有实际操作性。

1 知识创新网络知识融合过程

知识因子是知识创新网络下的最小单位,通过知识因子融合可以产生新的知识,新的知识加入知识创新网络等待下一次与其他知识结合产生新的知识,在不断融合的动态过程中体现知识创新网络的价值。网络中枢组织与网络附属组织在知识架构平台上共享知识资源,并就此开展一系列的知识管理和知识创新行为。知识创新网络不仅包括知识因子,还包括知识之间沟通交流的通道——知识架构平台以及整个知识创新网络的知识资源总和。知识通过知识架构平台共享交流,原有的和生成的知识资源集合在一起称为知识资源总和[6]。

把来自不同主体异构性的知识进行组合、转化并融合,产生易于流动和符合要求的新知识[7]。不仅可以实现知识集成化与协同工作、提高知识品质,还有益于新知识的发现。知识融合是多要素作用的系统过程,一般包括4 类数据模型,即知识源(存储知识的实体)、知识表达(如本体、元知识等)、融合算法集合与规则集合以及吸收先验知识后不断更新的约束集。主要包括三个功能模块,分别为知识的表达、融合算法的设计与实现和解知识空间。通过知识融合技术,将知识网络中海量的知识,变成能够真正满足用户需求的知识,提高网络服务的效能。概念化表示为KF=〈KN,UN,O,M,R,f〉,其中,KN表示知识创新网络,是知识融合依赖的环境;UN表示用户需求,知识的融合实际上是寻找知识对象,或者是一组知识对象,使他们能够尽可能地满足需求;O表示知识融合过程中知识的表达方式,是对知识单元的刻画与描述;M表示知识对象之间的比较项;R表示融合过程的一切规则,如匹配规则和约束规则;f是函数化表示的融合过程。

融合知识是以不同创新情景中的需求UN为基础,通过知识要求组织融合知识元。需要经过刻画本体或元知识O才能消除由于异构性产生的摩擦。M与R共同作用下可以判定出知识元之间是否可以融合,M提供比较量度,R提供准则,判定为可以融合的知识将通过函数f实现融合过程。

2 创新网络中的知识表达

2.1 从本体库到元知识

本体论是对某一概念化对象明确的描述性说明,知识以其所属领域为主导。领域本体是与特定领域有关的术语和词汇,具有良好的共享性、可重用性,在概念领域具有优良的特性,为逻辑推理提供了有效支持。知识网络本体库O中可被理解与识别的本体对象Oi为:

式(1)中:为知识对象的类;为知识对象的属性;为知识对象的值;为数据类型。

j的取值范围取决于具体的领域本体。本体对象很难直接在知识本身层面上进行操作,元知识通过数字量化形式更方便地进行知识表达。采用知识对象结合二元组集合的方式,知识对象的特征由元知识二元组的形式表现,更适合进行知识对象的融合处理。

将位于第k个知识库中的元知识集记为Sk,该元知识集的第i个特征对象属性记作,该对象属性的值记作,被定义为知识对象中的元知识,元知识集表示为:

知识创新网络中知识对象的数量、内容都存在一定差异,Sk的大小也会有所差别,为了实现元知识集到知识空间的转化,需要识别出元知识指向的是哪个知识单元,元知识集的第一个元素只用来表示对应的知识本体,而不代表具体特征。

对于异构知识元,要么将知识对象都转换为特定的表示形式,要么构造一种元知识生成算法,使不同知识对象自动用对应的算法进行处理。后者将差异性保留到了融合过程中,会对算法造成一定的局限;而前者的特征描述在融合步骤前就以统一的形式出现,有利于提高融合效率。将知识对象都转换为特定的表示形式,再生成元知识。

2.2 元知识的构建

元知识携带着所属知识单元的特点和主要内容,是知识融合过程的参与者。可以从知识中抽取出来的关键词,也可以利用人为的手段通过标注提炼出来。为消除知识创新网络的封闭性、网络性,用“信息协同标注”来分析元知识匹配度及关联度可以达到对知识对象序化的目的。标注是知识提供者或知识网络的管理人员对知识单元内容基于个人立场的简明概括。通过测序操作使知识单元按照相关性排列,从而使标注后的知识单元可以实现知识对象之间的融合。参与人员一般会从多个视角选择最符合知识单元的标注来描述知识对象。参与人员评判标准的统一性,可以避免重复、模糊等不规范标注的产生。知识创新网络中的知识是专家头脑智慧的集合,集中协同标注机制下,不仅集合了单个专家的智慧,还集合和发挥了专家群体智慧[8]。标注后的知识需要进行下一步的融合,利用协同标注生成元知识。

元知识构建的伪码如下:①生成知识对象的本体对象,根据标准转换成特定的表示形式;②利用集中式协同标注生成元知识集中除去第一个元素外的剩余(n-1)个元素;③根据知识对象与本体概念的对应关系,生成元知识集的第一个集合元素若没有在①中找到相应的描述,则新建此本体对象或关系描述后再执行①。

3 融合机制和算法设计

3.1 问题描述

元知识作为知识的一种标记,是知识属性和值的体现。知识融合中,经过了融合算法的处理,知识才可以进行比较、合并、协调。有两个简单的知识K1 与K2 可能存在很大的异构性,可能属于不同的学科和领域,但当应用于某一实际问题时,两者之间通过融合,形成了对解决问题有帮助的新知识f(K1,K2),生成的新知识规范化后加入到现有的知识创新网络中,同时可能需要对现有的知识K1 与K2 做适当的更新,而f的实现过程就是融合算法的设计过程。

从融合的动因上看,知识融合可以分为主动型与被动型融合,主动型不需要以具体问题求解为驱动力,融合结果可能恰好满足需求,是一种自演化过程。由于知识创新网络实际上是一种服务型知识网络,为一定的创新目标服务。知识创新网络通常是在用户的需求基础上,根据指令进行演化和融合,是一种被动型的融合过程,融合算法中的规则是提前定义好的,以问题求解为导向的融合算法。

从实现方法上看,构建基于匹配规则的融合算法,精确地实现知识的融合,计算对象是元知识。在元知识层面的匹配通过关系连接的算法得以实现,对应于两个知识本体的匹配就是一个关系全连接的过程。通过在匹配器中的运算,识别出两者的相似度,当高于相似度阈值时被选中,否则忽略。

3.2 基于匹配规则的融合方法

3.2.1 匹配函数与匹配规则

协同标注后,用模式匹配函数将元知识的相似关系进行定量地描述和表示,设X1、X2为两个待匹配的知识本体,x1、x2分别为其元知识集,p为两元素之间的匹配度。表示元知识x1和x2的匹配度为p。相似度需要通过匹配规则进行确定,知识表现为元知识集的形式,即BERNSTEIN 等人(2001)给出了一个用语义和结构两种匹配来确定相似度的通用匹配规则[9],章勤等人(2006)还使用了XML Schema 的匹配规则[10]等,在一定程度解决了地理、语句等方向的语义、结构等匹配问题。在知识创新网络中,知识统一由元知识表示,不存在结构无法匹配的问题,在于语义部分是否匹配,设置知识融合的匹配规则如下。

规则1:若元知识集Si,Sj的第一个元素与具有相同的公共子串St,则Sim1(Si,Sj)=length(St)/max[length(Si),length(Sj)],其中,length(St)为求字符串St的长度。

规则2:若元知识集Si,Sj第一个元素与是同义词,则Sim2(Si,Sj)=1,否则,Sim2(Si,Sj)=0。规则2 需要同义词库,需要根据知识创新网络的特征进一步建立。

规则3:计算元知识集Si,Sj的除去首元后的知识间相同属性比值,即:

规则4:若知识Si,Sj有相同的取值范围,则Sim4(Si,Sj)=1,否则,Sim4(Si,Sj)=0。

规则5:若知识Si,Sj有相同的数据类型,则Sim5(Si,Sj)=1,否则,Sim5(Si,Sj)=0。

前3 条规则是基于语言方面,得到的相似度用L表示,后两条的匹配规则是约束层面的规则,用C表示,由于知识创新网络的领域有所差别,用户的需求也可能对规则的需求有所不同,例如某些领域比较注重语言层面的规则,约束层面的规则可忽略不计,按照用户的需求为两类规则设定权值W,WL与WC分别表示用户设定的语言层面规则权值与约束层面规则权值,约定WL+WC=1。相似度加权合并后,元知识x1和x2的匹配度为

3.2.2 构建KFA-M 方法

知识创新网络具有异构性,语义逻辑关系之间不能直接协同工作,虽实现了知识对象的开放式构建,但对知识个体间的内在关系稍欠考虑,就导致一些匹配度不够的知识对象出现在结果中。基于协同标注与匹配规则,匹配度是可衡量的、量化参与比较的两者能否匹配的标准。各知识由元知识表达,可量化其匹配度,构建基于匹配规则的融合方法KFA-M(Knowledge Fusion Algorithm—Matching)。被动融合过程中,KFA-M 算法借助值域为[0,1]的语义贴近度函数来寻求最优化搜索目标,根据匹配规则计算出关联度达到阈值的知识进行融合。KFA-M 算法伪代码如下。

初始化知识对象集合S,将元知识规范化,作为元素纳入到S中;

初始化St=φ;

for(i=1,i≤n,i++)

for(j=1,j≤i,j++)

对∀KOi∈(S-{KOi}),判定KOi与KOj与之间匹配度大于阈值,则进行下一步处理,可分为3 种情况。

第一,KOi与KOj的同一属性具有相同的属性值,提取相同部分,作为处理结果。此法可提取知识间相同的属性及其属性值,得到具有归一性和代表性的新知识。

第二,KOi与KOj的同一属性具有相同的属性值,剔除相同部分的属性,将不同属性提取出来头尾拼接成为新知识对象个体的属性描述。探索去除掉相同属性值后的知识对象在拼接后是否会成为新的知识,具有新的特性。

第三,KOi与KOj的同一属性具有相同的属性值,剔除相同部分,差异部分各自保留,作为处理结果。探寻具有差别的两知识是否会更新产生与原知识完全不同的新知识。

处理过程中,若产生了新知识对象KOnew,则(S∪{KOnew})→S;继续循环执行上述步骤,直到对∀KOi∈(S-{KOi}),KOi与KOj之间不具有超过阈值的匹配度关系;(S∪{KOi})→St,跳转到第三继续执行,直到S=∅。

在分类研究中短文本相似计算匹配度超过0.6 时可分类准确率可达100%[11];知识比一般文本或数据的融合潜在价值高,匹配度较低的知识也可能融合成有价值的知识,在此算法中匹配度的阈值设为0.5。生成的St满足匹配度大于设定阈值的条件,则将St定义为知识状态。St与满足约束条件的知识集合相对应。知识状态St是围绕着需求的约束而形成的,St可以作为知识空间的求解单位。

3.3 解知识空间

在知识融合框架中,经过融合算法处理后的结果是以元知识集的方式表示的,每一组具体的描述对应一个知识对象个体,每一个个体视为一个节点。全体知识对象节点组成的集合为解知识空间,记作K,K中的知识域由描述知识状态相关或不相关的问题本体组成。知识状态是根据具体问题生成的,在问题求解时可直接使用知识状态为问题提供解知识。具体做法如下。

第一,按照问题对象知识对应的本体Op生成元知识Sp。

第二,对于所有与问题状态相关的知识状态St,在K中搜索与问题状态关联度最大的知识状态StMAX。计算每一个与问题本体关联的知识状态的关联度γ,并选出关联度最强的知识状态,伪代码如下。

第三,若StMAX对应的关联度γ大于等于关联度阈值(0.5),则该知识状态St与其对应的本体一起构成了该问题的解知识。将知识对象演化过程中各个知识节点间的关联度(0~1 之间的数字)通过矩阵的方式排列,得到了一个矩阵变换描述:知识节点的初始状态矩阵为A,全局演化矩阵为B,第n次演化的矩阵为Bn,B=B1B2B3…,演化结果状态矩阵为R,AB=R。为计算简便,A为上三角矩阵形式。由于B是A演化得来,B也符合上三角矩阵的特征:

而bij∈(0,1)得到结果状态R之后,矩阵中的元素则表示知识节点的演化状态。如果大于阈值,则坐标对应的两节点可以进行归约处理,归约的目标由各自的对角元决定。若其中一方以上的对角元节点取值rii小于湮灭阈值,则该节点进入湮灭状态,进入湮灭状态的知识对象表明其内涵已经无法支持需求且被使用的频率过低,可以被淘汰。

4 结论与讨论

知识创新网络中知识利用的有效性是网络性能的重要体现,异质性知识通过分解和融合能让更好地为主体吸收和利用。针对知识创新网络的特性通过本体和元知识表达知识创新网络中的异构知识简化了知识的结构,计算匹配度来确定知识之间的关联程度,提出了新的融合算法——基于匹配度的融合算法KFA-M;构建了解知识空间的概念模型,归纳了解知识空间的演化过程,为解决知识创新网络中的知识融合提供了一定的参考借鉴。

但在匹配度计算时权重需要人为设定,较易产生匹配度的误差。解知识空间仅提出了相应的演化模型,知识创新网络的不断更新,尚未使知识融合达到系统自适应的阶段。后续的研究将进一步分析演化的规律构建系统反馈与评估机制,对于知识融合步骤基本完成后根据实际效果得到反馈,并作用于知识创新网络,以便使其更加稳定。

猜你喜欢

本体阈值对象
继齐韵往昔,以今声开来——思考自五音戏主奏乐器的演变、本体及延伸
改进的软硬阈值法及其在地震数据降噪中的研究
土石坝坝体失稳破坏降水阈值的确定方法
基于小波变换阈值去噪算法的改进
晒晒全国优秀县委书记拟推荐对象
眼睛是“本体”
改进小波阈值对热泵电机振动信号的去噪研究
攻略对象的心思好难猜
图说车事
个性签名