APP下载

基于Logistic函数的《同义词词林》语义相似度计算

2021-01-27

计算机与现代化 2021年1期
关键词:计算结果语义编码

杨 泉

(北京师范大学汉语文化学院,北京 100875)

0 引 言

词语相似度计算在人工智能、知识管理、自然语言处理等诸多领域都有着广泛应用,其主要任务是研究用什么方法来计算或比较2个词语的相似度[1]。词语相似度是随着计算语言学发展而产生的一个概念,指一种语言中任意2个词语之间相似或相关的程度,其中“相似度”是指意义相同或相近的同义词之间的相似程度;而“相关度”是指非同义词之间相互关联的程度。例如“轿车”与“汽车”是同义词,在语义层面是相似关系,应计算其相似度;而“轿车”与“旅游”是非同义词,在语义层面是相关关系,应计算其相关度。关于中文词语的相似度计算也受到了重视[2],词语相似度计算逐渐成为自然语言处理中的基础性工作,准确简洁的词语相似性计算方法在更高层次的语言学应用中起着重要作用。

在语言学领域中,词语辨析和比较的范围一般是在同义词之间展开的,大多会从语义、语法、语用等多个层面进行对比。受语言学研究及中文信息处理发展水平所限,目前在自然语言处理的大部分实际应用中,词语相似度计算主要是语义层面的计算,即语义相似度计算,它是指一种语言中任意2个词语之间在语义层面上相似或相关的程度。文献[3]认为自然语言的词语之间有着非常复杂的关系,在实际的应用中,有时需要把这种复杂的关系用一种简单的数量来度量,而语义相似度就是其中的一种。语义相似度值是词语的语义相似度的量化:值越大,2个词语间的语义越相近;反之,则2个词语间的语义差别越大。一般来说语义相似度的取值范围为[0,1]:当取值为1时,说明2个词语的语义完全相同,但是从语言经济原则的角度来看,一种语言中几乎不可能同时存在2个相似度为1的同义词,2个词语总是会在某个层面存在差异,以体现其存在的价值;当取值为0时,说明2个词语的语义完全不同,而且在意义上也毫不相关,但是众所周知语言是思维的物质外壳,而词语是概念的表达方式,在万物互联的时代,一种语言中几乎不可能存在2个完全不相关的词语。因而从理论上来看,一种语言中既不存在2个相似度为1的词语,也不存在2个相关度为0的词语,2个词语之间总是或大或小地存在着一定的相似度,或多或少地存在着一定的相关度,其具体的相似度数值对于人类认识世界及训练计算机模拟人类思维都起到至关重要的作用。

目前对于语义相似度计算方法公认分为2类:一类基于知识本体(Ontology)或分类体系(Taxonomy)进行计算;另一类基于大规模语料库或词向量进行计算。基于知识本体的方法依据人类对于世界知识的认识对词语之间的相似程度进行计算,一般都具有较强的理论依据,计算结果反映的是知识本体中蕴含的词语相似度信息;基于词向量的计算方法其结果反映的是训练语料中蕴含的词语相似度信息,因此2种方法各有优势,不能相互替代。文献[3]认为基于知识本体的方法简单有效,无需用语料库进行训练,比较直观,但结果受人的主观意识影响较大,有时并不能准确反映客观事实。基于语料库的方法比较客观,但是对语料的依赖性较大,需要在大规模精确标注语料的基础上进行,计算量大,计算方法复杂,比较依赖于训练时所用的语料库,计算结果受数据稀疏和数据噪声的干扰大。基于语料库的方法中,其基本假设是语义相似的词语,其上下文语境也会比较相似,因此会结合上下文信息进行相似性计算。随着深度学习方法的发展,特别是在更接近应用层面的任务中,使用大规模语料库经训练后得到的词向量表示可以重复利用,其计算和操作也十分方便,因此该方法在目前的研究应用中也较为广泛[4-8]。但在具体的词语语义相似度计算层面,2种方法各有特点和不同的典型应用场景。

根据文献[9]的研究结果,目前基于知识本体的语义相似度计算方法分为:1)基于本体的语义拓扑相似度计算方法;2)基于WordNet“IS-A”注释的计算方法;3)基于本体的词向量计算方法。第1种基于本体的语义拓扑相似度计算方法又分为:①基于路径的语义相似度计算模型;②基于信息内容的语义相似度计算模型;③基于特征的语义相似度计算模型;④基于图的语义相似度计算模型。WordNet是普林斯顿大学研制开发的大型英语词汇数据库,国外很多语义相似度测量方法是使用WordNet作为底层参考知识本体来实现和评估的。例如文献[10]在“IS-A”分类体系基础上提出了一种基于共享信息内容概念的语义相似度计算方法;文献[11]在WordNet层级结构中深度分布的基础上,提出了一种最近公共节点的概念下位词子图量化法。与国外以WordNet作为知识本体的语义相似度计算方法类似,国内研究汉语相似度的思路大多也是以某个汉语的语义词典作为知识本体,采用前述基于知识本体的某种算法进行汉语语义相似度计算。词语相似度的计算在更高层面的语言处理中的应用也逐渐受到重视,文献[12]将词语相似度的计算结果嵌入到词向量中,用于计算文本的情感倾向。

汉语可用的知识本体主要有《知网》和《同义词词林》等,其中《同义词词林》是由梅家驹等人于1983年编撰的可计算汉语词库,经哈尔滨工业大学研究人员扩展成为《哈工大信息检索研究室同义词词林扩展版》,本文简称其为《词林》。文献[3]较早地对《知网》的知识描述语言进行形式化表达,并给出了一个判定语义相似度的计算模型。但也指出《知网》的框架与WordNet框架有着根本性的不同,这也给相似度计算带来了很大的困难。汉语知识体系中,《词林》层级体系与WordNet框架更为接近,其最大共同点是:概念是描写词义的最小单位,每个概念都是这个层次体系中的节点。运用基于知识本体的方法计算语义相似度时采用《词林》作为底层框架更具可操作性。事实上,国内相关研究人员也提出了很多基于《词林》的语义相似度计算模型。然而《词林》与WordNet在层次设计上也有很大不同,《词林》中所有叶子节点与根节点距离都具有相同的深度,而WordNet中却具有不同的深度。因此直接使用基于WordNet的计算公式,就会出现得到的相似度只能取到几个有限值的情况,无法体现词对与词对之间的差异,为解决这个问题,研究者提出了各种应用于《词林》的基于深度和距离的改进方法。文献[13]利用《词林》的编码及结构特点,结合词语的相似性和相关性,实现了一种基于《词林》的词语相似度计算方法。文献[14]在《词林》词语路径与深度的计算中引入边权重的概念,对不同层次的边分别赋予不同的权重。文献[15]根据《词林》中2个词语最近公共父节点的深度分别赋予不同的权值,结合2个义项在最近公共父节点中的分支间距设计模型,并且在深度和距离中又引入适当的调节参数。文献[16]认为《词林》编码体系是按从左到右依次递增的关系排列分支,距离越近的概念分支间隔越小,编码距离也越近,由此根据每个分类节点下面的分支节点顺序及编码规律设计了计算模型。

以上这些计算模型在结果与其文中的判断标准Miller人工判别值还存在一定的差距。其主要原因在于这些模型在改进过程中主要考虑如何调整路径与深度的参数,而对于《词林》义项编码一般都是从数学计算的角度直接利用,没有从词汇学角度充分利用《词林》中的语言学知识,因此在语言学方面的可解释性不强。事实上《词林》作者在编著过程中就已经融入了世界知识及对汉语同义词的分类信息,其义项编码中含有大量语言学和词汇学知识,对于这些信息则应该充分解析并做形式化处理后告诉计算机。比如,“轿车”的语义编码是“Bo21A04=”,从语义的角度来看,第1位编码是“B”,大类属于“物”类;第2位编码是“o”,中类属于“机具”类,第8位编码是“=”,说明原子词群中还有与其意义相同的其他词语,查询《词林》后,该词所在的原子词群中有“轿车、卧车、小车、小轿车、小汽车”这5个词语。“汽车”的语义编码是“Bo21A26#”,从语义编码上看“汽车”和“轿车”的前5位义项编码相同,也属于“机具”类,且2个词语在同一个词群,只是分属于不同的原子词群。而“旅游”的语义编码是“Hj48B01=”,第1位编码是“H”,大类属于“活动”类;第2位编码是“j”,中类属于“生活”类,“旅游”从第一位语义编码开始就与“轿车”不同,因此从语义的角度来看,“轿车”与“汽车”的相似度一定大于“轿车”与“旅游”的相似度。从语法的角度来看,“B”大类多属于名词,“轿车”与“汽车”都是名词;而“H”大类多属于动词,“旅游”是动词。“轿车”与“汽车”词性相同,语义相近,是语言学意义上的同义词,可以计算其相似性;而“轿车”与“旅游”词性不同,语义也不相近,并不是语言学意义上的同义词,计算结果主要是其相关性。

《词林》在结构上的主要特点是节点深度最终决定词对之间语义相似度的不同,以深度为变量的相似度函数变化趋势与Logistic函数的变化趋势非常接近,相似度的取值范围又介于[0,1]之间,因此从函数与变量的关系及取值范围等角度来看,Logistic函数非常适合用来计算语义相似度。因此本文在充分解析《词林》义项编码信息内容的基础上,运用Logistic函数计算词语之间的语义相似度。

1 相关工作介绍

1.1 《同义词词林》简介

经哈工大扩展后的《词林》体系将词语分为5个层级:大类、中类、小类、词群和原子词群,上面4层节点都代表词语的类别,第5层叶子节点上是原子词群,每个原子词群可以用一个8位编码唯一表示,表1详细展示了《词林》中的义项编码情况,参见《哈工大同义词词林扩展版》网站:http://www.ltp-cloud.com/download。

表1 《词林》义项编码表

经统计,《词林》共有77456条词语,分为12个大类,95个中类,1428个小类,4026个词群和17817个原子词群。在大类中,A、B、C类多为名词,D类多为数词和量词,E类多为形容词,F、G、H、I、J类多为动词,K类多为虚词,L类是难以被分到上述类别中的一些词语。各大类具体代码含义如表2所示[17]。

表2 《词林》大类代码含义表

《词林》结构安排中,大类和中类的排序遵照从具体到抽象的原则,如E大类下面又分为6个中类,从“外形”到“境况”,具体见图1所示。

图1 《词林》E大类语义场

从语言学角度看《词林》各层级上的节点与其分支节点都构成一个语义场,语义场理论是德国语言学家特里尔(J.Trier)等人提出的,其核心任务是研究词语所表达的概念与概念之间的关系。语义场把相互关联的词汇或短语组织起来,某些词语可以在一个共同概念的支配下形成一个语义场,显示其间的相互关系。在同一个语义场中,表达共同概念的词称为上义词(superordinate),是这个语义场的核心语义;受上义词支配的若干个词语称为下义词(hyponym),下义词之间在语义上是相近或相关的关系[18]。从语义场理论的观点来看,《词林》体系就是由不同层级语义场构成的词语分类体系。在第一层级结构中,每个大类代码都表示一类不同的事物,如“A”代表“人”;“B”代表“物”;其他具体见表2,由此可以把每个大类都看作一个语义场,每个大类的代码含义就是这个语义场的核心语义。如果把E大类看作一个语义场,那么其上义词是“特征”,下义词是“外形、表象、颜色、性质、德才、境况”。在第五层级结构中,每个叶子节点上的原子词群都是一个语义场,一般来说原子词群中的第一个词语可以看作这个语义场的上义词,所有词语是这个语义场的下义词。另外根据末位义项编码的不同,每个原子词群语义场内部的词语间有相似、相关和独立3种关系。比如,编码为“Ae07A01=”的原子词群构成的语义场如图2所示。

图2 《词林》叶子节点“Ae07A01=”的语义场

由语义场理论可以为《词林》体系得出以下几个结论:

1)2个词语所在的大类对二者的语义相似度具有决定性作用。《词林》体系中,每个大类是最大的语义场,如果2个词语的最近公共父节点在第一层级,那么2个词语所在的最小语义场就在第一层级,2个词语的语义可能是同义或相关的关系;如果2个词语不在同一个大类下,那么这2个词语的最近公共父节点就是根节点,2个词语不在同一个语义场中,2个词语的语义可能相关,但一定不具有同义关系。

2)每个叶子节点上的原子词群都是一个最小的语义场,其中的词语相似度最大。在目前的《词林》层级体系和本文算法中如果2个词语在原子词群中,它们所处的语义场最小,公共父节点的深度最大,因此语义相似度也最大。

3)《词林》在编码时分类是渐近变化的,编码相近的词语其分类往往也是相近的,因此义项编码越接近的语义场其核心语义越接近,相似度就越高,所以使用分支节点的数量和信息具有重要的语言学意义。

4)《词林》体系中每个非根节点都是一个语义场,2个词语的最近公共父节点的深度越大,说明它们公共父节点的层级越低,2个词语所在的语义场越小,则2个词语的语义相似度越大。节点中的分支信息不能否定结论3中根据语义场理论及最近公共父节点深度的相似度计算结果。而且无论其父节点分支数量及间隔数量如何,公共父节点深的词语其相似度必然高于父节点浅的词

1.2 Logistic函数介绍

Logistic函数是机器学习领域中较为常用的一种S型函数,定义域为(-∞,+∞),值域为(0,1)[19]。它可描述物种数量随时间变化的情况,当一个物种迁入到一个新生态系统中后,假设该起始数量小于环境的最大容纳量,其数量就会随时间发生变化。初始阶段增长较慢,数量达到一定规模时增长较快,大致呈指数增长;然后随着种群数量开始变得饱和,增加再次变慢。Logistic函数的一种表示形式如下:

(1)

其中,P0为初始值,K为终值,r是衡量曲线变化快慢的标准。这个函数的曲线很像一个“S”型,所以又叫“sigmoid曲线”(S型曲线)。

2 基于Logistic函数的《词林》语义相似度计算模型

《词林》根据其编码规律,可以映射为一个5层的树状结构,所有原子词群都处在树形结构的叶子节点上,为了计算方便,本文在大类上面加一个根节点R,深度就是某个节点到根节点的距离,也是度量相似度的决定性因素。一般相似度函数S(s1,s2)的取值介于[0,1]之间,相似度越高的2个词语其语义相似度函数的取值越接近于1,相似度越低的2个词语,其语义相似度函数取值越接近于0。根据前面的分析,在《词林》中2个词语的语义相似度主要取决于其最近公共父节点的深度,公共父节点深度越大,说明2个词语所在分支分开得越晚,因此就具有更高的相似度,反之最近公共父节点深度越小,说明2个词语的语义相似度越低。因此语义相似度函数S(s1,s2)的主要部分可以看作(s1,s2)最近公共父节点深度d的函数,且d越大,S(s1,s2)的取值就越大,d越小,S(s1,s2)的取值就越小。

《词林》采用层层分类的方法对语义进行组织和编码,使得语义的编码意义更加清晰和明确,使词语的组织架构更加简洁。但这不可避免地带来了节点深度取值变化较少,无论2个词语的位置关系如何,其公共父节点的深度仅能取到少数几个数值,因此当采用深度的函数表达式来计算语义相似度时,函数的值域是一个取值有限的集合。这也就出现了相似度仅能取得几个有限值的情况,这种情况在基于WordNet的语义相似度计算中一般不会出现,而在《词林》中就难以避免。从某种意义上讲,之所以出现这样的现象也正是《词林》建立者所要表达的对词语相似度的观点。但这种仅取有限值的情况,在一定程度上也说明在《词林》中深度和路径所承载的信息,无法提供更精确的语义相似度计算结果。

为得到更精确的语义相似度,研究者需要从《词林》中提取更多的信息,加入到语义相似度计算模型中。首先人们能够想到的是给连接《词林》中2个节点之间的边上添加权重,如果每条边都有专属的权重,则对任意2组不同的词语,即使其路径长度相同,其加权后的路径也可能不同;其最近公共父节点的深度虽然相同,但加权后的深度也可能不同。因此这样就能够得到不同的加权路径和深度,从而得到不同的相似度值以便更好地刻画不同词对的语义相似度之间的差异。然而这样做的主要困难是在《词林》体系中的边上并没有权重信息,要给边加入权重信息,没有明确的度量标准和规则,同时也是一个与建立《词林》同样浩大的任务。所以前人文献中常见的折衷方案是对每一层级的边分别赋予不同的权重,而对同一层级的边赋予相同的权重,这样对《词林》的树形结构仅需赋予5个不同层级的权重。对不同层级的边赋予不同的权重,就是在不同的分类层级中赋予其对相似度不同的影响力,这从语言学上具有重要的合理性,而且在操作上也有很高的可行性。但仔细分析后可以发现,仅靠增加边的权重信息,然后用加权距离和深度的函数来计算语义相似度,并不能改变语义相似度取值有限的情况。因为对于路径距离相同的不同词对,其加权路径距离和加权最近公共父节点深度仍然相同,因此无论这2组词对所处的位置如何,采用相同语义相似度计算函数得到的语义相似度值必然也相同。

为避免词林中深度取值有限引起的相似度计算不够准确的问题,可加入节点处的分支情况信息。根据《词林》的特点,语义越近的词对其所在分支的间隔越小,因此把计算相似度的信息定义为:

(2)

其中,d为节点深度,N为节点分支总数,k为2个语义所在分支的间隔。

根据相似度函数取值介于[0,1]之间的性质以及h越大相似度越高的关系可知,相似度函数的取值范围及变化趋势与Logistic函数非常类似,因此本文给出基于《词林》的Logistic函数相似度计算模型:

(3)

其中,h如式(2)所示,为2个词语(s1,s2)最近公共父节点的深度和节点信息的组合,S0为初始值,M为终值,r为待定参数。根据Logistic函数的性质,该函数的取值介于[0,1]之间,且函数值随d单调递增。在Logistic函数中当h取0时,函数值为S0,此时2个词语所对应的最近公共父节点为根节点,且其深度为0,此时2个词语的语义具有最小的相似度,即S0,它是该模型计算出的语义相似度最小值。当h→+∞时,函数极限为M,所以M是函数取值的上界,且应保证h取最大值时P(h)小于1。r为调节函数变化快慢的参数,通过r可以调节除R及叶子节点外节点的函数值。

上述分析说明,在使用基于深度和节点信息进行语义相似度计算时,深度起决定性作用,节点信息能起到辅助作用,使得对相似度的描述更加准确。计算公式是真实语义相似度的一个近似形式,但语义相似度随h的变化,特别是在最初和最末的缓慢变化阶段,其变化速度并不对称。为了使计算公式更好地符合语言学规律,本文采用分段函数的思想,分段设计语义相似度计算公式。根据相似度随深度的变化规律,对不同深度采用不同的变化系数,本文给出如下分段的语义相似度函数:

(4)

其中,P1(h)、P2(h)是系数不同的Logistic相似度计算函数,h是深度与节点信息结合后的相似度计算变量。在公式(4)中根据h取值范围,取介于最大值和最小值间的2.5为分界点,在两侧分别设计不同的相似度计算公式。通过对人工判定测试和相似度深度的观察和分析,词语相似度在深度值较大和较小时变化都比较平缓,而在中间位置变化较快,虽然整体符合S型函数的规律,但深度较大部分和深度较小部分其变化趋势还是存在较大差异。因此本文提出了分段表示相似度计算函数的思想,以更好地表示词林中深度蕴含的原理,从理论上能得到更好的计算结果。

3 实验结果与分析

在基于知识体系的汉语词语相似度计算中,Miller与Charles发布的30个词对(以下简称MC30)的人工语义相似度判断结果常作为比较的标准,这30个词对中有10对词语的语义具有高相似性,有10对词语的语义具有中相似性,还有10对词语的语义具有低相似性[20]。本文采用MC30作为测试对象,主要是因为对这30个词对的相似度具有公认的相似度结果,方便本文结果与该标准结果通过计算皮尔逊系数及均方根误差等进行比较;另外前人的相关研究中很多也都是以此作为测试对象,方便将本文计算结果与前人的结果进行对比。本文将公式(3)和公式(4)得到的词语相似度计算结果和文献[14-15]列出相关计算结果中的最优者进行了比较。其中公式(3)中的系数分别为:

M=0.3603,S0=0.1265,r=0.9689

公式(4)中P1(h)中的系数为:

M=0.6638,S0=0.8268,r=0.1688

P2(h)中的系数为:

M=0.2819,S0=0.1090,r=0.6138

表3列出了不同方法对MC30的语义相似度计算结果与人工判定值的皮尔逊相关系数和均方根误差。

表3 MC30词对实验结果对比表

为了更好地测试本文所提算法的有效性,本文使用公式(4)计算了更多词对的相似度,计算结果均能较准确地反映出词对的相似度,但需要与具有广泛认可度的公开标准结果进行比较,才能更加客观地评价本文算法的计算结果。前面计算中使用的30对Miller&Charles发布的英语普通名词数据集来源于Rubenstein&Goodenough发布的65对名词数据集(简称RG65)[21],因此本文又选取了RG65对词语中剩余的35对词语的相似度计算结果进行测试,其完整计算结果及相关评价标准如表4所示。

表4 RG65剩余35个词对计算结果

从计算结果可以看出,无论是对已有文献中广泛使用的30对词语的相似度计算还是对剩余的35对词语进行相似度计算,本文提出的算法都能取得很好的计算结果,与标准结果的相关系数和均方根误差均达到较高标准。这是因为Logistic函数模型,其函数的取值随深度变化能很好地描述语义相似度随节点深度的变化情况。Logistic函数能够准确反映深度、节点信息与相似度取值之间的关系,符合《词林》中蕴含的词语相似度规律,且表达式具有较为合理的语言学解释性。

本文提出的基于深度和节点信息的语义相似Logistic模型,在深度较小的词对相似度计算方面,其语义相似度计算结果仍有进一步提升的空间。因为根据深度和节点信息结合后的取值不同,对较大取值和较小取值分别采用了不同的Logistic模型参数,使得计算公式能更好地表示词语相似度。计算结果表明,改进后模型的皮尔逊系数和均方根误差均优于文献[14]中的最好结果,该文献中给出的计算结果是基于《词林》和《知网》2个知识体系的计算结果。该文献中给出计算结果的皮尔逊系数,就笔者目力所及是已有关于中文MC30词对相似度结果中最高的。本文还随机生成大量的词对并计算它们的相似度,在笔者看来,这些结果都比较符合基于语言学知识的判断,但没有可对比的标准结果,在此不再一一列出。此外,文献[14]和[15]中还列出了一系列其他方法的计算结果,但这些结果均不及本文所引用的这2组结果,在此不再罗列对比。

4 结束语

本文通过一系列计算与研究,得出以下结论:

1)语义相似度计算本质上还是一种语言中词语之间的对比与辨析问题,单纯从数学角度去计算词语之间的语义相似度背离了其本质问题。如果在设计算法模型的过程中,能将语言学理论、词汇知识、分类体系等一系列相关内容信息融入到计算模型中去,所得结果一定会事半功倍。本文研究发现,目前词语相似度计算与人工判定值存在差距,知识本体中的语言学知识利用得不够充分是一个重要原因。如果能综合运用语义、语法、语用等多种语言学信息进行计算,则所得词语相似度计算结果一定会更加合理。从语义的角度,可以给词语标注其所属的语义场信息,如上义词、下义词或同义词、反义词等。从语法的角度,可以加入词性信息,在词性信息的基础上再加入各类不同词性词语的具体特征,如名词和动词可以标注其配价信息,形容词可以标注褒义或贬义信息,程度副词可以标注等级信息等。从语用的角度,可以在词语后面标注其语体特征,比如该词语是口语还是书面语:如果是口语语体可以具体标注为日常口语体、事务口语体、典雅口语体、论战口语体等;如果是书面语可以具体标注为新闻语体、理论语体、应用语体或是文学语体等。如果将这些语言学知识都加入到知识本体中,再利用数学模型计算其相似度值,所得结果一定会更为精确。由此看来,如何为词语全面标注语义、语法、语用信息的可用语言知识本体应该是下一步的研究方向。

2)计算结果与人工判定结果的差异需要在语言学上有更深层的解释。词语相似度是计算语言学领域中的概念,其思想可能源于传统语言学领域中的同义词辨析,同义词的辨析方法可以从同义词语的语义属性、语体色彩、组合关系中的不同搭配、聚合关系中的不同替换等多角度进行[22-23]。一般人在判断同义词的相似度时,受到的影响因素会比较复杂,可能会潜移默化地受到上述几个方面的影响,而不是单纯从语义角度去判断2个词语的相似度。因此仅依据语义建立的计算模型不可能与人的判断结果完全一致,只要能从理论上认定这种算法的合理性,对于差异的部分还是要重新审视知识本体内部结构,而不是单纯修改模型参数。

3)在语言学领域进行对比和辨析的通常是同一个语义场中的一组词语,它们在语义上通常具有相近性或相关性,映射到《词林》体系中一般是一个原子词群内部的词语,也就是说计算同一原子词群内部词语之间的相似度更有实践意义。然而由于《词林》框架设计原因,目前基于《词林》的语义相似度算法都是针对不同原子词群间的词语进行的,相同原子词群内部词语间的相似度判别还需要加入更多的信息内容,如何为其添加相关信息是下一步需要重点关注和研究的内容。

4)本文算法是在知识本体基础上,对语义分类词典——《词林》中所蕴含的词语相似度的数学描述。当前本领域词语相似度的计算目的更多的是作为直接应用的基础构成部分,例如在句子相似度计算、情感分析等具体应用场景中,用于计算其中相应词对的语义相似度,进而提高这些应用中自然语言处理的整体水平。另外基于知识本体的计算方法不受具体语料的限制,具有很好的适应性和灵活性。例如当词向量训练语料中含有同形异义词时,可以先通过词语相似度确定其真实意思,再进行词嵌入训练,从而提高词向量的准确性。本文提出的核心算法简单易用,可以方便地嵌入到各种基于词向量的自然语言处理的应用中,发挥其作用。

猜你喜欢

计算结果语义编码
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
不等高软横跨横向承力索计算及计算结果判断研究
语言与语义
子带编码在图像压缩编码中的应用
Genome and healthcare
趣味选路
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
超压测试方法对炸药TNT当量计算结果的影响