基于概念基元的词语相似度计算研究

2017-02-06池哲洁

电子与信息学报 2017年1期

池哲洁张全

基于概念基元的词语相似度计算研究

池哲洁*①②张全②

①(中国科学院大学北京 100049);②(中国科学院声学研究所北京 100190)

词语相似度的计算在机器翻译、信息检索等多个领域有重要作用。该文以概念层次网络理论的概念基元符号系统为语义资源，在共性与差异性对比思想下，提出一个涵盖层次性、网络性、对比对偶特性、挂靠特性及五元组信息的多维度词语相似度计算方法；在节点深度和节点距离度量上，引入权重以增加不同层次间的区分程度。在人工打分的测试集上进行实验，结果表明该方法计算的相似度与人工判断的符合程度较好，兼容度、相关系数和序对符合度分别达到0.812, 0.786和0.775；同时，相关性检验的结果也显示该方法的计算值与人工打分显著相关。

词语相似度；语义距离；概念层次网络；概念基元

1 引言

词语相似度的计算在机器翻译、信息检索、自然语言处理等多个领域具有重要作用。相似度反映两个事物间特征的重合程度，而词语涉及多方面特征，包括词法、句法、语义及语用等，但语义在相似度中的影响最大，因此，本文考虑词语语义相似度，主要是指词语在语义概念上的重合程度。在度量上，Lin[1]认为两个词语的相似度取决于它们的共性和差异性，并以信息论角度提出了相似度的计算方法：，其中，为词语间的共性信息，为词语间的描述性信息，一般由共性和差异性组合而成。Lin的方法给出了重合度度量的一个通用思想，本文以此为基础设计相似度的计算方法，并将相似度值限制在[0,1]。

目前，进行词语语义相似度计算主要有两种方法，一种是利用依托某种世界知识所构建的语义词典的方法，另一种则是基于大规模语料统计的方法。基于语义词典的方法主要利用语义词典将词汇按照语义类别组织在树状层次结构中的特点，考虑其中概念节点间的上下位或同位关系等，通过距离或信息内容来度量词语间的相似性。英语词语相似度计算主要基于WordNet，文献[2]通过考虑概念词与其最近公共父节点概念词的位置关系来计算相似度；Resnik[3]提出了直接利用最大公共祖先节点概念词的信息内容来计算相似度的方法；其后的改进方法一般都额外考虑节点深度、密度、语义重合度、概念频数、语义数目等因素进行综合计算[4,5]。汉语词语相似度计算多是采用《知网》来开展的，刘群等人[6]探索《知网》义原体系，采用上下位关系度量义原间的距离，利用距离和相似度成反比例的关系设计义原相似度计算公式，然后将词语整体相似度分解成多个义原对相似度的组合，对部分义原相似度进行加权平均得到词语的整体相似度；李国佳[7]采用义原信息量来计算概念间主类义原的相似度，并结合义原角色关系综合计算词语相似度；张沪寅等人[8]通过义原距离限制义原深度对相似度的影响而实现义原相似度计算的改进；孙晶等人[9]提出逆概念频率计算方法，并用于为不同义原定义权重，根据动态权重计算词的相似度。基于大规模语料统计的方法是建立在相似词语所处的上下文环境是相似的假设上，将词语相似度的计算转移到它们所处上下文环境的对比中来。Brown等人[10]基于平均互信息计算词语相似度；关毅等人[11]提取词语的上下文概念分布信息，利用相关熵进行差异比较，从而计算语义相似度；王石等人[12]采用词汇在二词短语中的搭配词作为其上下文，在自动构建大规模二词短语的基础上，使用tf-idf作为向量权重，构造直接和间接搭配向量，通过计算搭配向量间的夹角余弦，将其作为词语相似度结果。上述两种方法各有优缺点，基于语义词典的方法简单有效、直观且易于理解，但需要有完备的知识库支撑，一般人为构建的语义词典具有一定局限性；另外，它对于不包含在词典中的词语(未登录词)基本不具备处理能力。基于语料库统计的方法比较客观，并且没有未登录词处理的问题；不过其对训练语料的依赖性大，理论上，所使用的语料库对真实语言的代表性越好，则计算结果与实际越符合，但在实践中，构建这种“完美代表性”的语料库难度巨大；另外，该方法一般计算量较大，容易受数据稀疏和数据噪声的影响而出现错误。从优缺点角度出发，基于混合技术的词语相似度算法存在很大的发展空间[13]。

概念层次网络[14,15](Hierarchical Network of Concepts, HNC)理论是面向整个语言理解的理论框架，是中文信息处理的3个流派之一[16]。该理论立足于语言概念空间，通过构建概念联想脉络实现语言的理解。语言概念空间的基层是概念基元空间，其中包含一套概念基元符号系统，该符号系统由概念基元组成，具有层次性且采用基元化的语义定义，能够准确表达词语的语义内涵，适合当作语义词典使用。已有工作中，史燕[17]考虑了概念基元的层次性和五元组信息，基于距离计算概念基元相似度并利用组合符号实现词语相似度的计算；吴佐衍等人[16]根据HNC符号的编码规则和符号映射理论，综合考虑概念内涵、概念外部特征和概念类别信息，提出概念表示的相似度加权计算公式，然后考虑组合符号，实现HNC符号的相似度计算，最终利用词语和HNC符号的映射关系实现词语相似度的计算。上述工作中都考虑了概念基元符号系统的层次性以及一些外部特性，最终对词语相似度计算也起到了一定作用，但这些考虑并不全面，忽略了概念节点间的对偶、对比特性及网络性等对语义表示起很大作用的因素。本文以概念基元符号系统为基础，充分考虑语义网络设计的层次性及一些外部特性，同时考虑它们的对偶、对比特性及网络性，力图实现一个更加合理的词语相似度计算方法。

2 概念基元符号系统

本文的工作是以概念基元符号系统为基础，这里对该系统做基本介绍，更详细信息请参阅文献[14, 15]。

HNC理论注重抽象概念的表达，对于具体概念，主张采用近似的方案进行描述。语义网络是为描述抽象概念而设计的，它是由符号化的概念基元构成。语义网络中的概念基元具有层次性，可以用树状结构进行组织，并将所有概念基元的根记为LCS(Language Concept Space)。纵观整个语义网络，它是按“概念范畴－概念林－概念树－延伸概念结构”的方式从高到低进行组织的。以图1中的部分语义网络为例，a处在概念范畴层，其下有多个子节点，a1为其中一个，处于概念林层面，a14是a1下的一个概念树节点，其下又包含一系列延伸概念节点。HNC将概念树以上(包括概念树)部分称为概念基元的高层，在高层之后则是进入延伸结构，共两类，第1类延伸结构有3种：对偶性、对比性和包含性，第2类延伸结构也是3种：交织性延伸、并列性延伸和定向性延伸。

图1 语义网络节点示例

概念基元表达了概念的内涵，通常情况下，同一个内涵会有多方面的表现，这在自然语言中表现为词性现象，而在HNC中则是通过五元组来体现的。五元组包括动态、静态、属性、值和效应，分别对应符号v, g, u, z和r，将五元组符号作用到语义网络中的节点，则可形成同一内涵概念不同侧面的表示。

将语义网络中表示内涵的概念基元符号和表示外在特征的五元组符号基于一定规则组合起来形成HNC符号。由HNC符号表示概念的这一套系统我们称为概念基元符号系统。自然语言中的词语与概念基元符号系统中的符号存在映射关系，由人工将这类映射关系组织起来形成词语-概念基元映射表，使用该映射表，可以将词语相似度的计算转移到概念基元空间中。

语义网络中的概念基元除了具有层次性，还具有网络性，也就是关联性。一方面，上下位的层次关系本身带有关联信息；另一方面，处于不同子网络下的概念基元间也可能存在关联，如“a63e219”(综合分析性理论)与“811”(思维活动的综合与分析)有很大的关联性。这类不同网络间的关联无法通过表层符号直接体现出来，目前的一个解决方案就是人工构建这种隐式的关联，以概念关联式的形式呈现。HNC理论定义了10种沿袭逻辑关联，此处将其总结如下(括号内为对应关联符号)：强关联(≡)、强交式关联(=)、强流式关联(<=)、强源式关联(=>)、包含(%=)、属于(=%)、对应(:=)、等同(=:)、定义(::=)、虚设(==)。

3 词语相似度计算方法

利用概念基元符号系统的组织和编码形式以及词语和HNC符号的映射关系，本文提出基于概念基元的词语相似度计算方法，主要步骤为：首先提出不含组合符号的HNC符号(称为单一HNC符号)间的相似度计算方法，进而考虑其组合形式的计算，最后利用词语和HNC符号的映射关系，实现词语的相似度计算。

3.1单一HNC符号相似度计算

在HNC符号相似度计算上，本文将从层次性、对比对偶特性、网络性、挂靠特性及五元组信息等多个维度充分考虑各符号间的共性和差异性，在此基础上设计相似度计算公式。

3.1.1概念基元相似度计算基于共性和差异性对比的思想，概念基元间相似度计算的通用公式为

(3)

3.1.2对比、对偶特性的度量语义网络中对相似度计算起主导作用的是层次性，不过其对比、对偶特性也不容忽视。对比性是指共寓于同一高层概念下的一组概念，彼此间存在量的差异；对偶性则是指一组概念彼此间存在质的差别。对比中处于两端的概念以及对偶中表示对立和对抗的概念常常构成反义关系，从而影响相似度；而对比其他位置的概念及普通对称关系也会加大概念间的距离。本文将这两部分的作用考虑进概念间的差异性，通过适当放大概念间的距离来减小相似度。在计算上定义一个差异性缩放系数作用于带权节点距离,的计算方法如式(4)：

3.1.3网络语义关联的度量除了层次性及对比、对偶特性，语义网络中还需要考虑的一个因素是网络性，即概念间的关联性质，此处主要考虑不同语义网络间的概念关联，这方面的度量需要借助已构建好的概念关联式。本文将关联性作用到概念间的共性上，采用一个共性缩放系数来度量不同的关联类型。本文考虑关联性较强的8种关联，将其分为4组，则的计算方法如式(5)：

3.1.4挂靠类型语义关联的度量挂靠是HNC概念表达的一种常用方式，在表示上，直接将一个概念符号与相关概念的符号拼接在一起。例如，表示“交通工具”的“pw22b”就是直接把具体概念“pw”(人造物)和基元概念“22b”(自身转移)连在一起。在挂靠表示中，向其他概念挂靠的概念称为挂靠层，而被挂靠概念称为本体层。挂靠层一般是表现概念的某些特性，其实质还是体现在本体层，因此，本文将挂靠层的区别放到差异性的考虑中，计算上采用一个差异性缩放系数来表示，考虑挂靠概念集合间的差异程度，的计算公式为

3.1.5外在表现的度量五元组是对概念不同侧面的表达，是概念外在表现的基元，在相似度计算上有具有一定影响。同一个概念基元作用上不同的五元组符号所表达的概念会有差别，本文将这部分的区别也反映到差异性中，设计一个差异性缩放系数来表示。依据五元组与语法学的词性大致对应关系(v对应动词，u对应形容词，g, z, r对应名词)设置的计算式，表示为

综合以上几个部分，可以得到HNC符号相似度的计算方法。在共性描述上，最终的计算公式为

差异性描述的最终计算公式为

其中，平滑部分的考虑与共性描述的情况类似。沿用式(1)的形式，得到HNC符号的相似度计算公式为

(10)

HNC符号相似度的计算步骤如下(算法1)：

(1)分解HNC符号，分别得到五元组符号、挂靠信息及概念基元信息；

(2)获取两个概念基元的公共节点，采用式(2)，式(3)计算公共节点带权节点深度及带权节点距离；

(3)分别考察概念间的对比、对偶特征，关联特性，挂靠信息及五元组信息，采用式(4)–式(7)计算,,及；

(4)将以上各部分结果代入式(8)，式(9)求出共性和差异性描述信息，再利用式(10)计算最终结果。

3.2 组合结构分析及计算

前面提到的单一HNC符号只是概念海洋里的基本元素，更多的概念则是通过这些单一HNC符号组合进行表示的。HNC定义了12种概念组合结构，分别是：作用(#)、效应($)、对象(&)、内容(|)、偏正(/)、主谓(‖)、展开(+)、并(,)、选(;)、一般逻辑组合(lyy)、非(!)、反(^)，各符号的具体含义请参见文献[15]。本文根据计算需要按组合符号所作用对象的数量将其分为两类：一元组合符号和二元组合符号，一元组合符号是指其作用对象只有一个，包括“非”和“反”，其余的则为二元组合符号。

不同的组合符号表示不同的意义，组合后的概念也各不相同，不过它们都会在一定程度上包含组合前概念的义项，因此，组合后的概念可以通过组合前的概念进行表示。本文在计算上先分解组合符号为单一符号，然后对组合符号赋予权重进行量化，最后采用加权求和的方法计算组合形式的相似度值。其中，一元组合符号计算如式(11)所示，二元组合符号计算公式为

(12)

(1)若两个待计算HNC符号相同，直接返回相似度值1；

(2)若两个不同HNC符号分解后其组合类型相同，本文认为这种情况只需要分别考虑其对应部分的相似度，计算上则是先求出对应部分的相似度值后再加权求和，而不进行递归展开，如式(13)所示。

(3)其余情况则按式(11)或式(12)以递归形式展开计算。

3.3 词语相似度计算

实现HNC符号间的相似度计算并考虑组合结构情况后，就可以利用已构建好的词语和HNC符号映射表计算词语的相似度。计算时，先将词语映射到HNC符号，此时可能存在一个词语对应多个HNC符号义项的情况，本文规定相似度就取所有义项相似度的最大值，即

完整的词语相似度计算步骤如下(算法3)：

(2)采用算法2循环计算两个集合中各项间的相似度；

(3)取步骤(2)中的最大值，作为最终相似度结果。

4 实验及分析

4.1 实验设置

目前对相似度计算进行评价的一个常见做法是将计算结果与人工评定的结果进行对比，通过定性及定量分析判断结果的好坏。在人工打分测试集选择上，本文使用文献[12]构建的测试集作为实验数据来源，该测试集仿照英语词语相似度基准测试集构建的方法，充分考虑了词语的“分布均匀性”和“相似均匀性”，具有较好的代表性。考虑到对比方法(将在后文介绍)使用的语义资源所收录的词语情况，本文从该测试集中剔除一些无法计算的词语对，最终保留60对词语用于测试(见表1)。

在计算词语相似度前，需对相应参数进行设置，本文基于最优相关系数来设定参数，即选择使相关系数达到最优时对应的参数为最终的参数，表示为：。实际计算中，首先结合经验为各参数设置取值范围，然后将取值范围空间按适当步长(本文使用的步长为0.05)进行切分得到有限个离散点，最后在这些离散点中穷尽搜索最优参数，最终确定的各参数取值情况如表2所示(HNC组合符号按#、$、&、|、/、‖、+、,、;、lyy、!、^顺序对应参数,,,)。权重模拟函数取：()且。另外，本文选取了3组方法作为对比实验，分别是文献[6]的方法(方法1)，它是基于《知网》进行汉语词语相似度计算最为典型的方法，适合作为其他方法的比较标准；文献[12]的方法(方法2)，该方法是基于大规模语料统计的新方法；文献[16]的方法(方法3)，它是目前基于HNC理论考虑因素最全面、处理效果达到最好的方法；同时，将本文方法称为方法4。

4.2结果与分析

将4种算法分别应用于测试集，最终结果如表1所示，同时，将多组结果以折线图呈现(图2)，表3则是从表1中选取的部分代表性结果。

表1词语相似度计算结果

注：m为人工打分的结果，1–4分别对应方法1-方法4的结果

表2实验参数设置

公式调节参数缩放系数组合符号参数参数取值参数取值参数取值 0.501.200.55 1.001.100.45 2.000.40 1.700.40 1.500.50 1.200.40 1.200.60 1.050.50 1.500.60 1.200.70 1.100.80 0.60

从图2和结果表中可以看出，方法2的计算结果在数值上普遍偏低，与人工打分的符合情况不太理想，主要是因为基于上下文特征的方法考虑众多特征，加上一些噪声的引入，从而造成高维向量的相似度普遍较低；另外，3种方法其数值跨度较大(数据点在纵轴上分布范围广)，并且与人工打分均有一定符合，这是因为基于语义词典的方法往往在某些方面与人工思维符合程度较好。方法1的计算结果数值离散度较小，而另外3种方法的结果则很少重复，主要是因为方法1计算时所考虑的因素较少，计算公式中各项指标取值范围有限，而方法2基于高维向量计算，其结果分布较广，方法3和方法4则考虑了较多因素，能够有较好的区分度。方法1，方法3和方法4在不同的词语对上表现有一定差别，而方法3和方法4总体表现比较接近。例如，“男人母亲”这一对词语的计算结果上，方法3和方法4较为接近人工打分，而方法1有较大偏差，“初级高级”这一对词语的情况则相反，而“高兴开心”这一组词语3种方法的结果均比较接近，这也体现了《知网》和概念基元符号系统在设计理念上的异同。另外，同样基于概念基元符号系统，方法4的结果在总体上比方法3更贴近人工打分(图中方法4的线形及数据点分布趋势与人工打分更为贴近)，这说明本文综合考虑语义网络的各项特性以及考虑节点层次的权重是有效的。

图2 各方法相似度结果

表3词语相似度计算部分结果

IDW1W2SmS1S2S3S4 11男人母亲0.26200.86110.16500.38790.2485 51高兴开心0.96201.00000.03800.90000.9795 57初级基础0.86900.68250.11000.29320.3443 58初级高级0.72300.77410.13500.34320.3813

注：m为人工打分的结果，1-4分别对应方法1-方法4的结果

总体上，本文的计算结果与人工打分比较符合，不过其中也存在有较大偏差的项目。例如，“初级”(gu30aac21)和“基础”(ru12eb1,j721)应当具有较高相似性，但其计算结果却相似性较低，主要是因为“初级”的概念内涵采用“30aac21”来表示，而“基础”的概念内涵则是“j721”和“12eb1”的组合，两者之间符号层面差异明显，且尚未建立概念关联关系。

对各方法的计算结果进行定量分析，这里考虑3个指标——兼容度()[16]、相关系数()[4]和序对符合度()。兼容度用于绝对符合程度考察，相关系数和序对符号度用于考察相对符合程度。序对符合度的计算公式为

由表4可知，所有方法的相关系数均大于0.5，在统计上则认为它们与人工打分均具有中等强度以上的相关性，也反映出各方法与人工结果的符合情况较好。相比于方法2，另外3种方法的相关系数明显更高，说明基于语义词典的方法与人工判断比较容易达成一致；不过在序对符合度上，其差距并没有相关系数上的明显，方法1与其表现相当，说明仅考虑排序情况，方法2也是可行的。方法3的相关系数与方法1相当，但兼容度明显好于方法1，说明该方法在取值上与人工打分的总体偏差较小。本文方法在3个指标上均优于其他方法，这说明本文方法在计算结果上与人工判断有更好的符合程度，从而可知，基于概念基元符号系统进行词语相似度计算也是有效的。最后，本文还对计算结果与人工打分结果进行了相关性检验，在原假设“两组数据不相关”下，采用Spearman非参数检验计算得到值为，说明待检验数据是显著相关的，进一步验证了本文结果与人工判断的符合程度。

表4各方法的评价指标结果

算法CompatrOpc 方法10.6450.6180.679 方法2-0.5540.684 方法30.7210.6370.730 方法40.8120.7860.775

4.3简单应用

词语相似度计算在自然语言处理、机器翻译等多个领域有重要作用。以基于实例的机器翻译为例，假设待翻译句子“律师开展的调查”，经过搜索，在实例库中找到两个翻译实例：

(1)警察开展的调查/the investigation conducted by the police。

(2)去年开展的调查/the investigation conducted last year。

经对比计算，“律师”和“警察”的相似度为0.3775，和“去年”的相似度为0.1769，故选用实例(1)进行类比翻译，从而得到正确的译文：the investigation conducted by the lawyer。

5 结束语

本文以概念基元符号系统为基础，提出一种基于语义词典的相似度计算方法，从该符号系统的设计理念出发，并充分挖掘其中各项信息，包括层次性、网络性、对比对偶特性、挂靠特性和五元组信息，最终形成一个多维度的计算公式；另外，为节点深度和节点距离赋予权重的做法使之与实际情况更加符合。采用本文提出的方法在人工构建的测试集上进行实验，并与其他方法进行比较，结果表明本文方法计算的相似度与人工打分符合情况最好，在定量评价指标上也取得了最优的结果，兼容度、相关系数和序对符合度分别达到0.812, 0.786和0.775。

概念关联性在本文中只能通过概念关联式体现，而已构建的关联式规模尚小，许多潜在关联性并没有得到应用，因此，下一步需要继续挖掘和构建概念关联式，完善关联式集合；与此同时，也有必要尝试提出新的度量关联性的方法。另外，该方法目前只能对包含在词典内的词语进行处理，对于未登录词则无能为力，未来很有必要探索该方法下未登录词的处理，以扩大该方法的适用性，这也是进一步的工作内容。

[1] LIN D. An information-theoretic definition of similarity semantic distance in WordNet[C]. Proceedings of the 15th International Conference on Machine Learning, San Francisco, CA, USA, 1998: 296-304.

[2] WU Z and PALMER M. Verbs semantics and lexical selection [C]. Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, Stroudsburg, PA, USA, 1994: 133-138. doi: 10.3115/981732.981751.

[3] RESNIK P. Semantic similarity in a taxonomy: an information based measure and its application to problems of ambiguity in natural language[J]., 1999, 11(7): 95-130. doi: 10.1613/jair. 514.

[4] 王桐, 王磊, 吴吉义, 等. WordNet中的综合概念语义相似度计算方法[J]. 北京邮电大学学报, 2013, 36(2): 98-101. doi: 10.13190/jbupt.201302.98.wangt.

WANG Tong, WANG Lei, WU Jiyi,. Semantic similarity calculation method of Comprehensive concept in WordNet[J]., 2013, 36(2): 98-101. doi: 10.13190/ jbupt.201302.98.wangt.

[5] WANG Junhua, ZUO Wanli, and PENG Tao. Hyponymy graph model for word semantic similarity measurement[J]., 2015, 24(1): 96-101. doi: 10.1049/cje.2015.01.016.

[6] 刘群, 李素建. 基于《知网》的词汇语义相似度计算[C]. 第三届汉语词汇语义学研讨会论文集, 台北, 中国, 2002: 59-76.

LIU Qun and LI Sujian. Words semantic similarity computation based on HowNet[C]. Proceedings of the 3rd Chinese Lexical Semantics Workshop, Taipei, China, 2002: 59-76.

[7] 李国佳. 基于知网的中文词语相似度计算[J]. 智能计算机与应用, 2015, 5(3): 49-52. doi: 10.3969/j.issn.2095-2163.2015. 03.015.

LI Guojia. Chinese words similarity computation based on HowNet[J]., 2015, 5(3): 49-52. doi: 10.3969/j.issn.2095-2163.2015.03.015.

[8] 张沪寅, 刘道波, 温春艳. 基于《知网》的词语语义相似度改进算法研究[J]. 计算机工程, 2015, 41(2): 151-156. doi: 10.3969/j.issn.1000-3428.2015.02.029.

ZHANG Huyin, LIU Daobo, and WEN Chunyan. Research on improved algorithm of word semantic similarity based on HowNet[J]., 2015, 41(2): 151-156. doi: 10.3969/j.issn.1000-3428.2015.02.029.

[9] 孙晶, 张东站. 基于逆概念频率的词语相似度计算[J]. 厦门大学学报(自然科学版), 2015, 54(2): 257-262. doi: 10.6043/ j.issn.0438-0479.2015.02.018.

SUN Jing and ZHANG Dongzhan. Word similarity computing based on inverse concept frequencies[J].(), 2015, 54(2): 257-262. doi: 10.6043/j.issn.0438-0479.2015.02.018.

[10] BROWN P, PIETRA S, PIETRA V,. Word sense disambiguation using statistical methods[C]. Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley, CA, USA, 1991: 264-270. doi: 10.3115/981344.981378.

[11] 关毅, 王晓龙. 基于统计的汉语词汇间语义相似度计算[C]. 第七届全国计算语言学联合学术会议论文集, 哈尔滨, 中国, 2003: 221-227.

GUAN Yi and WANG Xiaolong. A statistical measure of semantic similarity between Chinese words[C]. Proceedings of the 7th Joint Symposium on Computational Linguistics, Harbin, China, 2003: 221-227.

[12] 王石, 曹存根, 裴亚军, 等. 一种基于搭配的中文词汇语义相似度计算方法[J]. 中文信息学报, 2013, 27(1): 7-14. doi: 10.3969/j.issn.1003-0077.2013.01.002.

WANG Shi, CAO Cungen, PEI Yajun,. A collocation based method for semantic similarity measure for Chinese words[J]., 2013, 27(1): 7-14. doi: 10.3969/j.issn.1003-0077.2013.01.002.

[13] 李慧. 词语相似度算法研究综述[J]. 现代情报, 2015, 35(4): 172-177. doi: 10.3969/j.issn.1008-0821.2015.04.035.

LI Hui. A review on the research of word similarity algorithms[J]., 2015, 35(4): 172-177. doi: 10.3969/j.issn.1008-0821.2015.04.035.

[14] 黄曾阳. HNC理论全书(第五册)[M]. 北京: 科学出版社, 2015: 1-102.

HUANG Zengyang. The Complete Book of Hierarchical Network of Concepts Theory (Book 5)[M]. Beijing: Science Press, 2015: 1-102.

[15] 苗传江. HNC(概念层次网络)理论导论[M]. 北京: 清华大学出版社, 2005: 1-49.

MIAO Chuanjiang. Introduction to HNC Theory[M]. Beijing: Tsinghua University Press, 2005: 1-49.

[16] 吴佐衍, 王宇. 基于HNC理论的词语相似度计算[J]. 中文信息学报, 2014, 28(2): 37-43. doi: 10.3969/j.issn.1003-0077. 2014.02.005.

WU Zuoyan and WANG Yu. A new measure of semantic similarity based on hierarchical network of concepts[J]., 2014, 28(2): 37-43. doi: 10.3969/j.issn.1003-0077.2014.02.005.

[17] 史燕. 基于HNC的汉语句子相似度算法的研究[D]. [硕士论文], 江苏大学, 2009: 14-19. doi: 10.7666/d.y1604350.

SHI Yan. The research on Chinese sentence similarity algorithm based on HNC[D]. [Master dissertation], Jiangsu University, 2009: 14-19. doi: 10.7666/d.y1604350.

池哲洁：男，1988年生，博士，研究方向为自然语言处理.

张全：男，1968年生，研究员，研究方向为自然语言理解、语言知识处理.

Word Similarity Measurement Based on Concept Primitive

CHI Zhejie①②ZHANG Quan②

①(,100049,);②(,,100190,)

Word similarity measurement plays an important role in machine learning, information retrieval and many other fields. Regarding the concept primitive symbol system of Hierarchical network of concepts theory as semantic resource and comparing commonness with difference, a multi-dimensional computational method for similarity is proposed which considers the hierarchy, netted nature, comparability and duality, attached feature and quintuple information of the system. Weight strategy is introduced for node depth and distance measurement to increase the discrimination of node level. Experiment on manual scoring test set shows that the computed similarities are consistent with human judgments. The proposed method achieves 0.812, 0.786, and 0.775 in compatibility degree, correlation coefficient, and ordinal pair conformity respectively. Meanwhile, the result of correlation test further proofs that the computed similarities and human’s scores are significantly correlated.

Word similarity; Semantic distance; Hierarchical network of concepts; Concept primitive

TP391

1009-5896(2017)01-0150-09

10.11999/JEIT160176

2016-02-25；改回日期：2016-09-14；

2016-11-14

池哲洁 chizhejie@sina.com

国家863计划“十二五”项目(2012AA011102)，国家语委“十二五”科研项目(YB125-53)

The Twelfth Five-Year Project of National 863 Program of China (2012AA011102), The State Language Commission Twelfth Five-Year Research Project (YB125-53)