APP下载

一种基于HNC理论的文本相似度算法

2014-04-29袁晓峰

计算机时代 2014年11期

袁晓峰

摘 要: 计算文本相似度常用基于向量空间计算夹角余弦的方法,该方法忽视了同一文本中词与词之间的语义相似度,因而造成了文本表示模型的高维性以及计算的高复杂性。为此,提出了一种文本相似度算法,利用HNC理论先计算特征词之间的语义相似度,进行必要的降维,进一步计算每个文本向量中的TF*IDF值,最后计算两个向量的空间夹角余弦值并将其作为两个文本之间的相似度。将实验结果与直接计算余弦值的结果比较发现,改进后的算法中VSM的维数明显比改进前小得多,改进后的算法提高了召回率和准确率。因此,改进后的算法是切实有效的。

关键词: HNC理论; 语义相似度; VSM; 文本相似度

中图分类号:TP391.1 文献标志码:A 文章编号:1006-8228(2014)11-40-02

Word relativity algorithm based on HNC

Yuan Xiaofeng

(School of Information Science and technology, Yancheng Teachers College, Yancheng, Jiangsu 224002, China)

Abstract: The method to calculate text similarity based on VSM is widely used, which causes high dimension of VSM and complexity of calculation because it ignores the relationship between words in the same text. HNC theory is applied to calculate the weight of VSM and the similarity between texts. The practice shows that the dimension is smaller than before, the recall rate and precision of the algorithm have improved.

Key words: HNC theory; semantic similarity; VSM; text similarity

0 引言

随着Web技术的飞速发展,文本相似度的研究得到了广泛研究。文本相似度的计算通常应用于信息检索、主题抽取、文本分类、情感分析等领域[1-2]。目前文本相似度计算方法繁芜丛杂,归纳起来通常有:基于统计学的、基于知识库的、基于本体论的等等。但最广为接受和认可的是基于向量空间的,即:用向量空间模型(VSM)表示文档,向量中每一个值为文档中每一个词语的权重;然后利用向量的夹角余弦值作为两个文本的相似度[3]。然而这种方法仅仅用某个词语在文档中出现的频率以及逆向文档频率作为VSM中的权重,没有考察同一篇文档中特征词之间的关系。另外,由于计算两个文本向量的夹角余弦值时需要将两个文本向量的维数对齐,这样就造成了计算维数过高,计算过于复杂等缺点。

本文提出一种改进算法,在VSM的基础之上,考虑同一篇文档中特征词之间的相关度,利用文本中另一词语对特征词贡献的相关度重新计算特征词的TF*IDF值,从而起到降维、简化计算的目的。黄曾阳先生创立的知识库HNC理论从三个方面描述词语的含义,直接从词语角度、句子角度甚至整个篇章的语境的角度,用符号理论描述词语的概念,为计算中文词义相似度提出了一种可行的方法。本文利用基于HNC理论计算词语相似度的方法来完成VSM中TF/IDF值的重新计算,降低VSM中的维数。

1 HNC和VSM简介

HNC是一个描述语言概念空间的符号理论体系,它包含了三部分内容:①概念基元符号体系,对应语言系统的词语;②句类基元符号体系,对应语言系统的语句;③语境基元符号体系,对应语言系统的句群直至篇章[4]。

根据公式就可以把两个HNC符号之间比较量化计算转化为一个关于概念基元相关度的多项式。语义相关度的量化计算方法如下[5]:

⑴ 输入两个词语w1和w2;

⑵ 在词语知识库中查找这两个词语的HNC映射符号HNCS1和HNCS2,用hnccs1i和hnccs2j表示不同义项的HNC映射符号,其中1?i?p,i∈N,1?j?q,j∈N,p和q分别为两个词语对应的义项数;

⑶ 分别求解两个词语的各个hnccs1i和hnccs2j之间的相关度R(hnccs1i,hnccs2j);

⑷ 按公式R(w1,w2)=R(HNCS1,HNCS2)=Max(R(hnccs1i,hnccs2j)),其中1?i?p1,1?j?q求解词语语义相关度;

⑸ 按公式Runi=R(w1,w2)/Sqrt(R(w1,w1)×R(W2,W2))若R(W1,W2)>0;Runi=ε若R(w1,w2)=0进行归一化或者修正操作,其中ε为一个充分小的正数。

向量空间模型(VSM)是目前信息检索领域中广泛使用的效果比较好的一种模型。其基本思想是:假设词与词之间是不相关的,以向量来表示文本,从而简化了文本中关键词之间的复杂关系,使得模型具备了可计算性[6]中,文本表示为词的向量,向量中的值为文本中每个词的TF/IDF权重。

Wtd=TFtd×IDFt ⑴

其中:Wtd表示该特征项在文档中的重要程度;TFtd指特征项在文档d中出现的次数。Salton将IDFt表示成:

IDFt=log(N/nt) ⑵

其中:N表示文档集合张所有文档的数目;nt表示所有文档集合中t出现的次数,称为特征项的文档频率。IDF反映特征项在整个文档集合中的分布情况,在一定程度上体现了该特征项的区分能力;TF反映特征项在文档内部的分布情况。TF-IDF算法可以排除那些高频、低区分度的词,因此TF-IDF是一种有效的权重定义方法。

夹角余弦公式:

2 相似度计算

设文档集中有N篇文档,执行以下步骤。

⑴ 统计词频。待求相似度的两篇文档进行分词,去除停用词,得到词集合Wi={wi1,wi2,…,wim}。其中,i表示所在文本序号。对Wi中的词进行词频统计,记为TFWi={TFwi1, TFwi2, TFwi3,…, TFwim}。

⑵ 特征项选取。计算出两篇文档词语相同的集合:TSij={ts1,ts2, …,tsk},其中,tsi∈{Ti∩Tj}。

⑶ 构造VSM。计算TFtsi=TF(1+)、IDFtsi=log(N/nt),令wtsi=TFtsi×IDFtsi, 则I篇文档可用VSM表示为Wi={wts1,wts2,…,wtsk}。

⑷ 计算余弦值。

3 实验

我们从新浪网站下载80篇新闻网页,分为军事、体育、教育、时事政治四个主题。将这80篇网页整理成不带格式的文本文件,然后进行分词、去停用词等预处理过程得到测试集。对基于传统的VSM和改进的VSM计算文档相似度方法进行比较,我们从VSM维数、召回率、准确率三个方面进行衡量。

为了简化实验,我们从文本集中随机挑取11篇文档,计算其中的一篇(不妨称为零号文档)与其他10篇文档的相似度。首先统计每篇文档中的特征词的个数,统计零号文档与其他文档相同词的个数。通过计算同一篇文档中词语之间的相似度,选取零号文档与其他各篇文档之间相同词作为特征向量,同一篇文档中的其他词以其与特征词相似度对特征词的权重做贡献。经过比较我们发现,选取相同词作为特征词使得向量空间的维数降低很多,同时可以令向量空间的维数趋于平稳,极大地降低对计算余弦值的干扰。向量中特征词在未降维和降维后的维度如图1所示。

图1 降维前后向量维数对比

从图1中我们可以看出,改进前文档对应的VSM维数比较高,并且文档之间的跳跃性很大,降维后维数明显降低,但是并没有因为维数降低而导致相似度计算的准确率降低。

召回率是实际识别出的正确结果(正确归入)与文本集中总的正确结果(应有文本数)的百分比;正确率是返回结果(实际归入)中正确结果的百分比。比较结果如表1所示。表1中各类第一行为改进前的结果,第二行为改进后的结果。

表1 相似度比较结果

[类别\&主题文本\&正确

归入\&实际

归入\&应有

文本数\&正确率

(%)\&召回率

(%)\&环境\&大气污染的危害\&8\&12\&12\&66.7\&66.7\&\&\&9\&12\&12\&75.0\&75.0\&\&珍惜资源保护环境\&5\&12\&8\&41.7\&62.5\&\&\&7\&10\&8\&70.0\&87.5\&健康\&大学生心理健康\&7\&15\&13\&46.7\&53.8\&\&\&12\&16\&13\&75.0\&92.3\&\&大学生身体素质\&4\&10\&7\&40.0\&57.1\&\&\&5\&9\&7\&55.6\&71.4\&教育\&家庭教育\&6\&9\&10\&66.7\&60.0\&\&\&7\&10\&10\&70.0\&70.0\&\&美国教育理念\&6\&12\&10\&50.0\&60.0\&\&\&8\&13\&10\&61.5\&80.0\&军事\&日本解禁自卫权\&14\&18\&20\&77.8\&70.0\&\&\&16\&19\&20\&84.2\&80.0\&]

4 结束语

本文中,我们首先计算文档所有词语的权重,然后将两篇文档中同时出现的词作为特征向量,利用HNC理论计算其余词与特征向量之间的相关度,将相关度加到特征向量的TF值中。计算TF*IDF,构造VSM,计算文档之间的夹角余弦值并将其作为文档之间的相似度。实验表明,改进后的方法极大地降低了VSM的维数,降低了噪音的干扰,进而提高了召回率和准确率。

参考文献:

[1] 郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机

应用研究,2008.25(11):3256-3257

[2] 李连,朱爱红,苏涛.一种改进的基于向量空间文本相似度算法的研

究与实现,2012.29(2):282-283

[3] Dagan I, Marcus S. Contextual word similarity and estimation from

sparse data[A]. Collins M. Processing of the Annual Meeting of the Association for Computational Linguistics[C]. New Mexico: American Association for Artificial Intelligence,1993:164-171

[4] 黄曾阳.HNC(概念层次网络)理论—计算机理解语言研究的新思路[M].

清华大学出版社,1998.

[5] 张运良,张全.基于HNC理论的语义相关度计算方法.[J]计算机工程

与应用,2005.34:1-3

[6] 王秀娟.文本检索中若干问题的研究[D].北京邮电大学博士学位论

文,2006.