APP下载

一种实体描述短文本相似度计算方法

2015-04-29秦添轶林蝉宋博宇关毅

智能计算机与应用 2015年2期
关键词:文本分类知网

秦添轶 林蝉 宋博宇 关毅

摘 要:中文实体描述短文本具有词语稀疏、语义离散、用词等特点。本文分析《知网》义原网络和词语相似度的关系,提出了短文本间语义相似度部分和短文本分类部分相结合的实体描述短文本间相似度计算方法。语义相似度部分分析《知网》义原网络和词语间相似度的关系,在计算词语间相似度和短文本间相似度的过程中弱化了浅层《知网》义原影响并均衡了义原权重,使义原相似度计算结果更加合理。短文本分类部分将短文本分解为义原向量,根据特定领域短文本的义原分布情况进行短文本分类。两部分结合得到实体描述短文本间相似度。本文方法的有效性在百度知识图谱数据分析竞赛任务1的测试结果中得到了证明。

关键词:实体描述短文本;文本分类;文本相似度;《知网》

中图分类号:TP391 文献标识码:A 文章编号:2095-2163(2015-)02-

A Short Text Description Similarity Computation Method for Chinese Entities

QIN Tian-yi1, LIN Chan2, SONG Bo-yu2, GUAN Yi1

(1. School of Computer Science and Technology Harbin Institute of Technology, Harbin, Heilongjiang, 150001, China ;

2. School of Software Harbin Institute of Technology, Harbin, Heilongjiang, 150001, China ; )

Abstract: Short text description for Chinese entities has features of statistical sparsity, semantic discretization and irregular vocabulary. This research analyses the relationship between sememe network and word similarity in Hownet and presents a short text description similarity computation method that is consist of semantic similarity part and short text classification part. In the semantic similarity part, the method weakens the influence of Hownets shallow sememes and balances weights of sememes. In the short text classification part, the method transforms short texts into sememe vectors and classifies them according to the distribution of sememes in certain fields.Take average results of those two parts to generate short text description similarity. Effectiveness of the method is proved by task 1 of Baidu knowledge map analyzing competition.

Keywords: Short text description for Chinese entities;Text categorization;Text similarity;Hownet

0引言

中文實体是中文文本中名词性词汇或短语的统称,本文处理的中文实体,包括电影、电视剧、电视节目、软件应用、电子游戏和歌曲的名称,在互联网上常用短文本描述。一般认为,短文本是长度不超过200个字符的文本[1],具有词语稀疏、语义离散和用词随意等特点[2]。实体的定义通常由实体描述短文本给出,实体描述短文本间的相似度即是对应的实体间相似度。短文本间相似度计算是近年来自然语言处理的研究热点之一,被广泛应用于信息检索、反作弊系统、智能问答系统、智能推荐系统、文本自动分类、机器翻译中。

文本间相似度计算方法大多通过统计分词后文本的词频信息,将文本建模为向量,利用向量间余弦相似度、Jaccard相似度等方法计算文本相似度。文本间相似度也可以通过文本分类来近似。文本间相似度计算方法通常只考虑文本中单个词语的统计特性而没有考虑文本整体的语义特性,并在处理短文本时会生成稀疏的高维向量,容易出现语义漂移问题。

本文利用《知网》的语义知识资源和概念网络,针对短文本特点,提出了短文本间语义相似度部分和短文本分类部分相结合的实体描述短文本间相似度计算方法。

1相关工作

1.1 《知网》

《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[3]。词语的语义在《知网》中通过一个或多个概念来描述,而每一个概念由义原来描述。义原是《知网》中最小的、不可再分割的语义单位,《知网》作者用1 600多个义原对8万多个中文词汇进行描述,义原的上下位关系为所有义原建立起一个包含多个子树的多层义原网络[4]。

1.2 基于《知网》的文本间语义相似度计算

义原间相似度的计算方法可以分为两类:基于节点之间路径长度的方法和基于节点之间共有信息大小的方法[5]。基于节点之间路径长度的方法需要计算两个节点在义原网络上的最短距离,基于节点之间共有信息大小的方法需要计算两个节点最近的共同祖先节点含有的子节点个数。许多学者已经在义原间相似度的问题上做了大量的研究,如刘群[4]、李峰[5]、吴健[6]、Dekang Lin[7]、Resnik[8]、江敏[9]等。词语间相似度可由义原间相似度合成。

在文本间相似度计算方面,文献[10]通过统计出两个直接义原集合间的共有信息和差异信息来计算集合间的相似度,并把该方法引进到词语间和句子间相似度的计算中去。文献[11]基于向量空间模型,计算关键词的语义相似度并采用最大权匹配方法计算两个文本向量间的相似度。文献[12]强调了除第一独立义原以外其它义原的独立性,用两个文本中实词间的相似度构成特征矩阵,递归删除最大元素所在行、得到词语最大组合序列进而计算句子间相似度和段落间相似度。文献[13]在词语间相似度中加入了主要义原对次要义原的抑制因素。

1.3 短文本间语义相似度计算

由于短文本具有词语稀疏和语义离散的特点,其中包含的信息量有限。通过文本间相似度计算方法得到的短文本间相似度偏差较大。现有的短文本间语义相似度计算方法大多需要构建知识库或利用已有的知識库,这些方法的普适性普遍较差。

2实体描述短文本语义相似度计算方法概述

本文从短文本间语义相似度和短文本分类两个部分出发计算实体描述短文本间相似度,并将两部分相似度的平均值作为实体描述短文本间相似度计算的最终结果。

短文本间语义相似度部分首先根据《知网》义原网状结构中的义原节点深度、义原子节点数量、义原节点间最短路径长度等信息计算义原间相似度,再通过较小语义单位间相似度计算较大语义单位间相似度,逐步计算义项、词语和短文本间相似度。

短文本分类部分将短文本分解为义原向量,再从分解为义原向量的网络语料中抽取特征义原,训练一个朴素贝叶斯分类器,并通过两篇短文本的分类结果计算两者之间的相似度。

3短文本间相似度计算方法的语义相似度部分

3.1 义原间相似度计算

本文分别采用基于节点之间路径长度的方法和基于节点间共有信息大小的方法计算义原间相似度。基于节点之间路径长度的方法以李峰[5]等人的公式为基础:

(1)

其中,S1和S2表示两个义原,distance(S1,S2)表示两个义原在《知网》义原网状结构上的最短路径长度,depth1和depth2是两个义原在义原网状结构中各自所在的层次,即义原深度,是一个调节参数,代表Sim值为0.5时两个义原的最短路径长度。这个公式利用义原之间的上下位关系,以两个义原在义原网络上的路径长度作为义原间相似度计算的基础。

本文发现,在利用公式(1)进行义原间相似度计算时,义原深度较浅的叶节点义原参与的相似度计算结果普遍偏低,而义原深度较深的非叶节点义原参与的相似度计算结果普遍偏高。由于《知网》的义原形成的是一个网状结构而不只是一颗义原树,义原的绝对深度不能直接反应其相应的具体程度。本文提出”义原相对深度”的概念来表达义原的具体程度,义原相对深度可以通过义原深度和义原所在树深度计算:

(2)

其中,depth1是义原在义原网状结构中的深度,length(treeof(S1))是义原S1所在的子树中,经过S1的根节点-叶节点路径的最短长度。

本文提出基于节点之间路径长度的公式:

(3)

这个公式可以平衡”event|事件”树等深度较大的树对相似度计算的影响,使位于深度较小的树深层的义原也可以获得较大的相似度值。

本文在Dekang Lin[7]的公式基础上引入义原相对深度,得到基于共有信息的义原间相似度计算公式:

(4)

其中,p(S)表示两个义原最近公共父节点的子节点个数与其所在义原树中所有节点个数的比,p(S1)和p(S2)是两个义原连接的节点个数与其所在义原树中所有节点个数的比。deep(S1)和deep(S2)表示两个义原用(2)式计算得到的相对深度。

本文将(3)式和(4)式结果的平均值作为义原间相似度计算的结果。

3.2 义项间相似度计算和词语间相似度计算

《知网》中用于描述一个实词义项的特征结构可以分为四个部分[4]:第一独立义原描述式、其它独立义原描述式、关系义原描述式和符号义原描述式。

两个义项间的整体相似度可以表示为:

(5)

其中,βi(1≤i≤4)是用于调节四个部分权重的参数,且β1+β2+β3+β4=1。

不同义项包含的各类义原对描述义项起到的贡献不同。《知网》中不同词语所对应的义原数量差别很大,如果将四个部分的权重参数βi(1≤i≤4)设置为常数,会导致一定程度的偏差。

本文根据参与义项间相似度计算的两个义项的义原分布情况,为其动态设置权重:

(6)

其中,ci(1≤i≤4)是两个义项中四种义原的合计数量。

计算两个词语间的相似度时,本文把相应的义项两两结合,形成一个完全二分图,计算二分图每条边上两个顶点间的相似度,取相似度的最大值作为两个词语间的相似度。

3.3 短文本间相似度计算

本文用词语间相似度计算短文本间相似度,采用文献[12]的方法,建立起一个相似度特征矩阵,并通过词语间相似度的最大组合序列计算文本间相似度。

在计算短文本间相似度时,本文统计《知网》中所有词语的tf-idf值,利用参数来降低与高逆文本频率词、单字词和多义项词相关的相似度计算结果:

(7)

其中,c1、c2、c3分别是用于降低高逆文本频率词、单字词和多义项词参与的词语相似度的参数。整句相似度由各集合加权平均得到。

4短文本相似度计算方法的短文本分类部分

本文将实体描述短文本分解为义原向量,根据短文本的义原分布情况为其分类,再根据分类结果计算实体描述短文本间相似度。短文本语义相似度方法和短文本分类方法输出的相似度平均值即是实体描述短文本间相似度的最终结果。

4.1 用义原向量描述短文本

短文本分类部分用义原向量来表示短文本。本文采用文献[14]提出了将文本根据义原系数分解为义原向量的方法,并结合文献[15]的概念排歧方法。系统设计如图1所示。

图1 文本分解为义原向量流程图

Fig.1 Flow chart of text transforming into sememe vector

4.2 特征抽取和模型训练

为了得到一篇短文本属于各个分类的概率并保持较高的计算效率,本文选择朴素贝叶斯分类器来为实体描述短文本分类。研究将每个实体的描述短文本按4.1的方法整理为义原向量。考虑到非叶节点义原的表意模糊,本文从义原向量中删除所有非叶节点义原。

生成义原向量之后,本文需要在葉节点义原中抽取出n个适用于分类的义原作为分类特征。文献[16]提出了四种特征抽取方法:文档频率、信息增益、CHI统计和互信息。本文选择信息增益(IG)法、χ2统计量(CHI)法和互信息(MI)法作为特征选择的方法。当一个义原的信息增益、CHI值和互信息均大于特定阈值时,这个义原作为表达文本的特征。

本文将每个文本表示为一个n维特征向量,X={x1,x2,......xn},其中xi表示文本中对应义原的出现次数,以九类电影简介信息生成的特征向量作为训练集,建立朴素贝叶斯分类模型。

4.3 相似度计算

本文通过朴素贝叶斯分类模型,计算两篇短文本属于每一个类别ci的后验概率P(ci|X),并将其整理为向量形式:Y1=(c1first,p1first,c1second,p1second)和Y2=(c2first,p2first,c2second,p2second)。

其中,cfirst为特征向量在朴素贝叶斯分类器中后验概率最高的分类,cfirst为其所对应的后验概率,csecond为特征向量在朴素贝叶斯分类器中后验概率次高的分类,psecond为其所对应的后验概率。通过向量Y1和Y2计算短文本间相似度的方法如表1所示。

表1 通过短文本向量计算相似度值

Tab.1 Calculate similarity value using vectors of short text

条件

相似度值

c1first=c2first

max(c1first,c2first)

c1second=c2first

c1second*c2first

c1first=c2second

c1first*c2second

c1second=c2second

0.8*c1second*c2second

其它

0.1

5.实验及结果分析

本文的实验建立在百度知识图谱数据分析竞赛任务一:实体相似度计算的基础之上,并以其评测结果为基准。百度知识图谱数据分析竞赛给出的数据集包括11 463组实体属性数据和8 001组实体间相似度数据。参与实验的实体描述文本平均长度约为159字。

本文用8 001组实体间相似度数据进行训练并通过机器学习得到相似度计算模型,再用来为1 991组测试数据进行打分。本文方法给出的相似度评分Sc将与百度给出的人工标注结果Sm进行对比,计算相似度评分向量(Sc1,Sc2,......Sc1991)和标注结果(Sm1,Sm2,......Sm1991)的欧氏距离,最终测试结果表示为:

(8)

短文本间语义相似度计算公式(7)的参数设置如表2所示。

表2实验中公式(7)的参数设置情况

Tab.2 Parameter of Eq.(7) in experiment

参数名

参数意义

取值条件

参数值

c1

降低tf-idf值较低词语参与的相似度计算结果

tf-idf(w1)>α且tf-idf(w2)>α

1

tf-idf(w1)<β且tf-idf(w2)<β

0.5

其它

0.8

c2

降低单字词语参与的相似度计算结果

w1或w2是单字词

0.9

其它

1

c3

降低多义项词语参与的相似度计算结果

w1和w2都是多义项词

0.9

其它

1

为了证明方法的有效性和短文本分类部分的必要性,本文对短文本间语义相似度的计算结果和两种方法结合后的计算结果分别进行测试,测试结果如表3所示。

表3 语义相似度方法和语义相似度、短文本分类综合方法的实验结果

Tab.3 Result of semantic similarity method and synthetic method of semantic similarity and short text classification

方法

D值

排名

语义相似度方法

26.31

26

语义相似度、短文本分类综合方法

24.80

5

两种方法的综合结果得到了较小的D值,证明短文本分类方法有效地提高了实体描述短文本相似度计算的准确率。

6结束语

本文提出了基于分类和语义网的实体间相似度计算方法,利用《知网》的语义网络资源,提出了自己的义原间相似度、词语间相似度、短文本间相似度表达式;并将短文本分解为义原向量,根据短文本的义原频率分布训练文本分类器,并通过分类结果计算两个文本间的相似度,最后在实验中分析验证了模型的有效性。

参考文献:

[1] 柴春梅.互联网短文本信息分类关键技术研究[D] 上海,上海交通大学,2009.

[2] 路荣,项亮,刘明荣,杨青. 基于隐主题分析和文本聚类的微博客中新闻话题的发现[J]. 模式识别与人工智能,2012,25(3):382-387.

[5] 董振东,董强.知网[DB/OL].[2011-06-23].http://www.keenage.com.

[4] 刘群,李素建.基于《知网》的词汇语义相似度计算[C]//第三届汉语词汇语义学研讨会论文集.台北:[s.n.],2002:59-76.

[5] 李峰,李芳.中文词语语义相似度计算——基于《知網》2000[J].中文信息学报,2007,21(3):99-105.

[6] 吴健,吴朝晖,李莹,等.基于本体论和词汇语义相似度的Web服务发现[J].Chinese Journal of Computers,2005,28(4).

[7] LIN Dekang. An information-theoretic definition of similarity semantic distance in WordNet[C]//Proceedings of the Fifteenth International Conference on Machine Learning.San Francisco, CA:[s.n.],1998.

[8] RESNIK P. Using information content to evaluate semantic similarity in a taxonomy[J]. arXiv preprint cmp-lg/9511007, 1995.

[9] 江敏,肖诗斌,王弘蔚,施水才.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89.

[10] 刘青磊,顾小丰.基于《知网》的词语相似度算法研究[J].中文信息学报,2010,24(5):31-36.

[11] 朱征宇,苑昆峰,陈杏环.一种基于最大权匹配计算的信息检索方法[J].计算机工程与应用,2007,43(33):176-179.

[12] 金博,史彦军,滕弘飞. 基于语义理解的文本相似度算法[J]. 大连理工大学学报,2005,45(2):291-297.

[13] 李培. 基于《知网》的文本相似度研究[D]. 天津:河北工业大学,2012.

[14] 苏伟峰,李绍滋,李堂秋.一个基于概念的中文文本分类模型[J].计算机工程与应用,2002,38(5):193-195.

[15] 苏伟峰. 基于概念的文本自动分类研究[D].厦门:厦门大学,2002.

[16] 代六玲,黄河燕,陈肇雄. 中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2014,18(1):26-32.

1 作者简介:秦添轶(1993-),男,黑龙江哈尔滨人,主要研究方向:自然语言处理、智能化信息检索。

猜你喜欢

文本分类知网
著作权使用声明
基于知网的翻译研究方向毕业论文写作
近三年维吾尔语言研究情况综述
基于组合分类算法的源代码注释质量评估方法
基于贝叶斯分类器的中文文本分类
基于蚁群智能算法的研究文本分类
基于朴素贝叶斯分类的Java课程网络答疑反馈系统
基于K—means算法的文本分类技术研究
文本分类算法在山东女子学院档案管理的应用
HowNet在自然语言处理领域的研究现状与分析