多策略中文微博实体词消歧及实体链接

2016-09-08郭云龙曾维刚

计算机应用与软件 2016年8期

关键词：消歧百科义项

向　宇　郭云龙　徐　潇　曾维刚　李　莉

(西南大学计算机与信息科学学院　重庆 400715)

多策略中文微博实体词消歧及实体链接

向宇郭云龙徐潇曾维刚李莉*

(西南大学计算机与信息科学学院重庆 400715)

在社交网络迅猛发展的今天，如何对有歧义的微博实体进行消歧和如何将微博实体连接到知识库已成为当今研究热点。对实体消歧和实体链接提出了多种策略方案。首先利用ICTCLAS对微博文本进行分词处理，利用百度百科、实体专家库对实体进行规范化处理。然后利用由爬虫爬取的百度百科信息、微博数据、网络词语构建了消歧文本数据库，再结合TF-IDF算法和Fast-Newman聚类算法对实体进行消歧和链接。使用第二届自然语言处理与中文计算会议(NLP&CC 2013)中的中文微博实体链接任务给的数据进行测试，测评中准确率为84.99%，继续改进模型后准确率达91.40%。

中文微博实体消歧TF-IDFFast-Newman聚类

0　引　言

微博作为新生的社交网络平台在快速发展，其规模、用户人数及产生的数据量急剧增长。据2015年2月3日中国互联网络信息中心发布的《第35次中国互联网络发展状况统计报告》，截至2014年12月，我国网民达6.49亿，互联网普及率为47.9%。其中微博用户达2.49亿。微博己成为网民频繁使用的社交主流应用，庞大的用户规模巩固其网络舆论传播的中心地位。微博的内容简短，每条微博内容不超过140个字符，使得用户频繁发表。但微博巨大的信息量使用户很难在短时间内准确获取微博中命名实体的含义，又因微博中充斥大量网络用语、口语、缩略语，实体名称往往具有歧义性，给识别带来了很大挑战。中文微博实体与知识库条目的链接，能够有效地解决上述实体消歧的问题。将微博文本中的实体与知识库中的实体加以链接，有助于利用社交媒体内容进行知识库的构建与扩展后更好的呈现给用户，方便用户理解与阅读。

中文微博实体词消歧：是专门针对中文微博文本中的实体在存在多个义项情况下，辨别实体指示的是哪个义项。比如微博“热火27连胜！热火胜猛龙、胜山猫、胜火箭……热火各种的胜，并成为了NBA第二长连胜。”中的实体“猛龙”就是一个存在多义项的实体，“猛龙”既可以是多伦多猛龙队，又是一部电影的名字，还是时尚品牌皮具名字。微博实体消歧义就是辨别出文本中的“猛龙”指的是多伦多猛龙队。

中文微博实体链接：指的是给出中文微博中的实体，在指定的知识库中匹配与之相符的目标条目，也就是返回知识库中目标条目的主键或返回NIL。同样以上述微博为例子，若给定知识库中有条目为“多伦多猛龙队”且此条目的主键为KB123456，链接任务要求输出条目的主键KB123456。若给定知识库中不存在“多伦多猛龙队”这个条目，直接输出NIL。

本文进行了如下工作：

(1) 提出并构建了多策略的命名实体消歧和链接流程。

(2) 构建地名专家知识库系统、人名专家知识库系统。

(3) 对待测实体做了有效的预处理和优化了数据库。

(4) 提出了结合TF-IDF算法和Fast-Newman聚类算法对命名实体消歧，此为重点工作。

1　相关研究

关于命名实体识别与消歧，国内已经有了很多相关的研究。

有学者采用基于规则匹配或概率统计进行研究：王宁等采用建立规则的方法对中文金融信息中公司名称的组成方式与特征进行了深入的分析[1]。张小衡等就中文机构名称尤其是中文高校名称采用基于规则的方式进行实体识别[2]。肖计划就地名和地名语料库采用了概率统计的方法来进行识别与匹配[3]。

有的学者采用基于最大熵模型和基于CRF(条件随机场)来研究命名实体：YiFeng Lin等人在生物医学领域利用基于最大熵模型进行实体识别[4]。张祝玉等研究了使用CRF进行实体识别的有效性[5]。何炎祥等采用了CRF和规则相结合的方法对地名实体进行识别[6]。刘凯就中医病历中的实体采用了CRF模型[7]。

有的学者采用HMM(隐马尔可夫模型)来研究命名实体：王丹等在利用HMM以词性做观察值避行初步实体识别之后，构建拼音同指关系库来识别潜在实体[8]。俞鸿魁等则提出了一种基于层叠HMM的中文实体一体化识别方法[9]。乐娟等对京剧机构实体采用了结合Viterbi 算法和规则树HMM[10]。李幸等提出了一种层次化句法分析方法，统计提取了关于标点符号的语法规则以及相应的分布信息，从而降低了实体消歧的难度[11]。

上述学者对命名实体研究都有不同的研究对象，但是很少学者对微博中命名实体进行研究，所以就中文微博这种不超过140个字短文本中的实体消歧和实体链接进行专题研究。受到王宁等[1]和张小衡等[2]在命名实体研究中建立规则的启发，建立了正则表达式规则、采用百度百科跳转、通过人名地名专家库映射对待测实体进行预处理。受到王丹等[8]在命名实体识别中关注词性的做法的启发，通过ICTCLAS对待测实体所在微博文本进行分词处理，只保留名词。针对命名实体识别，本文单独提出结合了TF-IDF算法和Fast-Newman聚类算法的实体消歧算法。

2　整体流程和多策略预处理

针对中文微博中实体消歧和链接，工作整体流程如图1所示。首先待测实体进入这个系统后，要通过策略1、策略2、策略4，最后得到最终的规范名称组。然后进入策略5，当遇到待测实体有多个义项时再采取策略6和策略7，最后返回待测实体在知识库中主键或NIL。

图1　多策略中文微博实体消歧和链接知识库整体流程

2.1数据来源

涉及到的数据分为两类，一类是待测实体和对应微博、知识库，另一类是百度百科文本、新浪微博文本。

待测实体和知识库主要来自NLP&&CC2013官方测评数据中的待测实体和对应微博、知识库，待测实体和对应的微博都来自新浪微博。前者一共包括1274个待测实体，而在实际测评中主办方只针对前826个待测实体进行测试。而知识库中一共包含了44 492个实体。但是这些待测实体往往存在许多噪声，另外知识库中也有不正确的数据，具体情况如表1所示。百度百科文本和新浪微博文本是用来对微博中的实体进行消歧的，都是通过网页爬虫获取的，以txt文件形式存放在本地。

表1　中文微博文本知识库文本噪声类型、说明及举例

2.2策略1：正则表达式处理

从CCF测评数据中得到的实体的形式是相当混乱的，如表1所示，所以对给出的待测实体进行规范化处理就很有必要，受到王宁等[1]和张小衡等[2]在命名实体研究中建立规则的启发，通过正则表达式去掉实体中的标点符号以及将外国人名中间的符号规范为·(例如书名号、感叹号等，例如“<霸王别姬>”规范为“霸王别姬”和“本·拉登”规范为“本·拉登”)。

2.3策略2：百度百科搜索跳转

在策略1完成之后，利用百度百科搜索跳转，爬去百度百科不同义项的百科页面的title以获取规范名称组。例如“柯南”这一实体，柯南在百度百科中有5个义项，分别获取这5个义项的title然后取重后得到“‘柯南·奥布莱恩’、‘名侦探柯南’、‘阿瑟·柯南·道尔’、‘柯南’、‘江户川柯南’”这一组规范名称组，同时英文实体转化为中文实体也是在这一步中完成的(例如“eagles”规范为老鹰乐队)。具体情况如表2所示。

表2　百度百科跳转对待测实体预处理举例

2.4策略3：分词及去停用词处理

采用了中科院张华平博士开发的汉语词法分析系统ICTCLAS对文本数据进行分词及词性标注[12]。之所以使用ICTCLAS分词工具对微博文本进行分词处理，是因为ICTCLAS分词效果好和ICTCLAS具有词性标注功能。然后只采用具有实际意义的名词作为保留词，其他如形容词、副词、介词等词语均被视为停用词而去掉。

2.5策略4：人名和地名实体专家库的映射

在实体识别中经常遇到人名实体处理、地名实体处理等问题，这就造成了数据严重稀疏、知识库无法检索等问题。吴友政引入了专家知识来规范实体[13]，本文采用此方法构建了人名实体专家库、地名实体专家库，从而达到了提高检索命中率、消歧系统效率。

人名实体专家库：主要包含NBA明星绰号、足球明星绰号等，如果当前实体是某个人的绰号，则人名实体专家库会规范化实体，例如“大鲨鱼”规范为“沙奎尔·奥尼尔”、“詹皇帝”规范为“勒布朗·詹姆斯”。

地名实体专家库：包括了中国大陆直辖市、自治区、特区、省、市、县。专家库会将地名实体规范为带地名后缀和不带地名后缀的两个实体，例如实体“泰顺县”会规范为“泰顺县”和“泰顺”，实体“红河谷景区”会规范为“红河谷景区”和“红河谷”。这里地名后缀为“省、开发区、风景区”等。

2.6策略5:在优化后的知识库选择性查找

知识库中有不少的噪音，如表1所示的“雍正王朝”错分为皇帝类别，还出现了不同主键的条目对应同一个命名实体的情况。所以对知识库做了优化，将知识库中分类错误的条目划分到正确类别以及去除重复的条目。

把规范名称组拿到优化后的知识库中做选择性查找,这时候有三种情况：

① 知识库中不存在这个实体，那么直接返回空(NIL);

② 知识库中这个实体只有1个义项，那么直接输出实体在知识库中的主健;

③ 知识库中这个实体有多个义项，那么此时要利用策略2中得到的待测实体对应的名词词组进入策略6(TF-IDF算法消歧)和策略7(Fast-Newman聚类)中对实体进行消歧，最后最符合待测实体的义项在知识库中的主健。

3　消歧算法

本小节包括2个消歧算法。分别是策略6结合百度百科的TF-IDF算法和策略7结合新浪微博的Fast-Newman聚类。因为NLP&&CC2013官方给定的知识库是由百度百科构建，所以采用了结合百度百科的TF-IDF算法进行基本消歧。但是由于知识库中实体文本的过于专一性，又因为待测实体都位于新浪微博中，所以采用了结合新浪微博的Fast-Newman聚类用来形成词语簇进行扩展消歧。这2个算法都是用于实体链接知识库遇到多义项时进行消歧的，使得待测实体和知识库中义项实体产生距离一个介于0到1之间的“距离”。然后两者相加，产生一个介于0到2之间的“距离”，这个“距离”越靠近2则越说明该义项实体越接近待测实体。

3.1策略6:基于TF-IDF实体义项消歧算法

结合百度百科的TF-IDF算法进行消歧的数据流如图2所示。首先使用待测命名实体作为输入数据，先用规范化的命名实体去百度百科中搜索，从百度百科中返回不同的义项页面。但是进行消歧并不需所有义项页面，只需要待测命名实体在百度百科对应的义项页面。举个例，比如用待测命名实体E去百度百科中搜到T1、T2、T3、T4、T5、T6等义项的百度百科页面，而待测命名实体E在知识库中只有T1、T3、T6三个义项，那么只需要提取T1、T3、T6这三个义项的百度百科页面。接下来就是对提取得到的义项页面进行词频统计，然后计算TF-IDF值，最后结合微博词频统计文本计算余弦距离。

图2　TF-IDF算法整体流程

3.1.1构建待消歧实体百科文本词频统计库

对于待测实体E，它在知识库中有T1，T2，…，Ti等义项。在百度百科中爬去对应的T1，T2，…，Ti等义项的百科页面中的正文，得到Text1，Text2，…，Texti。然后对其进行分词，通过去掉停用词处理得到百科文本词频统计文本。在此以“猛龙”为例进行说明，它在知识库中有“球队”、“电影”、“品牌”这3个不同义项。如图3所示。

图3　从百度百科爬去“实体”猛龙3个不同义项的文本

在获得3个不同义项百度百科义项页面后得到Text1、Text2、Text3这3个不同义项的百度百科正文文本，然后分别对Text1、Text2、Text3利用ICTCLAS进行分词处理，在去掉停用词后统计所得词语及其频数，其结果如图4所示。

图4　“猛龙”3个义项百科文本词频统计图

3.1.2TF-IDF模型计算词语权重

TF-IDF模型常用评估一个词语对于一个文档的重要程度，经常应用于搜索技术和信息检索的领域。一个词语TF-IDF值与它在文档中出现频数成正比，与它在语料库中出现的频率成反比。TF-IDF由TF词频和IDF逆向文件频率相乘而得，对于词语ti来说：

(1)

另外值得注意的是，如果词语ti不在语料库中那么式(1)中|{j:ti∈dj}|为0，那么会导致IDFj中分母为0，则无法计算出IDFj值。所以需要改进为如下：

(2)

3.1.3向量空间中进行实体消歧

对于待测实体E和对应微博W，经过ICTCLAS分词取停用词后得到词语组“w1,w2,w3,w1,E,w2,w1,w4,……”，然后统计这一组词语频数，并且移除待测实体e及其词频，于是得到微博W文本词频特征向量:

w1w2w3w4w5…

W=(m1,m2,m3,m4,m5…)

以待测实体“猛龙”的微博W“【热火27连胜！】热火胜猛龙、胜山猫、胜火箭……热火各种的胜，并成为了NBA第二长连胜。错过了昨日《NBA最前线》的童鞋，没关系，这里为你再次奉上热火27连胜的完整回顾，很劲爆、很热力。”为例，通过上述方法可得微博W文本词频特征向量：

热火NBA热力回顾火箭山猫

W=(4,2,1,1,1，1)

假设待测实体E在知识库中对应T1、T2……等m个不同的义项。采用3.1.1 节中的方法构建待消歧实体百科文本词频统计库，根据词语及词频得到这几个不同义项的文本词频特征向量。再通过TF-IDF模型计算这几个不同义项对应的TF-IDF向量。

在得到待测实体E、义项T1、T2……的词向量，然后通过余弦相似度公式[14]：

(3)

其中ωj,e是待测实体E对应词向量的第j个分量，ωj,t(i)是义项Ti对应词向量的第j个分量。依次计算E和T1、E和T2……的相似度，cos(E,Ti)越大越表明义项Ti符合待测实体E含义。

3.2策略7:基于Fast-Newman聚类实体义项消歧

Fast-Newman聚类消歧算法是利用海量微博信息，将微博文本进行分词处理，通过此算法，会得到待测命名实体不同义项的词语簇，将此词语簇作为待测命名实体消歧的扩展数据，因为每一个词语簇能够表示实体的义项。图5为Fast-Newman聚类消歧的数据流图,如图6为对数据流图中Fast-Newman聚类流程的详细描述。

图5　Fast-Newman聚类消歧数据流图

图6　Fast-Newman聚类消歧流程

3.2.1新浪微博文本的预处理

① 用第i个待测实体为关键词，去新浪微博搜索大量微博并存放在文件夹D中，若一共获取了j条微博，显然有D={f1,f2,…,fj}。

② 对D里每一条微博进行分词处理，假设通过D文件夹。

算法获得词语矩阵1:foreachmicroblogfi,j∈Ddo2: entity[]<-wordSegment(fi,j)//微博fi,j分词提取名词3: forp=1toSize(entity)-1do//Size(entity)为数组entity大小4: forq=1toSize(entity)-pdo5: x<-index_entity_map[entity[p]];//通过键值对映射找6: y<-index_entity_map[entity[q]];//到entity[p]的编号7: Mi[x][x]++;8: M[x][y]++;9: M[y][y]++;10: endfor11: endfor12:endfor

(4)

表[x][y]和数值大小与词语y和词语x关联度

3.2.2主要流程

图7　Fast-Newman算法聚类中词语簇并列化过程图

Fast-Newman算法[17]初始网络为n个社团，开始每个节点都是独立一个社团。初始化开始有:

(5)

(6)

然后合并有边相连的社团同时计算有边相连的社团对，并计算合并后的模块度增量ΔQ=eij+eji-2aiaj=2(eij-aiaj)。依次迭代进行，最后n个社团在n次迭代中逐渐并列化，如图8所示。

图8　待测实体“猛龙”纽曼函数聚类结果图

通过Fast-Newman算法聚类后，最后就会使每一个词语归并到簇ci中,i∈[1,K],K为簇的总个数。对所分得簇进行分析并人工打上标签，即不同的簇对应不用的该实体的不同义项。

3.2.3根据Jaccard相似度计算待测实体与义项相似性

Jaccard相似度[12]被定义为:

(7)

待测实体E在知识库中对应T1，T2，…等m不同的义项。通过Fast-Newman聚类得到关联词语簇为C1={c1,1,c1,2,…，c1,i}、C2={c2,1,c2,2,…，c2,j}……等m不同义项的词语簇。同样按照3.1.3节中文本词频特征向量方法得到在去掉待测实体E本身后微博文本自身的词语簇为T={t1,t2,…，tj}。然后依次计算Ci和T的Jaccard相似度。若Ci使得Jd(Ci,T),k∈{1,2,…,m}取最大值，那么则说明义项Ti最匹配微博文本中待测实体E。

4　实验结果及总结

4.1评价标准

NLP&&CC2013对测评结果的评价标准有正确输出、总准确率、in-KB结果准确率、NIL结果准确率、in-KB结果召回率、NIL结果召回率、in-KB结果F值、NIL结果F值。其中F值是准确率和召回率的调和平均数。In-KB结果表明实体在知识库中查询后知识库中有与之相匹配的记录，其中返回的结果是实体在知识库中主健，形如“KBBD027673”；NIL结果表明们实体在知识库中查询后知识库中没有与之相匹配的记录。以上评价标准的计算法公式如下，其中字母含义见表4所示。

表4　评价指标公式中数据说明

4.2结果及分析

抽取了政治社会人名、娱乐体育人名、虚拟人名、中国地名、外国地名、教育机构、企业机构、政法机构、娱乐体育机构作为着重考察对象,且分别对应着表5中第一列类别中的A、B、C、D、E、F、G、H、I。在826个待测实体中政治社会人名141个、娱乐体育人名188个、虚拟人名36个、中国地名109个、外国地名19个、教育机构16个、企业机构57个、政法机构36个、娱乐体育机构35个，总共637个，这几类实体占实体比例为77.1%，可以体现实体实体识别的效果。表5为改进后NLP&&2013测评中不同类型的实体识别准确率、召回率、F值统计表。

从表5中可以看出，模型得到不同类别实体识别结果的准确率基本都在90%以上，特别针对教育机构识别率达到了100%，由此可见算法对实体消歧有具有较好的有效性、准确性。利用策略1到策略8的方法，对数据集进行实体链接匹配。通过测试样例数据以及相关实体微博数据进行百科数据搜集与词语聚类，建立消歧文本，通过实体消歧算法输出结果在NLP&&CC2013测评中实体识别的准确率为84.99%，名列第4[18]。

表5　NLP&&2013测评中不同类型实体识别准确率、召回率、F值统计表

模型改进之后准确率提高到了91.40%，与评测方已知结果进行比对，准确率、召回率以及F值均有提高，远高于评测的平均结果，部分指标甚至超过了评测的最好结果，如表6所示。

从表6中可以看出，在改进之后和测评相比in-KB和NIL的结果都有了明显的提升了，其中正确数和准确率等指标已经超过测评时位居第一的富士通研究与开发中心和测评时位居第二的西南交通大学思维与智慧研究所。其中in-KB提升原因主要是采用了策略6和策略7消歧算法，找到的待测实体正确的对应义项。比如例子中的“猛龙”，在没有采用消歧算法前找到的是“电影猛龙”而不是“多伦多猛龙队”。总的来说，本文建立起的方法对微博中的命名实体消歧和命名实体链接具有很好的效果。

表6 　实验纵向比较结果

5　结　语

当下，微博作为新媒体强势崛起，有关于中文微博的研究引起了各方的极大兴趣。本文构建了多策略的命名实体消歧和链

接流程，首先使用策略1(正则表达式处理)、策略2(百度百科搜索跳转)、策略4(人名地名实体映射)对待测实体做出有效的预处理，然后进入策略5(在优化后的知识库中选择性查询)进行命名实体到知识库的链接，当遇到有歧义的命名实体时采用策略6(TF-IDF算法)和策略7(Fast-Newman聚类算法)对有歧义的命名实体进行消歧处理。通过上诉方法，在中文微博实体链接任务中取得了非常不错效果。

本文在基于中文微博实体消歧和链接方面做了一定的研究，还有很多工作有待进一步完善并深入研究，归纳起来有以下几点：

(1) 对获取的网页百科资源及知识库资源梳理工作效果还有待提高。因传统关系数据库分类不清晰，可在此基础上引入语义关系，将不同类别下但又具有相关性的实体进行语义链接处理，这样在查询检索体现语义推理的特性。

(2) 采用多策略算法。单一算法的有效性与准确性通过反复尝试和验证，已充分优化，但方法之间的组合上，方法结果的权重设置上还具有改善空间。

(3) TF-IDF算法所涉及的数据全部来自于百度百科，来源比较单一，而有些人名命名实体没有被百度百科收录。但是被维基百科、互动百科等其他百科收录。所以TF-IDF算法消歧文本还可以从维基百科、互动百科等其他百科中扩充。

[1] 王宁，葛瑞芳，苑春法，等.中文金融新闻中公司名的识别[J].中文信息学报,2002,16(2):1-6.

[2] 张小衡，王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-31.

[3] 肖计划.地名识别与匹配的概率统计方法[J].测绘科学技术学报,2014,31(4):408-412.

[4] YiFeng Lin,TzongHan Tsai,WenChi Chou,et al.A Maximum Entropy Approach to Biomedical Named Entity Recognition[J].ProcediaTechnology,2012,6:379-386.

[5] 张祝玉，任飞亮，朱靖波.基于条件随机场的中文命名实体识别特征比较研究[C]//第四届全国信息检索与内容安全学术会议论文集.北京：中国中文信息学会,2008.

[6] 何炎祥，罗楚威，胡彬尧.基于CRF 和规则相结合的地理命名实体识别方法[J].计算机应用与软件,2015,32(1):179-185,202.

[7] 刘凯.基于条件随机场的中医病历命名实体抽取方法研究[D].北京:北京交通大学,2013.

[8] 王丹，樊兴华.面向短文本的命名实体识别[J].计算机应用,2009,29(1):143-145.

[9] 俞鸿魁，张华平，刘群.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94.

[10] 乐娟，赵玺.基于HMM的京剧机构命名实体识别算法[J].计算机工程,2013,39(6):266-271.

[11] 李幸，宗成庆.引入标点处理的层次化汉语长句句法分析方法[J].中文信息学报,2006,20(4):8-15.

[12] http://ictclas.nlpir.org/.

[13] 吴友政.汉语问答系统关键技术研究[D].北京:中国科学院自动化研究所,2006.

[14] Hector Garcia-Molina，Jeffrey D Ullman，Jennifer Widom.数据库系统实现[M].北京:机械工业出版社,2011.

[15] Chao Gao，Jinming Liu.Clustering-Based Media Analysis for Understanding Human Emotional Reaction in an Extreme Event[J].Foundations of Intelligent Systems,2012,7661:125-135.

[16] David Chavalarias,Jean-philippe Cointet.Bottom-up scientific field detection for dynamical and hierarchical science mapping,methodology and case study[J].Scientometrics,2008,75(1):37-50.

[17] Newman M E J.Fast algorithm for detecting community structure in networks[J].Physical review E,2004,69(066133):1-5.

[18] http://tcci.ccf.org.cn/conference/2013/dldoc/evres04.pdf.

ENTITY WORDS DISAMBIGUATION AND ENTITY LINKING WITH MULTI-STRATEGY IN CHINESE MICROBLOGS

Xiang YuGuo YunlongXu XiaoZeng WeigangLi Li*

(SchoolofComputerandInformationScience,SouthwestUniversity,Chongqing400715,China)

Nowadays,the social networks are highly developing.How to disambiguate the microblogging entities with equivocal meaning and to link the entities to knowledge base have become the research focus at present.The paper proposes multiple strategic schemes in regard to entity disambiguation and entity linking.First it uses ICTCLAS to make word segmentation on microblogging texts,and uses Baidu Baike and entity expert database to normalise the entities.Then the paper uses Baidu Baike information,microblogging data and network terms caught by the web crawler to construct the disambiguation text database,and combines TF-IDF algorithm and Fast-Newman clustering algorithm to disambiguate and link the entities.We tested the data fetched from Chinese microblog entity linking task in 2rd Natural Language Processing & Chinese Computation conference (NLP&CC 2013).In the assessment the accuracy rate achieved 84.99%,and further achieved 91.40% after the constant improve of the model.

Chinese microblogEntity disambiguationTF-IDFFast-Newman clustering

2015-03-23。国家自然科学基金项目(61170192)。向宇，本科生，主研领域：自然语言处理。郭云龙，硕士生。徐潇，本科生。曾维刚，本科生。李莉，教授。

TP3

10.3969/j.issn.1000-386x.2016.08.003