APP下载

基于信息关联拓扑的互联网社交关系挖掘

2016-07-19刘锦文邢凯芮伟康张利萍周慧

计算机应用 2016年7期
关键词:关联度关联算法

刘锦文 邢凯 芮伟康 张利萍 周慧

摘要:针对目前基于监督学习的关系抽取方法需要标注大量训练数据和预先定义关系类型,提出了一种基于词语共现信息构建关联网络并在关联网络上进行图聚类分析的人物关系提取方法。首先,从新闻标题数据获得关联度较高的500个人物对用于关系抽取研究;然后,抓取关联人物对所在新闻数据,对其进行预处理,并利用词频—逆向文档频率(TFIDF)得到人物对共现句子中的关键词;其次,基于词语共现信息得到词语之间的关联,进而建立关键词关联网络;最后,利用对关联网络进行图聚类分析以获得人物关系。在关系抽取的实验中,与传统基于词语共现和模式匹配的中文实体关系提取方法相比,所提方法在准确率、召回率和平衡F分数(Fscore)上分别提升了5.5,3.7和4.4个百分点。实验结果表明,所提算法能够在没有标注训练数据的条件下,有效地从新闻数据中抽取丰富且高质量的人物关系数据。

关键词:

社会关系抽取;共现统计;词语关联度;关联网络;图聚类

中图分类号: TP391.1 文献标志码:A

0引言

目前,互联网规模正在以指数级的速度膨胀,互联网上的海量信息具有重要的价值。如何从互联网上海量的信息中提取有价值的数据已经成为了当前研究的热点问题。人物社会关系是人与人之间因为某种社会存在而产生的关联。人物关系提取则是挖掘这种重要关系的技术,它的主要任务是从多元结构的互联网数据中提取出人物关系三元组数据,例如,给定一个句子“姚明的妻子是叶莉”作为输入,关系抽取算法应该从中抽取出“〈姚明,妻子,叶莉〉”。这些事实三元组可以被用于构建大规模、高质量的知识库;同时可以用于构建海量知识图谱和问答系统。

互联网中存在大量的中文数据,但是关系抽取的研究主要集中在英语资源的处理上,中文语料库上的研究较少。与英文相比,基于无结构中文数据的人物社会关系提取研究存在如下难点:中文需要分词,存在复杂的句式结构和隐含的语义,基于单个句子进行人物关系判定往往不够准确。目前大多数人物关系抽取研究将关系提取问题转化为分类问题,需要训练数据和复杂的特征提取技术以及事先定义关系类型体系,训练数据往往需要大量的人工标注工作,特征工程的设计需要大量的尝试,构造较为复杂。事先定义关系类型体系后,无法挖掘到新的关系类型。

针对这些问题,本文提出一种基于关键词关联网络的无监督人物关系提取方法。与上述方法有3点不同:

1)不依赖特定的训练集,面向海量的互联网新闻数据,解决了有监督问题的领域适应性不强的问题;

2)以实体对共现的句子集合为研究对象,减小了依赖单个句子信息抽取关系带来的误差;

3)不需要事先确定的关系类型体系,能够解决人工定义关系类型不全面的问题。

首先利用关联分析技术得到候选人物对,然后抓取人物对共现新闻正文并提取正文数据中的关键词,最后构建关键词关联网络并进行图聚类得到人物关系;在实验部分,本文进行了参数选择实验并与传统的基于词共现和模式匹配的中文实体关系提取方法进行了对比,验证了本文提出的关系挖掘方法的可行性和有效性。

1相关工作

二元人物关系提取主要有基于知识工程的方法和基于机器学习的关系抽取方法[1]。基于知识工程的方法需要大量的人力、物力去构造知识库,并且系统可移植性能不佳。基于机器学习的方法已经成为目前关系抽取领域的研究热点。文献[2]使用两种基于特征向量的机器学习算法,Winnow和支持向量机(Support Vector Machine, SVM)在自动内容抽取测评会议(Automatic Content Extraction, ACE)的训练数据上进行实体关系抽取,两种算法的加权平均Fscore分别是73.08%和73.27%。文献[3]针对中文实体关系提取中的句法特征的选取进行了对比研究,并提出了新的句法特征。文献[4]提出基于动态卷积神经网络识别句子中是否含有谓词表示的关系。文献[5]提出了基于树核的人物关系提取方法,应用剪枝规则,语义信息的嵌入以及重采样技术将Fscore提高3.5%。文献[6]提出了面向大规模网络文本的无指导中文的实体关系抽取方法。

在关键词抽取研究方面,文献[7]综合考虑了关键词在文章中的位置,词性以及逆向文档频率(Inverse Document Frequency, IDF)等因素进行关键词提取。文献[8]针对具有社会网络特性的碎片文档改进现有的关键词提取算法,从微博事件集合中提取代表该事件主要内容的关键词集合。在关键词间关联度计算方面,基于语料库的统计方法通过计算词汇的共现来衡量词汇间的关联。文献[9]提出词语关联关系能够有效地反映词语间的关联度;文献[10]引入词语关联分布关系,提出基于互信息的词语关联衡量方法,提高了目标词语相似度计算的准确性。

在聚类分析中,一种非常重要的特征模式聚类变体就是图聚类[11]。图聚类算法中clique算法是基于密度和网格的聚类算法,是一种启发式的复杂网络聚类算法,它采用子空间进行聚类,适用于处理大数据集和高维数据。文献[12]在2005年提出首个重叠社团发现算法即派系过滤算法(Clique Percolation Method, CPM),此算法把社团看作是由相互连通的完全子图(k团)组成。文献[13]提出基于一种基于kclique覆盖的图挖掘算法;文献[14]基于关键词在文档中的共现构建关键词网络,并提出一个新的事件检测算法,这个算法通过建立关键词网络和类似社会网络分析中的社团检测算法来发现和描述事件。

2人物社会关系提取

人物关系,是指人物在其特定的社会范围内与他人之间存在和产生的关系。人物关系抽取属于实体关系抽取的范畴,实体关系抽取的任务是从文本中识别出不同实体间的语义关系。如果这两个实体是人物,那么它就是人物关系抽取。人物关系抽取正是要从文本中获得人物关系,新闻数据中蕴含许多人物关系,新闻中的人名一般较规范,利于人名识别的实现。本文以新闻文本数据为研究对象,主要利用词语间的共现关系进行人物关系提取。本文的人物关系提取系统的关键步骤包括数据预处理、关联人物对提取、关键词提取、词语关联计算与关键词关联网络构建、基于图聚类的人物关系提取。

2.1数据预处理

数据预处理主要包括网页正文提取、分句、分词和词性标注、人名词典构建、语句选择等处理过程。

1)网页正文提取。在得到新闻网页以后利用基于文本块统计的新闻网页提取算法获得网页的文本内容。

2)分句。句子识别是进行关系抽取的最初步骤,在从新闻网页中抽取的正文数据中,句子和句子是相连的。需要对抽取出的纯文本进行分句操作,以文本中出现的中英文句号、问号、叹号等句子终结符作为句子的分隔符。

3)分词和词性标注。在这一步中,需要对已分好句的文本进行分词、词性标注与命名实体识别。在本文的研究中,使用中国科学院计算技术研究所开发的汉语语法分析系统(Institute of Computing Technology, Chinese Lexical Analysis System, ICTCLAS)对句子进行分词和词性标注。该系统是一个集分词、词性标注,未登录词识别于一体的汉语词法分析系统,其中采用了基于角色标注的中国人名自动识别方法。该系统人名识别的正确率和召回率分别达到95.57%和95.23%。本文采用ICTCLAS2011对新闻内容进行词法分析,并把词性标注为“nr”“nr2”“nrf”的词语作为人物名。

4)人名词典构建。本文关注的人名是一些社会上的名人或者有一定知名度的人名,普通人的人名在Web网页中的内容存在得较少。本文的人名词典利用从微软人立方关系搜索中获取的数据进行构建,从中获得包括体育人物、娱乐人物、政治人物和商界人物共4类人物的1391个人名。后续关系抽取研究基于这个人名词典,对于人名中存在的同名问题,本文未作区分。

5)语句选择。语句选择是只在多语句文本中选择最符合条件的语句,例如在研究人物关系时,首要的是在句子中至少出现2个或者2个以上的人物实体,这样就可以筛选掉一些无研究价值的语句;以此类推,根据制定的相关规则,筛选出对后续处理可能有价值的句子,过滤掉无关语句,提高系统的处理效率。

2.2关联人物对抽取

人物关系提取任务的第一步是要发现可能具有关系的人物对,然后是识别人物对的具体关系是什么。新闻标题数据能够高度概括和凝练新闻事实,其中也会包含有直接关联的人物对,因此,本文利用标题数据挖掘可能具有关系的人物对。在对数据进行预处理以后,可以得到标题数据中所有识别为人物名的词,为了保证人名识别的准确性,使用人名词典对识别出的人名进行噪声过滤。对标题数据进行过滤后的人名两两进行组合得到人物对。

统计所有标题数据中每个人物对的出现频率,人物对的出现频率越高说明在新闻标题中共现的次数越多,两者存在关系的概率越高。通过这种方法过滤掉共现次数较少的无关人物对,减少后续处理的工作工作量。

对于剩下的共现次数较高的人物对,引入一种关联度计算方法——上下文式关联。根据两个人名同时出现在一个新闻标题中作为人物存在关联的依据,然后基于统计的方法来量化这种关联度,这里引入两个人物实体(pi,pj)的条件概率:

P(pi|pj)=Fpi,pj/Fpj(1)

即pi,pj同时出现的标题数目除以pj出现的标题数目。如果人物对间计算出的条件概率较高说明人物之间的依赖关系较强,将式(1)中的条件概率和人物对共现次数结合来衡量人物对关联度。

asso(pi,pj)=w1*P(pi|pj)+w2*coor(pi,pj)(2)

式(2)计算的人物对的关联度,w1和w2分别是式(1)中的条件概率和人物对共现次数所占的权重。在实验中,调整w1和w2的取值,使关联人物对的识别效果最佳。最终,将人物对按照式(2)计算的关联度进行排序,取关联度最高的500个人物对用于后续人物关系提取研究。

2.3关键词提取

在得到可能具有关系人物对以后,需要确定人物对之间的具体关系名,因此,需要挖掘与人物对有关的新闻数据进行分析。本文以人物对pair=(pi,pj)为搜索条件,利用搜索引擎得到人物对的查询结果新闻网页。按照预处理部分介绍的方法对新闻网页数据进行处理,且句子中必须包含两个人名,最终得到分词和词性标注以及人名识别以后的句子集合。为了发现人物对相关的关键词,对集合中的词语进行词频统计,因为对人物关系提取作用最大的是动词和名词,所以词频统计中只考虑动词和名词,其他词性的词忽略。本文将所有词语按照词频排序,词频统计结果表现为长尾特性,即大多数的词出现次数很少,少数的词出现的次数较高,此处过滤掉词频极低的可能是噪声的数据。

词频逆向文档频率(Term FrequencyInverse Document Frequency, TFIDF)算法在关键词提取中较常使用,它原用于评估一个字词对于一个文件集或者一个语料库其中一份文件的重要程度,本文将用它来评估一个词语对于表征人物对关系的重要度。其一般原理是:如果某个特征在某个人物对共现的句子中出现的词频较高,并且在其他人物对共现的句子集中很少出现,则认为这个词较能体现人物对的关系。本文中,词语对于人物对关系的重要性为wij,如式(3)所示:

wij=tfij×idfj=tfij×ln(N/nj)(3)

其中:tfij指关键词tj在人物对di共现的句子中出现的次数,idfi与词tj共现的人物对数量成反比,N表示总的人物对数,nj指与词tj共现的人物对数。将按词频过滤后的词语重新按式(3)重要性进行排序,每个人物对保留重要性最高的50个词语。

2.4词语关联度计算与关键词关联网络构建

词共现矩阵是词共现模型的量化,词共现模型是基于统计方法的自然语言处理领域的重要模型之一[7]。它的基本假设的基础是:在大规模语料中,如果两个候选词经常共现在文档的同一窗口单元(如一句话、一个自然段等),则认为这两个词在意义上是相互关联的,并且共现的概率越高,其相互关联越紧密[15]。

一个包含n个关键词的共现矩阵被定义为:

其中: f(wi), f(wj)分别代表词语wi和wj的出现频数, f(wi,wj)代表wi和wj共同出现在一个窗口的次数。参数p是一个可调的参数并且它的值在实数范围内。参考文献[17]的设置,本文取p=50,式(5)显示词语之间的关联度量是由词语的共现频率和单个的出现频率所决定的。

定义1设M是得到的词语共现矩阵,关键词集合是W,Wi表示第i个关键词,M转化成对应的关键词关联网络图G的定义为:

G={V,E}(6)

其中:V表示图G的顶点集;Vi表示V中第i个顶点;V与W中元素一一对应,即Vi对应Wi;E表示图G的边集。如果2个顶点的关联度大于一定的阈值,则在这2个顶点之间添加一条无向边,即:

E={(Vi,Vj)|Vi,Vj∈V,Sim(Vi,Vj)>β}={(Vi,Vj)|Vi,Vj∈V,Wi,Wj∈W,Sim(Vi,Vj)>β}(7)

其中,0<β<1, β越大,词语之间的关联的要求越严格,则图G越稀疏[18]。本文设置的β值为所有计算出的关键词关联度的中位数的T倍,实验部分将比较T值的选取对最终结果的影响。

2.5基于图聚类的人物关系提取

关键词关联网络建立完成以后,需要对关联网络进行分析以发现人物关系。表示人物关系的关键词与人物对会存在频繁的共现关系,而且在关键词关联网络中处于核心的位置,可以通过图聚类的方式找到人物关系。本文使用基于团(clique)的图聚类方法,clique算法是基于密度和网格的一种聚类分析算法,对于大型高维空间数据的聚类分析具有很高的效率,能得到优质的聚类效果[19]。

本文利用文献[13]中提出的方法检测出关联网络中所有固定大小的clique,例如kclique。每个clique中包含若干个关键词,这些关键词在关联网络中都有边相连,如3clique和4clique,分别包含3个关键词和4个关键词。在关键词关联网络建立以后,本文使用复杂网络分析工具NetworkX中的find_cliques()函数查找关键词关联网络中的所有clique。

为了利用识别出的clique挖掘人物对的关系词,本文构建clique之间的关联图。关联网络中检测出的clique之间往往会存在共同的关键词。例如,clique1={w1,w2,w3,w4},clique2={w1,w2,w3,w5}具有共同的关键词w1,w2,w3,则认为两个clique有关联关系。clique间的共同出现关键词组成集合V={w1,w2,…,wm},共包含m个关键词。以每个clique作为节点,clique之间的共现关键词为边的来建立clique关联图G*。

在clique关联图G*建立完成后,在关联图G*上进行分析以挖掘在人物对关联上重要性最高的关键词。关键词k在clique关联图G*中越多的边中出现,说明该关键词是关联图G*很多clique都包含该关键词,则关键词k对于识别人物对关系重要性越高。

为了识别人物对(pi,pj)之间的关系,对clique关联图G*中所有边上的关键词统计每个关键词在图中出现的边数。假设集合V中的某个关键词k在图中边上出现的次数为fqk,结合2.3节TFIDF(Term FrequencyInverse Document Frequency)计算出的关键词权重wk,最终关键词k对于人物对的重要性为Weightk:

Weightk=wk×fqk(8)

对于集合V中的所有关键词按照式(8)计算的结果进行排序,最后取集合V中所有词语中计算结果最高的词语作为人物对的关系词。

3实验设置与结果分析

3.1数据集与评估方法

本文的实验数据包括如下内容。

1)利用网络爬虫从腾讯新闻、百度新闻、网易新闻和新华网等主要新闻门户网站上抓取的2006年1月到2015年5月的新闻标题数据,共计67万条新闻标题,每条新闻标题数据包括了新闻的URL和新闻的抓取时间。利用搜索引擎返回的所有候选关联人物对搜索结果页中的新闻网页,共计22万个网页。

2)为了评估关系抽取的效果,需要对于实验中研究的500个人物对构建关系评估集,即人物对的真实关系。本文利用微软人立方关系搜索网站提供的结构化人物词条信息,共24.6万的人物词条。每个人物词条中都包含人物的社会关系信息,从中可以获得大量人物关系数据,用于构建人物关系知识库。从该知识库中,可以查询到本文研究的人物对的真实关系,本文将人物对的关系词进行同义词扩展,以获得更多的关系。例如:“朋友”关系可以扩展为“好友”“友人”“密友”等。扩展以后的人物对真实关系作为实验的评估集,本文实验中抽取得到的人物对关系将与评估集中的真实关系进行比较以评估关系抽取的效果。

关系抽取的效果使用准确率(Precision)、召回率(Recall)和Fscore进行评估。准确率是所有检测出关系词的人物对中被确认为正确关系的比率:

precision=Nhit/N(9)

其中:Nhit是检测的关系正确的人物对数,N是所有检测关系的人物对数。召回率是所有检测出正确关系的人物对数占所有有关系的人物对数的比率:

recall=Nhit/N*(10)

其中:N*是实验中所有提取的人物对中存在关系的人物对。Fscore是对准确率和召回率的调和平均数:

Fscore=2×precision×recallprecision+recall(11)

3.2实验结果分析

3.2.1实例分析

针对已提取出的人物对,查询语料库中人物对共现的句子,并按照2.3节的方法提取关键词。取热门人物对person pair=〈王菲,李亚鹏〉为例,抽取出的部分关键词按照词频分布的情况如图1所示,出现次数频率较高的词语占少数,大多数的词只出现很少的次数。将所有的关键词按照词频排序,过滤词频极低的数据,将剩余词语用于建立关键词关联网络。

利用过滤以后的关键词进行关联计算,构建关键词关联矩阵,然后按照2.4节中的方法构建关键词关联网络。按照2.5节中介绍的方法对该关键词关联网络进行分析,最终得到的person pair=〈王菲,李亚鹏〉的关系词中重要性值最高的关键词是“离婚”,因此,挖掘出的关系三元组〈王菲,李亚鹏,离婚〉。

3.2.2词语共现窗口大小对结果的影响

为了评估参数对检测结果的影响,本文分别设置实验比较窗口大小和阈值对于结果的影响。在2.4节中计算的词语关联度,对后续的关系词抽取有较大的影响,根据词语是否在同一个词语窗口内出现作为共现的依据。考虑到互联网上句子的长度不一,所以取固定的窗口大小作为共现的依据。

在实验中,测试了6组窗口,窗口大小分别为[5,10,15,20,25,30]。词语出现在窗口范围内则认定为共现一次。图2所示为最终关系挖掘的Precision,Recall和Fscore的效果。随着窗口变大,更多的词语能在窗口中共现,使得最终的关系提取的召回率提升,但是准确率降低。计算出的Fscore值最高的窗口大小为windows length=10,因此,本文取10为窗口进行共现统计。

3.2.3关联度阈值β的选取

在由共现矩阵得到关联网络时,需要确定关联度阈值的大小。取3.2.1节中的结果效果最好的窗口大小10,用不同的阈值β实现关联网络的建立。词语间的关联度要大于指定的阈值,才在关联网络中添加相应的边。本文在指定的不同阈值下,进行关联网络构建,并进行后续的图聚类得到人物关系数据,然后对人物关系的检测结果进行评估得到的结果如图3所示。横轴表示阈值相对于中位数的倍数T,纵轴是关系抽取的效果。三条曲线分别代表Precision、Recall和Fscore。在阈值比较低的时候系统的召回比较高,但也会引入大量的噪声。随着T的增大,准确率提高,召回率逐渐降低。可见,阈值越大对于关系准确性的判定较为谨慎,虽然降低了噪声,但是增大了遗漏关系词的风险。Fscore在T=2时候取得最大值,T>2以后,Fscore呈现下降的趋势,因此在本实验中,选取T=2,即阈值β为中位数的2倍。

3.2.4人物关系提取效果

经过以上实验结果分析,实验中将关键词共现窗口大小设置为10,关联度阈值β为中位数的2倍来建立关键词关联网络,对本文研究的500个人物对进行关系抽取。表1为利用本文的人物关系抽取方法得到的关系类型和每种关系的人物对数量,关系种类较为丰富,且本文的方法能够挖掘出互联网中实时出现的人物关系。

本文提出的关系抽取方法不仅不需要实现定义的关系类型体系,而且能保证关系抽取的有较好的效果。为了能够对该方法有准确的评价,本文将其和文献[20]中提出了词共现关系抽取(Word CoOccurrence Relation Extraction, WCORE)方法的关系抽取方法在关系抽取结果上的准确率、召回率和Fscore值进行比较。文献[20]中提出了方法首先利用词共现来计算词语相似度,然后采用模式匹配的技术来抽取实体之间的关系。对比方法中需要预先抽取种子模式,而待处理句子与种子模式进行匹配的工程中存在较大的误差。如表2所示的系统性能中,对比方法的准确率、召回率和Fscore指标都较低,本文的方法明显优于对比方法。

为了对算法的执行时间进行分析,本文在人物对的关键词集合进行关键词关联度计算后,进行实验比较了本文提出关系抽取算法的和文献[20]的方法在不同人物对数据量下的执行时间情况。如图4所示,其中横轴表示算法处理的人物对数量分别是100,200,300,400,500,纵轴是人物关系抽取算法的总体执行时间。从图4中可以看到,随着处理的人物对集合的增大,本文的方法呈现次线性(sublinear)增长形式,说明本文的方法具有较好的伸缩性。与文献[20]所提出的WCORE方法的比较中可以看到,在所有人物对数量下本文方法的执行时间都少于对比方法,因此,可以看到本文提出的无监督关系抽取方法能取得优于对比方法的性能。

4结语

目前,中文关系抽取方面的研究较少,尤其是基于互联网新闻语料的人物关系挖掘研究更加匮乏。本文针对中文新闻数据中人物关系提取的任务,提出一种无监督的人物关系提取方法利用词语共现关系建立关键词关联网络,并进行图聚类找到人物关系。在实验中,本文比较分析了词语共现的窗口大小和关联网络建立时的关联度阈值的大小对于挖掘人物关系词结果的影响,实验结果显示当窗口大小为10,且阈值取中位数的2倍时,系统的表现最好。在对应的参数设置下,本文的方法在准确率和召回率方面优于基于词语共现和模式匹配的关系提取方法,且Fscore提升了4.4个百分点,执行时间花费上也少于对比方法。同时能够在没有标注语料和预定关系类型的前提下,有效地完成从新闻语料中挖掘人物关系的任务。

未来的工作中,将尝试通过引入词语位置信息改进关键词提取方法,并引入人名消歧策略解决人物关系中的人物同名问题。

参考文献:

[1]

雷春雅,郭剑毅,余正涛,等.基于自扩展与最大熵的领域实体关系自动抽取[J].山东大学学报:工学版,2010,40(5):141-145.(LEI C Y, GUO J Y, YU Z T, et al. Domain of automatic entity relation extraction based on seed selfexpansion and the maximum entropy machine learning [J]. Journal of Shandong University (Engineering Science Edition), 2010, 40(5): 141-145.)

[2]

车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6.(CHE W X, LIU T, LI S. Automatic entity relation extraction [J]. Journal of Chinese Information Processing, 2005, 19(2): 1-6.)

[3]

董静,孙乐,冯元勇,等.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-85.(DONG J, SUN L, FENG Y Y, et al. Chinese automatic entity relation extraction [J]. Journal of Chinese Information Processing, 2007, 21(4): 80-85.)

[4]

LIANG Z, YUAN C, LENG B, et al. Recognition of person relation indicated by predicates [C]// Proceedings of the 4th CCF Conference on Natural Language Processing and Chinese Computing. Berlin: Springer, 2015: 313-324.

[5]

PENG C, GU J, QIAN L. Research on tree kernelbased personal relation extraction [C]// Proceedings of the 1st CCF Conference on Natural Language Processing and Chinese Computing. Berlin: Springer, 2012: 225-236.

[6]

秦兵,刘安安,刘挺.无指导的中文开放式实体关系抽取[J].计算机研究与发展,2015,52(5):1029-1035.(QIN B, LIU A A, LIU T. Unsupervised Chinese open entity relation extraction [J]. Journal of Computer Research and Development, 2015, 52(5): 1029-1035.)

[7]

王庆,陈泽亚,郭静,等.基于词共现矩阵的项目关键词词库和关键词语义网络[J].计算机应用,2015,35(6):1649-1653.(WANG Q, CHEN Z Y, GUO J, et al. Project keyword lexicon and keyword semantic network based on word cooccurrence matrix [J]. Journal of Computer Applications, 2015, 35(6): 1649-1653.)

[8]

周鹏,蔡淑琴,石双元,等.基于关键词抽取的微博舆情事件内容聚合[J].情报杂志,2014,33(1):91-96.(ZHOU P, CAI S Q, SHI S Y, et al. Content aggregation of microblogging public opinion events based on keyword extraction [J]. Journal of Intelligence, 2014, 33(1): 91-96.)

[9]

樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-31.(FAN X H, SUN M S. A high performance twoclass Chinese text categorization method [J]. Chinese Journal of Computers, 2006, 29(1): 124-31.)

[10]

赵军,胡栓柱,樊兴华.一种新的词语相似度计算方法[J].重庆邮电大学学报(自然科学版),2009,21(4):528-532.(ZHAO J, HU S Z, FAN X H. Word similarity computation based on word link distribution [J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2009, 21(4): 528-532.)

[11]

温菊屏,钟勇.图聚类的算法及其在社会关系网络中的应用[J].计算机应用与软件,2012,29(2):161-163.(WEN J P, ZHONG Y. Graph clustering algorithm and its application in social network [J].Computer Applications and Software, 2012, 29(2):161-163.)

[12]

PALLA G, DERNYI I, FARKAS I, et al. Uncovering the overlapping community structure of complex networks in nature and society [J]. Nature, 2005, 435(7043): 814-818.

[13]

CAVIQUE L, MENDES A B, SANTOS J M A. An algorithm to discover the kclique cover in networks [C]// Proceedings of the 14th Portuguese Conference on Artificial Intelligence. Berlin: Springer, 2009: 363-373.

[14]

SAYYADI H, HURST M, MAYKOV A. Event detection and tracking in social streams [C]// Proceedings of the 3rd International AAAI Conference on Weblogs and Social Media. Menlo Park, CA: AAAI Press, 2009: 311-314.

[15]

雷钰丽,李阳,王崇骏,等.基于权重的马尔可夫随机游走相似度度量的实体识别方法[J].河北师范大学学报(自然科学版),2010,34(1):26-30.(LEI Y L, LI Y, WANG C J, et al. Method on entity identification using similarity measure base on the weight of Markov random walk [J]. Journal of Hebei Normal University (Natural Science Edition), 2010, 34(1): 26-30.)

[16]

DAGAN I, LEE L, PEREIRA F C N. Similaritybased models of word cooccurrence probabilities [J]. Machine Learning, 1999, 34(1/2/3): 43-69.

[17]

LIU J, HE L, LIN X, et al. A specific word relatedness computation algorithm for news corpus [C] // Proceedings of the 2nd International Workshop on Intelligent System and Applications. Piscataway, NJ: IEEE, 2010: 148-153.

[18]

王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(1):1-4.(WANG L X, HUAI X Y. Semanticbased keyword extraction algorithm for Chinese text [J]. Computer Engineering, 2012, 38(1): 1-4.)

[19]

项响琴,李红,陈圣兵.CLIQUE聚类算法的分析研究[J].合肥学院学报(自然科学版),2011,21(1):54-58.(XIANG X Q, LI H, CHEN S B. Analysis and research on clique algorithm [J]. Journal of Hefei University (Natural Sciences), 2011, 21(1): 54-58.)

[20]

WANG J, YANG J, HE L, et al. Chinese entity relation extraction based on word cooccurrence [EB/OL]. [20151201] http://www.ica.stc.sh.cn/picture/article/176/39/ff/b3ae3e1b4a5d96519bfb308c9d13/8ec889c154c748698978bb7bc5285199.pdf.

猜你喜欢

关联度关联算法
Travellng thg World Full—time for Rree
中国制造业产业关联度分析
中国制造业产业关联度分析
奇趣搭配
拼一拼
学习算法的“三种境界”
算法框图的补全
算法初步知识盘点
智趣
试析护理专业大学生思想政治教育与专业思想教育关联性