APP下载

融合知识库语义的文本聚类研究*

2021-05-28吴锦池余维杰

情报杂志 2021年5期
关键词:知识库语料库语义

吴锦池 余维杰

(中山大学信息管理学院 广州 510006)

0 引 言

文本聚类是根据文本之间的相似度,无监督地将文本划分为若干个簇的过程[1]。作为处理和组织文本数据的重要技术,文本聚类在文献检索[2]、数字化图书馆资源建设[3]和知识发现[4]等领域都有着广阔的应用前景。然而,随着互联网的快速发展,文本数据体量急剧增加。传统的文本聚类方法无法满足高维文本聚类需要。具体而言,在文本表示的过程中,基于词频等传统的统计指标作为文本特征会使得文本特征矩阵十分稀疏,并且基于此种文本表示的文本相似度计算会忽略特征项之间的语义关联[5-6],而采用增加特征数量的方式,则会增加大量额外的计算开销,且效果提升有限。因此,有学者探究结合知识库的文本聚类方式,利用知识库的义原关系增强文本间的语义关联。现有的相关研究多是基于单一的知识库,无法全面的表达语义关系,且难以适用于不同领域的数据集。

基于以上问题,本文拟利用知网知识库与同义词词林知识库的义原层次结构关系扩充文本的语义信息,使文本特征之间的语义关联充分保留,并根据文本特征之间的义原距离计算特征之间相似度,再通过特征之间相似度计算文本相似度。最终,依据该文本相似度计算方式,进行不同类型数据集和多种聚类方法的文本聚类,验证考虑多个知识库语义的文本聚类有效性。

1 相关研究

文本聚类具有不可忽视的现实意义和应用价值,因此受到了国内外众多学者的关注。根据文本聚类流程,文本聚类可分为两个阶段,第一个阶段为文本表示和文本相似度计算阶段,这一阶段重点是尽可能保留文本信息地将文本数据转换为可计算的数字数据,并基于此计算任意两篇文本间的相似度。第二阶段为文本聚类阶段,这一阶段是依据聚类规则将相似度较高的文本划分为同一个簇的过程。这两个阶段在文本聚类过程中互为支持,且都对聚类效果有较大影响。因此,本节将按这两个阶段分别对相关研究进行总结。

1.1文本相似度计算从实现方法上划分,当前文本相似度计算方法包括基于统计学的方法和基于语义关系的方法。

基于统计学方法的文本相似度计算是将文本视作一组词的集合,通过分词工具对文本进行分词,然后依据各个词汇在文本中出现的频率等统计信息进行文本向量化,再利用文本向量计算文本间的相似度。Salton等人于20世纪70年代提出VSM模型[7],该模型在各类文本处理问题中均取得了较为良好的效果。该模型的基本思想是将每篇文档表示成一个基于词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)权重的实值向量,N篇文档则构成n维实值空间,其中空间的每一维都对应词项,每一篇文档表示该空间下的一个点或者向量[8]。或者直接通过最简单的词集模型(Set Of Words, SOW)将文本表示为独热向量(One-hot vector)形式[9]。随着VSM的广泛应用,许多学者根据文本处理问题的实际需要对该模型进行了相应的改进。胡晓等人认为特征在文本中不同位置所起到的作用不同,因而根据特征项在文档中的位置和出现频率计算特征权值,从而有效的改进了文本相似度计算的准确度[10]。李连考虑了文本间相同特征词对文本相似度的影响,引入表征文本特征词覆盖程度的参数,进而优化了文本相似度的计算结果[11]。此外,基于统计学方法的文本相似度计算除了较为广泛使用的VSM模型,也有学者尝试引入散列算法[12],利用哈希算法对每个特征词汇生成对应的哈希值并根据各自的权重形成加权数字串,进而计算文本之间距离。其中,Charikar等人所提出的Simhash算法是目前运用较广的基于散列算法的文本相似度计算方法[13]。

基于统计方法的文本相似度计算只考虑了词汇层面的统计信息,而不考虑这些字词在句子中真实的含义。为解决这一问题,学者们进一步提出了基于语义的文本相似性计算方法,从而更真实的反映文本的间差异程度。基于语义的文本相似度计算主要包括两类:基于语料库(Knowledge-Based)与基于知识库(Corpus-Based)。

基于语料库的文本相似度计算方法是根据从大型语料库获得的信息确定两个文本之间的相似性。语料库是用于语言研究的大量书面语或口语的文本集合,可以根据任务的领域不同有选择对语料库进行选取,如比较常用的维基百科语料、百度百科语料,针对特定领域的文学语料、新闻语料、金融语料等,针对口语的知乎语料、微博语料等,如果待处理任务本身的文本足够大,也可以将这些文本的集合作为语料[9]。目前,基于语料库的文本相似度计算的相关研究主要包括神经网络方法[14-16]和LDA方法[17- 19]。基于语料库的文本相似度计算可以比较客观地反映词语在句法、语义等方面的相似性和差异。但是,这种方法比较依赖于训练所用的语料库,计算方法较为复杂。同时也很大程度地受语料稀疏和语料噪声的干扰。因此,有学者提出利用知识库的词汇结构判断词汇相似程度,进而计算文本的相似度。Masahiro等[20]利用维基百科中的链接结构,以及其中的文本的数据,提出了计算文本语义相关度的具体方法。该方法的基本思想是通过词汇和文本之间的链接关系,形成共现网络,以度量文本的相似度。这一方法为基于维基百科等知识库的语义相似度计算的相关研究提出了方向和参考。王李冬[21]等人利用HowNet知识库系统的语义结构计算词汇的相似度,并将其运用与文字检索领域,分别将中文待检索主题词和微博文本词汇进行语义相关度匹配,实验结果表明引入HowNet知识库的检索效果良好,具有较高的查准率。尹坤等[22]引入图论的思想,将百度百科知识库的链接结构看作图结构,其中词条作为图中节点,词条间的链接作为图中节点的连线,并通过SimRank方法计算词条之间的相似度。

总体而言,与基于统计学方法相比,基于语义的文本相似度计算方法更能表现出文本之间的差异。其中,基于语料库的文本相似度计算方法容易收到语料稀疏和语料噪声的干扰。因此,本文选择可以更为客观地反映文本间差异的基于知识库的文本相似度计算方式。

1.2文本聚类方法根据不同的聚类思想,聚类算法大致可分为基于划分、基于层次、基于密度和基于图论四类。且每一类聚类算法中都包含多种算法,及其衍生的改进方法,且各类算法之间存在许多相互借鉴的情况。目前,在文本聚类领域,运用较为广泛的聚类算法包括基于划分和基于密度两种。

基于划分的聚类算法是最为常用,且效果较好的文本聚类方法。Yu[23]等人结合LDA算法,对K-means算法的聚类中心初始化进行改进,解决了由于随机性聚类中心初始化带来的聚类结果不稳定的问题。由于多数采用K-means算法进行文本聚类研究采用基于统计的文本相似度计算方法,因而在遗失大量语义信息的情况下,K-means对高维的文本聚类结果并不是十分理想。钮永莉[24]等人提出了非线性动态调整惯性权重机制,并将改进后的粒子群算法与局部搜索能力较强的K-Means算法相结合,以解决K-means算法在解决高维文本聚类问题时容易陷入局优的问题。此外,也有学者采用其他基于划分的聚类算法运用于文本聚类当中。如邹雪君[25]等人引入K-medoids算法,利用全覆盖粒度重要性和平均粒度重要性从粗聚类结果中产生初始聚类中心候选集,再根据密度和最大最小距离法则从候选集中选出初始聚类中心,实验结果获得了良好的文本聚类效果。

以K-means为代表的基于划分的文本聚类方法虽然易于理解,且具有较高的效率,但是存在如聚类结果不稳定、无法解决非凸数据集等问题。因此,有学者开展了基于密度的文本聚类相关研究。例如,傅华忠[26]等人将DBSCAN这一基于密度的聚类算法运用Web文本聚类当中。蔡岳[27]等人在前人研究的基础上提出一种基改进DBSCAN算法的文本聚类算法, 利用最小二乘法降低文本向量的维度, 并创建一种应用于DBSCAN算法的簇关系树结构。李群[28]等人则结合了动态规划和DBSCAN算法,进而提高了算法在文本聚类应用中的准确率。

除了较为常见的基于划分和基于密度的文本聚类算法之外,部分学者尝试将BIRCH[29]、Hierarchy[30-31]等基于层次的聚类算法和谱聚类[32-33]等基于图论的聚类算法应用于文本聚类当中。总体而言,目前基于划分的文本聚类算法的相关研究数量最多,各个分支的研究也相对成熟。

综上所述,不同类型文本聚类方法的出发点与聚类过程不同,从而所适用的范围也不尽相同。因此,为验证本文方法的有效性,本文将对多种不同类型聚类方法进行实验,根据实验效果比较各类方法间的差异并分析其原因。

2 研究思路及关键技术

2.1研究思路根据文本聚类的一般流程,本文将文本聚类过程分为:文本预处理、特征提取、相似度计算和聚类实现四个步骤。其中,第一步为文本预处理,主要是对数据源进行规范化和可操作化处理,包括分词、去除停用词等具体操作。第二步是特征选择,根据TF-IDF和TextRank等方法提取可表征文本特性的、特定数量的文本特征,其目的是为了防止特征数量过多而造成聚类结果不稳定和高维数据所带来的计算资源消耗。第三步为相似度计算,文本的相似度计算是本文的核心组成部分,其主要工作是根据知网和词林中的义原结构计算词语相似度,为下一步的文本聚类做准备。第四步是具体的聚类实现,该步骤的主要内容是将考虑语义信息的文本向量作为输入数据,利用多种聚类算法进行聚类,并比较各类算法的聚类结果。具体流程如图1所示。

图1 文本聚类处理流程

2.2文本预处理依据数据处理流程,本文将文本预处理划分为四个步骤,分别为数据获取、数据格式化处理、分词和去除停用词。首先,从开源语料库和文献数据库中获取原始数据,并将原始数据以篇为单位进行格式规整,形成易于读取的txt文件;然后利用jieba分词工具对格式化后的文本进行分词;再在分词完成的结果上,采用哈工大停用词表过滤不具有语义信息的停用词;最终将每一个文本转换为一个单独的词汇集合t,而所有文本词汇汇聚成为整体词汇集合E。

2.3特征选择基于文本预处理阶段结果,本文将采用TF-IDF和TextRank这两种常用的特征提取方法分别进行特征提取,再根据特征集合对每一篇文本进行向量化。

2.3.1 TF-IDF TF-IDF是一种在向量空间模型中将文本特征转换为向量的统计方法,用于衡量文本中特征词汇对于整个文本特征集或语料库中的其中某一文本的重要程度。因此,TF-IDF既可用于特征选择,同时又可用于文本相似度计算。通常地,特征词汇的重要性与其在文本中出现的次数成正比,但同时与其它在整个语料库中出现的频率成反比。

词频(term frequency,TF) 是指某一个特定的词语在其所在文本中出现的频率。在实际操作中需要将这个数字是对词数(term count)进行归一化处理,以防止它偏向长的文本。例如,在文本词汇集合ti中存在词汇wj,则词汇wj的重要性可表示为

(1)

其中,分子表示第i个词汇在第j个文本词汇集合中出现的次数,分母则表示文本词汇集合中所有词汇出现次数总和。

逆向文本频率(inverse document frequency,IDF)是用于度量一个词语在整个语料库当中的普遍重要性。若包含某一特定词语的文本数量越多,则说明该词汇普遍性越高,即该词汇具有的类别区分能力越低。因此,IDF可以表示为总文本数目除以包含该词语之文本的数目。为防止数量级别差异带来的结果偏差,需再将结果进行取对数处理:

(2)

其中,|D|表示语料库中的文本总数,|{j:ni∈dj}|表示包含词汇wi的文本数目。

某一特定文本内的高词语频率,以及该词语在整个文本集合中的低文本频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留具有类别区分度的词语。其公式可表示为

TF-IDF=tf×idf

(3)

2.3.2 TextRank TextRank是一种基于图的无监督关键词抽取方法。该方法主要借鉴了PageRank算法的思想,通过词语之间的相邻关系构建网络,将文本构建为图G=(V,E),其中V为节点集,E为采用共现关系构造任意两点之间的边,当两个节点在同一句子中共现,则两个节点之间存在边[34]。根据PageRank算法思想,一个词语与TextRank值很高的另一个词语之间具有连线,那么这个词语的TextRank值会相应地提高,以此依次迭代传播各节点的权重,直至收敛。权重迭代方式如公式(4)所示。最终计算出所有词语的权重,选择排序靠前的词作为文本特征。

(4)

其中,S(ti)为文本ti的权重,d为阻尼系数,In(ti)表示文本ti的链入节点,In(ti)表示文件ti的链出节点。

依据以上所述的TF-IDF和TextRank两种文本特征提取方法,分别计算每一个词汇集合t中每一个词汇的权重,根据实验需求选取每一个文本词汇集合中权重较高的前m个特征词,并将所有文本特征词形成整体特征集Cn,表示一共包含n个文本特征。最终,采用one-hot编码方式将每一个文本根据该文本中的特征词形成n维的特征向量Vi。

2.4相似度计算仅基于one-hot编码的文本特征向量进行文本相似度计算会丢失词语间的语义关联关系,进而导致聚类效果不佳。因而,本文融合了知网和词林两个具有表性的知识库,构建词语相似度的计算方式,并词语相似度的基础上,提出文本相似度计算方式,并进行具体实验。

2.4.1 基于知网的词语相似度计算 知网知识库(HowNet)是一个描述概念之间关系和概念属性间关系的知识系统[35]。在知网知识库中与词语相关的概念包含义原和义项。其中,义原是描述“概念”的最小单位,知网知识库整体是由义原所组成的树状层级结构。而义项则表示词语的某一种解释,即一个词语可能拥有多个义项。因此,两个词语的相似度可表示为两词语各义项相似度最大值。若存在两个词语w1和w2,且w1包含n个义项:T11,T12,…,T1n,w2包含n个义项:T21,T22,…,T2n,则词语w1和w2之间的相似度为

(5)

义项由知网知识库中的义原进行表示,因而计算义项的相似度需要先计算相关的义原相似度。根据义原的树状结构,两个义原之间的相似度可表示为

(6)

其中,dist(p1,p2)表示p1和p2在树状结构中路径长度,α为可调节参数。

在知网知识库当中采用语义表达式对词语进行存储。语义表达式共包含独立义原构成描述、关系义原描述、关系符号义原描述三个部分[35]。因此,在计算两个概念的相似度时,需要分别计算这三个组成部分的相似度,即两个概念的整体相似度为

(7)

其中,βi为调节参数,且满足β1+β2+β3=1,β1>β2>β3。

2.4.2 基于同义词词林的词语相似度计算 同义词词林(CiLin)是一个包括了词语的同义词和词语同类词的知识库[36]。同义词词林将收集的词汇分成大、中、小三类,大类有12个,中类有97个,小类有1400个,每个小类中都包含大量词汇,这些词又根据词义的远近和相关性分成了若干个词群。每个段落中的词语又进一步分成了若干个行,同一行的词语要么词义相同,要么词义有很强的相关性。在词语的关系结构上,同义词词林与知网相类似,采取了树状的层次结构表示词语之间的“亲疏远近”关系。词林提供了5级编码结构,第1级采用大写英文字母标识,表示大类;第2级采用小写英文字母标识,表示中类;第3级用二位十进制整数标识,表示小类;第4级采用大写英文字母标识,表示词群;第5级用二位十进制整数标识,表示原子词群。例如编码“Cb30A02#”表示的词群为“该地 该镇 该乡 该站 该区 该市 该村”。具体编码形式与符号性质如表1所示。

表1 词语编码表

同时第8位编码表示词群关系,标记共有3种,分别是“=”“#”“@”,其中“=”代表“相等”“同义”;“#”代表“不等”“同类”,属于相关词语;“@”表示该词汇为“自我封闭的”“独立的”,它在词典中没有同义词和相关词。

根据同义词词林的五层树状结构,本文采用朱新华[37]等人所提出的词语相似度计算方式。首先对层级之间的路径赋予权重,从下往上依次赋予权重为:W1,W2,W3,W4,具体如图2所示。

图2 同义词词林五层树状结构

由于越高层级的差异表示词语之间的相似度越低,因此需赋予更高的权重。以词语间距离为主要影响因素,基于同义词词林的词语相似度计算公式为

(8)

其中,dis(w1,w2)表示词语w1与w2在树状结构中的距离函数,取值为2*(W1+W2+W3+W4);k表示两个词语的分支间隔;n表示分支层节点总数。

2.4.3 文本相似度计算 同义词词林知识库和知网知识库均收录了大量的词汇,但是二者收录的内容却不完全相同。因此,为更全面的考虑词语间的相似度,本文结合两个知识库共同进行计算。若存在任意两个词语w1,w2,分别基于知网知识库和词林知识库计算这两个词语的相似度为S1,S2。那么,这两个词语的综合相似度可表示为

Sim(w1,w2)=αS1+βS2

(9)

其中,α+β=1。

根据特征提取部分所述,对每个文本提取m个特征词,用ti,j表示第i个文本的第j个特征。所有文本的特征共同组成文本特征集Cn,用Ck表示特征集中第k个特征。因此,每一个文本可以依次计算该文本中的特征与特征集合中特征的相似度,形成新的n维空间向量Vi。Vi中每一维取值的计算公式为

(10)

其中,Sim(Ck,ti,j)是依据公式(9)计算特征集第k个特征与第i个文本中第j个特征的相似度。

因此,每个文本可向量化地表示为:Vi=(v1,v2,…,vn),采用余弦相似度计算方法,则两个文本之间的相似度可表示为

(11)

2.5聚类方法基于以上处理步骤之后,将得到每一个文本的向量化表示Vi,以及任意两个文本之间的余弦相似度Similarity(T1,T2)。为验证本文方法的适用范围,根据综述部分的聚类算法划分,本文将以上部分处理结果运用到K-Means、DBSCAN和Spectral三种不同类型的聚类算法当中。

K-Means为基于划分的聚类算法。该算法首先随机将数据分为K组,并选取K个对象作为初始的聚类中心,然后计算每个对象与各个聚类中心之间的距离,把每个对象分配到距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个簇。每完成一次分配,聚类中心需要根据聚类中的对象重新计算。这个过程将不断重复直到满足终止条件。

DBSCAN是基于密度的聚类算法,该算法首先随机选取一个未被访问的点,找出与其距离在扫描半径(eps)之内的所有附近点。如果附近点的数量大于最小包含点数(minPts),则当前点与其附近点形成一个簇,并且出发点被标记为已访问(visited) ,如果附近点的数量小于最小包含点数,则该点暂时被标记作为噪声点。以相同的方法处理该簇内所有未被标记为已访问(visited)的点,从而对簇进行扩展,直到所有点被标记为已访问或标记为噪声。

Spectral是基于图论的聚类方法,其主要思想是把所有的数据看作空间中的点。这些点之间可以用边连接起来,距离较远的两个点之间的边权重值较低,距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。

3 实证检验

3.1实验数据与参数设置本实验采用了两个语料数据,分别为复旦中文文本语料库和按主题进行知网检索生成的语料库。其中,从复旦中文文本语料库的Economy、Sport、Computer、Policies、Agriculture五个文本数量较多的子类中各随机选取200篇文本,形成实验数据一。实验数据二是从中国知网数据库中按主题检索“市场营销”“数据挖掘”“信息管理”“移动图书馆”四个主题,并从中各随机选取200篇文本的摘要部分所构成的。

本文实验中,为降低特征集维度,将分别采用TF-IDF与TextRank[38]特征提取方法进行特征提取。参考文献[34]中采用整篇文章进行特征提取,实验结果表明聚类效果随特征数量增加而缓慢上升,当提取特征数量大于10时,聚类效果上升效果减缓[34]。参考文献[39]则从每一个文本中选出10个词频较高并能代表文本内容的特征词,将其作为表征文本特征的特征词,从该文章聚类结果角度观察,选取10个能代表文档内容的特征词可以达到聚类效果[39]。

因此,本文实验中为降低计算过程中的特征维度,并同时尽可能保留具有较强的类别区分能力的特征词,提取每个文本的特征数量为10个。表2中展示了数据集二基于TF-IDF方法所提取的特征词。如表2所示,同一类别的前10个特征词基本同属于一个领域,而不同类别特征词具有一定差异,即提取前10个特征词可表征文本内容。

表2 数据二基于TF-IDF提取特征词(部分)

由于两个概念相似度由三部分组成,且各部分重要程度不同,因此公式(7)中设置了β1,β2,β3三个参数,为了保证主要部分的影响力高于后面次要部分的影响力所起的作用,避免出现当主要部分的相似度值过低时,因次要部分的相似度太高而导致整体相似度过高的不合理现象的出现[37],三个部分参数应当采用指数增加型数值进行赋值。基于此本文实验对公式(7)中β1,β2,β3分别赋值为0.7、0.2、0.1。由于同义词词林中越接近根节点级别的差异代表词语间差异越大,且在树型结构中的上下层节点数量差距通常呈现倍数关系,因此对层级间连接W1,W2,W3,W4分别赋予权重为0.5、1、2、2.5。此外,由于词林知识库与知网知识库收录的词语数量接近,因此本文实验中,当S1,S2均不为0时,公式(9)中的α,β取值均为0.5;当仅有S1为0时,则α,β取值为0、1;当仅有S2为0时,则α,β取值为1、0。实验设备如下,Windows 10系统,8G内存,AMD R5处理器。

3.2 实验过程及结果

3.2.1 语义相似度计算 根据实验步骤,首先对数据进行预处理,再分别采用TF-IDF方法和TextRank方法对每一篇文章进行特征提取。通过特征提取之后获得如表2格式的特征词,再使用公式(11)计算文本之间的相似度。以表2数据为例,结合知网知识库和词林知识库计算的文本相似度结果如表3所示。在表3中,每连续5篇文章为同一类。从表中可以看出,同一类文章相似度明显高于不同类别文章相似度。

表3 数据二文本相似度结果(部分)

3.2.2 融合语义聚类方法性能分析 将以上实验数据一和实验数据二作为输入数据,分别在不考虑词语语义关系(即TF-IDF文本向量化方式)情况下采用DBSCAN、Spectral、K-means三种算法进行聚类和融合知网和词林词语语义关系情况下利用DBSCAN、Spectral、K-means三种算法进行聚类。同时,为验证考虑单个语料库与多个语料库之间的差异,本文实验中设置了基于知网知识库语义的K-Means聚类。聚类结果采用查准率、召回率和F1值三种常用的评价指标进行评价,评价结果分别如表4和表5所示。

表4 数据一聚类实验结果(百分比%)

从表4和表5中可以看出,在不考虑语义的情况下,K-Means和DBSCAN的聚类效果相当,而Spectral算法的聚类效果稍弱,这表明Spectral算法在解决文本聚类问题上性能一般。对比于不考虑语义的聚类效果,考虑语义的实验组效果均有不同程度的提升。其中,K-Means的聚类效果提升最为明显,DBSCAN次之,Spectral提升幅度最小。这说明了K-Means和DBSCAN算法在考虑了语义之后,聚类效果具有一定的提升空间;而Spectral算法不适用基于本文实验流程的文本聚类。

表5 数据二聚类实验结果(百分比%)

从数据集角度观察,通过上表比较可以发现,不同数据集之间的聚类效果接近。其中不同数据集的同一种聚类算法的F1指标最为接近。F1指标是结合了查准率和召回率两个指标的综合性指标,这说明融合了知网和词林知识库语义的文本聚类效果提升与数据集选择的联系不大。但是,如果只考虑知网知识库,则数据集二的聚类效果提升更为明显,数据集二是从知网数据库中按主题检索的文献数据,这表明只考虑单个知识库聚类效果提升与数据集选择存在一定联系。综上所述,考虑单个知识库的聚类效果容易对数据集选择产生依赖,而融合多个知识库可以较好的弥补这一不足。

从不同特征选择方法之间进行比较,在分别运用两种不同特征选择方法下的聚类效果相近。其中,同种算法下采用不同特征选择方法的查准率与召回率存在一定变化,但是F1值较为稳定。这说明特征选择方法对聚类效果的影响不大。

整体而言,融合知网与词林语义的文本聚类效果提升明显,且与数据集、特征选择方法等因素无明显关联。同时,聚类算法的选择对聚类效果的影响明显,基于划分的K-Means和基于密度的DBSCAN针对文本聚类问题都具有良好效果,而基于图论的Spectral算法则表现一般。

3.2.3 聚类效果分析 由上一小节分析可知,HowNet知识库对数据集二聚类效果影响更为明显。因此,为直观观察融合知识库语义的聚类效果提升,文本将基于数据集二和采用K-Means聚类算法,对不同向量化方式下的聚类效果进行分析。首先,采用t-SNE对文本向量进行降维;其次,将聚类结果映射至二维空间;最后,采用matplotlib工具对聚类结果进行可视化。结果显示,在不考虑语义的情况下,各个簇之间的区别大致清楚,但在边界部分尚存在部分模糊状态;融合HowNet语义的聚类效果有所提升,簇边界区分不清晰的情况得到了改善,但仍有少数样本游离在距离簇中心较远位置;融合HowNet和CiLin两个知识库语义的聚类效果则明显好于前两种情况,簇间的分界较为清晰,仅有个别数据点处于游离状态。

4 总 结

文本聚类是自然语言处理中的一个重要分支,准确的文本聚类能够有效地节省人们对文档进行划分和归类的时间。本文从词语之间的语义关系出发,结合了知网知识库和同义词词林知识库,计算词语之间的相似度。通过词语相似度计算文本之间的相似度,从而一定程度的缓解了利用独热编码等传统编码方式所带来了语义丢失问题。同时,融合多个知识库语义的方式有效地解决了数据集选择对数据效果的影响。从实验结果可以看出,基于本文方法的文本聚类效果具有明显提升。当然,本研究中也存在一定的不足之处,主要体现于本研究的计算复杂度。由于本研究中采用的引入知识库的方式计算文本相似度,使得计算过程的时间和空间复杂度都有明显增加。针对这一问题,后续研究中着力于如何在不影响聚类效果的前提下降低计算复杂度,从而进一步凸显基于知识库语义关系的文本聚类优势。

猜你喜欢

知识库语料库语义
真实场景水下语义分割方法及数据集
汉语近义词辨析知识库构建研究
平行语料库在翻译教学中的应用研究
《语料库翻译文体学》评介
“吃+NP”的语义生成机制研究
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析
汉语依凭介词的语义范畴
机构知识库建设的动力研究
语篇元功能的语料库支撑范式介入
我国联合虚拟参考咨询系统知识库现状研究*
——基于与QuestionPoint的对比