基于语义的档案数据智能分类方法研究
2021-03-23霍光煜孙艳丰尹宝才
霍光煜,张 勇 ,2,孙艳丰,尹宝才
1.北京工业大学 信息学部 多媒体与智能软件技术北京市重点实验室,北京 100124
2.北京市交通信息中心,北京 100055
随着我国数字化档案建设的发展,面对海量的数字化档案数据,简单的统计方法或者传统的数据分析并不能发现档案数据之间的关联关系。对档案进行手工分类、编研等工作也需要投入大量的人力物力,耗时过长。因此,如何发掘和利用档案数据中的隐含价值,从而对海量数字化档案进行快速、准确的分类,是目前档案管理领域所面临的一项重大挑战。
现有的档案数据管理方法多是依赖于传统的数据库技术,其目标是档案信息的罗列整理与基础的统计分析,数据库管理的局限是需要人为设计分析内容,要求制定分析内容的人有丰富的经验支撑。随着知识的快速更新,通过传统统计分析方法不能满足发掘档案数据内容方面的关联,无法满足档案更高层次智能管理要求。目前,自然语言处理已经成为人工智能的一个重要分支。自然语言处理可以针对数字档案的内容对数字档案进行分类、聚类的操作,可以很好地展现出数字档案内容关联的变化。在众多关联分析方法中,基于语义特征的方式为档案管理提供宝贵的参考。因此,对于数字档案内容的挖掘是档案智能管理的基础。对现有数字档案数据进行深入分析,可以更加了解不同类型档案的内在关联规律,对其可能存在的关联关系进行预测,从而为档案管理者的档案关联分析、自动分类工作等方面提供帮助。
本文的主要贡献如下:
(1)提出了一种基于LDA 主题特征的文本聚类算法,根据LDA模型对文本进行语义特征表示,基于语义特征对现有档案数据进行聚类,服务于现有档案的智能挖掘。
(2)将FastText 深度学习模型应用到档案文本分类中,将文本的n-gram特征词向量作为输入,并引入分层Softmax分类,完成快速、准确的档案分类工作。
1 相关工作
传统的档案文本的研究主要是通过数学统计方法以及数据挖掘的手段。对于档案文本的宏观分析,一般是通过数学统计的方法,缺少对档案内容的分析。随着信息科学的发展,机器学习作为一种新兴的数据分析手段,被广泛应用于文本数据分析领域。其中按照是否属于监督学习又可以分为:无监督的聚类算法和有监督的分类算法。尤其值得提到的是,基于深度神经网络的深度学习算法因其优异的性能也受到了广泛关注。
聚类是一种不需要手动标记文件的机器学习方法,在集群过程中具有一定的灵活性和较高的自动化处理能力,所以它已成为越来越多研究学者进行文本挖掘的重要手段。聚类算法包括基于层次的聚类、基于划分的聚类、基于密度的聚类和基于模型的聚类。同时,文本聚类问题也有其特殊性。一方面,文本向量是一个高维向量,通常是数千甚至数万级别的维度;另一方面,文本向量通常是稀疏向量,因此很难选择聚类中心。目前,文本聚类的主要方法是基于层次聚类算法和基于划分聚类算法。基于划分聚类算法的效率更高,但由于文本聚类是机器学习过程的非监督,聚类的结果是没有依据的。划分聚类方法中的初始设定对聚类结果具有极大的影响[1]。文本聚类K-Means算法[2]也称为k均值聚类方法,它是一种基于划分的简单聚类方法。在理论上可靠、简单和快速,所以K-Means算法已经被运用于解决很多不同的问题中。K-Means聚类方法的目的是减少每个聚类中每个点和聚类中心的平方差。该算法在时间复杂度方面具有优势,但需要给出聚类的种类k,即簇的数量;而且它对孤立点很敏感。均值漂移聚类方法也是常用的基于质心的聚类算法,通过将中心点的候选点更新为滑动窗口内点的均值来完成,来定位每个组/类的中心点。然后对这些候选窗口进行相似窗口去除,最终形成中心点集及相应的分组。同样基于密度的聚类算法的DBSCAN算法在图像和自然语言处理的聚类方面也有不错的表现。
文本分类是将预定义的标签分配给未分类文档的过程。作为其初步任务,分类方法预定义了有限数量的类别,并且准备了一定数量的预定义标记的样本文本。在20 世纪50 年代,就出现了基于词频统计和概率模型的文本分类算法[3],开启了计算机文本分类的新阶段。之后K-近邻算法(KNN)[4]、决策树算法(DT)[5]、朴素贝叶斯算法(NB)[6]、支持向量机(SVM)也相继出现。Haddoud 等人通过支持向量机(SVM)与文本加权矩阵相结合,提高文本分类效果[7]。Wang 等人提出了通过LDA提取文本主题与支持向量机相结合的中文文档分类算法[8]。Joachims 等人提出了一种基于SVM 的文本分类方法[9]。Wei 等人提出了一种基于WordNet 的修正词的相似性测量用于消除歧义,增强聚类效果[10]。Tang提出了一种基于贝叶斯的分类方法,用于使用特定类的特征进行自动文本分类,与传统的文本分类方法不同,通过提出的方法为每个类选择特定的特征子集[11]。
作为机器学习的一个分支,近些年来,深度学习受到了越来越多的关注,它的起源是人工神经网络,核心思想是通过模拟人脑的感知神经来解决各种问题。目前深度学习也被很广泛运用在自然语言处理领域,相较于传统的文本分类浅层学习算法,如朴素贝叶斯算法(NB)、支持向量机(SVM)等,深度学习算法的优势体现在对复杂函数的表达上,匹配档案内容复杂的特性。其通过非线性的深层网络结构以及对文本数据特征进行分布式采集能很好地表达复杂函数[12],实现准确的文本数据分类。卷积神经网络(CNN)最先在图像分类领域取得了成功[13]。CNN目前也被用于许多NLP任务。NLP研究应用CNN解决了诸如词性标注、人机交互问答、文本摘要、命名实体识别等问题[14]。同时CNN 可以学习诸如n-gram之类的文本特征。循环神经网络(RNN)是针对有序数据设计的一种深度学习模型,理论上它可以解决文本分类中的语义问题,但是会存在梯度消失和梯度爆炸问题[15]。长短期记忆神经网络(LSTM)可以通过门控制来克服RNN中的这些限制,LSTM在大多数文本处理中的表现较好。Zhou 等人提出了一种基于双向LSTM与二维最大池化方法相结合的方法,利用二维卷积来对矩阵信息进行采样,优化文本分类[16]。Shen等人提出了一种新的基于深度学习的文本分类模型,以解决中文网络文本分类降维的问题[17]。
本文的主要研究点聚焦于档案类别的重新划分和自动分类。运用机器学习的聚类算法对档案进行内容聚类,在此基础上对档案之间的关联关系进行挖掘。运用深度学习的分类算法对新归档的档案按照内容进行自动分类,减轻档案工作者的工作量。
2 基于LDA主题特征的档案聚类
目前依据档案部门标签和归档时间标签划分的档案分类方式,忽略了不同部门、不同时间发布的档案之间语义内容上存在的隐含关联。如果通过手工的方式对档案进行按照内容分类,又会产生工作量过大的问题。针对这个问题,本文提出采用LDA(Latent Dirichlet Allocation)文档主题生成模型提取档案文本的主题特征并进行表示,再运用K-means(K均值聚类算法)重新对数字档案文档进聚类处理,打破传统的分类标准束缚,便于档案工作者发现海量档案之间的关联。
每天都会有数以万计的新档案归档到档案馆,档案的自动归类问题也是档案管理部门所关心的重点问题之一,想要对档案进行深入的数据挖掘还需要将新进的档案按照内容进行分类。本文采用基于FastText 深度学习模型进行档案分类也将进一步的减少档案从业者的工作量同时增加档案文本挖掘的深度。文本数据挖掘总体框架图如图1所示。
图1 文本数据挖掘总体框架
总体来说,本文主要包括两部分内容:
(1)基于LDA主题特征的档案聚类
对于原始档案数据进行基于LDA主题模型的特征表示,并对此语义特征进行聚类处理。通过聚类操作得到海量档案的内在关联。
(2)基于FastText的文本分类
对于已经归档后的档案数据,通过基于卷积神经网络的FastText 模型进行有监督分类。对数据进行n-gram 向量化处理并通过基于Softmax 的分类器进行多分类,让训练完成的模型对新进档案进行自动化分类,减轻手工分类的工作量。
3 基于LDA主题特征的档案聚类
目前的档案多是按照管理需求分类,并未考虑各个档案文件内容之间的隐含关联关系,这也造成了对档案数据利用困难的局面。如果要对档案文件进行更为系统的分析,提出采用聚类的方式将档案文本数据重新组织,运用LDA 模型对档案进行特征提取,并采用K-means 算法对提取的文本特征进行聚类。算法流程首先运用LDA 主题模型提取出的特征作为输入的作用,之后介绍采用K-means 聚类方法,根据实际需要设置K值,对档案数据进行重新划分,在主题特征的基础上完成档案文本聚类。
3.1 基于LDA的档案主题提取和表示
上式可以理解为:词语wn在文档Mm中的出现概率。其定义为特征词的概率与主题词概率的乘积,即wn出现在主题Kk中的概率,以及Kk参数和出现在文档Mm中的概率乘积。N表示特征词总数,M表示文档的数量,K表示主题的总数。LDA 的概念可以通过矩阵的形式表达,整个文档被认为是文档矩阵,可以分解成主题词项矩阵和文档主题矩阵。以这种方式,主题-词项矩阵表示每个文档相对于词项的概率分布,文档-主题矩阵表示每个文档相对于主题的概率分布,主题的矩阵表示该主题关于词的概率分布。其中文档的词项可以通过预处理中的TF-IDF算法加权得到。
LDA主题模型的构建模型过程可以理解为documenttopic(文档-主题)分布向量与topic-word(主题-词项)分部向量,可以通过多种方法求解,本文将采用Gibbs抽样学习的方式来对LDA模型进行参数估计。在LDA主题
传统的文本聚类算法都是以向量空间模型(VSM)的特征表示为基础,向量空间模型概念是将文本间的比较转化为向量之间的相似度计算,这种方式确实能在一定程度上将相似度高的文本数据聚集,但是它存在着明显的缺陷,就是单纯以TF-IDF 值来衡量文本中词语的重要性是不够全面的,只考虑到关键词频率对其重要性的影响,没有考虑文本的上下文语义。根据TF-IDF 特征的缺点,本章在TF-IDF 特征的基础上采用LDA主题提取的方式,对文本主题特征进行聚类,希望改进聚类的效果。
LDA 主题模型有三层结构,分别是文本document、主题topic 以及词项word,LDA 主题模型的本质就是利用文本的特征词的共现特征来挖掘文本的主题。每篇文本都可以看作是由特定主题集混合而形成的。
LDA 模型把语料库看成是不同主题的概率分布,主题是文本特征词上的概率分布。符合下面的公式:模型中,文本可以看作是由不同主题构成的,各个主题都可以看作是这篇档案文本的特征,可以将档案文本映射到主题的特征向量空间中,进行文本特征表示。
在优化档案文本聚类的过程中采用LDA主题模型进行文本语义相似度的计算。LDA主题模型把每个词都对应到一个主题中,文档中的词为描述这个主题起到的指导作用,这就是LDA优于传统基于TF-IDF 权重策略的VSM 文本聚类的原因。用基于LDA 主题模型产生的主题文本向量代替之前计算得出的TF-IDF权重策略加权的文本向量,将其运用到文本聚类中,从而改善文本聚类的质量。基于LDA主题模型的主题提取和表示流程如下所示:
输入:文本数据D;基于LDA 的文本主题数N;K-means聚类簇的数量N
输出:文本聚类的评价指标
1.对文本数据D进行分词与去停用词等预处理;
2.将预处理后的文本数据向量化;
3.基于LDA算法的得到N类文档的主题词;
4.基于LDA算法获取文档-主题的特征向量。
3.2 基于LDA文本特征的档案文本聚类
传统的文本表示大都采用TF-IDF 空间向量模型,但是这种文本表示方法只是基于统计分析的模型,并不关注档案文本所蕴含的语义信息,不能真正准确地对档案文本进行基于内容的划分。基于上述问题,提出一种基于LDA 主题特征和K-means 的档案文本聚类算法,采用文档-主题分布向量特征作为K-means 算法的输入,进行档案文本的聚类。
基于划分的聚类算法的工作原理可以看作:把众多数据划分为所需要的类别,类别的标准由数据间的距离决定,同类数据距离近,不同类别的数据距离远,是一种基于距离的聚类,聚类算法目的是找出数据紧凑分类的簇。
算法大体上可以分为以下几个步骤:首先需要根据聚类的目标设定出划分成N个类别,之后让随机的挑选的点成为聚类的中心来得到最初的聚类结果。之后以寻找最优的聚类中心为目的,在最初的结果上循环上述操作,让聚类中的数据重新归类,算法终止的条件是同一类内的数据距离最小,类之间距离最大。
K-means算法是划分的代表算法,K-means算法依靠计算每个类中的平均值来确定新的聚类中心。换句话说,K-means算法的类中心不一定是类内的点,以下将详细地介绍K-means算法。K-means的目标函数可以转化为下式:
其中between_ss代表类中每个数据的间隔距离,total_ss代表了类间总体的距离,总体的目标就是通过迭代尽量增大公式的值,从而取得更好的聚类结果。
假设有n个数据点并且准备分成N类,这里的N是可以改变的,与数据无关,可以根据需求自行确定N的数值。根据K-means算法,初始的聚类中心是随机选择的,数量为N,运算出数据点到聚类中心的距离,选择距离最小的聚类中心与之成为一个类别,形成初始的聚类结果。按照上述的步骤进一步的迭代,不断更新聚类的结果,直到聚类类别不再发生变化为止。聚类的终点可以用平均误差准则函数来表示,其定义为:
在上式中E是整体数据点的总误差,x是数据点,m是类中平均距离,循环迭代直到E的值达到最小便可得到最优聚类结果。
从K-means算法的流程可以看出,该算法利用最近邻质心决策规则将数据分为若干个簇,并重新计算每个簇的质心,如此反复。K-means聚类在每一轮迭代后不会增加类内散度,而算法将收敛于某个驻点,达到该点后便不可能再对其做出改进。由于文档-主题分布向量表示的档案特征已经是降维后的低维数据,采用基于划分的K-means算法能够在实际的应用中更加简单、高效地完成聚类任务。
4 基于FastText的文本分类
档案馆拥有海量的数字档案还未被充分利用,同时每天又会接收许多档案数据,每年档案馆都需要投入大量的人力来对档案进行手工分类工作,新进档案的自动化分类是目前档案馆所面临的棘手问题之一。在文本分析及其相关领域中,深度学习的算法因其良好的分类准确率近来大受欢迎,但是传统的深度神经网络模型需要极长时间的训练过程,限制了其在文本大数据上的应用。
基于上述问题,本文提出一种采用FastText 深度学习模型的档案快速分类方法。此模型是基于word2vec的CBOW框架提出的生成词向量与文本分类的深度学习模型,不同的是CBOW模型是预测语境中的词语,而FastText 模型的目标是预测文本标签。如图2 所示,FastText模型分为三层的训练图结构:输入层input layer、隐藏层hidden layer以及输出层output layer。输入层为初始化的词语词向量,并且在词向量中加入n-gram 特征,确保了具有矢量特性的词语语义表示,增强语义表达的完整性。经过隐藏层求得每个词向量的均值,根据优化器和梯度下降算法更新权重参数,最后计算得出损失函数以及对应的分类类别。
图2 FastText模型构架图
FastText 模型使用了一个分层分类器(而非扁平式架构)。不同的类别被整合进树形结构中。在一些有许多类别的文本分类任务中,线性分级器的计算非常复杂。为了改善运行时间,FastText 模型使用Softmax 分层技术。该技术基于霍夫曼编码,主要用于编码文本数据标签,能有效地缩短训练时间。FastText 的训练过程如下所示。
输入:文本数据D;选择损失函数LOSS;设置学习率lr
输出:文本输出类别概率P
1.对文本数据D进行分词与去停用词等预处理,每行结尾加入标签;对词语向量进初始化;
2.对算法的损失函数LOSS以及学习率lr进行设置,并选用类别输出;
3.根据梯度下降算法计算,训练过程中对输入的词向量数据、标签数据进行权值更新;
4.训练结束,得到分类的模型;
5.分类测试,输入测试文本集,得到该数据的类别及其概率。
FastText 模型进行文本分类的本质是对文本进行Softmax 多类别分类。在FastText 模型中,模型从输入层到隐藏层的主要任务就是产生文本的特征向量,也就是产生文本的n-gram向量,之后以文本的n-gram向量作为输入,将Softmax 作为分类器进行多分类。对于训练完成的FastText模型可以进行文本批量类别预测,返回精准率、召回率和F1值。
5 实验结果与分析
为了测试本章提出的方法的有效性,本章采用基于文本数据集的聚类、分类对比实验,来分别验证本文提出的基于LDA 主题特征的档案聚类的有效性和基于FastText模型的档案分类的有效性。由于实际的档案数据没有可评价内容分类的标签,所以本文将采用自然语言处理领域的公共数据集进行测试。所用到的数据集为复旦大学计算机信息与技术系国际数据库中心中文文本分类语料库数据,训练集共9 804篇档案文档,测试集共9 833 篇,共有20 个类别的文本数据,文本数据集中类别之间的文本数目不平衡。
5.1 档案文本聚类结果
因为档案馆的实际数据一部分不对外公布,所以本文为了验证聚类算法对于文本挖掘的准确性与稳定性,选择了与档案内容更为切合的7个类别进行聚类实验,分别为C3-Art、C11-Space、C19-Computer、C32-Agriculture、C34-Economy、C38-Politics、C39-Sports。在以上类别的文本中进行传统TF-IDF 特征与LDA 主题特征的K-means聚类实验。实验结果,通过统计数据总数量和正确聚类数、错误聚类数,实现对机器学习评价指标精准率、召回率和F1 值的计算,综合各项指标来证明LDA+K-means算法在文本数据聚类上的有效性。
在本文采用的数据集上,通过LDA 主题模型进行文本特征提取,得到与数据集中文本文件相对应的7 637个维度为20 的文档-主题特征向量。对这些的文档-主题特征向量进行K-means 聚类,K值设置为7,与真实类别相对应。从表1可以看到,本实验采用的数据集是不平衡标签数据,不同种类的档案数量各异,所以采用加权平均的精准率、召回率和F1 值的评价更能客观地展现聚类算法的结果。实验结果的F1 值对比如表2 所示,从聚类的结果来看,运用LDA主题特征的K-means聚类方法在5 个类别的聚类准确率上都要遥遥领先于基于TF-IDF 特征的聚类方法,这5 类文本包括C3-Art、C11-Space、C32-Agriculture、C38-Politics、C39-Sports,平均F1 值要高出10%以上。由表3 可知,基于LDA 主题特征的聚类算法在整个数据上的Micro avg F1值上高出 0.08,Weighted avg F1 上比传统基于 VSM 模型的聚类高0.06。本文的方法在Weighted avg Precision 和Weighted avg Recall 这两项精准率和召回率的指标上也都有不同程度的提升,可以说基于LDA 主题特征的聚类算法的聚类效果在各项指标上都有显著的提升。精准率、召回率和F1 值指标的提升证明本文的方法可以准确而全面地对档案数据进行聚类。
表1 档案数据量
表2 聚类算法的F1值对比
表3 聚类算法加权F1值对比
本文提出的基于LDA主题特征与K-means相结合的聚类方法相较于传统的基于TF-IDF特征的K-means聚类算法有更好的聚类效果,在实际的档案语料聚类时会针对档案的来源等信息,预先进行基于LDA模型的特征向量提取,确保对原始档案文本按内容划分的准确性。
在完成档案文件准确分类的同时,通过对档案进行LDA 主题特征表示,也得到了各个档案文件之间的内容相似性关联关系。这种关联关系可以有效服务于档案的相关性管理。
5.2 档案文本分类结果
为模拟海量数字档案数据的分类,选用5类数量较多的文本数据进行分类实验,类别分别是C19-Computer、C32-Agriculture、C34-Economy、C38-Politics、C39-Sports,总计6 253篇文本数据。
在实验过程中,首先对档案数据集进行分词、去停用词的预处理工作,然后将5类分类类别标签分别加在对应的档案文本结尾处,作为训练数据的标签。将档案训练放入FastText中,进行深度学习的训练。
本文采用的FastText 的具体参数如下:设置学习率为0.1。考虑到文本分类的效率,将词向量的维度设置为50,既保证了文本中语义的准确表达,又不会过度降低算法的运行效率。在数据集充足的前提下,FastText算法只需要3次全数据集训练便可收敛,具有很高的训练效率。语义级别的特征n-garm=2,分类器采用分层Softmax。FastText 模型的重要参数就是上下文窗口(ws),这个参数的选取意味着可以从文本上下文句子中得到信息的量,随着上下文窗口大小的提升,文本分类的F1值也会随之上升,但是训练时间将会增加,针对当前数据集来说,当上下文窗口值(ws)为4 之后,文本各类别的F1值就趋于平稳,到达0.96左右。
本实验选用FastText 模型、Naive_bayes(朴素贝叶斯)模型、SVM 模型分别进行分类训练,采用上述的测试集验证分类结果,三类模型的分类结果如表4~6 所示。按照机器学习分类的评价标准,分别求出5类文本数据中每一类的精准率、召回率和F1值,并计算综合文本测试集的宏平均、微平均和加权平均精准率、召回率和F1值,同时显示每类的测试档案数量。
表4 FastText模型分类结果
FastText 模型在测试集的测试中表现稳定,在文件总数达到6 253 个的多分类实验中,每个类别的分类精准率、召回率和F1 值都维持在0.94 以上,如表4 所示。Naive_bayes(朴素贝叶斯)模型在测试集的测试中表现略有浮动,在文件总数达到6 253个的多分类中,各个分类的精准率、召回率和F1 值都维持在0.92 以上,如表5所示。SVM 模型在测试集的测试中表现较差,在文件总数达到6 253个的多分类中,各个分类的精准率、召回率和F1值差别较大,最低只能达到0.52,如表6所示。
表5 Naive_bayes模型分类结果
表6 SVM模型分类结果
由于档案文本数据绝大部分内容明确,同时有分类归档的需求,适合采用深度学习的方式进行全自动分类。在本实验中,基于FastText的文本分类模型在C19-Computer、C32-Agriculture、C34-Economy三个类别上的分类准确度高于Naive_bayes模型,在C38-Politics、C39-Sports 这两个类别的分类精准度与Naive_bayes 模型持平。出现这种情况的原因是因为实验所用到的数据集内容明确,原有的文本特征已经足以使得Naive_bayes模型做出准确的分类判断。即使如此,本文的基于FastText 的分类模型也能在有些数据类别上胜出,证明了基于FastText的分类模型在文本分类上的有效性,这种分类准确率的优势会随着档案数据集的复杂而越发凸显。
同时基于FastText 的文本分类模型在所有类别上的精准度都远远高于基于SVM 的文本分类模型,从数学模型的角度分析,SVM 构成的超平面不适用于档案主题的文本特征,朴素贝叶斯模型虽然模型简单,但效率尚可,但是准确率方面与基于FastText的模型相比较还存在差距。
由表7 可知,在5 个类别的分类验证实验中,基于FastText 的文本分类模型分别在C19-Computer、C32-Agriculture、C34-Economy、C38-Politics、C39-Sports上的分类F1值分别达到了1.00、0.95、0.94、0.95、0.97。从表8可以看出,朴素贝叶斯分类器的加权F1值是0.95,SVM分类器的F1值是0.73,基于FastText的文本分类模型在加权F1值、加权平均精准率、加权平均召回率这三项总体类别评价指标中远远优于基于SVM模型的文本分类器,比基于朴素贝叶斯的文本分类模型有1%左右的提高,而且总体评价F1值已经达到了0.96,基本达到了代替手工分类的级别。
表7 三种模型的各类别F1值对比
表8 三种模型的总体分类加权F1值对比
6 结束语
针对当今档案资源分类大多数是以来源和时间分类,不利于挖掘分析档案隐含价值的问题,同时考虑到档案文本的内容较为明确,本文提出了以LDA 主题为特征的文本聚类算法,实现了档案文本根据内容的划分,为档案的智能挖掘利用提供了基础。另一方面,针对传统档案手工分类耗时费力的问题,提出了一种基于FastText 深度学习模型的档案文本自动分类方法,实现快速准确的档案文本自动分类。实验结果表明,以LDA模型提取的主题特征作为输入的文本聚类方法能有效的对内容明确的档案进行聚类,在测试数据集上,准确率与传统的TF-IDF非语义特征聚类方法相比提升6%。基于FastText 深度学习模型的档案文本自动分类相较于传统的分类方法有更好的准确率,分类评价指标F1值达到了0.96,符合档案自动分类的要求。
采用文本的LDA 主题特征进行聚类,此种方式虽然能得提升聚类的准确度,但是需要档案有明确的中心内容。在接下来的工作中,将会尝试通过对LDA 算法提取的主题特征与传统的词频特征相结合,结合两者的优点,在大量实验的基础上争取实现更加精确的档案类别划分。