基于概率主题模型的短文本自动分类系统构建

2020-03-10刘爱琴马小宁

国家图书馆学刊 2020年6期

刘爱琴马小宁

1 研究背景

互联网承载着海量的数字资源，博客、网页、APP等新兴媒体的产生，使得数字资源不再局限于图书馆馆藏资源和期刊论文等传统文献的电子化，社交媒体中也存在着亟需挖掘的有价值的信息。例如，国外线上平台易趣、亚马逊、推特等的兴起，国内社交平台微博、淘宝、美团APP等线上用户互动平台的迅速发展，网民在网上发布商品评价信息、对社会热点事件的看法、分享自己的生活经验与想法等促使数字资源直接反映了用户当下的感受和最直观的体验[1-2]；与此同时，数量庞大且更新迅速的社交媒体上的数字资源具有原始性、零散性的特征。

如此庞大的文本数据，被广大用户阅读并传播着。用户在享用丰富信息的同时，又面对着海量数据带来的信息超载问题。因此，如何有效地实现知识检索、知识发现成为信息管理领域和互联网技术领域的一个重要课题。

国内外学者根据研究对象的数据特点，利用自然语言处理和机器学习自动分类新技术，展开了积极的研究。20世纪末，美国的Ronen Feldman第一次提到文本挖掘技术，之后其结合机器语言、深度学习形成了较为完整的算法，这成为了自然语言处理领域的一个重要研究方向[3]。21世纪初，Blei等人提出了概率主题模型LDA(隐含狄利克雷分布模型，Latent Dirichlet Allocation)[4]，将主题模型用作文本表示[5]，这被应用于自然语言处理的各个方面。国内学者对文本分析的研究正在起步。由于中文语言处理更为复杂，刘康等人将新闻网页、电商数据、图书文献等不同类型的文献，以第三方资源库维基百科为原型进行特征拓展，通过LDA建模等方式提高了多种类型文本的分类精度[6]；阮光册通过文本建模的方式，对网络评论数据进行主题生成，实现了对评论数据的主题发现[7]；李湘东等人利用隐含狄利克雷模型对新闻话题进行分析，提出了一种新闻话题挖掘方法并验证了可行性[8]。

利用自然语言处理技术、机器自动学习分类技术，以及文本分类、主题聚类、关键词提取等数据挖掘技术，将文本数据按主题进行分类组织，并利用关键词特征描述，就能快速有效地分析数据[9]。因此，本文以《中国分类主题词表》为主题词受控表，对文本数据进行分词和降噪等一系列预处理，基于词频从细的粒度层面挖掘关键词集，实现知识关联和可视化展示；基于LDA概率主题模型从粗的粒度层面实现知识的快速聚类，最终构建的文本自动分类系统可以从导入的海量数据中快速高效地实现知识聚类，并从中挖掘和发现主题，为用户提供更优质的知识发现服务。

2 基于概率主题的短文本自动分类系统构建

2.1 理论基础——LDA概率主题模型

在自然语言处理领域，LDA被广泛应用于文本分类和评估文本的主题分布。其基本思想是将文本表示成一个“文本—主题—词语”的三层概率模型，通过分析文本的主题概率分布，进行聚类分析和文本分类，如图1所示。其中，文本是由词语组成的，可以提取出多个主题，每个词语都由某一个主题产生，同一个词语可能属于多个主题，其归属概率不同。另外，LDA不考虑词语在文本中出现的先后顺序，将文本表示为多个主题的混合随机分布、将主题表示为多个词语的混合概率分布，是一个典型的词袋模型[10]。

图1 文本—主题—词语三层模型

图2 LDA模型

如图2所示，LDA模型中箭头方向代表变量之间的条件依赖关系，方框代表重复取样，方框右下角的字母k代表取样次数。M代表语料集中的文本总数，为固定值；N代表文本中的词语总数；z代表主题，w代表文本的词向量；θ代表主题分布，α为θ的狄利克雷分布的超参数；φ代表词分布，β为φ的狄利克雷分布的超参数。利用LDA模型对数据集进行主题提取，具体步骤如下：

第一步，针对语料集，文本与词项数量之间以ξ为参数呈泊松分布：Poisson(ξ)；

第二步，对语料集中的每篇文本，按概率生成其主题分布：θm ：Dirichlet(α)；

第三步，对文本中的每个主题，按概率生成其词项分布：φk ：Dirichlet(β)；

第四步，每m篇文档中词 w的生成：依据主题分布θ生成m篇文档的词项w、主题Zm，n、Multinomial(θm)；根据词项分布φ生成已选主题的词项：Wm，n、Multinomial (φk)。

对语料集中的文本，重复执行以上过程。根据所使用的LDA模型，变量可以得出所有的联合分布，见公式(1)所示：

p(Zm，n∣ϑm)gp(ϑm∣α)gp(φ∣β)

公式(1)

以上所有变量联合分布等同于公式(2)：

P(wm∣αgβ)=∬p(ϑm∣α)gp(φ∣β)

公式(2)

由此得到整个语料集中的词项w的分布，见公式(3)所示：

公式(3)

2.2 文本预处理

网络中收集到的数据通常是混杂、不规整的，需进行文本预处理，其本质就是从数据中提取出需要的内容，或者将数据转换成可以识别的形式。具体步骤如下：

第一步，数据清洗。对数据进行筛选和校验，删除或纠正错误的信息，使数据具有一致性。网络中收集到的数据彼此之间相互冲突、重复或者信息不完整，这必将导致数据无法被识别。因此，必须按照一定的规则把不符合要求的数据洗掉。该过程包括检验数据是否完整、格式是否统一、是否有无意义的部分、是否便于处理等。数据清洗工作不是一次性可以完成的，需要在处理数据的过程中不断剔除影响实验结果的垃圾数据。但对之后可能会用到的数据需反复斟酌，谨慎处理。

第二步，中文分词。利用算法，将一段文本以设定的合理规则分隔成多个、含有独立意义的词或者短语[11]。中文分词不仅要考虑词语之间的联系，还要结合上下文，具体分析相同词语在不同情境下的含义。目前国内主要的分词算法有三种：统计法、词典匹配法和语义结构法[12]。

其中，依据进行语言模型训练时训练集语料是否标注了人工分词将统计分词方法分为两大类[13]：一类是有监督的方法。典型的是n元语法模型[14]，将训练集语料中标注的词典与句子进行匹配，找出所有可能的词，用概率n表示代价，统计任意n个字词邻接出现的概率，利用动态规划的搜索算法，找出代价最小的路径作为分词结果。另一类是无监督的方法。可以采用任何语料集训练语言模型，并统计语料中字与字之间共同出现的概率，衡量字之间组成词语的可能性；同时统计组成词之后词两端出现其他字的不确定性，不确定性越大，则认为这个词经常被作为独立意义使用。从这两方面来共同判定分词的准确性。

词典匹配法最大的优势就是原理简单、词典使用便捷、无需训练可直接进行分词，根据不同的切分规则可分为正向最大匹配、逆向最大匹配、双向最大匹配三类匹配算法。三种算法的原理相同，首先需准备一个词典，正向最大匹配法是按照从左到右的顺序，从第一个字符开始向后延伸词长，若能与词典中任意词语匹配，则继续向后延伸，直到不能匹配为止，此时的位置便是这个词的结束位。逆向最大匹配法按照与正向相反的顺序，从右开始。但在多数情况下，逆向最大匹配法更能符合实际中的语境。双向最大匹配法同时考虑了两种方向的顺序，在单字出现次数不同时，采用单字出现次数少的结果；若单字出现次数相同，优先使用逆向最大匹配法输出的结果。

语义结构法需要同时考虑分词和词语语义两方面。中文本身含义比较复杂，同一句话使用不同的断句会产生不同的含义；另外，如果考虑互联网中的网络用语，如缩写等，可能会产生更多的歧义，也不利于分词结果。语义结构分词方法是当前分词方法中的难点，尚处于摸索阶段。

因此，本文采用统计法和词典匹配法进行短文本自动分类系统构建，对分词判定的准确性、用词习惯的总结和新词识别都具有很好的效果。

第三步，去停用词。中文分词后，语料集被切分成大量的字和词语，而很多字词对文本分类是没有意义的，甚至会产生干扰[15]。为了提高检索效率和节省加载内存，通常会过滤掉一部分字词。这些字词不是自动产生的，也没有一个完整固定的数据集，是需要人工将无意义的词收集起来，比如“很”“发现”“其实”“一个”等，形成停用词表[16]。在数据处理过程中，将出现在停用词表中的词过滤掉即可。需要注意的是，没有任何的停用词表是适用于所有场合的，这就需要在实验过程中，通过人工维护的方式，不断地修改或扩充。

第四步，构建共现矩阵。共现指不同事物、特征项间共同出现的概率关系，共现矩阵是一种测量词语间语义距离的方法，可以表示词向量之间的相近关系，主要用于发现主题。以某个词为中心，根据计算出来的共同出现的频率得到其周围词，预测和分析与它们相关的主题。

2.3 系统构建

关于实验数据的收集。本文研究新兴媒体承载的数字资源，分别以学术信息数据、社交媒体数据等为实验数据进行实验，构建具有普适性的系统，此处仅展示以学术信息数据为实验数据的结果。

本文在维普期刊数据库中，首先对期刊的标题数据进行采集，形成实验数据。依据文本主题分类设计要求，以语料集为分类对象，进行系统需求分析。其次，搭建服务器、配置代码编写环境，同时处理文本数据，完成噪音清洗、词性过滤、中文分词、停用词过滤等系列预处理工作，构建系统。第三步，以《中国分类主题词表》为主题词受控表，从细的粒度层面出发对语料集数据进行短文本词频统计，挖掘关键词集，同时生成共现矩阵，实现知识的快速聚类，并对关键词间的共现关系进行可视化展示。第四步，从粗的粒度层面，基于LDA概率主题对语料集进行文本内容切分，得到文本主题下的主题词，实现知识关联自动分类。短文本自动分类系统框架详见图3。

图3 基于概率主题的短文本自动分类系统框架

根据功能需求，基于概率主题的短文本自动分类系统设计为五个模块：语料集获取模块、文本预处理模块、特征词提取模块、特征词可视化模块、文本建模模块。各个模块的功能和输入、输出内容，详见表1。

表1 基于概率主题的短文本自动分类系统构建模块

3 系统实现

利用维普数据库进行上述基于概率主题的短文本自动分类系统的算法仿真验证。本文利用八爪鱼爬虫技术进行界面数据采集，在检索栏输入“电商”，按相关度从紧到疏进行采集，共收集到1688篇期刊信息，构成基于概率主题的短文本自动分类系统的语料集。其所属的学科类别如4图所示，每一条数据信息包括期刊标题、摘要、关键词、分类号、作者、出版机构、出处、页面网址等内容。

图4 基于中文期刊维普网界面的数据采集类别

利用Python进行数据清洗。为保证代码的普适性，考虑到使用代码预处理网络数据信息分析的需求，本文设计了去除符号的算法，具体为以下四类：(1)去掉了文本中可能会出现的某人的回复信息；(2)去掉了一些特殊的字符。由于网络语言的丰富，人们在发言时喜欢采用各种各样的表情符号和颜文字等特殊符号，符号过多会对分词造成不好的影响；(3)去掉了评论中过多的空格。多余的空格不仅无用，且会拖慢数据处理的效率；(4)将评论中出现的大小写字母进行统一化。在日常评论中出现的大小写字母通常情况下代表同一意思，例如“FRIEND”和“friend”，如果不进行大小写转换，那么系统会将其识别为是两个不同的词，从而干扰分类。关键代码如图5所示。

图5 数据清洗关键代码展示

需要说明的是，系统中使用开源库jieba进行中文分词。jieba是Python中的第三方中文分词库，使用度较高，已经拥有良好的中文分词效果，同时具备以下三个特征：第一，支持精确、全模式、搜索引擎三种模式的分词；第二，不仅可以自动识别新词，还可以自定义导入词典进行分词，使分词更为正确；第三，具有词性标注的功能，可以方便后续的词性过滤。

去停用词。将获取到的停用词表录入系统，随后对中文分词后的数据集进行停用词过滤。这里使用普遍适用的《百度停用词表》作为基本表，但并不依赖，在实验过程中依据数据处理的需求随时加入和修正新的停用词。

对预处理后的文本进行词频统计，得到高频词作为关键词，并通过统计高频词间一起出现的次数生成关键词共现矩阵。本文筛选出排序前30的高频词，统计其共同出现的频数，并截取前10个关键词的共现矩阵进行展示，如表2所示，关键代码如图6所示。

表2 基于中文期刊维普网界面的语料库高频词(部分)

图6 构建共现矩阵代码展示

利用语料集挖掘得到关键词集(见表2)和生成共现矩阵(见表3)，分析关键词间的共现关系，实现知识的快速聚类，并进行可视化展示，如图7所示。可见，该语料库首先以“电商”这个特征词为中心，依据相关度的高低呈辐射状分布，相关度越高越靠近中心，相关度越低越远离中心；其次，特征词之间的疏密关系取决于它们之间的相关度；第三，在“电商”这个领域下，出现频次最多的是“跨境”“平台”“农村”“模式”“引量”“物流”等六个特征词，分别代表电商研究领域的六个主要研究方向；最后，“农村—扶贫”“跨境—对策”“互联网—模式”表征着电商研究领域新的分支和新的发展。

表3 基于中文期刊维普网界面的语料库高频词共现矩阵(部分)

基于LDA概率主题模型对基于中文期刊维普网界面的语料集进行文本内容分析，得到文本主题下的主题词表，实现了短文本主题自动分类，详见表4、表5所示。表4是利用构建的短文本自动分类系统，将维普数据库“电商”领域短文本作为语料集运行后得到的三个主题下的自动分类主题词表：一是“跨境—引量—物流”系统。跨境电商迅猛发展，但物流问题一直是其软肋，经常爆出延误、禁运等消息，物流行业务必致力于开通各种渠道，以缓解日益增长的物流运输要求与力不从心的跨境物流之间的主要矛盾。二是“农村—扶贫—产业”系统。电商为助农扶贫带来了新的机遇和挑战，乡镇基层干部带头进行直播电商带货，农产品从农村销往各大城市，一定程度上解决了农户的农产品积压，实现了可持续发展。三是“互联网—创新—模式”系统。不断推动电商模式的创新，在互联网的支持下，电商领域向智能化方向发展。仿真验证结果不但符合电商领域的研究现状，而且明确给出了研究趋势和交叉领域的知识支撑。可见，该自动分类系统能够快速、有效地实现知识的聚类和发现。

表4 基于中文期刊维普网界面的语料库共现矩阵主题词分类

表5 基于中文期刊维普网界面的语料库文本主题自动分类结果(部分)

图7 基于中文期刊维普网界面的语料库特征词共现矩阵

由于每次导入语料集，通过系统自动分类得到的主题词表是不完全相同的；同时主题词个数的选取是人为自定义的，需要多次调试，具体分析。本次运行实验考虑到主题间存在的明显差异，和主题词内词语的较高关联度，最终将主题数选取为3，主题词数选取为9。同时对其中较能体现主题内涵的主题词进行了颜色区分，其中灰色部分是更能准确地表征主题词内涵的特征词。表5是部分语料集中数据的归属主题号以及归属概率的展示，其中主题号0代表第一个主题，1代表第二个主题，并以此类推；归属概率越接近1，表示其归属主题的可能性就越大。

基于以上算法，本文构建了基于LDA概率主题模型的短文本自动分类系统，并制作了在此系统基础上的前段展示页面，可直接对用户检索的关键词进行自动查询、结果分类、相关文本推荐和关联展示等，以及用于知识网站的后台构建、数据库整理、数据库源数据可视化结果条理性优化，如图8所示。

图8 系统前段展示界面

4 结语

数字资源的极大丰富使得信息查全率得到很大提高，但随之而来的是信息超载问题。根据研究对象的数据特点，本文融合自然语言处理、机器学习自动分类、文本分类、主题聚类、关键词提取的数据挖掘等技术，基于LDA概率主题模型，构建和实现了短文本的自动分类系统。该系统从冗长的数据中进行知识搜索和发现，迅速得出数据中的热点和焦点、边缘点和特征词之间的关联与相关度，有效地实现了知识的快速聚类和关联自动分类、知识的快速提取，以及可视化图像和知识发现在此系统基础上的前段页面展示。同时，通过共现矩阵清晰地展示了特征词之间的隐含关系，为用户进一步的研究和思考提供了方向。