文本表示模型在文本挖掘中的应用

2019-09-10骆梅柳

现代信息科技 2019年7期

摘要：文本表示是自然语言处理中的基础任务，以向量空间模型的文本表示模型在文本挖掘、信息检索领域得到了广泛的应用，本文列举现有的文本表示模型，通过对比，归纳总结每个文本表示模型的特点，文本表示的好坏会在很大程度上影响到整个文本分类任务的性能，深入了解文本表示模型，为后继文本分类打好基础。

关键词：文本表示;文本挖掘;向量空间

中图分类号：TP391.1 文献标识码：A 文章编号：2096-4706（2019）07-0024-02

Abstract：Text representation is the basic task in natural language processing. The text representation model of vector space model has been widely used in text mining and information retrieval. This paper lists the existing text representation models，and summarizes each text representation through comparison. The characteristics of the model，the quality of the text representation can greatly affect the performance of the entire text classification task，and a deep understanding of the text representation model to lay a good foundation for subsequent text classification.

Keywords：text representation;text mining;vector space

0 引言

大數据时代的到来，使得互联网上的信息资源呈几何指数递增，如何使用计算机有效地处理网络信息资源受到了学术界的学者的广泛关注，文本表示是文本信息处理的基础问题，是文本挖掘技术的重要环节之一，也是各种文本挖掘算法的基础，优秀的文本表示模型能高效、真实地反映文本的内容，提高文本挖掘的处理效果。有专家认为：所谓文本表示模型是指利用形式化表示方法将实际文本内容转化所得的计算机内部表示结构，使计算机得以存储文本表示模型并在此基础上进行数值计算[1]。经过多年多位专家学者的不断努力，发现在文本挖掘技术应用中存在着多种文本表示模型，这些模型一般使用词、短语或者概念等作为特征来表示文本[2]。

文本表示模型也可理解为将结构化或者非结构化文本数据通过一定模型转化为文本的形式化表示方法，如数值向量或者符号向量，同时尽可能保留文本的原有语义信息。目前常见的文本表示模型有：词袋模型，主题模型和词嵌入模型（神经网络模型）等。

1 词袋模型

如何表示文本这种非结构化的数据是自然语言处理的一个研究重要方向，在文本挖掘、信息检索等相关领域的研究中，词袋模型是最简单、最典型的传统文本表标模型，所谓的词袋（Bag-of-words）模型是一种用机器学习算法对文本进行建模时表示文本数据的方法，它把每一篇文章看作一袋子的词，而且忽略其中的顺序。具体来说就是将整段文本以词为单位切分开，然后每篇文章可以用一个长向量表示，向量中每个维度代表一个单词，该维度对应的权重则反映了这个词在文中的重要性。目前较经典的词袋模型有：布尔模型、向量空间模型、概率模型、N元语法模型。

1.1 布尔模型

布尔模型是最简单的信息检索模型，在标准的布尔模型中，一个文本由二值变量集合标识，这些变量对应文本中特征项，当特征变量取值为True或1时，表示对应的特征项存在文本中，反之，如果特征变量取值为False或0时，则不存在文本中。此种模型的优点是简单、速度快，但是不够精确，对文本的表示能力差。

1.2 向量空间模型

向量空间模型，简称为VSM，是目前应用最为广泛的文本表示模型，该模型将文本看作由一组正交词条构成的矢量空间，将文本的语义单元看作高维空间的维度，文本将特征空间的向量，称为文本的特征向量，每个特征项在文本中占的权重用特征权重来表示，通过文本向量的夹角余弦来确定两篇文本的相似度。

在VSM中，每个文本都被形式化为一个N维向量，在选定特征项以后，其中一个文本向量di表示为：di=（（ti1，wi1），（ti2，wi2），……，（tin，win）），tin为特征词条，win为权重。但是向量空间模型有优点也有缺点，优点是在经过简单的频数统计，其在一定程度上能表达出词的语义信息，但是忽略了词与词之间的关系，然而实际词与词之间存在一词多义、同义词等现象。在处理海量的文本信息时，也会存在文本特征向量维度过高和向量稀疏等问题，会给实际语义带来影响。

1.3 概率模型

概率模型是用数学方法推断特征项之间，以及与文本之间的相关联性，使用基于特征的概率表示文本数据，同时也考虑特征项之间的其他概率关系度量方法。还可以根据相关度对文本进行排序，不同的应用可以基于特定假设得到不同的概率模型，例如二元独立概率模型、二元一阶相关概率模型、双柏松分布概率模型以及概率网络信息模型等。在概率模型中需要事先确定相关参数概率阈值，对相关参数的学习需要大量标注样本，参数难度估计较大，因此未得到广泛应用。

1.4 N元语法模型

N元语法模型是一种考虑了序关系的文本表示模型，能够在一定程度上保留文本之间的语序结构信息，此模型作为文本特征可以避免庞大的词典和复杂的分词程序[3]。但是N元语法表达的词义并没有词明显，实际应用过程的应用效果也非常不理想，只能作一种权宜之计。

2 主题模型

主题模型用户从文本库中发现有代表性的主题，并能够计算出每篇文章的主题分布，主题模型主要有LDA和pLSA。

2.1 主题模型LDA（隐狄利克雷模型）

主题模型是一种基于概率图模型的生成式模型。当两个词有相同的主题时，更容易出现在同一篇文档中。也就是说，给定某一个主题，这两个词出现的概率都很高，而其他词出现的概率就比较小。

2.2 概率潜在语义分析模型PLSA

假设有K个主题，M篇文章，对于人意文章d，假设文章有N个单词，对于每个词，选择一个主题Z，在Z的基础上生成一个单词w则生成概率为：P（w，d）=∑ p（w|z）p（z|d）。其缺点是随着文档以及特征词数量的增多，模型参数也在递增，减少了文本表示的可读取性。

3 词嵌入模型

词嵌入是文本的学习表示，其中意义相同的单词具有相似的表示形式。其核心思想是为每个单词使用密集的分布式表示，将每个词都映射成低维空间（一般K在50-300维）上的一个稠密向量。K为空间的每一维也可以看作隐含的主题，但不像主题模型中的那样直观。

实际上，词嵌入是一类技术，这种技术将单独的词在预定义的向量空间中表示为实值向量。其中每个单词映射到一个向量上，向量值是以类似于神经网络的方式学习得来，该技术因此常被归类于深度学习领域。

在过去的几年中，不少学者提出大量可能的词嵌入方法。最常用的模型是Word2vec和GloVe，它们都是基于分布假设的无监督学习方法，Word2vec是一种统计学方法，它可以从文本语料库中高效地学习独立的词嵌入，该研究还涉及对学习到的向量的分析，以及在单词表示方面对向量数学的探索。GloVe是对于Word2vec方法的一个扩展，它可以高效地学习到词向量。虽然通过结合语义或句法知识的有监督来增强这些无监督的方法，但2017-2018中发展纯粹的无监督方法，最著名的是FastText（Word2vec的擴展）和ELMo（最先进的上下文词向量）。FastText向量训练速度超快，可在157种语言的Wikipedia和Crawl训练中使用，这是一个很好的基线模型。ELMo大幅提高了词嵌入的顶级水平，在ELMo中，每个单词被赋予一个表示，它是它们所属的整个语料库句子的函数。

4 文本图表示模型

为了提高文本表达的效果，有学者将复杂网络、社会网络研究方法引入到文本挖掘领域中，提出了文本图表示模型，此模型是在图论基础上构建起来的，利用文本内容特征项及特征项间的关联关系构建图模型，以图模型表示文本[4]。在图表示模型中，文本表达可以用：Graph={N，E，W}，其中N代表着节点集合{n1，n2，…，nk}，E代表着边集合{e12，…eij}，（1

虽然文本图表示模型展开研究取得了一定的成绩，但是整体研究还不够深入，如在复杂网络研究大背景下，利用网络性质进行文本挖掘的可行性、适用性等方面深入探索，现有的研究中的节点关系较为单一，对于节点之间的语义关系、整合节点间的多维关系等方面的研究也处于理论阶段，还需继续深入研究。

不断地创新文本表示模型，给自然语言处理及其他文本挖掘带来新思路，其关键点在于如何利用文本特征词间的关系为文本挖掘服务。

参考文献：

[1] 廖涛，刘宗田，王先传.基于事件的文本表示方法研究 [J].计算机科学，2012，39（12）：188-191.

[2] 廖涛.面向事件的文本表示及其应用研究 [D].上海：上海大学，2014.

[3] 刘小荣.基于聚类分析的图模型文本分类 [D].内蒙古：内蒙古师范大学，2011.

[4] 李纲，毛进.文本图表示模型及其在文本挖掘中的应用 [J].情报学报，2013，32（12）：1257-1264.

作者简介：骆梅柳（1982-），女，汉族，江苏连云港人，讲师，研究方向：大数据技术、复杂网络。