一种面向藏文聚类的文本建模方法

2016-12-20于洪志

西北民族大学学报（自然科学版） 2016年3期

关键词：藏文分词类别

江涛，于洪志

（西北民族大学甘肃省民族语言智能处理重点实验室，甘肃兰州730030）

一种面向藏文聚类的文本建模方法

江涛，于洪志

（西北民族大学甘肃省民族语言智能处理重点实验室，甘肃兰州730030）

现有的藏文文本聚类算法均采用向量空间模型来进行文本建模 .该模型存在向量维度过高和无法表示语义信息的问题.该文根据藏文的语法特性并借鉴主题模型的思想，提出了一种基于词向量的藏文文本建模方法.该方法首先采用最大熵模型进行藏文文本词性标注，选择名词和动词作为文本的特征，然后利用word2vec工具训练得到词语类别并计算其在各文本的概率分布，最终以词类别概率矩阵表示文本，从而实现文本建模.与基于VSM和基于LDA的文本建模方法相比，该方法文本聚类结果的F值分别提高了10.5%和2.4%，聚类效果提升明显.

藏文文本；文本建模；文本聚类；词性标注；词向量

0 引言

随着网络中藏文内容数量的不断增长，如何高效地组织和挖掘这些藏文文本所蕴涵的有用信息已成为当前的研究热点.藏文文本聚类是藏文文本挖掘的基础和面向互联网的藏文话题识别、跟踪和藏文舆情分析技术的核心，藏文数字图书馆、藏文搜索引擎、藏文智能文本分析等应用领域都需要藏文文本聚类算法的支持.

藏文文本聚类首先要解决的问题是将无结构化的藏语言文本转化成计算机可理解的特征 .该步骤为文本建模，而文本建模在一定程度上决定聚类效果的好坏.目前文本建模主要的方法有向量空间模型和主题模型.向量空间模型（Vector Space Model，VSM）［1］由Salton等1969年提出，是当前应用最广且最为成熟的文本表示模型.VSM将文本内容转化为向量空间表示，向量的每一维都用特征词的权重表示.VSM不考虑文本中词语的顺序和语义关联，无法解决文本中的同义词和多义词情况，并存在向量维度过高、数据稀疏的问题.主题模型通过词在文本集的共现信息抽取出语义相关的主题集合，并能够将词项空间中的文本变换到主题空间，得到文本在低维空间中的表达［2］.当前主流的主题模型有隐性语义索引（Latent Semantic Indexing，LSI）［3］、概率隐性语义索引（probabilistic Latent Semantic Indexing，pLSI）［4］、隐含狄列克雷分配（Latent Dirichlet Allocation，LDA）［5］.LSI可以解决词语匹配过程中同义和多义现象，但是表示效率较低且不支持大规模语料库建模.LDA是在pLSI基础上扩展得到的一个更为完全的概率生成模型，更符合实际文本中的主题分布情况，并且不易发生过拟合，适合处理大规模语料.

中文和英文的文本聚类研究较为成熟，文本聚类工具已达到了实用化水平，而藏文文本聚类效果与中英文相比具有较大差距.将不同语言的文本转化为特征后，聚类的核心算法与文本表述语言是无关的，因此提升藏文文本聚类效果的关键在于改进藏文文本的预处理和文本特征表示.本文根据藏语言特性并借鉴文本主题模型的思想，提出了基于词性选择的藏文文本预处理方法和基于词向量的藏文文本表示模型.

1 相关工作

鉴于藏文文本聚类研究在藏文文本挖掘研究的基础性作用和多个应用领域的实际需求，其已成为藏文信息处理研究的热门.文献［6］实现了一种基于藏文Web的热点发现算法.该算法采用向量空间模型对文本进行表示 .藏文分词采用语法规则结合分词词典的方式实现，用藏文格助词将句子切分成短语形式，然后利用词典匹配的方法对短语再进行切分.文献［7］提出藏文搜索结果聚类方法，针对藏文文本预处理提出了一种ALLCut藏文分词算法.该分词算法使用词典匹配，结合藏文格助词和接续特征的方式实现分词，文本表示采用向量空间模型.文献［8］提出了一种基于简易改进的藏文文本聚类算法，改进了文本顺序对聚类结果的影响，并通过确定种子话题来确定话题类别.文献［9］结合向量空间模型提出了基于改进卡方统计量的藏文文本表示方法.该方法提取文本中词频统计TF-IDF值较高作为对比词项，以每个句子作为一个语境主题，利用卡方统计量计算文本中词项与对比词项的关联程度.文献［10］提出基于群体智能的半结构化藏文Web文本聚类算法（SCAST），将藏文文本和智能蚁群随机放置于一个文本向量空间中，利用智能蚂蚁随机选择藏文文本，计算藏文文本在当前局部区域内的相似性，而文本预处理阶段采用藏文词典匹配的方法实现藏文分词.

现有藏文文本聚类算法在文本表示上均采用向量空间模型，预处理阶段大都结合藏文词典使用最大匹配的方法进行藏文分词.采用向量空间模型进行文本建模无法表示文本的语义信息，并且容易引起维度灾难；使用最大匹配的分词方法无法解决歧义切分和未登录问题，分词效果较差.根据现有藏文文本聚类研究所存在的不足，本文结合藏文的语言特点，提出了一种基于词向量的文本建模方法，藏文文本预处理采用最大熵模型对文本进行分词词性标注，实现基于词性的文本特征选择，在选定特征的基础上利用word2vec训练词聚类类别，将文本表示为词聚类类别集合上的混合分布.

2 基于词性的藏文文本特征选择

藏文在词汇概念联想的约束和话语音律的限制下构成句子，句子由若干格关系构成，格关系是主体和其周围对象发生事件的约束关系［11］.藏文通过虚词和词序作为表达语法意义，因此虚词在文本中所占的比例较大.本文将藏文分词和词性标注看成序列标记问题，基于最大熵模型实现藏文文本的分词及词性标注，在对藏文文本语料库进行词性统计分析基础上提出基于藏文词性的藏文文本特征选择方法.2.1 基于最大熵的藏文分词及词性标注

最大熵模型最初由E.T.Jaynes在1950年提出，Della Pietra等［12］将其应用于自然语言处理中.模型利用给定的训练样本，在满足所有已知的事实情况下选择一个与训练样本一致的概率分布.最大熵模型：

H（P）是模型P的熵，C是满足条件约束的模型集合.下面需要寻求P＊，P＊的形式如下：

Z（x）是归一化常数，表示形式如下：

λi为特征的权重参数.

本文以最大熵模型为基本框架融合藏文的构词特征实现藏文分词和词性标注，能较好地处理未登录词识别和标注问题.选用最大熵模型作为序列标注工具是因为其在藏文词性标注速度与准确度上的优异表现［13］，与其他序列标注模型相比，最大熵模型在藏文词性标注上可以取得更好的结果.对于藏文紧缩词的处理，本文参照文献［14］的处理方法，建立紧缩词识别模板，将紧缩词识别同样转化为序列标注问题.

2.2 藏文文本特征

目前还没有统一的藏文词性标注规范或标准.本文采用西北民族大学祁坤钰教授提供的藏文词性标注集［15］，其将藏文词汇划分为名词、数词、量词、代词、动词、形容词、副词、助词、介词、连词等21个大类.我们对2500篇藏文文档进行了词性分布统计（结果见表1）.从统计结果可看出，只表示某种语法意义的虚词所占词汇的比例达到了1／3以上.不同词性的词在表征文本的时候其贡献是不同的，名词和动词最为重要，形容词和副词次之，虚词几乎没有任何作用［16］.根据藏语表述中虚词较多的语法特点，本文在词性标注的基础上只选择名词和动词作为文本特征.

表1 藏文文本词性分布统计

以下面经过词性标注的藏文句子为例：

3 基于词向量的藏文文本建模

3.1 词向量

词向量（distributed representation）最早有Hinton［17］在1986年提出，词向量由神经网络训练得到，其基本思想是通过训练将语料中的词语映射到N维实数向量，利用词之间的距离来判断它们之间的语义相似度，不但包含了词语间的潜在语义关系，同时也避免了维数灾难［18］.

本文采用Google开源工具word2vec2提供的Skip-Gram模型进行词向量训练，选择Hierarchical Softmax方法训练Skip-Gram模型［19］.假设文本集合中有一组W1，W2，W3，…，WT词序列，Skip-Gram模型的最大化目标函数为：

其中c是决定上下文窗口范围的常数.

3.2 藏文文本建模方法

基于词向量的藏文文本建模方法包括藏文文本词性标注、文本特征提取、词类别聚类、词类别分布统计四个步骤，最终将文本转化为词语类别权重的表示，实现文本建模.具体步骤如下：

1）采用最大熵的方法对每一篇藏文文本进行分词及词性标注.

2）仅选择名词、动词作为文档的特征，并计算每个特征的tf-idf值.文档表示如下：d＝｛（W1，t1）（W2，t2），…，（Wk，tk）｝，其中Wk表示文档的一个名词或动词，tk表示Wk对应的tf-idf值，k表示文本d中名词和动词的总个数.

3）使用word2vec对整个文档集合训练词向量，得到文档的词类别结果，d＝｛（W1，c1）（W2，c2），…，（Wk，ck）｝，其中ck表示word2vec训练后词语Wk对应的词聚类类别编号.

4）计算每篇文档在各词语类别上的权重，并使用Frobenius范数进行归一化，最终将文档转化为词语类别权重表示，di＝｛（Wi1，Wi2，…Wij，…，Win），其中Wij表示第j类别在第i篇文档的权重，

4 实验结果与分析

4.1 实验语料

相比于众多公开的英文（如：reuters21578）和中文（如：搜狗文本语料）文本语料库，目前藏文没有公开可用于藏文聚类算法评测的语料库.为了验证本文所提出方法的有效性，我们从西藏信息中心藏文版、人民网藏文版中收集了2 500篇文档建立了用于藏文文本聚类评测的语料库，这些文档分为政治、经济、卫生、科技、教育五个大类，每个类别包含500篇文章.为了保证文档类别的正确性，每一篇文档都经过了人工校对确认.

4.2 实验分析

本文分别设计藏文文本预处理方法对比和藏文文本建模方法对比两组实验来验证本文提出基于最大熵的藏文词性选择方法和基于词向量藏文文本建模方法的优势与不足.两组实验均采用K-Means算法实现藏文文本聚类.由于K-Means聚类结果存在不稳定的情况，因此选取5次聚类实验结果的平均值作为最终实验结果，另外藏文文本聚类效果采用F-measure度量值来评价.

4.2.1 藏文文本预处理方法对比实验

图1 藏文文本预处理实验结果对比

本组实验采用三种藏文文本预处理方法在实验语料上进行藏文文本聚类实验，实验均采用基于词向量的藏文文本建模方法.方法一为基于藏文词典的分词方法［10］，该方法也是目前藏文文本聚类中最常用的文本预处理方法，首先使用格助词对文本分块，然后利用藏文词典按照最大匹配原则进行分词.方法二为基于CRF的藏文分词方法［13］.该方法将藏文分词问题转化成序列标注任务，建立分词和紧缩词特征模板，使用CRF＋＋实现藏文分词；方法三为本文提出了基于最大熵的藏文词性选择的方法.三种方法的实验结果见图1.从实验结果可看出，与基于藏文词典和基于CRF的藏文分词预处理方法相比，本文所提出基于词性选择的方法在准确率和召回率上都有所提高.基于藏文词典匹配的方法无法利用词语的上下文信息，歧义切分错误较多导致分词准确率不高，聚类的准确率和召回率都比较低.基于CRF的藏文分词方法，较好地解决了分词歧义性和音节缩减问题，分词的准确率有了大幅提升，聚类结果F值比基于藏文词典的方法提高了10%.与基于CRF的藏文分词方法相比，本文使用最大熵模型对文本进行分词和词性标注，在保证较高分词准确率的前提下选择名词和动词作为文本语义特征，剔除文本噪音和冗余信息，从而提升了藏文文本聚类的效果.

4.2.2 藏文文本建模方法对比实验

本实验分别采用基于VSM的文本建模方法（方法一）、基于LDA的文本建模方法（方法二）和本文提出基于词向量的文本建模方法（方法三）进行实验对比，实验结果见表2.方法一利用向量空间模型来进行文本表示，使用Tf-idf作为特征项的权重.方法二利用Gibbs Sampling算法估计模型参数，并构建文本的主题概率空间，用主题的概率分布向量来表示文本.实验选取LDA-Gibbs模型的先验超参数α和β分别为α＝50／k，β＝0.01，K为主题数.当K＝150时藏文文本聚类的F值最高，最优主题数确定为150.方法三使用Google开源工具word2vec进行词向量的训练，词聚类类别为200时聚类效果最好.

表2 藏文文本建模方法结果对比

从实验结果可以看出，方法二和方法三的F值相对与方法一分别提高了8.1%和10.5%，聚类效果提升明显.因为方法二和方法三在文本建模时均考虑了文本的语义信息，较好地解决了同义词和多义词对文本相似度计算的影响.方法三与方法二的聚类结果相比，F值提高了2.4%.说明本文提出使用词聚类类别概率信息进行文本表示的聚类效果要优于基于主题的概率分布.另外，方法二的参数估计需要模拟Dirichlet过程，计算量较大，因此随着聚类文档量的增大方法二效率上的优势会更加明显.

评测语料来自政治、经济、卫生、科技、教育五个大类，以基于词向量的文本建模方法的结果来分析各类别的聚类效果.卫生类别的聚类效果最好，准确率达到了0.98；而经济类的文章聚类效果最差，准确率为0.75；各类别的聚类结果不同跟类别的区分度存在一定关系.医疗卫生类的文章与其他类别交叉程度较小，而政治和经济类的文章较难区分.

综合藏文文本预处理和文本建模方法的实验可得出以下结论：①藏文文本预处理阶段，相对于藏文词典分词的方法采用基于统计的分词方法能够明显提升藏文文本聚类效果.②采用词聚类类别概率信息进行藏文文本表示模型引入了文本的语义信息，提高了文本相似度计算的准确率 .藏文文本聚类结果明显优于基于VSM的方法.

5 结束语

藏文文本建模是藏文文本聚类的重要步骤，也是影响文本聚类效果的重要因素.本文根据藏语言的特点提出了基于最大熵的藏文词性选择方法，仅选择最能表示文本语义的名词和动词作为特征；借鉴主题模型的思想提出了基于词向量的藏文文本建模方法，将词语类别分布信息作为文本的表示，增加了文本语义信息，同时也大大降低了文本向量的维度.实验结果表明，该方法的聚类效果优于基于向量空间和基于LDA的文本建模方法.下一步将融合更多藏文语义特征来提升藏文文本聚类的效果.

［1］Salton G，Wong A，Yang C S.A vector space model for automatic indexing［J］.Communications of the ACM，1975，18（11）：613-620.

［2］徐戈，王厚峰.自然语言处理中主题模型的发展［J］.计算机学报，2011，34（8）：1423-1436. ［3］Deerwester S C，Dumais S T，Landauer T K，et al.Indexing by Latent Semantic Analysis［J］.Journal of the American Society for Information Science，1990，41（6）：391-407.

［4］Hofmann T.Probabilistic Latent Semantic Indexing［C］／／Proceedings of the 22th Annual International SIGIR Conference.New York：ACM Press，1999，50-57.

［5］Blei D，Ng A，Jordan M.Latent Dirichlet Allocation［J］.Journal of Machine Learning Research，2003，3（1）：993-1022.

［6］江涛.基于藏文web舆情分析的热点发现算法研究［D］.西北民族大学硕士学位论文，2010.

［7］万德稳.藏文搜索和搜索结果聚类研究及系统实现［D］.西南交通大学硕士学位论文，2013.

［8］曹晖，孟祥和.基于藏文新闻文本话题检测的聚类算法研究［J］.华中师范大学学报（自然科学版），2014，48（1）：37-41.

［9］徐涛，于洪志，加羊吉.基于改进卡方统计量的藏文文本表示方法［J］.计算机工程，2014，40（6）：185-189.

［10］康健，乔少杰，格桑多吉，等.基于群体智能的半结构化藏文文本聚类算法［J］.模式识别与人工智能，2014，27（7）：663-671.

［11］祁坤钰.信息处理用藏文自动分词研究［J］.西北民族大学学报（哲学社会科学版），2006，（4）：92-97.

［12］Adam L.Berger，Stephen A.Della Pietra，Vincent J.Della Pietra.A Maximum Entropy Approach to Natural Language Processing［J］.Computational Linguistics，1996，1（22）：39-71.

［13］于洪志，李亚超，汪昆，冷本扎西.融合音节特征的最大熵藏文词性标注研究［J］.中文信息学报，2013，27（5）：160-165.

［14］李亚超，加羊吉，宗成庆，于洪志.基于条件随机场的藏语自动分词方法研究［J］.中文信息学报，2013，27（4）：52-58.

［15］祁坤钰.藏文分词与标注研究［M］.兰州：甘肃民族出版社，2015.

［16］Kummamuru K，Lotlikar R，Roy S，et al.A hierarchical Monothetic Document Clustering Algorithm for Summarization and Browsing Search Results［C］／／Proceedings of the 13th International Conference on World Wide Web，2004.658-665.

［17］Hinton，Geoffrey E.Learning Distributed Representations of Concepts［C］／／Proceedings of the Eighth Annual Conference of the Cognitive Science Society.1986.

［18］杨阳，刘龙飞，魏现辉，等.基于词向量的情感新词发现方法［J］.山东大学学报（理学版），2014，49（11）：51-58.

［19］Mikolov T，Sutskever I，Chen K，et al.Distributed Representions of Words and Phrases and Their compositionality［J］.Advances in Neural Information Processing Systems，2013，3111-3119.

TP391

1009-2102（2016）03-0024-06

2016-08-02

本文得到甘肃省高校科研项目（2015B-005）；西北民族大学基本科研业务费专项资金资助项目（zyp2015003）资助.

江涛（1983—），男，河南焦作人，博士，讲师，主要从事自然语言处理方面的研究.