一种新的微博短文本特征词选择算法*

2015-01-09黄贤英陈红阳刘英涛熊李媛

计算机工程与科学 2015年9期

关键词：词项特征词短文

黄贤英,陈红阳,刘英涛,熊李媛

(重庆理工大学计算机科学与工程学院，重庆 400054)

一种新的微博短文本特征词选择算法*

黄贤英,陈红阳,刘英涛,熊李媛

(重庆理工大学计算机科学与工程学院，重庆 400054)

针对微博短文本有效特征较稀疏且难以提取，从而影响微博文本表示、分类与聚类准确性的问题，提出一种基于统计与语义信息相结合的微博短文本特征词选择算法。该算法基于词性组合匹配规则，根据词项的TF-IDF、词性与词长因子构造综合评估函数，结合词项与文本内容的语义相关度，对微博短文本进行特征词选择，以使挑选出来的特征词能准确表示微博短文本内容主题。将新的特征词选择算法与朴素贝叶斯分类算法相结合，对微博分类语料集进行实验，结果表明，相比其它的传统算法，新算法使得微博短文本分类准确率更高，表明该算法选取出来的特征词能够更准确地表示微博短文本内容主题。

微博短文本；特征词选择；统计与语义信息；词性组合；朴素贝叶斯分类算法

1 引言

随着微博的兴起，基于微博的信息挖掘与应用应运而生[1]，如微博短文本挖掘、话题趋势检测、情感倾向性分析等成为众多学者研究的热点，微博短文本特征词选择[2]算法是这些研究的基础。它主要是将文本中冗余、不相关词项剔除掉，保留对文本内容主题表达贡献度较大的词项作为特征词，在保证原文语义信息完整的情况下，准确地表示微博短文本内容主题，从而降低了特征空间维度，为微博短文本后续处理环节奠定坚实的基础。然而，微博短文本特征极度稀疏、高度冗余，且以几何级增长，如何更有效地将表示微博短文本内容主题的特征词选取出来是一个亟待解决的问题。

研究人员基于传统文本特征词选择算法[3]对微博短文本特征词选择算法进行了大量研究，主要分为基于统计和基于语义两大类方法。基于统计的微博短文本特征词选择算法有TF-IDF(Term Frequency-Inverse Document Frequency)算法[4]、基于词长进行特征词选择的算法[5]及以词性作为重要特征的特征词选择算法[6]等，但都只是从某一个方面来衡量词项在文本中的重要性，考虑的因素不太全面。

目前，从语义角度对微博短文本进行特征词的选取成为一种趋势，文献[7]基于HowNet对短文本中的名词、动词、形容词与副词进行语义扩展，来选择特征词；文献[8]考虑了短文本中词语之间的语义关联信息，提出一种候选特征词的特征度计算方法，选取特征度值较大的词项作为微博短文本的特征词；文献[9]提出以概念作为特征词，并基于语义知识库《知网》对短文本中的词项进行词义消歧，进而选取特征词。

这几种方法均从语义角度考虑了词项之间的语义关联性，有效地选取出了文本的特征词，对微博短文本特征词选择具有一定的启发意义。

本文针对单一基于词项的TF-IDF、词性与词长因子选取文本特征词的片面性，并对词项与文本内容的语义相关度，以及短语作为文本特征词时所具有的较强的语义表达能力这两点因素加以分析考虑，提出一种统计与语义信息相结合的微博短文本特征词选择算法。该算法分为三个步骤对微博短文本进行特征词的选择：

首先，基于词性组合匹配规则选取文本中的短语作为特征词；

其次，根据词项的TF-IDF、词性与词长因子构造综合评估函数，将评估值高的词项添加为特征词；

然后，基于《知网》的词汇语义相似度[10]来估量拟定的特征词项与文本内容的语义相关度，对特征词进行筛选；

最后，将选取出来的特征词组成集合，用以表示微博短文本内容主题。

2 微博短文本特征词选择及相关算法介绍

2.1 特征词选择的原则

在微博短文本中，特征词一般也是以字、词或者短语来表示。词是反映语义信息的基本单位，与字相比能更好地体现出独立、完整的语义信息，对文本内容主题的表达能力较强；短语结构稳定、语义完整，与词相比在文本中出现的频率较低，更能反映出文本的内容主题，也适合作为文本的特征词。此外，特征词的挑选通常应该具备以下原则[11]:(1)能够确实标识文本内容，即与文本主题内容应密切相关；(2)具备将目标文本与其他文本区分开的能力；(3)个数适中，不宜过多；(4)特征词分离操作易实现。由此可知，如何采用有效的方法从微博短文本中选取满足上述挑选规则的词项作为特征词；如何确定合适的特征词粒度、提高特征词的语义表达能力对微博短文本特征词选择至关重要，具有一定的实践意义与研究价值。

2.2 TF-IDF的定义

TF-IDF是计算文本中词项权重的一种常用方法，假设当前给定的文本集合所包含的文本数目是N，指定的文本为Dj，则TF代表某一词项termi在文本Dj中出现的频数;而IDF代表文本集合中包含该词项的文本数，词项在文本中出现的频数越高，表征该文本的能力越强，相反，其IDF值越小，则该词项区别于其他文本的性能越好。总的来说，词项的TF-IDF反映出其在文本中的重要性，也具备有效区别于其他文本的能力，具体表示如公式(1)所示:

(1)

其中， Weighttf-idf(termi)表示词项termi的TF-IDF值， tij表示词项termj在文本Dj中的词频，N指文本集合中文本数量，n表示文本Dj中所包含的词项总数，ni表示文本集合中包含词项termi的文本数。

2.3 常见的特征词选择算法

(1)基于词项的TF-IDF算法。

文献[4]提出基于词项的TF-IDF因子对微博短文本进行特征词选取，主要是根据TF-IDF算法度量文本中每个词项的权重，挑选具有较高权重的词项作为文本的特征词。首先，针对微博短文本中的每一个词项termi，根据公式(1)统计其TF-IDF值Weighttf-idf(termi);然后，按照词项TF-IDF值的高低对微博短文本中的词项进行降序排列；最后，从该词项集合中选取靠前的一定数量的词项作为文本的特征词。

(2)基于词长的TF-IDF改进算法。

一个词语的长度与其所蕴含的语义信息具有一定的关系。相较于短词而言，长词所包含的语义信息更多，且所表示的意思更清晰、明确。如果一个词的长度愈长，那么该词可以更好地反映文本主题，作为文本特征词的可能性就愈大。文献[5]将词项的词长因素融入TF-IDF计算每一个词项的权重，然后挑选出权重较高的词项作为文本的特征词，所抽取出的特征词较不加任何因素的TF-IDF方法更能准确地表征文本内容。文中根据词项的长度对其权重加权，具体如公式(2)所示：

WLength(termi)=

(2)

其中，Length代表词项termi的词长，即该词项所包含字的数目，Weighttf-idf(termi)指代采用TF-IDF方法计算得出的每一个词项termi的权重。

(3)基于词性进行特征词选择的算法。

文献[6]的特征词选择算法中将词性作为特征词选取的一个重要特征，提出了一种根据词性来进行特征词选择的方法。其主要思想是根据名词、动词、形容词与副词四种词性在文本中不同的重要性，赋予每种词性一定的权重值。对于文本中每一个词项termi，判断其所属的词性；然后根据不同的词性所占据的权重值，赋予该词项特定的权重值WPos(termi)；然后按照该值对文本中的词项进行降序排列，再从中选取一定数量的具有较高权重值的词项作为文本的特征词。它有效区分了停用词等，也克服了TF-IDF等算法无法解决的高频但无实际含义词项的误判问题，提高了文本特征词选取的准确率。

3 新的微博短文本特征词选择算法

本文基于词性组合匹配规则，根据词项的TF-IDF、词性与词长等因子构造综合评估函数，结合词项与文本内容的语义相关度，逐步来选取微博短文本的特征词，从而准确表示微博文本内容主题。新的微博短文本特征词选择算法总体流程，如图1所示，它主要由以下几个步骤构成：(1)首先采用常用的文本预处理方法对微博短文本D′进行预处理，得到词项集合D；(2)其次，基于词性组合匹配规则，从词项集合D中选取出特征词加入特征词集合FeatureList，余下的词项则放入剩余词项集合TermList；(3)然后，使用本文所提出的融合词项的TF-IDF、词性与词长等因子构造的综合评估函数，从剩余词项集合TermList中选取出特征词放入过滤词项集合LeftList；(4)最后，再结合词项与文本内容的语义相关度，从过滤词项集合LeftList中选取出特征词加入特征词集合FeatureList，从而得到最终的微博短文本特征词集合。

Figure 1 Flow chart of the feature selection algorithm on micro-blog short texts

3.1 微博短文本预处理

由于微博短文本内容长度短，数量较多，语言表达口语化，形式不规范，存在过多的繁杂、冗余信息，在进行特征词选择前，通常都需要对原始文本进行预处理。微博短文本预处理主要包括微博信息过滤、微博文本分词、词性标注与停用词去除。

通过以上几种方法，原始微博短文本D′将被表示为D={〈term1,s1〉, 〈term2,s2〉,…, 〈termm,sm〉} ，该文本中第i个词项及其对应的词性用〈termi,si〉(1≤i≤m)来表示，其中m代表经过预处理后微博短文本D所包含词项的个数。本文所提算法也采用上述方法对微博短文本进行预处理。

3.2 基于词性组合匹配规则选取微博短文本特征词

文本中不同词性的词项组合在一起蕴含着更加丰富、明确的语义信息，对文本内容主题的表征力度更强。例如：形容词与名词组合(adj+n)，“肥沃的土地”比独立的“肥沃的”和“土地”两个词更能准确地表达出文字所蕴含的语义信息——土地是肥沃的等；动词和副词组合(adv+v)，“快乐地奔跑”也比单个词“快乐地”和“奔跑”更为准确地将文字所蕴含的信息表示出来——一个人奔跑的时候，心情是愉悦的等。因此，选取由这样的词性组合构成的短语作为微博短文本的特征词，有助于提高微博短文本内容主题表示的准确性。

基于词项组合匹配规则选取微博短文本特征词的算法描述如下所示：

算法1基于词性组合匹配规则的微博短文本特征词选择算法

输入：经预处理后的微博短文本D={〈term1,s1〉,〈term2,s2〉,…,〈termm,sm〉};

输出：初始特征词集合FeatureList={term1,term2,…,termn1}与剩余词项集合TermList={〈termn1+1,sn1+1〉, 〈termn1+2,sn1+2〉,…, 〈termn1+k,sn1+k〉} ，n1

步骤1针对微博短文本D，依次遍历该文本中的词项termi(1≤i≤m)；

步骤2根据词项termi所对应的词性，判断其是否属于形容词或副词(adj or adv)，如果属于，转步骤3，否则转步骤5；

步骤3遍历文本中下一个词项termi+1，判断其和前一个词项termi组合在一起是否与词性组合规则(adj+n)与(adv+v)相匹配，如果匹配，转步骤4，否则，转步骤5；

步骤4将组合在一起的词项选取出来作为一个特征词放入初始特征词集合FeatureList中；

步骤5遍历下一个词项termi+1，重复步骤2～步骤4直到微博短文本D中的所有词项处理完毕；

步骤6将微博短文本D中余下的词项放入剩余词项集合TermList中。

3.3 根据词项的多因子构造的新评估函数选取微博短文本特征词

为解决由于单一使用一种基于统计的特征词选择算法的片面性，造成了文本中有效特征词选取、文本内容主题精确表示困难的问题，本文则综合词项的TF-IDF、词性与词长因子提出一种基于词项多种因子的特征词选择算法，以挑选文本特征词，更准确地表示微博文本内容主题。首先，分别根据词项的TF-IDF、词性与词长因子统计相应的权重分值；然后将其综合起来计算每个词项的总权重分值，并选取总权重分值较高的词项作为文本的特征词。

基于词项的TF-IDF、词性以及词长等因子计算表征文本D中每一个词项termi重要性的总权重分值，如式(3)所示。

Score(termi)=α×Weighttf-idf(termi)+

β×WPos(termi)+γ×WLength(termi)

(3)

其中，termi表示当前文本D中的第i个词项，Weighttf-idf(termi)表示词项termi对应的TF-IDF权重分值，WPos(termi)表示词性权重分值，WLength(termi)表示词长权重分值，而α、β、γ则表示词项termi的不同因子在决定其在文本中重要性的比例系数。

融合词项多因子的微博短文本特征词选择算法具体描述如下：

算法2融合词项多因子的微博短文本特征词选择算法

输入：剩余词项集合TermList={〈termn1+1,sn1+1〉,〈termn1+2,sn1+2〉,…,〈termn1+k,sn1+k〉},n1

输出：过滤词项集合LeftList={term1,…,termi,…,termk1}， k1表示过滤词项集合LeftList中词项的数目，且k1

步骤1针对剩余词项集合TermList，首先遍历该集合中的第一个词项term1；

步骤2根据词项的TF-IDF、词性以及词长因子分别统计词项term1的TF-IDF权重分值、词性权重分值与词长权重分值；

步骤3根据式(3)将词项term1的各个因子所对应的权重分值进行融合，计算其总权重分值Score(term1)；

步骤4重复步骤2 ～步骤3直到剩余词项集合TermList中的所有词项termi处理完毕；

步骤5按照每个词项termi的总权重分值，对词项集合TermList中的词项进行降序排列，并选取前k1(词项集合TermList中多数词项为特征词)个词项加入过滤词项集合LeftList中。

3.4 结合词项与文本内容的语义相关度筛选微博短文本特征词

本文分析了词项之间的语义关联性，基于《知网》的词汇语义相似度量化某一个词项与微博短文本中每一个词项之间的语义相似度，求和，取平均值，然后将平均值作为该词项与文本内容的语义相关度。运用此方法对过滤词项集合LeftList再次进行特征词选择，从而将词项集合TermList中误选的特征词去除，词项termi与文本D内容的语义相关度计算如式(4)所示：

(4)

其中，sem(termi,terml)表示基于《知网》的词汇语义相似度度量词项termi与terml之间的语义相似性。

结合词项与文本内容的语义相关度选取微博短文本特征词的算法描述如下所示：

算法3结合词项与文本内容的语义相关度选取微博短文本特征词的算法

输入：初始特征词集合FeatureList={term1,term2,…,termn1}与过滤词项集合LeftList={term1,…,termi,…,termk1};

输出：微博短文本D的最终特征词集合FeatureList={term1,term2,…,termn1,termn1+1,…,termn}，n

步骤1针对过滤词项集合LeftList，首先遍历该集合中的第一个词项term1;

步骤2根据式(4)计算词项term1与文本D之间的语义相关度Semantic(term1,D);

步骤3重复步骤2直至集合LeftList中所有的词项处理完毕。然后根据语义相关度值对该集合中的词项进行降序排列，抽取前n-n1(词项集合LeftList中词项数目的90%)个词项加入初始特征词集合FeatureList中，从而形成微博短文本D的最终特征词集合FeatureList。

4 实验

4.1 数据来源

实验数据来源于科研共享平台——数据堂所提供的微博分类语料集[12]，共计21个类别，涉及IT、财经、传媒等多个领域，其中每个类别包含1 000～12 000的人工分类数据。从语料集中选取70%的数据作为微博短文本分类的训练集，剩余的30%作为测试集。

4.2 评价指标

采用两个衡量文本分类效果的度量指标——准确率与召回率作为文本特征词选择算法的评判指标，如表1与式(5)所示。

Table 1 Binary classification contingency table表1 二值分类列联表

(5)

其中，P指代准确率，表示正确分类的文本数与被分类器判别为属于该类的文本数的比值；R则代表召回率，表示正确分类的文本数在测试数据集中属于该类的文本数中所占的比重。按照公式(5)统计所有微博数据类别对应的准确率与召回率。

4.3 实验步骤

4.3.1 微博短文本预处理

本实验采用的文本预处理方法分为四步。第一步是对微博短文本信息进行过滤。采用文献[13]的方法：建立繁简字库，统一微博语言表达；根据微博短文本中特殊的数据格式，去除其所包含的无用信息；删除微博短文本中一些无意义的固定词组，从而去掉文本中的噪声，保留重要的数据信息，达到净化微博数据的目的。第二步，微博文本分词。采用文献[14]提出的中科院研发的ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分词工具对微博短文本进行分词，将微博短文本表示成由一系列词项构成的词项集合。第三步，词性标注。利用ICTCLAS分词工具所附带的词性标注功能对每一个词项进行词性标注。第四步，停用词去除。文献[15]提出构建停用词表对微博短文本进行停用词去除，将一些无意义的虚词等去除掉。

4.3.2 微博短文本特征词选择与分类

由于人工标注微博短文本特征词具有一定的主观性，且海量数据的标注极为耗时，将使用此种方法所得的微博短文本特征词数据作为评判特征词选择算法优劣的参考数据不太可行。因此，本文将新的特征词选择算法与朴素贝叶斯NB(Naive Bayeian)分类算法[16]相结合应用于微博分类语料集，对微博短文本进行分类，观测分类效果，以评判新算法的优劣。

4.4 实验结果及分析

公式(3)中的三个比例系数彼此之间的关系为α+β+γ=1,β>γ>α(考虑到词项的总权重分值受词性因子影响最大，词长次之，TF-IDF最小)，且每个系数在(0,1)之间取值。为确定一个最佳组合系数，本文针对六种可能的取值情况(精度为0.1)对微博短文本分类语料集多次实验，测试微博短文本分类的平均准确率。实验结果表明，当(α,β,γ)=(0.2,0.5,0.3)时，平均准确率取得最大值，即85.35%，因此，α、β、γ分别取0.2、0.5、0.3。

将本文的新算法与单独基于词项的TF-IDF[4]、词长[5]、词性[6]等因子的特征词选择算法进行比较，观测各个特征词选择算法与分类算法相结合时对微博短文本分类的效果。由于新算法综合考虑了词项的TF-IDF、词性与词长等因子共同度量词项对微博短文本内容主题表达所起的作用，避免了仅基于词项某一方面因素的片面性；以词性组合匹配规则选取文本的特征词，提高了微博短文本特征词的语义表达能力；从语义角度来衡量词项与微博短文本内容的语义相关度，充分考虑了词项与文本内容在语义上的密切相关度。因此，新算法可更好地提高微博短文本分类的准确率，改善分类的效果。

这一点可以从如图2和图3所示的数据中得到验证：结合分类算法对微博短文本进行分类时，新算法与基于词项的TF-IDF、词性与词长等因子的特征词选择算法相比，在各个微博数据类别对应的准确率与召回率上均得到了提高，且平均值分别保持在85.35%与84.49%左右。新算法有效地提高了微博短文本分类的准确率，证明了该算法选取出的特征词可更准确地表示微博文本内容主题。

Figure 2 Comparison chart of the four text feature selection algorithms in accuracy rate

Figure 3 Comparison chart of the four text feature selection algorithms in recall rate

5 结束语

本文首先基于词性组合匹配规则选取微博短文本的特征词，以提高微博短文本特征词的语义表达能力；其次根据词项的TF-IDF、词性与词长等因子构造综合评估函数估量词项对微博短文本内容主题表示的贡献度，进而对微博短文本进行特征词选择；然后，从语义的角度理解微博短文本特征，结合词项与文本内容的语义相关度，最终完成对微博短文本特征词的选取功能；最后与朴素贝叶斯分类算法结合使用，对微博短文本进行分类。实验结果表明，与基于词项的TF-IDF、词性与词长等因子选取特征词的算法相比，该算法有效地提高了微博短文本分类的准确率，从而验证了该算法的优越性。

[1] Jiang Sheng-yi, Mai Zhi-kai, Pang Guan-song, et al. A survey of Micro-blog data mining[J]. Library and Information Service, 2012, 56(17):136-142.(in Chinese)

[2] Wang Lian-xi.A literature review on pre-processing and learning of microtext[J]. Library and Information Service, 2013, 57(11):125-131.(in Chinese)

[3] A survey on text feature extraction method[EB/OL]. [2012-12-18]. http:∥blog.sina.com.cn/s/blog_77ca69890101- aq2y.html.(in Chinese)

[4] Liu Yan-wei.Research and implementation of Microblog topic tracking system[D]. Beijing:Beijing Jiaotong University, 2013.(in Chinese)

[5] Ding Jin. Research and implementation of micro-blog hot topic detection[D]. Wuhan:Huazhong University of Science and Technology, 2012.(in Chinese)

[6] Zhang Jian-e. Chinese text keyword extraction based on multiple feature fusion[J]. Information Studies:Theory and Application, 2013, 10(36):105-108.(in Chinese)

[7] Liu Zi-tao, Yu Wen-chao, Chen Wei, et al. Short text feature selection for micro-blog mining[C]∥Proc of 2010 International Conference on IEEE Computational Intelligence and Software Engineering(CiSE), 2010:1-4.

[8] Cheng Chuan-peng, Su An-jie. A short text feature word extraction method[J]. Computer Applications and Software, 2014, 31(6):162-164.(in Chinese)

[9] Liu Jing-jiao. The study of short text classification algorithm based on semantic[D]. Zhengzhou:Zhengzhou University of Light Industry, 2013.(in Chinese)

[10] Ge Bin, Li Fang-fang, Guo Si-lu,et al. Word’s semantic similarity computation method based on HowNet[J]. Application Research of Computers, 2010, 27(9):3329-3333.(in Chinese)

[11] Lin Nan. Research on algorithms for text feature selection[D]. Dalian:Liaoning Normal University, 2010.(in Chinese)

[12] The corpus used in classification for Micro-blog texts[EB/OL]. [2013-07-03]. http:∥www.datatang.com/data/44271.(in Chinese)

[13] Xia Yang.Design and implementation of the micro-blog topic detection system based on incremental clustering[D]. Guangzhou:Sun Yat-sen University, 2012.(in Chinese)

[14] ICTCLAS,ICTCLAS2012-SDK-0101.rar[EB/OL].[2014-08-18]. http:∥www.nlpir.org/download/.(in Chinese)

[15] Hua Bo-lin. Stop-word processing technique in knowledge extraction[J]. New Technology of Library and Information, 2007, 2(8):48-51.(in Chinese)

[16] Zuo Min, Zeng Guan-ping, Tu Xu-yan. Study on an improved Naive Bayesian classifier used in the Chinese text categorization[C]∥Proc of the 2nd International Conference on Modeling, Simulation, and Visualization Methods, 2010:135-138.

附中文参考文献：

[1] 蒋盛益, 麦志凯, 庞观松, 等. 微博信息挖掘技术研究综述[J]. 图书情报工作, 2012, 56(17):136-142.

[2] 王连喜. 微博短文本预处理及学习研究综述[J]. 图书情报工作, 2013, 57(11):125-131.

[3] 文本特征提取方法研究[EB/OL]. [2012-12-18]. http:∥blog.sina.com.cn/s/blog_77ca69890101aq2y.html.

[4] 刘彦伟. 微博话题追踪系统的研究与实现[D]. 北京:北京交通大学, 2013.

[5] 丁荩. 微博热点发现技术的研究与实现[D]. 武汉:华中科技大学, 2012.

[6] 张建娥. 基于多特征融合的中文文本关键词提取方法[J].情报理论与实践, 2013, 10(36):105-108.

[8] 程传鹏, 苏安捷. 一种短文本特征的提取方法[J]. 计算机应用与软件, 2014, 31(6):162-164.

[9] 刘婧娇. 基于语义的短文本分类算法研究[D]. 郑州:郑州轻工业大学, 2013.

[10] 葛斌, 李芳芳, 郭丝路, 等. 基于知网的词汇语义相似度计算方法研究[J]. 计算机应用研究, 2010, 27(9):3329-3333.

[11] 林楠. 文本特征选择算法研究[D]. 大连:辽宁师范大学, 2010.

[12] 微博分类语料集, 用于微博数据分类训练[EB/OL]. [2013-07-03]. http:∥www.datatang.com/data/44271.

[13] 夏阳. 基于增量聚类的微博话题检测系统的设计与实现[D]. 广州:中山大学, 2012.

[14] ICTCLAS,ICTCLAS2012-SDK-0101.rar [EB/OL].[2014-08-18]. http:∥www.nlpir.org/download/.

[15] 化柏林. 知识抽取中的停用词处理技术[J]. 现代图书情报技术, 2007, 2(8):48-51.

黄贤英(1967-),女,重庆人，教授，CCF会员(E20040739M)，研究方向为信息检索和移动计算。E-mail:hxy@cqut.edu.cn

HUANG Xian-ying,born in 1967,professor,CCF member(E20040739M)，her research interests include information retrieval， and mobile computing.

陈红阳(1989-),女,河南南阳人，硕士生，研究方向为信息检索。E-mail:15223091504@163.com

CHEN Hong-yang,born in 1989,MS candidate,her research interest includes information retrieval.

刘英涛(1988-),男,山东烟台人，硕士生，研究方向为信息检索。E-mail:814462045@qq.com

LIU Ying-tao,born in 1988,MS candidate,his research interest includes information retrieval.

熊李媛(1990-),女,河南南阳人，硕士生，研究方向为信息检索。E-mail:623890251@qq.com

XIONG Li-yuan,born in 1990,MS candidate,her research interest includes information retrieval.

A novel algorithm for feature selection on micro-blog short texts

HUANG Xian-ying,CHEN Hong-yang,LIU Ying-tao,XIONG Li-yuan

(College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054,China)

The valid features of micro-blog short texts are sparse and difficult to extract, which reduces the accuracy of text representation, classification and clustering. We propose a novel algorithm for feature selection on micro-blog short texts based on statistics and semantic information. We utilize Term Frequency-Inverse Document Frequency (TF-IDF), POS and the length of term to construct the evaluation function, and together with the semantic relevance between term and micro-blog short texts, the feature selection on micro-blog short texts is achieved, which guarantees that the selected terms can represent the meaning of micro-blog short texts more accurately. The new feature selection algorithm is integrated with Naive Bayesian categorization algorithm, and the experiments on an open micro-blog corpus show the proposed algorithm can acquire a higher precision rate of text categorization compared with the traditional strategies, indicating that the selected terms by the proposed algorithm can represent the topic of micro-blog short text more accurately.

micro-blog short text;feature selection;statistics and semantic information;POS grouping;Naive Bayesian classification algorithm

1007-130X(2015)09-1761-07

2014-10-28;

2014-12-18基金项目：国家自然科学基金资助项目(61173184);重庆市教委科技计划项目(KJ100821);重庆市科委自然科学基金资助项目(CSTC2012jjA40030)

TP391.1

10.3969/j.issn.1007-130X.2015.09.027

通信地址：400054 重庆市巴南区红光大道69号重庆理工大学计算机科学与工程学院

Address:College of Computer Science and Engineering,Chongqing University of Technology,69 Hongguang Avenue, Banan District,Chongqing 400054,P.R.China