APP下载

基于MIDF(t)的短文本特征权重计算方法研究

2016-09-18夏冰

黑龙江科学 2016年16期
关键词:褒义计算方法类别

夏冰

(哈尔滨金融学院基础教研部,哈尔滨 150030)

基于MIDF(t)的短文本特征权重计算方法研究

夏冰

(哈尔滨金融学院基础教研部,哈尔滨 150030)

随着互联网的飞速发展,传统的文本分类已经不能满足人们对信息服务系统的要求,为了实现大规模海量信息的有效利用,高准确率的分类算法成为近年的研究热点。通常情况下,网络上的影评属于短文本,文本中可供抽取的信息词量较少,而对文本分类不起作用的停用词比例相对较大,产生了向量维度高和特征稀疏这两大难题,因而研究难度更大。针对短文本特征稀疏和样本高度不均衡等特点,本文提出方法作为短文本特征权重的计算方法,既考虑了特征项在单个样本中的分布,又考虑了文本的类别特征,提高了短文本分类的查准率和查全率。实验结果表明,与传统的特征权重计算方法相比,该方法更适合短文本的分类。

短文本;文本分类;特征权重

随着互联网的飞速发展,传统的文本分类已经不能满足人们对信息服务系统的要求,为了实现大规模海量信息的有效利用,高准确率的分类算法成为近年的研究热点。在文档分类中,通过分词后的文档词汇量相当大,产生的高维度特征空间不仅导致计算量巨大,还影响文本分类精度。因此,在分类之前务必要进行特征抽取来剔除那些表现力不强的词汇,即需要对文本的维度进行约简,这个过程称为特征选取。

通常情况下,网络上的影评属于短文本,文本中可供抽取的信息词量较少,而对文本分类不起作用的停用词比例相对较大,产生了向量维度高和特征稀疏这两大难题,因而研究难度更大。针对短文本的自身特点,本文综合考虑样本在正类和负类中的分布情况,结合反文档频和相关性频率的特点,提出MIDF(t)方法作为短文本特征权重的计算方法。

1 短文本特征选择方法

1.1 互信息

在特征选择的方法中,互信息(Mutual Information)是通过特征项和类别共同出现时的概率来判断特征项和类别之间的相关性。特征项t和类别Ci之间的互信息计算公式如下:

其中,P(t,ci)表示特征项t出现在属于类别Ci的文本中的概率;P(t)表示特征项t出现在训练文本中的概率;P(ci)表示类别Ci的文本出现在训练文本中的概率。

在类别Ci中出现包含特征项t的文本出现的概率越大,则这样的文本在别的类中出现的几率越低,这样就表示特征项t和类别Ci的互信息就越大,反之就越小。

1.2 反文档频率

影评文本分为褒义文本和贬义文本,本文将褒义文本视为“正类”(Positive Category,PC),将贬义文本视为“负类”(Negative Category,NC)。

一般的文本分类主要考虑以下几方面:一方面,特征项t在类别Ci中出现的概率较大,而在其他类别中出现的几率低,这就表示特征项t和类别Ci的互信息就越大,反之就越小;另一方面,特征项t在正类中出现的频率比在负类中出现的频率高,说明它具有较好的类别区分能力,称为反文档频率。

其中,N表示训练文档总数,n表示训练文档中包含特征项t的文档数,加0.01是为避免在特征项t未出现的情况下造成分母为零的情况。

基于上面的分析,既要考虑特征项在单个样本中的分布,又要考虑文本的类别特征,本文提出一种针对短文本的特征选择方法,计算公式如下:

2 仿真实验

2.1 选择文本

从IMDB(Internet Movie Data Base,互联网电影数据库)和烂番茄(ROTTEN TOMATOES)英文网站中选出800条具有情感色彩(褒义或贬义)的影评,将这些文本分为褒义文本和贬义文本,类别c1代表褒义,类别c2代表贬义。将其中300条褒义文本和200条贬义文本作为训练样本,其余200条褒义文本和100条贬义文本作为测试样本。

2.2 分离器

采用K最近邻(K-Nearest Neighbor,KNN)分类算法进行短文本分类仿真。作为一种传统的模式识别算法,KNN算法分类精度较高,并且不需要因加入新的训练文本而重新训练,简单且易操作。

2.3 评价方法

分类效果评估采用国际上通用的准确率、召回率以及F1测试值进行评估:

准确率=分类的正确文本数/实际分类文本数

召回率=分类的正确文本数/应有文本数

F1=2×(准确率×召回率)/(准确率+召回率)

表1 分类效果比较Tab.1 Classification results comparison

由表1可以看出,改进后的短文本特征选择方法具有较好的分类效果。

3 结语

由于短文本语料类别分布不均衡,因此沿用长文本的特征权重计算方法很难取得理想的分类效果。为此,本文提出MIDF(t)特征权重计算方法,既考虑特征项在单个样本中的分布,又考虑了文本的类别特征,并进行了仿真实验。实验结果验证了该短文本特征权重算法的可行性。

[1] 马雯雯,邓一贵.新的短文本特征权重计算方法[J].计算机应用,2013,22 (8):2280-2282.

[2] 汪正中,张洪渊.基于英文博客文本的情感分析研究[J].计算机技术与发展,2011(8):153-156.

[3] 林少波,杨丹,徐玲.基于类别相关的新文本特征提取方法[J].计算机应用研究,2012,(5):1680-1683.

[4]Liu Zitao,Yu Wenchao,Chen Wei,et al.Short Text Feature Selection for Microblog Mining[C]//The 4th International Conference on Computational Intelligence and Software Engineering.Wuhan,China,2010:1-4.

[5] Bharath Sriram,David Fuhry,Engin Demir,Hakan Ferhatosmanoglu.Short Text Classification in Twitter to Improve Information Filtering Computer Science and Engineering Department[D].Ohio State University,Columbus,OH 43210,USA.2010:24-34.

Feature weight calculation approach based on short text ofMDF(t)

XIA Bing
(Harbin Finance University,Basic Research Department,Harbin 150030,China)

With the rapid development of the Internet,the traditional text classification can not satisfy people's requirements of information service system,in order to achieve effective use of large-scale mass of information,high accuracy of classification algorithms has become a hot topic in recent years.Under normal circumstances,the filmreviewon network belongs to short text,there are less information words for extraction available in the text,while stop words make a large proportion in the text,resulting in two big issues of high vector dimension and sparse feature that are more difficult to study.In view of the inherent sparse features and unbalanced sample of the short text,the paper proposes a approach to resolve this problem,an approach of short text feature weight named MIDF(t)was proposed.This approach integrated the distribution of features in sample,and improved the precision and recall of short text categorization.The result of experiment indicates that the proposed approach is more suitable for short text classification compared to traditional feature weight calculation methods.

Short text;Text classification;Feature weight

TP311

A

1674-8646(2016)16-0028-02

2016-06-07

黑龙江省哲学社会科学研究规划项目“基于模糊支持向量机的英语语篇情感分析”(13E024)

夏冰(1977-),女,黑龙江哈尔滨人,硕士,副教授,主要从事数学建模,机器学习、数据挖掘的研究。

猜你喜欢

褒义计算方法类别
浮力计算方法汇集
英语委婉语定义的局限与演变
壮字喃字同形字的三种类别及简要分析
随机振动试验包络计算方法
服务类别
不同应变率比值计算方法在甲状腺恶性肿瘤诊断中的应用
多类别复合资源的空间匹配
“点”的觉醒
一种伺服机构刚度计算方法
中医类别全科医师培养模式的探讨