基于文本特征提取方法的文本分类研究
2018-11-01文峤
文峤
摘要:文本分类在大数据时代具有重要意义,传统的机器学习方法是目前流行且成熟的解决方法。而传统分类方法的关键在于文本的特征提取,一个好的方法能准确地挖掘出文本的关键信息,得到极佳的分类效果。除此之外,特征维度的选取也是影响分类效果的另一关键因素。基于此,本文基于相同的分类算法比较了不同的文本的特征提取算法以及不同特征维度对分类结果的影响。
关键词:文本分类;数据挖掘;特提取;特征维度
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)18-0188-02
Text Categorization based on Text Feature Extraction
WEN Qiao
(School Of Computer Science, Southwest Petroleum University, Chengdu 610500,China)
Abstract:Text classification is of great significance in the era of big data, and traditional machine learning is a both popular and proven method for the time being. The key to the traditional classification method lies in the feature extraction of texts. A good method can accurately mine the key information of texts, thus obtaining optimal results of classification. In addition, the selection of feature dimensions is another key factor affecting classification results. Based on this, this paper compares the influences of feature extraction algorithm of different texts and different feature dimensions on classification results on the basis of the same classification algorithm.
Key words: Text Classification;Data Mining;Feature Extraction;Feature Dimension
1引言
自動文本分类(Automatic Text Categorization),或者简称为文本分类,是指计算机将一篇文章或者一段文字归于预先给定的主题类别的某一类或某几类的过程,文本分类是文本挖掘的一项重要内容。
文本分类这个在NLP领域是一个很普通而应用很广的课题,而且已经有了相当多的研究成果,比如应用很广泛的基于规则特征的SVM分类器,还有最大熵分类器、基于条件随机场来构建依赖树的分类方法等。中文文本分类的意义就在于能够将海量的数据按照内容划分成我们所需要的类别。对于中文文本处理。当前的中文文本分类主要集中在如何利用中文文本本身的一些特征来更好的表示文本样本以及运用神经网络和样本的矢量矩阵更好的抽取文本的特征,进而进行文本的分类等任务。
总之,尽管机器学习理论对于文本分类的研究起了不可低估的作用,在这之前文本分类的研究曾一度处于低潮,但是文本分类的实际应用和它自身的固有的特性给机器学习提出新的挑战,这使得文本分类的研究仍是信息处理领域一个开放的、重要的研究方向。
2特征提取方法介绍
2.1词频(Term Frequency, TF)
在提取文本的特征的时候,最容易想到也最直观的特征提取方式就是词频,考虑每个词在训练数据集中出现的频次,频次越大就认为该词越是数据集的一个特征词。计算公式如下:
[TF(w)=nN] (1)
其中:w为相应的候选词,n为w在语料中出现的次数,N为语料中总的词数。
2.2词频-逆文件频率(Term Frequency-Inverse Document Frequency, TF-IDF)
TF-IDF是目前较为成熟的计算特征权重的方法。TF为文本词的频数,缺点是不能区分出没有实际类别意义的高频词。IDF正是针对这一缺点的改进,IDF即为逆文档频率,当文本词出现在很多的类别下时,该值很小;反之,当该文本词出现在较少的类别下时,该值较大。不难理解,计算出来的词在类别与类别之间具有很好的区分度。
[tfi,j=ni,jknk,j] (2)
该式为词频计算公式,[ni,j]是该词在文档[dj]中的出现次数,而分母则是文档[dj]中所有的字词的出现次数之和
[idfi,j=logDj:ti∈dj] (3)
其中,[D]表示语料库中的文件总数,[j:ti∈dj]表示包含词[ti]的文档数目,为了防止计算时分母为零,则一般使用[1+j:ti∈dj],每个词最后的权值计算公式为:
[tfidfi,j=tfi,j*idfi,j] (4)
最后根据预设的阈值决定从大到小依次提取出特征词数,依次用于分类任务。
2.3卡方检验(CHI)
卡方检验特征选择方法利用了统计学中的思想,通过观测实际值与理论值的偏差来衡量假设的正确与否。假设变量[X1]与变量[X2]独立,根据实际观测值与理论值的差异来确定是否独立。如果偏差足够小,可以认为这是样本观测误差,即总体中两个变量不相关,原假设成立。若差值较大,认为超过了样本观测本身会产生的误差的时候,我们就认为变量[X1]与变量[X2]不独立,具有相关性,即原假设不成立。
[i=1n(xi-E)2E] (5)
其中,E表示理论值,x表示实际观测值,上式计算出了总的偏差程度,并设置一个阈值,小于某个值就认为假设成立,两个变量不相关;反之,大于了预设阈值,认为假设不成立,表示两个变量相关。
基于这样一个原理,在文本的特诊选择中,一般用“特征T与类别C不相关”来做原假设。具体的计算公式为:
[χ2=N(AD-BC)2(A+C)(A+B)(B+D)(B+C)] (6)
其中,[N]表示样本集中文档总数,[A]表示每个词的正文档出现频率,[B]表示每个词出现的负文档频率,[C]表示正文档不出现的频率,[D]表示负文档不出现频率。根据计算式,根据一定的要求选取前k个词作为特征。
2.4 互信息(MI)
在文本特征提取方法中,互信息通过判断特征项与类别的关联程度来提取特征,
[MI(w,C)=iP(Ci)logP(w,Ci)P(w)P(Ci)] (7)
式中,P(w)指特征词w在整个文本训练集中出现的概率,[ P(Ci)]指类别[Ci]在整个文本集中出现的概率;[ P(w,Ci)]代表文本类别[Ci]中出现特征项w的文本数目在整个训练集中的比重。值得说明的是,这里计算的是全局的特征,若要计算某一类别下的特征,式中不加和。
3数据集介绍
本文数据集来自搜狗新闻文本数据集,是一个专门用于文本分类任务的数据集,我们从中提取了汽车(auto)、商业(bussiness)、文化(cul)、体育(sports)、旅游(travel)、娱乐(yule)六个类别的新闻文本,训练集和测试集分别为26000、12000条。获取数据之后首先进行数据清洗提取出我们需要的有关类别的新闻文本,只保留类别和正文,最后利用jieba进行分词后得到我们的训练集。
我们一次用上述四种方法提取特征,尝试每个类别获取300个维度的特征集,从中我们分析了四种方法的特征相似度,如表1所示:
由表1可知,四种特征提取方法得到的特征相似度整体不到0.5,相似度较低,而实验结果准确度差别很小,这就说明,不同方法提取出的特征词具有一定的类别意义,能够表现出较好的效果,并不强依赖于某个别特征。
将四特征提取方法提取出的特征输入到相同的分类模型,这里我们使用朴素贝叶斯分类,使得在相同的分类方法之下我们可以看出在此任务四种特征提取方法的优劣。
4实验结果及其分析
在实验中,為了具有可比性,分类算法采用朴素贝叶斯,根据提取的不同特征维度进行分类,对于多分类问题的评价指标我们选用准确率以及宏平均F1值。
如图3,此任务下,当每个类别特征维度达到100时,分类准确率便不会有较大的提升。针对每个单独任务,卡方检验(CHI)在特征维度为50左右时,分类效果最佳,当特征维度大于50之后,效果呈现下降趋势;而特征维度为300时,TF-IDF表现最佳,之后随着维度的提升性能上下波动;而互信息(MI)和词频(TF)两种方法在此分类任务中随着特征维度的增加效果几乎一致,同样在特征维度大于300后效果提升并不明显。图4是对于多分类结果的宏平均指标评价,整体趋势与准确率相似,但是整体值并不高,其原因是训练数据集的不平衡,导致各个类别的结果差异很大。
综上,我们可以得出,卡方检验能够快速提取出类别特征,保证低维特征能够达到最佳效果,而对于此任务,特征维度太大或者太小都不能达到最佳效果,300维的特征集为最佳特征集,四种方法都能达到一个比较理想的分类效果。
5结束语
本文通过对比实验,验证了四种特征提取方法在同一数据集上特征提取效果以及不同维度设定对效果的影响。希望为大家在中文文本分类的实际应用中特征维度以及特征提取方法的选取提供一定的帮助。
参考文献:
[1] 宗成庆. 统计自然语言处理[M]. 北京:清华大学出版社, 2008.
[2] 单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[D]. 哈尔滨工业大学, 2011.
[3] 张玉芳,王勇,熊忠阳,等. 不平衡数据集上的文本分类特征选择新方法.计算机应用研究 , 2011.
[4] Pengfei Liu,Xipeng Qiu, Xuanjing Huang. AdversarialMulti-taskLearningforTextClassi?cation. 清华大学电子工程系, 2003.
[5] 丛帅,张积宾,徐志明,王宇. Feature selection algorithm for text classification based on improved mutual information. Journal of Computer Science & Technology, 2011.