基于支持向量机的文本分类技术
2014-08-30于飞李红莲吕学强
于飞 李红莲 吕学强
摘 要:在文本分类过程中,影响分类准确率的两个重要因素是特征权重的计算方法,以及机器学习算法的准确率。针对传统基于支持向量机的文本分类准确率不高的问题,本文提出修正权重计算公式和采用调整支持向量机核函数参数的方法,使文本的分类准确率提高了近3个百分点。实验结果表明这两种方法的结合,确实可以提高文本分类的准确率。
关键词:文本分类;支持向量机;权重计算公式;核函数调参;特征向量权重
1 概述
文本分类作为信息过滤、信息检索、搜索引擎、网络论坛、数字图书馆等领域的技术基础,有着广泛的应用前景。如何应用机器学习实现按照文本内容自动分类技术是解决信息准确、快速检索的主要方法之一。
2 文本的向量空间模型表示
向量空间模型是通过权重表示的。传统的权重计算公式
其中ωij表示词项ti在文档Dj中的权重,N表示训练集中总的文档数,ni表示训练集中出现特征项ti的文档数,tfij表示词项ti在文档Dj中的频度(次数)。
针对公式的缺陷引出下面的改进措施,即用方差模型表示词项分布的离散程度。
以下叙述它的数学原理。将词项t在类C1文档集中出现的次数看作一个随机变量X1,假设Xi,i=1,2,…,m(m为类别总数)相互独立,且服从相同分布,则Xi,i=1,2,…,m构成简单随机样本。由统计学可知,样本方差S2是总体方差σ2的无偏估计,且总体服从任意分布。于是可以通过文本词项t的样本方差近似代替总体方差D(t),而总体方差反映的是词项t在各类中出现次数的波动情况。显然D(t)越小,说明分布较均匀。
这里的改进有三处。第一处,将原来的tfij换成了TFi(t),也就是说不再用词项i在文档j中出现次数,而改用词项i在类t中出现的次数。也就是说在提取特征向量的时候,同一类中提取出的不同文档的特征向量,是相同的。实验表明,这样的处理有助于提高分类准确率。从之前的64%提高到75%。第二处就是加入了类间分布项。第三处是加入了类内分布项。
3 文本特征向量的抽取
建立好文档词矩阵后,对一类中的词项权值进行排序,挑出权值大于0.1的词项,作为该类的特征向量。把所有类的特征向量选出后,取并集,作为最终的特征向量。
4 支持向量的调参
本系统采用支持向量机进行文本分类。用支持向量机分类时,影响分类准确率的一个最重要因素是参数的选择。参数包括,软间隔最大化中惩罚参数C的选择。以及采用径向基RBF核函数时,参数γ的选择。本系统采用双线性搜索法进行参数的选择。
首先介绍参数γ的意义。γ是RBF核的唯一参数,选择不同的 ,就相当于把样本向量映射到不同的特征空间,即γ的不同决定了样本向量的象在特征空间中分布复杂程度的不同(线性分类面的最大VC维)。γ过大时,出现过拟合,所有的训练样本都会成为支持向量,这会降低推广能力并造成测试时的计算量过大。γ很小时,出现欠拟合,SVM分类能力也会变得很差,几乎会把所有样本判为同一类。其次介绍参数C的意义。惩罚参数C是对错分样本的偏离值的惩罚系数。它的作用是调和分类模型的经验风险(错分类样本数)和置信范围(间隔大小)的比例,以使训练得到的模型具有很好的推广能力。SVM的目标是最小化结构风险,因此必须在减少误分类样本个数(减小经验风险)和增大分类间隔(缩小置信范围)之间进行折中。C较小时,误分类惩罚系数小,机器学习复杂度小,间隔大,置信范围小,误分类样本个数大,经验风险大。C较大时,误分类惩罚系数大,机器学习复杂度大,间隔小,置信范围大,误分类样本个数少,经验风险小。当C超过一定值后,再加大C,也几乎不会再对经验风险和推广能力造成变化。双线性搜索法的基本原理。RBF的参数空间可分为欠训练区,过训练区,好区。以logC,logγ作为参数空间的坐标,学习精度最高的参数组合(C,γ)将集中出现在好区中的直线 附近。其中 是使模型精度最高的 。双线性搜索法的步骤。
①采用线性核函数,该核函数只涉及惩罚参数C,给C一个初始值0.01,对训练集进行10折交叉验证算出准确率a1。给定一个步进值step=0.01,使C=C+step,再进行10折交叉验证算出准确率a2。依次迭代,直到a2-a1<0时,停止。取出a1所对应的的C值,作为最佳参数bestc。
②根据好区直线表达式 和已知的bestc即 ,得到(C,γ)值对。具体过程为,核函数采用RBF,给C一个初始值0.01,由直线表达式计算出γ,对训练集进行10折交叉验证算出准确率a1。给定一个步进值step=0.01,使C=C+step,再进行10折交叉验证算出准确率a2。依次迭代,直到a2-a1<0时,停止。取出a1所对应的 作为最佳的参数对。
5 实验结果分析
5.1 实验语料
训练与测试数据比例列于表3
5.2 实验结果
实验一为传统权重计算公式且没有加入核函数调参的实验结果准确率。实验二为使用改进的权重计算公式以及核函数调参后的分类准确率结果。具体结果见表4
6 结束语
本文通过改进权值计算公式以及调节支持向量机核函数的参数,使分类准确率有了提高。在小数据上验证的效果较好。后续将通过更大的数据集来检验该方法的性能。
[参考文献]
[1]吕佳.文本分类中基于方差的改进特征提取算法[J].计算机工程与设计,200724:6039-6041.
[2]王梅.一种改进的核函数参数选择方法.西安科技大学.
[3]宗成庆.统计自然语言处理.清华大学出版社,2008.
[4]白鹏.支持向量机理论及工程应用实例.西安电子科技大学出版社,2008.
[5]史峰,王辉.MATLAB智能算法30个案例分析.北京航空航天大学出版社,2011.
[6]李航.统计学习基础.清华大学出版社.2012.
[7]崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究.[J].计算机仿真,201302:299-302.
[8]熊小草.文本分类中特征选择的理论分析和算法研究.清华大学.