基于混合CRFs & SVM应用于文本信息分类
2020-02-24胡改蝶马建芬
胡改蝶, 马建芬
(1.太原工业学院 计算机工程系,山西 太原 030008;2.太原理工大学 信息与计算机学院,山西 太原 030024)
0 引言
随着网络的日益发展,网络信息的增长也愈来愈快,其中文本信息是网络信息中最重要的一部分。如何快速且有效地对文本信息进行合理的组织、管理和使用,从而进一步促进文本信息分类的发展已成为组织文本数据的关键技术[1-2]。
分类本质上就是在特征向量x=(x1,x2,…,xk)给定的条件下,估计离散类变量y。基于机器学习的分类方法有产生式模型(Generative Model,简称GM)与判别式模型(Discriminative Model,简称DM)。二者的主要区别在于:前者是将估计联合分布概率作为输入和输出,它的局限在于维数特别大,特征也有很大的依赖性,后者是估计条件概率,然后进行分类,以此来解决前面所述的问题[3];前者的观察序列可以是模型的一部分,后者的观察序列只可以是条件;前者是针对无穷样本,后者是针对有限样本[4]。文本信息分类就是用自动化的技术将文本样例分配到一组预定义的类别中的一个或多个的过程[5-6]。在文本信息分类中用到了很多技术,常见的判别式模型有条件随机场(Conditional Random Fields,简称CRFs)、支持向量机(Support Vector Machine,简称SVM)和最大熵模型(Maximum Entropy Method,简称MEM)等。
基于条件随机场和支持向量机2种方法,运用循序渐进的方法,先通过条件随机场得到特征集,随后通过支持向量机再进行训练和分类,最终得出比传统SVM分类效果更好的混合方法。将混合CRFs & SVM方法运用到文本信息分类中,从而对文本信息获取更好的分类。最后利用文本集对此方法进行实验,并与传统SVM方法作了相应对比,验证了CRFs & SVM方法的有效性。
1 CRFs & SVM
1.1 条件随机场(CRFs)
条件随机场是基于统计的判别式模型之一,是在给定一输入序列的前提下,求出标注序列的概率模型,本质上是整合了分类和图像模型优点的一种模型。经常使用的是线性链式CRFs。其定义是[4]:设x和y为随机变量,θt为从训练集中训练所得到的参数变量,ft(yk,yk-1,xk)为一组真值特征函数,k表示序列位置,此时CRFs的条件概率
(1)
式中,z(x)为归一化因子
(2)
CRFs对独立性假设和数据归纳偏注问题解决有很大的见解,同时CRFs具有产生式模型的特点,对上下文的文本信息描述有特别好的效果,并对所有特征进行全局归一化[7]。它主要用于分词、词性标注、文本处理、图像分类、实体识别和生物信息学等范畴的研究。
1.2 支持向量机(SVM)
支持向量机是一种结构风险最小化的统计学习方法,是基于分类边界的方法,主要应用于小样本分类。SVM大致分为线性可分的、线性不可分和非线性3种情况。第一种情况是通过最大化边缘的超平面来实现的;第二种情况是通过定义松弛变量,存放到边缘的离差来实现的;第三种情况是将其低维空间中的点映射到新的高维空间,可以用适当的核函数,将其转换成线性可分,然后辨别分类的边界,从而大大避免维数灾难问题[8]。即支持向量机的主要思想是通过非线性变换将输入空间变换到高维特征空间,再求出最优线性分类面[9]。
支持向量机是一种神经网络,它对分类做出了巨大贡献,得到国内外诸多研究人员的高度重视,并将其理论在多个领域应用,如在文本分类、语音方面、数据挖掘、图像分类和字符识别范畴都有广泛应用。
1.3 CRFs & SVM
基于CRFs和SVM的特点,从理论上讲,将二者结合起来是可以应用在多个研究领域的。CRFs和SVM的结合方法有:顺序法,即第二个的分类器的输入是第一个分类器的输出;并列法,即同时用2种方法进行分类后,再将其进行整合,以此得到最终的分类结果[10]。本文采用顺序法进行研究。将文本信息的训练集通过CRFs得出特征集,然后将其送入SVM,再次进行训练,最后得出分类结果[11]。这种方法的优点是CRFs 的上下文相关性可以解决文本信息的不确定分类问题。CRFs & SVM定义
(3)
式中,H(yk,xk)为第k个序列位置只考虑当前观测值的后验概率。
CRFs训练是将文本信息数据集转换成适合CRFs的文本信息训练集,然后用训练集生成一个模型文件,从而得到特征总数集及每一特征出现次数,最后对参数进行训练[11]。本文条件随机场的训练是用CRF++0.53实现。
SVM训练主要是解决后验概率问题,此处可由对偶分类耦合来得出多类分类的后验概率。假设观察x和类标签y,k,t为训练集中类别的位置,用对偶分类的条件概率μkt=p(y=k/y=kort,x)的耦合类的估计值rkt来估计后验概率pk=P(y=k/x),k=1,2,…,K(其中K为类别的数目)。通过优化后的后验概率[12-13]
(4)
式中,rkt=P(y=k/y=kort,x)=1/(1+eAf+B),f为决策函数分类值,A、B是训练所得的参数。
2 实验与分析
2.1 实验环境、文本集与测量标准
为了对上述CRFs & SVM方法进行验证,本实验将同一组文本集分别在传统的SVM方法和混合CRFs & SVM方法上进行了分类实验。本文的实验环境是Microsoft Windows7操作系统,Intel(R) Core(TM) I5-6200U CPU @2.30 GHz 处理器,4.00 G内存,64位操作系统。用到的工具有Visual Studio 2010、CRF++0.53和Visual C++6.0。
用到的实验文本集为复旦大学提供的分类文本集,该文本集包括训练文本集和测试文本集,从中抽取了7个类别,分别是经济、计算机、军事、艺术、医药、教育和政治。训练文本集和测试文本集相互之间不重叠,从中抽取训练文本集1 052个,测试文本集有577个,共计1 719个文本集,其类别及文本集统计数如表1所示。
表1 类别及文本集
分类实验用查全率(Recall,简称R)、查准率(Precision,简称P)和F1-测量(F1-Measure,简称F1)来衡量的[14-15],其中F1-测量是由查全率和查准率2个值综合而来的。同时求出了所有类别的查全率、查准率和F1-测量的平均值(Average,简称A),用其对分类效果进行衡量。
2.2 实验对比结果与分析
一般情况下,SVM分类算法优于其他的分类算法,因而实验中用传统SVM和混合CRFs & SVM 2种方法对文本信息进行分类,并进行比较分析。实验中传统SVM方法的特征选择用的是卡方统计法,特征加权算法选择TF·IDF算法,特征空间数目选择800。
为了与传统SVM方法进行比较,实验共使用了3种方式在相同实验环境下对同一组文本集进行分类实验,实验分类对比效果如表2所示。从表2中可以看到,采用CRFs & SVM方法后,除了在经济和政治类别的查全率略小、经济类别的F1-测量值略小外,其余类别的查全率、查准率和F1-测量结果均有明显提升,都得到了较好的分类效果,准确率大大提升,尤其是对军事、艺术和医药类别的分类效果非常好。同时也可看到,CRFs & SVM方法的查全率、查准率和F1-测量的平均值分别达到了0.958、0.964和0.961,其平均值均比传统SVM方法的分类值高。通过对分类后的查全率、查准率和F1-测量进行对比,尽管分类后高出的值并不是很突出,但整体来看,CRFs & SVM方法的分类效果要好。
表2 分类对比效果
图1 查全率对比图
各类别运用2种方法分类后的对比效果如图1、图2和图3所示。从图1、图2和图3的对比效果可知,CRFs & SVM方法的查全率、查准率和F1-测量的分类值均高于传统SVM方法。
实验结果表明,CRFs & SVM方法不仅可以消除上下文的不相关性,达到降低特征维数的效果,解决文本信息的不确定分类问题,从而使分类的效果具有一定的优越性,而且CRFs & SVM方法可以对文本信息进行分类,进一步验证了CRFs & SVM方法适用于文本信息分类,使用此方法进行文本信息分类是有效的、可行的,在文本信息分类中有一定的实用价值。
图2 查准率对比图
图3 F1对比图
3 结语
以文本信息为研究对象,探讨了条件随机场方法和支持向量机方法。采用条件随机场和支持向量机结合起来的方法—CRFs & SVM方法,并将CRFs & SVM方法运用到文本信息分类中。不仅可解决特征集出现次数问题,同时还解决了分类后验概率问题。经过实验将其分类效果与传统SVM方法效果进行了对比,实验证明CRFs & SVM方法对文本信息分类的优越性,适用于文本信息分类领域,具有分类的实践性和实用性,可以为分类领域提供可靠的研究依据。但是部分文本信息分类效果还有待提高,在今后的研究中,努力探索二者的结合性,达到更好的分类优化,并在更大的文本信息集上实现更好的分类效果。