基于GF空间多项式核函数的分类研究
2015-02-18赵捷珍郭春生
赵捷珍,郭春生
(杭州电子科技大学通信工程学院,浙江 杭州 310018)
基于GF空间多项式核函数的分类研究
赵捷珍,郭春生
(杭州电子科技大学通信工程学院,浙江 杭州 310018)
摘要:在基于核方法的分类问题中,核函数及其参数选择皆对分类结果具有重要影响,通常基于经验选择核函数或基于多核优化方法确定核函数的权系数。针对GF空间的多项式核函数,在范数限定条件下利用多核学习方法优化多项式权系数,实现多项式核函数的优化。实验结果表明,算法优化得到的多项式核函数其分类性能优于常用的单核函数,与多核方法相当,并在分类中取得良好的效果。
关键词:核方法;GF空间;多核学习
0引言
核方法因其解决分类和回归等非线性问题的有效性而得到广泛应用。目前常用的核方法有支持向量机[1]、核Fisher判决[2]等。尽管有多种基于核函数的分类方法,但其处理的基本过程可以归结如下:首先将原始线性不可分的数据通过某种非线性函数映射到高维特征空间,使得线性不可分的问题转化成线性可分问题;然后利用核技巧实现原始数据在特征空间中的分类处理。核方法中的单核学习方法因其简便性得到广泛使用,但核函数的优选往往依赖于经验,无法适应真实数据的异构性、不规则性和非均匀性以及准确反应系统的结构[3],从而利用多个基本核函数的多核学习成为一种新的研究方向。近来的一些理论和应用验证了多核学习方法能增强决策函数的可解释性[4],并且在视觉目标识别[5]等方面获取了比单核学习方法更优的性能。本文结合多核学习方法的强适应性和单核方法的简单性,提出了在限定条件下利用多核学习方法,对GF空间的多项式核函数进行优化处理,使其在分类上获得更好的效果。
1基于GF空间多项式核函数的算法
本文引入广义福克(Generalized Fock,GF)空间多项式核,首先将多项式核的单核形式改写为多核形式,然后利用多核学习优化GF空间多项式核函数参数,规避了单核核函数经验参数选择的不确定性。基于样本的核函数参数优化,能够更加有效地利用对分类效果有较大影响的样本特征,提高分类准确率。
1.1 GF空间多项式核
文献[6]提出了GF空间的概念。GF空间是由多项式或者Volterra级数所构成的内积的希尔伯特空间。多项式泛函构建的GF空间在限制条件下会逼近由高斯核映射构建的再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS),等同于GF空间的多项式核,可以逼近高斯核函数。在一定的条件下,GF空间核能够逼近其它核函数[7]。
(1)
其内积和换函数分别为:
(2)
(3)
式中,k=k1+k2+…+km,ρk1…km是正的有界常量,m是输入变量的个数,n是GF空间的维数。
为了便于实际处理,当k=k1+k2+…+km=d,0≤d≤n,ρk1…km相等,且ρd=ρk1…km时,本文将GF空间多项式核函数改写成如下形式:
(4)
1.2 GF空间多项式核优化
如将式(4)中的ρd视为常量,则GF空间多项式核函数可以改写为:
(5)
本文采用SVM算法的软间隔分类优化核函数:
(6)
将式(6)经过拉格朗日变换,则最终的优化目标变为:
(7)
式中,αi是拉格朗日乘子。
(8)
对式(8)的目标函数进行微分:
(9)
(10)
2仿真与分析
为了验证基于GF空间多项式核的核方法的分类准确率和效率,本文将UCI样本数据进行实验,并通过实验数据对GF空间多项式核与其他的核函数进行性能比较。
以下的数据来源于UCI数据库。UCI数据库是一个标准的常用于机器学习的测试数据集。在使用数据进行分类时,本文随机抽取20%的样本作为训练集,剩下的80%作为测试集。Bupa liver disorders是研究单身男性个体健康肝脏疾病的数据库,包含345个样本,6个特征;Breast-cancer-Wisconsin是描述胸部细胞是否癌变图像的数据库,包含683个数据,10个特征;Wine是描述葡萄酒的成分数据,包含119个数据,13个特征;Monk描述了不同算法的性能比较,包含432个数据,7个特征;Pima-indians-diabetes是描述印第安人糖尿病的数据库,包含768个数据,8个特征。
基于GF空间多项式核本身是一个单核的性质,所以本文将它的性能跟其他的单核进行比较,选取了高斯核、线性核、常规多项式核这3类常用的单核;但因利用多核学习方法优化,所以本文也将它的性能跟其他的多核进行对比。表1使用分类准确率,表2使用训练时间衡量基于GF空间多项式核的分类性能。表1、表2的GF空间多项式核定为5阶,多核则是由5个高斯核所组合构成的。结合表1、表2可以看出,GF空间的分类准确率在多数情况下要高于高斯核、线性核跟常规多项式核这3类单核,同时也稍高于多核,是因为GF空间会基于样本逼近不同的RKHS,即GF空间多项式核会根据样本逼近不同的核函数,使得类内间隔减少,类间间隔增大,使得分类的准确率提高,但是同时相比较而言,GF空间多项式核的训练时间要比3种单核的训练时间要稍高一些,与其他多核训练时间相差不大,是因为GF空间多项式核是利用MKL进行优化的,在分类的过程中需要不停地迭代优化获得较合适的权系数,所以训练时间要比单核的高。
表1 分类准确率比较 %
表2 训练时间比较 s
3结束语
核函数类型和参数的选择会直接影响到SVM的分类性能。本文介绍的GF空间多项式核,通过一系列的改写,将它由一个单核的形式看成多核的形式,并对核参数做L1范数规则化,将核函数参数优化问题转变为凸问题,然后利用多核学习训练优化核参数,而不是通过经验选择核函数,实验仿真证明,尽管GF空间多项式核是单核,但是它在性能上却高于常用的单核和多核函数相当。
参考文献
[1]Cortes C,Vapnik V.Support-Vector Networks [J].Machines Learning,1995,20(3):273-297.
[2]SchölkopF B,Smola A,Müller K R.Nonlinear component analysis as a kernel eigenvalue problem[J].Neural computation,1998,10(5):1299-1319.
[3]Cai Y,Wang H,Ye X,et al.A multiple-kernel LSSVR method For separable nonlinear system identiFication[J].Journal oF Control Theory and Applications,2013,11(4):651-655.
[4]汪洪桥,孙富春,蔡艳宁,等.多核学习方法[J].自动化学报,2010,36(8):1037-1050.
[5]Bucak S,Jin R,Jain A.Multiple kernel learning For visual object recognition: A review[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2013,36(7):1354-1369.
[6]De Figueiredo R J P,Dwyer III T A W.A best approximation Framework and implementation For simulation oF large-scale nonlinear systems[J].Circuits and Systems,IEEE Transactions on,1980,27(11):1005-1014.
[7]Xu J W,Pokharel P P,Jeong K H,et al.An explicit construction oF a reproducing Gaussian kernel Hilbert space[C]//Acoustics,Speech and Signal Processing,2006.ICASSP 2006 Proceedings.2006 IEEE International ConFerence on.Toulouse:IEEE,2006,5:V573-V576.
The ClassiFication Research oF Polynomial Kernel Function
Based on GF Space
Zhao jiezhen, Guo chunsheng
(SchooloFCommunicationEngineering,HangzhouDianziUniversity,HangzhouZhejiang310018,China)
Abstract:In classiFication problem based on the kernel method, kernel Function and its parameters have a signiFicant eFFect on the classiFication perFormance. Generally, we select kernel Function by experience and weighted coeFFicient oF multiple kernel Function which is determined by the multiple kernel optimizing method. Under the norm restricted condition, we utilize multiple kernel learning method to optimize the weighted coeFFicient oF polynomial kernel Function based on GF space, and the optimization oF polynomial kernel Function can be achieved. The experiments results show that the algorithm’s classiFication perFormance based on polynomial kernel Function in this paper is better than popular used single kernel Function, and meet the multiple kernel method’s match; and it perForm well in the classiFication research.
Key words:kernel method; GF space; multiple kernel learning
中图分类号:TP391.41
文献标识码:A
文章编号:1001-9146(2015)03-0077-04
通信作者:
作者简介:赵捷珍(1990-),女,浙江丽水人,在读研究生,信号与信息处理. 郭春生副教授,E-mail:guo.chsh@gmail.com.
收稿日期:2014-07-30
DOI:10.13954/j.cnki.hdu.2015.03.016