APP下载

核函数选择方法研究

2018-12-26王振武何关瑶

湖南大学学报·自然科学版 2018年10期
关键词:支持向量机

王振武 何关瑶

摘 要:核函数的选择对支持向量机的分类结果有着重要的影响,为了提高核函数选择的客观性,提出了一种以错分实例到支持向量所在界面的距离来表示错分程度,并基于此进行秩和检验的核函数选择方法.通过与K折交叉验证、配对t测试等参数检验的统计方法进行对比分析,对9种常用核函数的分类能力在15个数据集进行了定量研究.与参数检验方法不同,秩和检验并未假定数据的分布情况(很多情况下数据并不满足假定的分布),而且数据实验证明,秩和检验不但能够对核函数的分类能力进行客观评估,而且在某些数据集上还能产生更好的核函数选择效果.

关键词:核函数;支持向量机; 秩和检验; K折交叉验证; 配对t测试

中图分类号:TP301.6 文献标志码:A

Abstract:The selection of kernel functions has an important influence on the classification results of support vector machines. This paper proposed a kernel functions selection method based on rank sum test in order to enhance the selection objectivity, where the error degree adopted in the rank sum test was represented by the distance between the error instance and the interface of support vectors. By comparing with other statistical methods, such as Kfolding cross validation and paired t test, the classification abilities of nine common kernel functions were quantitatively studied based on 15 datasets. Different from parameter test methods, the rank sum test does not assume the data distribution(in some cases data cannot satisfy the assumed distribution), the experimental data proves that the rank sum test not only can objectively evaluate the classification abilities of kernel functions, but also can produce better selection results on some data sets.

Key words:kernel function; support vector machines; rank sum test; K folding cross validation; paired t test

支持向量機(Support Vector Machine,SVM)[1]的使用与核函数的正确选择是密不可分的,核函数技术巧妙地解决了在高维特征空间中计算的“维数灾难”等问题,直接决定了SVM的非线性处理能力[2].当前对核函数选择方法的研究主要集中在构造新的核函数[3-7]、核函数参数选择[8-13]以及核函数的评估[1,14-16]上.由于在使用SVM进行分类的过程中只定义了核函数(并不显式地定义映射函数),所以在同一分类问题上选择不同的核函数对分类效果影响较大,另外映射函数的类型是多变的,在没有先验知识的情况下人们更多地是凭借主观经验进行核函数的选择,具有较大的随意性.

诸多文献从不同的角度给出了构造核函数的新方法.文献[3]针对多标签数据集的特点构造了新的核函数,文献[45]结合切比雪夫多项式构造出新的核函数并以此解决回归问题,而文献[6]对RBF核进行极分解,并结合全局多项式核构造混合核函数,文献[7]则针对电力系统的风速概率估计这一具体问题,构造了一种由若干核密度和权重系数组成的混合核函数,消除了传统核密度模型选择最优带宽的问题.核函数的参数选择方法研究也较多,有些文献[8]针对具体应用问题对核函数参数进行选择,有些文献则致力于研究通用的核函数选择方法.例如,文献[9]提出了基于代价函数最大化的核函数参数选择方法,文献[10]通过研究边缘正态样本和内部正态样本之间重构误差的差异来寻找满足条件的核函数参数,文献[11]则通过每个样本的最远和最近邻信息来选择核函数参数的方法,文献[12]采用梯度下降法将类内散度矩阵的退化问题转化为迹运算准则,以此来寻找最优参数,而文献[13]则提出了广义核极化准则用来解决分类问题中的高斯核参数优化问题.

一般来说,核函数的评估指标分为四类:一类来自理论分析所给出的界[1],一类是通过考虑数据的分布特征进行核函数的选择[14],第三类是通过研究核函数核矩阵的特征信息来指引核函数的选择[15],第四类则是通过实际数据的验证结果来指导核函数的选择[16].遗憾的是,目前还没有成熟的理论来计算推广性的界的范围,只能给出估计值,因此理论分析在实际应用中并不实用;考虑数据的分布特征来选择核函数也有较大的局限性,例如,如果数据的分布特征不符合特定的几何特征(如类圆特征和类球特征)便无法对核函数进行选择;而通过研究核矩阵的特征信息能给出估计的泛化误差界,但算法过于复杂,在实践中很难被应用,因此通过实验结果来评估核函数是最常用的核函数选择方法.文献[16]采用参数检验的方法对SVM分类结果的准确率、召回率等性能评估准则进行分析,通过将其他核函数与径向基核函数(Radial Basis Function,RBF)进行对比,来完成对核函数的综合评估,但文献[16]的方法有两个明显的缺陷:1)由于采用参数检验的方法,需要假定分类结果服从正态分布,而实际上并不是所有数据集都满足此假定;2)对数据集中某一实例的分类结果判断均是非对即错,并没有考虑被错误分类的实例的错分程度,因此对核函数的比较粒度较粗.针对上述问题,本文提出了一种以错分实例到支持向量所在界面的距离来表示错分程度,并基于此进行秩和检验的核函数选择评估方法.

本文第1节对比地分析了三种模型预测性能评估的统计方法,即K折交叉验证[17],配对t测试[18]与秩和检验[19],并对秩和检验进行预测性能评估的优势进行了讨论;核函数选择的实验结果在第2节进行了详细分析和讨论;第3节对研究内容进行了总结.

1 模型预测评估方法

文献[16]指出不同评估准则在具体数值上存在差异,但应用统计方法所获得的核函数排序大体上是一致的,这说明传统的性能评估准则(如准确率、召回率和Fmeasure等)对核函数分类性能的影响不大,因此本文主要对模型评估方法进行比较.

在3种模型预测评估方法的实验中,K折交叉验证采用的10折交叉验证,配对t测试和秩和检验则是在每个数据集上分别进行核函数的两两对比实验.另外,所有实验的统计显著性水平均为5%,实验结果会出现某核函数在某数据集上得不到实验结果的情况,此时判定为“无”.

对3种模型预测评估方法实验结果的处理方式为:K折交叉验证统计9个核函数在15个数据集上的排名顺序并将其累计求和,排名依据为:置信区间有重叠则判断相等,“无”则被判断为排名最后,否则按错误率Errcv(T,D)大小来排序.而配对t测试和秩和检验则是根据两两对比获胜的次数相加,其中“相等”次数均增加,“无”次数均不增加,统计结果如表5所示,括号内的数字是经统计后该核函数在当前检验方法下的排名.

根据表5的统计结果可以看出,三种方法对核函数的分类能力进行排序时存在一定差异,但大体是一致的,核函数可以大致分为三级:RBF、Linear、CF效果最好,PF、SF其次,STF、LF、HSF、FTF效果最差.

虽然3种方法对9种核函数的分类能力在15个数据集上得到了大体一致的综合排名结果,但如果针对具体的数据集做仔细分析,会发现K折交叉验证和配对t测试方法存在较大的局限性.例如,如图2和图3所示,在处理数据集monks2.train和monks3.train时,使用K折交叉验证在所有的核函数上得出的错误率的置信区间都十分接近,全部存在重合的情况,在统计核函数排名时只能判定它们排名一样,而使用配对t测试则得出所有核函数的两两对比结果全为“相等”,这说明对于此类数据使用参数检验的方法无法给出比较结果,针对这种情况,秩和检验却能够很好的处理.

如图4和5所示,9个核函数(用编号表示)被两两对比,顺序为(1,2),(1,2),(1,3),…,(8,9),依次对应横坐标中的36个点(1~36).对于上述括号中的两个核函数,若前者更好则标记为“1”,若后者更好则标记为“-1”,若两者相等则标记为“0”, HTF核函数参与对比的点的横坐标为8,15,21,26,30,33,35,36 ,而这些横坐标的值均为“-1”,这说明在monks2.train和monks3.train数据集上分类效果最好的为HTF核函数,而且基于错误距离的秩和检验在绝大多数的核函数两两对比实验中均能给出明确的判定结果,这是配对t测试和K折交叉验证方法所无法得到的.

根据上面的分析,由表5和图4~5可以得出:1)K折交叉验证、配对t测试与秩和检验得到的核函数的综合排序在大体上是一致的,说明秩和检验可以对核函数的分类能力进行客观评估;2)在数据集的Errcv(T,D)不适合使用参数检验方法的情况下,秩和检验却可以对核函数分类能力进行更好的评估.因此,与K折交叉验证和配对t测试等方法相比,基于错分实例到支持向量所在界面的距离的秩和检验方法具有更高的可行性.

3 结 论

核函数的选择是核方法研究及应用的核心内容,选择的准则和方法目前并没有成型的理论方法,研究人员更多地是凭借主观经验进行选择,因此具有较大的随意性.通过实际数据的验证结果来指导核函数的选择是最常用的方法之一,本文针对参数检验方法的局限性,将秩和检验这一非参数检验方法引入核函数选择中,提出了基于分类错误的实例与支持向量所在的决策界面的距离进行秩和检验的核函数选择方法,实验结果验证了该方法的合理性,并在某些数据集上给出了更好的选择效果.

参数检验方法需要对总体分布进行假定,因此可能会引起推断结果的错误.本文提出的以错分实例到支持向量所在界面的距离来表示错分程度,并基于此进行秩和检验的核函数选择方法,并不需要考虑样本期望和方差,而只需比较其总体位置,因此与参数检验方法相比其适应性更强.另外,错分程度也是参数检验中所没有考虑的因素,在数据集的Errcv(T,D)不适合使用参数检验方法的情况下,所提方法能得到较好的结果.另外,本文的方法可以和其他参数检验(如K折交叉验证、配对t测试等)方法配合使用、相互验证核函数选择的准确性,并且可以在参数检验方法无法分辨核函数优劣的情况下进一步区分核函数的分类性能.

参考文献

[1] VAPNIK V. The nature of statistical learning theory [M]. The second edition. New York: SpringerVerlag, 2000:1-314.

[2] 丁世飛,齐丙娟,谭红艳. 支持向量机理论与算法研究综述[J]. 电子科技大学学报,2011, 40(1):2-10.

DING S F, QI B J, TAN H Y. An overview on theory and algorithm of support vector machines [J]. Journal of University of Electronic Science and Technology of China, 2011, 40(1):2-10.(In Chinese)

[3] GHOUTI L. A new kernelbased classification algorithm for multilabel datasets [J]. Arabian Journal for Science and Engineering, 2016, 41(3):759-771.

[4] 赵金伟,冯博琴,闫桂荣. 泛化的统一切比雪夫多项式核函数[J]. 西安交通大学学报, 2012,46(8):43-48.

ZHAO J W, FENG B Q, YAN G R. Generalized uniform Chebyshev polynomial kernel[J]. Journal of Xian Jiaotong University, 2012,46(8):43-48. (In Chinese)

[5] ZHAO J W, YAN G R. FENG B Q, et al. An adaptive support vector regression based on a new sequence of unified orthogonal polynomials[J]. Pattern Recognition, 2013, 46(3):899-913.

[6] 业巧林,业宁,张训华. 基于极分解下的混合核函数及改进[J]. 模式识别与人工智能, 2009,22(3):366-373.

YE Q L, YE N, ZHANG X H. Extremun decom position based mixteres of kernels and its improvement[J]. Pattern Recognition and Artificial Intelligence, 2009,22(3):366-373. (In Chinese)

[7] MIAO S W, XIE K G, YANG H J, et al. A mixture kernel density model for wind speed probability distribution estimation [J]. Energy Conversion and Management, 2016, 126(15):1066-1083.

[8] TIAN J, YU W Y, XIE S L. On the kernel function selection of nonlocal filtering for image denoising[C]// Proceedings of the Seventh International Conference on Machine Learning and Cybernetics. Kunming, 2008:2964-1969.

[9] ZHU B, CHENG Z D, WANG H. A kernel function optimization and selection algorithm based on cost function maximization[C]// 2013 IEEE International Conference on Imaging Systems and Techniques (IST). 2013:259-263.

[10]WANG S F, NIE B, YUE K, et al. Protein subcellular localization with Gaussian kernel discriminant analysis and its kernel parameter selection[J]. International Journal of Molecular Sciences, 2017, 18(12):1-16.

[11]XIAO Y C, WANG H G, ZHANG L, et al. Two methods of selecting Gaussian kernel parameters for oneclass SVM and their application to fault detection[J]. Knowledgebased System, 2014, 59:75-84.

[12]XIONG H L, SWAMY M N S, AHMAD M O. Optimizing the kernel in the empirical feature space[J]. IEEE Transactions on Neural Networks, 2005, 16(2):460-474.

[13]田萌,王文剑. 高斯核函数选择的广义核极化准则[J]. 计算机研究与发展, 2015,52(8):1722-1734.

TIAN M, WANG W J. Generalized kernel polarization criterion for optimizing Gaussian kernel[J]. Journal of Computer Research and Development, 2015,52(8):1722-1734. (In Chinese)

[14]梁禮明,冯新刚,陈云嫩,等. 基于样本分布特征的核函数选择方法研究[J]. 计算机仿真, 2013, 30(1):323-328.

LIANG L M, FENG X G, CHEN Y N, et al. Method of selection kernel function based on distribution characteristics of samples [J]. Computer Simulation, 2013, 30(1):323-328. (In Chinese)

[15]LIU Y, LIAO S Z. Kernel selection with spectral perturbation stability of kernel matrix [J]. Science China(Information Sciences),2014,57(11):112103.

[16]胡包鋼,王泳. 应用统计方法综合评估核函数分类能力的研究[J]. 计算机学报,2008,31(6): 942-952.

HU B G, WANG Y. A study on integrated evaluating kernel classification performance using statistical methods [J]. Chinese Journal of Computers, 2008,31(6):942-952. (In Chinese)

[17]BROWNE M W. Crossvalidation methods [J]. Journal of Mathematical Psychology, 2000, 4(1):108-132.

[18]SINCICH T. Business statistics by example [M]. The fifth edition. New Jersey: Prentice Hall, 1996:1-1179.

[19]茆诗松,程依明,濮晓龙. 概率论与数理统计 [M].第二版.北京:高等教育出版社, 2011:1-523.

MAO S S, CHENG Y M, PU X L. Probability theory & mathematical statistics [M]. The second edition. Beijing: Higher Education Press, 2011:1-523. (In Chinese)

[20]NEWMAN D J, HETTICH S, BLAKE C L, et al. UCI repository of machine learning databases[D]. Department of Information and Computer Science, University of California, Irvine, CA, 1998.

[21]Statlib—Data, Software and News from the Statistics Community. [http://lib.stat.cmu.edu/datasets/]

猜你喜欢

支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究