支持向量机和神经网络的融合
2018-04-02
(成都理工大学 四川 成都 610059)
一、前言
随着信息时代的来临,大数据已经成为当代社会一个重大时代变革的起源。因此,大数据的分析和应用越来越受到人们的关注和欢迎。分类问题是处理大数据时最常见的问题,它已成为研究大数据的重要组成部分。因此,各种各样分类算法在大数据分析领域大放异彩。有计算简单,易于理解,可适应不同的数据类型的决策树算法;也有简单有效的k近邻算法;还有适用于小样本数据的支持向量机以及适合非线性数据的神经网络算法等。在数据分类算法中,人工神经网络(ANN)以其学习能力、大规模并行计算等方面的优异表现成为分类算法的代表之一。当然,任一领域都不缺乏追赶者和挑战者,支持向量机(SVM)凭借其在处理非线性数据表现优异、鲁棒性强的优势与人工神经网络并驾齐驱。在机器学习领域中,人工神经网络和支持向量机一直处于“对抗”状态。“支持向量机的提出就是为了打败并取代神经网络。”Schölkopf如是说道(Vapnik V,1971)。支持向量机,在处理线性不可分问题时采用核函数方法,将其转化为高维状态下的凸二次规划问题,从而受到广大研究者的关注与追捧。2006年,Deep Learning神经网络算法由神经网络大师Hinton(2006)提出,Deep Learning神经网络算法与普通的神经网络算法相比,处理能力更高。据Hinton所说,Deep Learning的这个名字完全是为了“反击”支持向量机(因为对于支持向量机,他认为是“Shallow Learning”)。2004年,Guang-Bin Huang及其团队的极限学习机(ELM)的提出,也掀起了机器学习新的浪花。
支持向量机是一种基于Vapnik的统计学习理论的高效的机器学习方法。从1981年开始,Vapnik(1971)和他的合作者提出了各种重要基础理论。到了1995年,Vapnik总结自己的研究,整合出了统计学习理论(Vapnik,1982),并首次提出来了这一新概念——支持向量机。由于支持向量机在对于小训练样本的学习精度和能识别任意样本且无错误的能力之间取得了平衡,因此拥有优异的泛化能力。
支持向量机分类的本质是将求解问题划分为一个二次规划的优化问题,继而通过解决二次规划问题来解决原问题。对于二次规划问题,研究者研究出了各种改进算法,并且算法表现优异,尤其是在某些特殊问题的解决中。
支持向量机优势是在于:小样本问题、非线性数据分类及高维模式识别效果好,泛化能力强,并且易推广。由于支持向量机在函数回归、预测控制、数据挖掘、计算机入侵检测、金融序列分析等领域获得显着优势,由此成为研究焦点,支持向量机的研究,主要集中在核函数方法。研究出最适合于样本的核函数,是现在SVM研究的基本方向。
神经网络是抽象、简化与模拟人脑结构的简易网络。由于它是人脑的模仿,人脑具有的基本的自组织、自适应和自学习的能力,神经网络也拥有。由于这个特性,神经网络可处理模糊的信息问题。所以,目前神经网络已广泛应用于语音识别、图形识别与理解,计算机视觉、智能机器人、故障检测等领域中(郭虎升,2009)。虽然神经网络的研究一波三折,但从九十年代至今,神经网络的研究几乎渗透到了科学的各个领域,众多研究领域的学者专家纷纷加入到神经网络的研究,在模型的设计、动力学研究、模型的应用各个方面取得了大量成果。
二、RBF神经网络和支持向量机
RBF是Radical Basis Function的简称,即径向基函数。什么是径向基函数?径向基函数就是以到固定点的距离为自变量的一类函数.径向基函数的函数形式如,其中自变量为,代表空间中某一点x到某一中心点c之间的欧式距离。1985年,Powell提出了多变量插值的RBF法,故RBF应用于神经网络的设计其思想根源在于解决插值问题(刘辉耀,2017)。权值与基函数的乘数,构成了大小各异的径向基函数值,最后,可拟合出趋于完美的函数曲线。
根据COVER定理,在低维空间不可分的数据可能在高维空间变得可分(Haykin S,2011)。RBF神经网络的基本思想是:用径向基函数作为隐单元的“基”,构成隐含层空间,隐含层对输入矢量进行变换,将低维的模式输入数据变换到高维空间内,使得在低维空间内的线性不可分问题在高维空间可分(石灵丹,2009)。由此可以看出,径向基网络的隐含层单元的功能,即将样本映射高维空间,映射依据是径向基函数。最后,在高维空间进行数据分类,避免局限最优,从而得到全局最优解。
支持向量机的理论最初来自于对数据分类问题的处理。对于线性可分数据的二值分类。如果采用神经网络来实现,其机理可以简单描述为:系统随机产生一个超平面,并移动它,直到训练集合中属于不同类别的点正好位于该超平面的不同侧面,就完成了对网络的设计要求(管军,2006)。但是这种机理决定了不能保证最终所获得的分割平面位于两个类别的中心,这对于分类问题的容错性是不利的。
三、融合算法
在某种条件下,正则化的神经网络与SVM存在等价的关系,两者之间可以相互转化,从而可推导出正则化的RBF 神经网络与核函数为RBF的SVM 互为充要条件且可以彼此转化(刘耀辉,2017)。
通过了解径向基神经网络可知,径向基网络分为正则化网络和广义网络,正则化网络将所有的样本都作为网格中心,当样本点有噪声时,正则化网络就会出现过拟合现象,泛化能力降低,同时,由于所有的样本都作为了中心,样本数太多时,神经元太多,使得网络变得复杂,计算量增大,增加计算时间。而广义网络由于选择的是部分样本作为中心,对于噪声样本,不会陷入过拟合现象,同时少量的神经元使得网络的复杂程度和计算量降低,增强了泛化能力。选择以广义网络的径向基神经网络为模型基础。
广义径向基网络的特点,核心点主要有三个:网络中心,扩展常数(作用域)以及权值w(隐含层到输出层之间)。通过学习SVM可知,影响一个SVM模型的关键参数是惩罚变量C与其核函数的参数。当支持向量机选择径向基核函数时,此时两者就会有相似的地方,即径向基函数中的确定。由此,RBF网络中的可以完全借用核函数为RBF的SVM的。