APP下载

模糊支持向量机研究综述*

2020-05-21邱云志汪廷华余武清

赣南师范大学学报 2020年3期
关键词:超平面离群向量

邱云志,汪廷华,余武清

(赣南师范大学 数学与计算机科学学院,江西 赣州 341000)

1 引言

支持向量机(Support Vector Machine, SVM)[1-2]是由统计学习理论发展而来的一种机器学习算法,最早于20世纪90年代中期由Vapnik等人提出.SVM算法的核心在于引入了核函数的概念,创造性地把非线性问题转化为线性问题来解决,避免了直接在高维特征空间中的复杂计算,即将样本点通过核函数从输入空间映射到高维的特征空间,在特征空间中寻找最优分类超平面的过程.SVM算法所具有的坚实的数学理论基础、较强的泛化能力和全局最小值的求解,使得SVM广泛应用于模式识别的分类和回归等问题,例如在图像分类[3]、自然语言处理[4]、生物信息学[5]等领域的应用中都表现出了良好的性能.虽然SVM算法在理论和应用上都有一定的优势,但是由于过拟合[6]现象的发生,标准SVM在训练过程中对训练集的噪声或离群点非常敏感,从而使得该算法的容噪性很差,在某些实际应用中不能很好的发挥它的性能.

为了缓解噪声或离群点敏感的问题,Lin和Wang[7]提出了一种模糊支持向量机(Fuzzy Support Vector Machine, FSVM)模型用于有噪声或离群点的分类,FSVM算法对每个输入的样本点赋予模糊隶属度值,使不同的样本点对最优分类超平面的构建具有不同的贡献,降低了噪声或离群点对最优决策面的影响.针对FSVM算法的关键问题,即在如何确定隶属度函数这一方面已经做了大量的工作.Lin和Wang[7]给出了原始的隶属度函数的计算,表示为样本空间中的数据样本点到其所在类中心的欧式距离.该方法存在的一个问题是当样本分布不是球形分布时,每个样本点对决策函数的贡献不能很好的表示出来.针对这一问题,基于特征空间的欧式距离的计算在文献[8]中被提了出来.Tang[9]提出了一种基于样本空间和特征空间中一类的样本点到另一类样本点边界的距离的隶属度函数,可以有效的区分支持向量和噪声.上面几种方法在设计隶属度函数时没有考虑到样本之间的关系,文献[10]不仅考虑了样本与类中心的距离,同时考虑了样本之间的关系,实验结果表明,能有效的区分样本点、噪声以及离群点.还有一些其他的方法来改进常规的FSVM模型,如基于聚类算法的FSVM[11-13],通过使用聚类方法来取得更具有鲁棒性的隶属度值.文献[14]提出了双边加权的模糊支持向量机,通过给每一个样本分别赋予一个正类和负类的隶属度,使得新的FSVM具有更好的泛化能力.正则化单调FSVM[15]则是提出了一种新的基于训练数据偏序的FSVM模型,该模型考虑了先验领域知识的单调性,并以不等式的形式表示.文献[16]提出了基于中心核对齐的模糊支持向量机,在计算生物学和一些分类问题上,该算法在相关性能上有一定的优越性.针对类不平衡的数据集,文献[17-18]分别在常规的FSVM算法上进行了相应的改进,使得算法在非平衡数据集上的应用性能有所提升.文献[19]考虑到不同的特征对FSVM算法的隶属度的确定的影响,提出了基于Relief-F特征加权的FSVM分类算法,比传统的基于欧式距离的FSVM算法具有更高的分类精度和效率.目前如何确定一个合适的隶属度函数还没有一个通用的准则,如何确定样本的隶属度是该算法的难点,同时也是一个研究热点问题.

本文的主要部分组织如下.第2部分简要介绍FSVM算法的理论基础,第3部分详细介绍几种常用的隶属度函数设计方法,第4部分是FSVM算法在现实领域中的应用,最后针对模糊支持向量机算法的关键问题,即模糊隶属度函数的设计,给出一些未来研究方向的展望.

2 模糊支持向量机理论

标准的SVM算法是针对二分类问题提出来的,在处理多类分类问题中,通常采用一对一或者一对多的策略将多类分类问题转化为二分类的问题处理,不是一般性,本文以二分类问题为例进行阐述.FSVM算法基于标准SVM算法,通过给每个样本点赋予一个隶属度值,使不同的样本对最终的决策函数有不同的贡献,解决了标准SVM算法容噪性差的缺点,适用于有噪声或离群点的分类问题.

(1)

其中,ξ=(ξ1,…,ξl)T是松弛变量,C>0是正则化参数,保持分类最大间隔与分类误差之间的平衡.siξi为衡量对于重要性不同的变量错分程度的度量,当si越小,ξi的影响越小,则对应的φ(xi)对于分类的作用就越小.siC则是衡量样本xi在训练FSVM算法时的重要程度,siC的值越大,代表样本xi被正确分类的可能性越大,反之,表示样本xi被正确分类的可能性越小.为了解决上述的最优化问题,我们先构造如下的拉格朗日函数:

(2)

其中αi≥0,μi≥0为拉格朗日乘子,令L(w,b,α,ξ,μ)对w,b,ξi的偏导为零可得:

(3)

将方程(3)带入方程(2),关于式(1)的优化问题就可以转化成下面的二次规划问题,即:

(4)

其中:式(4)中K(xi,xj)=φ(xi)Tφ(xj)为核函数,巧妙地把高维特征空间中的内积运算转化为在输入空间上进行简单的函数计算,解决了维数灾难问题.求得相应的决策函数为:

(5)

其中:sign(·)是符号函数.可以看出当αi>0时,对应的样本点xi为支持向量.

3 模糊隶属度函数

FSVM算法在处理含噪声或离群点的样本分类问题中,其分类效果优于标准SVM算法.FSVM算法根据根据每个样本点对分类所起的作用大小给其赋予不同的隶属度.目前的难点在于如何确定隶属度函数使算法的性能最优,然而没有一个统一的标准去选择合适的隶属度函数,通常需要针对具体的样本情况根据经验来确定合适的隶属度函数.总的来看,这些隶属度函数的设计方法各有利弊,下面归纳了几种确定隶属度函数的方法.

3.1 基于距离确定隶属度函数

3.1.1 基于类中心距离的隶属度函数

通过样本到其所在类中心的距离来确定样本的隶属度大小.即样本点到类中心的距离越小,表示该样本点的隶属度越大;反之,则表示该样本点的隶属度越小.

(6)

(7)

r+=maxdi+, r-=maxdi-

(8)

其中,l+,l-分别表示正类和负类样本的个数.

(9)

(10)

(11)

通过上面的计算可得出基于距离的隶属度函数表达式如下:

(12)

其中,δ为事先给定的一个很小的正数,r+=maxdi+,r-=maxdi-.

3.1.2 基于类内超平面距离的隶属度函数

基于类内超平面距离确定隶属度函数的方法,通过样本点到类内超平面的距离来度量隶属度函数的大小.设x+、x-分别代表正类和负类样本的类中心,则过正负样本的类中心的类内超平面为H1∶wT(x-x+)=0;H2∶wT(x-x-)=0,其中w=x+-x-为法向量,则:

(13)

(14)

(15)

通过上面的计算可得出基于类内超平面距离的隶属度函数表达式如下:

(16)

(17)

其中:δ是事先给定的一个很小的正数,l+、l-分别表示位于两个类内超平面之间正类和负类样本点的数目,λ的取值在[0,1]之间.

(18)

(19)

(20)

(21)

同理根据上面的式(12)可得到在特征空间中基于类内超平面距离的隶属度函数的表达式.

3.2 基于K近邻法(KNN)确定隶属度函数

基于KNN算法确定隶属度函数的方法侧重于考虑样本点之间的关系,其优点是大大减少了计算量并且具有较强的鲁棒性,具体的计算步骤如下:

其中:λ是小于1并趋于0的正数,f表示控制函数.通过上面的式子可以得出当di-average越接近dmin时,则μ(xi)的值越接近于1,样本点xi是噪声或离群点的可能性越大,反之样本点xi是噪声或离群点的可能性越小.

3.3 基于样本紧密度确定隶属度函数

基于样本紧密度确定隶属度函数的方法,通过考虑样本到其最小包围球中心之间距离的远近程度来度量.则位于最小包围球半径内、外的样本点的隶属度函数的计算方法,分别采用如下的公式计算:

(22)

其中:ρ表示最小包围球半径,d(xi)表示样本点xi到其最小包围球中心a之间的距离,其表达公式如下:

(23)

通过隶属度函数的定义公式(22)可以得出,样本点的隶属度的大小取决于样本到最小包围球中心的距离和样本在空间中的分布情况.

3.4 基于模糊C均值聚类(FCM)算法确定隶属度函数

基于FCM算法确定隶属度函数的方法融合了模糊理论的精髓,相较于K均值的硬聚类,FCM算法提供了更为灵活的聚类结果.FCM算法的核心在于最小化聚类损失函数的过程,其表达式如下:

(24)

(25)

(26)

4 模糊支持向量机的应用

FSVM算法在标准SVM算法的基础之上,通过给每个样本点赋予一个隶属度值,有效地解决了标准SVM算法容噪性差的缺点,特别是在处理含有噪声或离群点的样本方面,起到了很好的分类效果,具有较好的学习性能和泛化能力,成为模式识别和数据挖掘领域的研究热点,在图像处理、生物信息学、医学应用等方面具有广阔的应用前景.

4.1 图像处理

图像处理是目前人工智能领域的热门研究方向,其中FSVM算法在图像处理中的应用十分广泛,可应用于图像分割、边缘检测、人脸识别、遥感图像分类、图像去噪等方面.

图像分割[20]是一种重要的图像分析技术,将一幅图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术.传统的图像分割方法由于图像的边缘的复杂性,在实际的应用中效果不太理想.文献[21]提出了模糊支持向量机算法应用于医学图像分割,通过对肿瘤图像、头CT图像等的仿真分析,实验结果表明应用模糊支持向量机算法可以有效地进行医学图像分割,在实际应用中有着广泛的前景.文献[22]针对彩色图像分割问题,引入了基于加性组合核函数和KNN隶属度函数的模糊支持向量机,实验结果表明,同传统的彩色图像分割技术相比,性能方面有一定的提升.

图像边缘检测[23]在本质上是属于图像分类问题,标准的SVM算法对样本中的离群点点或噪声比较敏感,影响了在实际应用中的分类性能.文献[24]通过使用FSVM算法进行图像边缘检测,有效地降低了噪声或离群点对分类性能的影响.文献[25-26]则是分别选择不同的隶属度函数,使得新的模糊支持向量机算法边缘检测抗干扰性更好,提取边缘的效果更优,具有更强的适应性能.

人脸识别主要是提取待识别的人脸图像的特征信息与数据库中的已知人脸图像进行对比,得出相关结论.决定人脸识别的效果如何,通常是选择合适的特征提取方法和分类器,一般来讲常见的特征提取和降维方法有主成分分析(PCA)、独立成分分析(ICA)以及小波分析等,分类器有最近邻算法、神经网络,以及SVM算法等.文献[27]在特征提取与降维阶段选择了ICA算法,而不是传统的PCA算法,从而消除了数据的相关性,此外结合了FSVM算法,使得实验性能有了大幅度的提升,大大的提高了人脸识别率.文献[28]基于PCA算法和ICA算法,提出了基于局部图像的双向PCA算法进行特征提取,然后用基于密度的双隶属度FSVM算法进行分类,在ORL人脸数据库和AR人脸数据库上的实验结果不但在精度上有所提高,而且大大的缩短了实验的时间,具有很好的借鉴作用.

此外,在遥感图像分类中,文献[29]提出了一种新的基于云模型的隶属度函数的FSVM算法,与基于距离隶属度的FSVM的分类结果相比精度有所提升.在图像去噪方面,文献[30]则是结合小波系数和FSVM算法,实验结果显示,该组合算法能较好的将噪声从图像中出来,从而留下有用的信息.

4.2 生物信息学

FSVM算法在生物学上的应用主要集中在以下几个方面:

4.2.1 基因分类

传统的基因分类方法包括粗糙集、神经网络、遗传算法、支持向量机等,文献[31]提出了基于最小二乘法的模糊支持向量机的基因分类方法,一方面解决了传统的支持向量机对噪声和孤立点敏感的问题;另一方面,与传统的支持向量机而比,最小二乘支持向量机在目标函数中增加误差平方和项、以及用等式约束代替不等式约束,求解速度大大加快,实验结果表明该方法取得了较高的分类精度.

4.2.2 蛋白质结构预测

蛋白质结构是指蛋白质分子的空间结构.按照蛋白质的结构层次,可以分为蛋白质一级结构、蛋白质二级结构、蛋白质三级结构和蛋白质四级结构.文献[32]提出结合蛋白质序列相似性分析方法和模糊支持向量机算法进行蛋白质二级结构预测,实验结果发现预测准确性有所提高.

4.2.3 生物分类识别

模糊支持向量机在生物分类识别上的应用也很广泛,文献[33]则是通过对红虫、猛水蚤、剑水蚤等浮游生物样本进行分类,通过提取颜色、能量等作为特征向量,然后采用基于RBF核函数的FSVM作为分类器,实验结果表示,该算法基本能正确识别红虫,具有比较好的分类精度.

4.3 故障诊断

FSVM算法在一些实际的故障诊断问题中表现出了良好的性能,文献[34]在处理电力变压器故障诊断的问题中,采用基于FCM的隶属度函数,避免了噪声或离群点的影响,实验结果表明FSVM算法比标准的SVM算法和改良IEC比值法具有更优的性能.文献[35]针对目前汽轮机故障诊断中存在的缺陷,提出了变分模态分解和采用粒子群算法优化的FSVM算法相结合的诊断模型,不仅提高了诊断精度,而且缩短了时间.文献[36]针对凝汽器工作过程中的故障问题,基于FSVM算法的故障诊断模型与神经网络算法的故障诊断算法对比后具有更高的效率和泛化能力.

此外,在预测方面,文献[37]结合FSVM算法和魔密度聚类算法应用于半导体成品率的预测,文献[38]表明FSVM算法对混凝土构件的反向预测方面具有优良的性能,文献[39]提出一种改进的FSVM算法应用于汽轮机热耗率的预测,表现出很好的泛化能力以及高预测率等.在预警方面,FSVM算法在火灾预警[40]、海洋灾害风险预警[41]等方面有着广泛的应用.在文字识别[42]、情感识别[43]、油液磨粒自动识别[44]等方面,FSVM算法都表现出了良好的性能.

5 结论

FSVM算法在标准SVM算法的基础上,考虑到噪声或离群点对算法性能产生的影响,通过选定的隶属度函数给每个样本赋予一个权重,解决了标准SVM容噪性差的缺点.本文对FSVM算法的发展现状、数学理论基础、以及常用隶属度函数的设计方法做了详细的论述,最后介绍了FSVM算法在现实领域中的一些应用.目前来看,FSVM在算法的优化上,需要从两个方面进行完善,其一需要提高算法的训练速度,尽管最小二乘模糊支持向量机在速度上有所提升,但是泛化性能不佳,在处理非线性问题时不能处理大样本数据问题等.其二则是针对FSVM算法的关键问题,即隶属度函数的设计与选择,此前关于隶属度函数的设计都是根据具体的情况去选择适当的隶属度函数,因此也设计出了诸多的隶属度函数,无论是先识别出噪声或离群点,然后赋予其一个很小的隶属度值,还是通过基于距离对噪声或离群点赋予隶属度,都还没有一个统一的选择和设计标准,对于这一方面的改进和完善是需要学者去研究的.

猜你喜欢

超平面离群向量
一种基于邻域粒度熵的离群点检测算法
向量的分解
全纯曲线的例外超平面
涉及分担超平面的正规定则
聚焦“向量与三角”创新题
以较低截断重数分担超平面的亚纯映射的唯一性问题
一种相似度剪枝的离群点检测算法
涉及周期移动超平面的全纯曲线差分形式的第二基本定理
向量垂直在解析几何中的应用
离群数据挖掘在发现房产销售潜在客户中的应用