基于最小分类误差的阈值优化方法设计

2018-10-29张梦婷李星野

软件导刊 2018年8期

关键词：阈值

张梦婷李星野

摘要：传统Fisher线性判别（FLD）的常用阈值对特定数据集的分类精度存在明显差异。为提高分类精度，通过最小化贝叶斯误差对二分类问题的FLD阈值进行了优化设计。对UCI中的8个数据集进行验证，将所得的平均分类精度与常用阈值在这些数据集上所得的平均分类精度进行比较。结果表明，所提出的优化阈值分类效果显著，相比于常用阈值，在平均分类精度上有所提升。

关键词：FLD；阈值；数据集；贝叶斯误差；平均分类精度

DOIDOI：10.11907/rjdk.173205

中图分类号：TP301

文献标识码：A 文章编号：1672-7800（2018）008-0081-04

英文摘要Abstract：The commonly-used thresholds of the traditional Fisher linear discriminant （FLD） have significant differences in the classification accuracy on particular datasets.In order to improve the classification accuracy，an FLD threshold is optimized in this paper for binary classification problems by minimizing the Bayes error，and validated on the eight datasets in UCI.Then，the obtained average classification accuracy is compared with that obtained by the commonly used thresholds on these datasets.The experimental results show that the proposed optimised threshold has significant effect on the classification.Compared with the commonly-used thresholds，the optimised threshold has significant improvement in the average classification accuracy.This verifies the validity and feasibility of the design.

英文關键词Key Words：FLD； threshold； datasets；bayes error； average classification accuracy

0 引言

线性判别分析（Linear Discriminant Analysis，LDA），也称作Fisher线性判别（Fisher Linear Discriminant，FLD），是模式识别中分类问题的经典算法，基本思想是将高维样本数据压缩到低维矢量空间，找到一个最佳投影方向，使不同类别的数据在这个投影方向上获得最好的分离，以达到提取分类信息和压缩特征空间维数效果。使用这种方法能保证投影后的样本数据在新的投影空间中有最小的类内距离和最大的类间距离，即数据在该空间中有最佳可分离性[1]。

FLD作为一种有监督的学习算法，应用于医学诊断[2]、人脸识别[3]、信号分类[4]等多个领域。但是，该算法在某些样本数据上的分类效果并不理想，很多学者对算法本身作了一定优化。张振平等[5]针对LDA方法中类内计算常常引起错误分类的问题，提出了Bayes错误率最小的改进型LDA特征选择方法，在最小化错误率原则下，采用迭代算法求解最优特征选择矩阵，取得了比原LDA更好的分类效果。曹玲玲等[6]提出了基于FLD的贝叶斯分类器算法，对测试样本先进行投影得出新的样本数据，再利用经典的贝叶斯算法进行分类，使得分类错误率最小。覃志祥等[7]和庄哲民等[8]分别从不同角度重新定义样本类间离散度矩阵，优化了传统的Fisher准则，实现了更好的分类性能。沈虹等[9]依据贝叶斯决策的最小错误率确定了割除指纹背景区域的阈值，明显提高了指纹分割效果。李伶俐[10]通过对数据挖掘中分类算法的综合研究，得出贝叶斯算法相比于其它分类算法精确度高，错误率最小的结论，为本文研究提供了理论依据。FLD的目标是确定决策平面的法向量而不是确定最终分类平面位置的阈值[11]；李艳芳等[12]针对常用阈值对不平衡数据集分类性能差的问题提出了多个经验阈值，并依据分类精度对阈值做了优化，通过大量实验证明其方法的有效性。由于阈值不同会对分类结果造成一定偏差，甚至会严重影响FLD的分类精度，结合上述文献，本文在最小化贝叶斯分类误差的基础上研究找到一个更佳的分类阈值，使不同类别的数据在该阈值确定的决策平面处实现更精确的分离。

1 分类原理

1.1 Fisher分类原理和常用阈值

对应着取得极小值的分类误差，此时的y0为在最小化分类误差的基础上所求得的优化阈值。

2 实验验证

为检验该优化阈值的分类效果，从UCI机器学习存储库（http：//archive.ics.uci.edu/ml）中选择8个数据集对其进行验证，数据集如表1所示。

对表1中的每个数据集采取10折交叉验证并分别进行10次不同的试验。由于本文提出的优化阈值是建立在二分类问题基础上的，所以对有K>2个类的数据集，采用一对一（OvO）策略进行分类，每次对数据集中的每一对类别进行分类，而忽略其它K-2个类别。因此，要进行K（K-1）/2次分类，并计算所有K（K-1）/2次分类的平均分类精度作为分类的性能指标。

3 实验结果

通过使用本文提出的优化阈值对表1中的8个数据集进行试验，并与Fisher线性判别常用阈值在这些数据集上的分类结果进行比较。为简化起见，将由公式（2）、（3）、（4）表示的阈值分类方法分别表示为FLD-1、FLD-2和FLD-3，利用优化阈值式（13）进行分类的方法表示为FLD-4，结果如表2所示（最高的平均分类精度用粗体表示）。

从表2可以看出，除了数据集7和8，使用优化阈值进行分类的方法在其它数据集上获得的平均分类精度都明显高于利用其它3种常用阈值进行分类所得的平均分类精度，说明使用本文提出的优化阈值进行分类方法能在大多数数据集上取得更佳的分类效果，提高了数据集分类的平均分类精度。将表2所测的8个数据集的平均分类精度以折线形式表示如图1所示。

从图1可以看出，由FLD-4所表示的优化阈值分类方法测得的平均分类精度折线图大多位于其它3种常用阈值分类方法的上方，只有在数据集7和数据集8上的平均分类精度不是最高，但也与最高的平均分类精度相差不大。所以，在线性判别分析中，可使用此优化阈值进行分类。另外还可看出，由FLD-4方法分类所得的平均分类精度在上述所有数据集上都高于由FLD-3方法所得的平均分类精度。由此可见，方法FLD-3中的分类阈值（公式（4））虽然考虑了类概率的影响和作用，但对于两类间样本数目差别很大的数据集，如数据集3、数据集7和数据集8，FLD-3不适用。

4 结语

本文主要考虑了传统线性判别分析中常用阈值对数据集分类精度存在明显差异的情况，在努力提高平均分类精度的基础上，通过使贝叶斯分类误差最小对FLD的分类阈值进行优化设计。从UCI机器学习存储库中选择8个数据集进行验证，然后将所得的平均分类精度与利用常用阈值进行分类所得的平均分类精度进行比较。实验表明，由优化阈值进行分类的方法在大多数数据集上都能取得很好的分类效果，能有效提高FLD的平均分类精度，从而证明了该设计的有效性和可行性。

参考文献：

[1] 李文斌，陈嶷瑛，张娟，等.使用Fisher线性判别方法的提取分类器[J].计算机工程与应用，2010，46（14）：132-134.

[2] COOMANS D，M JONCKHEER，DL MASSART ，et al.The application of linear discriminant analysis in the diagnosis of thyroid Dis- eases [J].Analytica Chimica Acta，1978，103（4）：409-415.

[3] 谢永林.LDA算法及其在人脸识别中的应用[J].计算机工程与应用，2010，46（19）：189-192.

[4] 赵海滨，颜世玉，于清文，等.采用Fisher线性判别分析进行MEG信号的分类[J].东北大学学报：自然科学版，2013，34（12）：1695-1698.

[5] 张振平，宣国荣，郑俊翔，等.一种基于最小分类错误率的改进型LDA特征选择算法[J].微型电脑应用，2005，21（4）：4-6.

[6] 曹玲玲，潘建寿.基于Fisher判别分析的贝叶斯分类器[J].计算机工程，2011，37（10）：162-164.

[7] 覃志祥，丁立新，简国强，等.一种改进的线性判别分析法在人脸识别中的应用[J].计算机工程，2006，32（4）：211-213.

[8] 庄哲民，张阿妞，李芬兰.基于优化的LDA算法人脸识别研究[J].电子与信息学报，2007，29（9）：2047-2049.

[9] 沈虹，汪劍鸣，苗长云.基于贝叶斯最小错误率的一种新的指纹分割算法[J].微计算机信息，2006，22（1）：208-210.

[10] 李伶俐.数据挖掘中分类算法综述[J].重庆师范大学学报：自然科学版，2011，28（4）：44-47.

[11] GAO D Q，DING J，ZHU C M .Integrated fisher linear discriminates：an empirical study[J].Pattern Recognition，2014，47（2）：789-805.

[12] 李艳芳，高大启.Fisher线性判别式阈值优化方法研究[J].计算机应用与软件，2016，33（6）：141-145.

[13] 孙即祥.现代模式识别 [M].第2版.北京：高等教育出版社，2008.

[14] 边肇祺，张学工.模式识别 [M].第2版.北京：清华大学出版社，1999.