基于判别分析与Logistic回归组合模型的蠓虫分类方法
2016-07-31曹昌杰
曹昌杰
成都理工大学管理科学学院
基于判别分析与Logistic回归组合模型的蠓虫分类方法
曹昌杰
成都理工大学管理科学学院
蠓虫分类问题究其本质是一个典型的数据二分类问题。在传统上采用判别分析或Logistic回归的方式进行分类判别时,往往因为其算法本身的局限性而出现误判且无法避免。本文在前人的研究基础上提出了判别分析修正下的Logistic回归方法和Logistic修正下的判别分析方法解决蠓虫分类问题。在通过误判率的比较和对异常数据的感知等前提下,为蠓虫避害提供一种较为可靠的筛选方式。
纵观为数不多的蠓虫分类问题的研究,何水明为克服传统BP算法中存在网络学习速度慢的问题,提出了一种将同伦与BP算法互相结合的改进算法来进行蠓虫分类;冯增哲等运用支持向量机算法,将蠓虫分类这一个二分类问题转化为一个二次规划及其对偶规划问题进行求解;王琪运用模糊聚类从而获得模糊模式,并通过贴进度模式识别判断蠓虫的分类情况。但事实上,上述算法总存在着运算时间过长等各类局限性,特别地,是无法得到个体指标及其所属类别之间的函数解析式,用以满足简明的判断蠓虫分类这一需求,并且对样本数据中的异常数据点无法做出异常感知。
针对以上问题,我们采用将Logistic回归和判别分析相结合的方式,力求简便有效的找出一种蠓虫分类方式,为蠓虫避害找到一条较为便捷的途径。
判别分析修正下的Logistic回归方法
由于传统Logistic回归方法的局限性,本文提出判别分析修正下的Logistic回归方法对其进行改进,即对蠓虫数据采用Logistic回归方法进行处理,但对易发生误判的蠓虫数据引入判别分析进行处理。主要步骤如下:
a)设n为需要进行分类的蠓虫数据的样本容量
b)for 1 to n do.
d)对差值的绝对值的大小进行排序,得到差值的中位数M1
f)end for
g)若找到类似的数据点则采用判别分析方法进行分类判别;否则,仍然采用Logistic回归方法进行分类判别
e)因为蠓虫分类问题本身是二分类问题的特殊性,在判断出蠓虫样本数据不属于无害类(Af类)蠓虫时,即已判定该蠓虫属于有害类(Apf类)蠓虫。
Logistic回归修正下的判别分析方法
判别分析是通过得到某个样本数据与各样本重心之间的马氏距离确定样本数据所属的类别。若某类样本数据的离散程度过大,与该样本重心之间马氏距离较大的一些样本数据可能会出现误判的情况。基于这样的思想,利用Logistic回归修正判别分析方法,主要步骤如下:
a)设n为需要进行分类的蠓虫数据的样本容量
b)根据蠓虫数据进行马氏距离判别分析,形成两类样本数据
c)for 1 to n do
d)在上述通过分类所得到两类样本数据中,分别在各类数据中,计算本类样本数据与各自样本重心的马氏距离,分别记为,我们将它们分别记X1、X2类
e)将X1类和X2类的数据分别进行大小排序,找到两类数据的中位数,分别记为
g)end for
h)将通过上述过程被记录下来的数据点进行Logistic回归方法进行分类,否则,仍然采用判别分析进行分类
实例论证
本文使用的蠓虫数据是由生物学家W.L.Grongan和W.W.Wirt在1981年根据蠓虫的触角长度和翼长加以区分而得到,我们用上述方法将蠓虫数据进行分类,并将分类数据与原数据进行比较,通过观察误判率即可对分类方法做出有效评判。其中,无害蠓虫用Af标记,有害蠓虫用Apf标记。
判别分析修正下的Logistic回归方法
根据蠓虫数据计算得出Logistic回归函数模型如下:
并由上式可得各蠓虫数据分类为无害蠓虫的概率分别是:
1号: 0.7465,2号:0.8332,3号:0.7365,4号:0.7660,5号:0.6884,6号:0.7515,7号:0.5332,8号:0.3558,9号:0.2361,10号:0.4076,11号:0.4955,12号:0.2605,13号:0.2585,14号:0.1882,15号:0.3915
利用上述数据可得,M1=0.198107.
在判断出可能得到误判的误判点之后,利用判别分析再对这些数据点进行判别分析,并最终得到误判率为5.56%。即7号蠓虫的分类出现错误。
从该类组合方法模型的判断过程中,我们一共对6个可能出现误判的点进行了重新判定,该类组合方法模型感知到蠓虫数据中的第7点为异常数据,与事实相符。
Logistic回归修正下的判别分析方法
根据蠓虫数据可知,各个蠓虫样本数据点对其样本重心的马氏距离分别是:
表1 1-6号蠓虫对于Apf类蠓虫样本重心的马氏距离
表2 7-15号蠓虫对于Af类蠓虫样本重心的马氏距离
则由表1、表2可得,M21=1.2393,M22=1.1345.通过选择并记录下的数据点,将其进行Logistic回归,得到Logistic回归函数模型如下:
根据最终判别结果可知,该方法的误判率是13.89%.
结论
通过将两类组合模型的蠓虫分类方式分别应用于经典蠓虫数据,本文得出以下结论:
就两类组合模型自身比较而言,判别分析修正下的Logistic回归方法具有更低的误判率,而误判率本身也是人为修改数据所致,可见,该组合模型不仅能够准确的判断出蠓虫分类,还能对数据的异常数据做出异常感知。可见,判别分析修正下的Logistic回归方法是一种较为有效的蠓虫分类方法。
曹昌杰(1995-)男,现主要从事数据分析学习。