APP下载

一种基于核典型相关分析的煤炭矸石鉴别方法*

2013-12-22翟永前

电子器件 2013年1期
关键词:样本数训练样本矸石

翟永前,王 浩,赵 力*

(1.南京铁道职业技术学院,南京210015;2.东南大学信息科学与工程学院,南京210096)

矸石分选是煤矿生产中的重要环节,即在煤块中将矸石挑选出来,或者从矸石中将煤块分拣出来。目前在我国主要是靠手工分选的方法存在很大的弊端。近年国内一些研究人员将图像识别技术运用于矸石分选,提高了生产效率和矸石分选自动化水平[1]。

特征提取是识别技术中重要的步骤,在已有的图像特征抽取方法中,Fisher 线性鉴别分析(FLDA)被认为是较好的方法之一[2]。由于矸石图像用向量表示是一个高维的样本,所以在识别过程中不可避免的存在着小样本问题,即每个类别可得到的样本数远小于样本特征维数,这会导致Fisher 准则中类内散度阵和类间散度阵均为奇异阵,导致求解存在病态问题。目前,Fisher 鉴别分析在图像识别中已被广泛接受和应用,而和Fisher 鉴别分析有等价关系的典型相关分析(CCA)却没有在鉴别分析中引起注意和广泛应用。鉴于此,本文提出利用基于核的典型相关分析(KCCA)来抽取小样本矸石图像的非线性鉴别特征,并用其进行鉴别。由CCA 和FLDA 的等价性,这样得到的非线性特征本质上等价于核Fisher 非线性最佳鉴别特征。为验证所得特征的有效性,实验比较了KCCA 和FLDA 所得矸石图像鉴别特征的识别性能。

1 基于KCCA 的矸石特征抽取和识别方法

矸石图像识别问题是典型的小样本问题,若对此小样本图像样本直接构造数据阵X,则得到的Sx是一个较大的奇异阵,无法进行CCA。而核方法是解决小样本学习问题的有效方法[3],因此本文在文献[3]推导CCA 的基础上,用核方法得出了一种基于核的典型相关分析(KCCA)方法。由CCA 和FLDA 的等价性[5],此KCCA 方法得到的非线性鉴别特征,等价于核Fisher 鉴别分析得到的Fisher 非线性最佳鉴别特征。

1.1 KCCA 方法的导出

核方法的基本思想是用一个非线性映射将Rd空间中的样本x 映射到特征空间F,在特征空间中进行分析。设非线映射为Φ:Rd→F,x→Φ(x),则本矩阵X 变为[Φ(x11),Φ(x12),…,Φ(xCnc)]T,为表示方便,将此矩阵中样本的下标按所在列数顺序表示,即XΦ=[Φ(x1),Φ(x2),…,Φ(xn)]T。样本经非线性变换后在特征空间中的内积运算,可用满足Mercer 条件的正定核函数k(x,y)= Φ(x)TΦ(y)完成。本文使用多项式核函数k(x,y)= (xTy+1)p。用非线性变换后的样本矩阵XΦ定义矩阵K

n×n 对称阵K 的第i 行第j 列元素为Kij=k(xi,xj)。

KCCA 的目的是要求解两个投影矢量aΦ和b,使如下的相关系数最大

约束条件为

由核方法可知,所求鉴别矢量aΦ在所有样本{Φ(xi)}(i=1,…,n)的张成空间中,即存在n 维列矢量α,使得

求解矢量aΦ只需求解矢量α。将式(5)代入式(2)、式(3)得到约束最优化问题为

约束条件为

和文献[3]求解CCA 的方法相同,用拉格朗日乘子法求解此带约束的极值问题,令λ 和μ 为拉格朗日乘子,构造拉格朗日函数为

分别求L(α,b,λ,μ)对α,b 的偏导数,并令其为零,得到

式(10)两边乘αT后用约束式(7)代入,式(11)两边乘bT后用约束式(8)代入,可得

将上式代入式(10)可得

若K 为非奇异阵,则有

求解矢量α 只需求解此特征方程式非零特征值对应的特征矢量。

1.2 中心化处理和非线性特征抽取

和CCA 需要对样本零均值化处理相同,上述KCCA 同样需要样本映射到特征空间后先零均值化。由于非线性映射的具体形式未知,非线性变换后的训练样本零均化是通过下式对矩阵K 中心化完成[6]

其中1n,n为元素全为1 的n×n 矩阵。

K 经中心化后秩减少1,无法直接求解矢量α。本文使用K 的广义逆K+,得式(16):

K+存在且唯一,其秩为n-1。

矩阵YTY 的秩为C-1,因此可得到C-1 个非零特征值λ1≥λ2≥…≥λC-1和其对应的n 维特征矢量αk(k=1,2,…,C-1)。求出αk后,令A=(α1,α2,…,αC-1)和AΦ=(aΦ1,aΦ2,…,aΦC-1),即可得到样本y 的C-1 维的非线性最佳鉴别特征~yΦ

其中Ky为n 维的列向量,其第i 个元素为(Ky)i=k(xi,y)(i=1,2,…,n)。

其中1n为元素全为1 的列向量。y 可是训练样本或待识别样本。

总结KCCA 方法抽取矸石图像非线性鉴别特征和识别的步骤如下:

(1)用所有样本由式(1)计算矩阵K,再用式(13)对其中心化,并根据XΦ中每行样本所属类别由式(10)构造矩阵Y;

(2)解特征方程式(14)得到C-1 个特征矢量αk(k=1,2,…,C-1);

(3)由式(15)对每个训练样本xi求其C-1 维的非线性最佳特征=ATKxi,(i=1,…,n);对待识别样本y 求其C-1 维的非线性最佳特征=ATKy;

本文用最近邻分类准则,矢量的2 范数作为距离测度,即待识别样本和训练样本的距离定义为,上标H表示共轭转置。

2 实验结果

实验将40 幅矸石图像随机分成两组,一组为训练样本,一组为测试样本,两组样本之间没有重叠。总类数为40,因此最多可得39 个非线性最佳特征。用最近邻准则分类,每类所选样本数均相同。为消除单次选择样本的随机性,每次实验均重复20 次,最后取平均识别率。对取不同训练样本数和不同特征数对识别率的影响进行了实验,KCCA 方法中用2阶多项式核函数,并和FLDA[2]方法进行了比较,每次实验中不同方法所得结果均是用相同训练样本和测试样本得到,特征个数均取为39 个。

为测试所得特征的鉴别力,在3 个类别中随机选取5 个样本,用KPCA 方法分别抽取每个样本的前两个最佳鉴别特征,图1 为每个样本用两个最佳鉴别特征表示的散点图,可看出得到的最佳鉴别特征具有很好的类可分性,即类间散度大而类内散度小。

图1 样本的两个最佳鉴别特征

表1 为取不同样本数对识别率的影响结果。从表1 可看出KCCA 在样本数较少时优于FLDA 方法,其对样本数的变化不敏感;而FLDA 方法对样本数的变化较敏感,当样本数较少时识别求解存在病态问题而不能识别。

表1 取不同样本数时KCCA 和FLDA 的平均识别率

3 结论

本文根据典型相关分析和Fisher 线性鉴别分析的等价性,用核方法将CCA 推广为KCCA,并用于抽取小样本矸石图像的非线性最佳鉴别特征。由CCA 和FLDA 的等价性,这样得到的特征本质上等价于核Fisher 非线性最佳鉴别特征。实验结果表明,当识别样本数较少时KCCA 的识别结果明显优于FLDA 得到的线性最佳鉴别特征。

[1] 刘富强,钱建生.基于图像处理与识别技术的煤矿矸选自动分选[J].煤炭学报,2000,25(5):534-537.

[2] Belhumeur P N,Hespanha J P,Kriegman D J. Eigenfaces vs.Fisherfaces:Recognition Using Class Special Linear Projection[J]. IEEE Trans. on Pattern Analysis and Machine Intelligence,1997,19(7):711-720.

[3] Ma J,Sancho-Gómez J L,Ahalt S C.Nonlinear Multiclass Discriminant Analysis[J]. IEEE Signal Processing Letters,2003,10(7):196-199.

[4] Lattin J M,Carrol J D,Grean P E. Analyzing Multivariate Data[M].USA:Brooks/Cole,2003.

[5] Barker M,Rayens W.Partial Least Square for Discrimination[J].Journal of Chemometrics,2003,17:166-173.

[5] Scholkopf B,Somla A,Muller K R.Nonlinear Component Analysis as a Kernel Eigenvalue Problem[J].Neural Computation,1998,10(5):1299-1319.

[7] Liu K,Cheng Y Q,Yang J Y,et al.An Efficient Algorithm for Foley-Sammon Optimal Set of Discriminant Vectors by Algebraic Method[J].Int.J.Pattern Recg.Artif.Intell.1992,6(5):817-829.

猜你喜欢

样本数训练样本矸石
矿井矸石山环境危害与防治措施分析
勘 误 声 明
矿山矸石绿色充填系统设计及参数研究*
邢东矿ZC5160/30/50型复合型充填液压支架的研究与应用
人工智能
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
三时间间隔圆锥补偿姿态更新算法性能分析
田间鉴定杂交棉品种纯度的适宜时期和样本数