基于数据挖掘的图像分类算法
2017-03-04唐普霞石丽怡
唐普霞 石丽怡
摘 要: 针对传统图像方法的分类精度难题,提出基于数据挖掘的图像分类算法。首先构建多媒体数据库中的图像检索信道模型,并进行向量量化编码,然后采用Harris角点检测算法提取图像特征点,并采用模糊C均值聚类算法实现图像分类。实验结果表明,该算法可以对图像内容信息进行准确的表达,提高了图像分类的精度,具有较强的鲁棒性。
关键词: 数据挖掘; 图像分类; 特征提取; 模糊C均值聚类
中图分类号: TN911.73?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)03?0054?04
Image classification algorithm based on data mining
TANG Puxia, SHI Liyi
(Department of Public Safety Technology, Hainan Vocational College of Political Science and Law, Haikou 571100, China)
Abstract: Aiming at the classification accuracy of the traditional image method, an image classification algorithm based on data mining is put forward. The image retrieval channel model of the multimedia database was constructed. The image was performed with vector quantization coding. The Harris corner detection algorithm is used to extract the feature points of the image. The fuzzy C?means clustering algorithm is adopted to classify the image. The experimental results show that the algorithm can express the image content information accurately, improve the accuracy of the image classification, and has strong robustness.
Keywords: data mining; image classification; feature extraction; fuzzy C?means clustering
0 引 言
随着数字图像处理技术的发展,各行各業均构建了图像数据库,尤其对于大型多媒体图像数据库,对图像进行分类和检索可以帮助用户找到需要的图像,因此研究图像分类算法在多媒体信息访问和数据挖掘中具有重要意义。
图像分类的关键是关键特征点的准确挖掘和特征提取,传统方法主要有模糊C均值聚类、边缘轮廓融合滤波检测法、Harris角点检测法、高阶累积量特征检测算法等[1?3],它们通过特征点提取和信息分析实现图像分类,并取得了一定的研究成果。文献[4]提出基于边缘轮廓特征点自相关匹配检测的图像分类算法,并应用在大型多媒体网络数据库图像分类中,取得了较好的分类效果,但计算开销较大,实时性差;文献[5]提出SIFT(Scale?Invariant Feature Transform)角点检测的视频输出图像分类算法,通过对角点扫描确定图像分类主方向和生成特征点,以此为基础进行图像的分类识别,提高图像分类的实时性,但由于结合语义特征提取,受到扰动影响大,图像分类准确度低[6?8]。
针对上述问题,本文提出数据挖掘的图像分类算法,构建多媒体数据库中的图像检索信道模型,对采集的图像进行向量量化编码,采用Harris角点检测算法进行图像的特征点提取挖掘,以提取的特征点为数据输入,采用模糊C均值聚类算法实现数据挖掘和图像分类,最后通过仿真实验进行图像分类算法的性能测试和验证,从分类的准确性和输出峰值信噪比方面进行性能分析,得到有效性结论。
1 图像采集及预处理
1.1 图像采集
为了实现对图像的分类和检索,需要进行图像采集和信道模型构建,首先把图像存储检索信道分成[3×3]拓扑结构,设置4个图像检索信道模型,分别为水平方向、垂直方向、左对角线方向以及右对角线方向,具体如图1所示。
在图1中,[p1,][p2]和[p3]分别代表图像在仿射不变区域的边缘像素特征点,把四个多媒体数据库图像采集通道的信息特征进行数据结构分解,提取图像在四个检索信道的向量量化参量为[x1,][x2,][x3,][x4,]表示为:
[x1=p1-mx2=p2-mx3=p3-mx4=m] (1)
式中[m]为图像检索的嵌入维数。
设[A]为论域[U]上的模糊集,构建图像像素特征分布的模糊规则集合,则图像像素特征模糊隶属度函数为[A=x,SA(x)x∈U,]在有限图[G=(V,E)]中,图像的灰度值[SA]是论域[U]到实数闭区间[0,1]的映射,即[U→[0,1]],并称[SA]为尺度中心,[SA(x)]为大型多媒体数据库图像像素点[A]中元素[x]的隶属度,构建多媒体数据库存储图像的采集和图像检索信道模型。
1.2 图像向量量化编码预处理
在图像采集和图像检索的基础上,通过图像向量量化编码处理,实现对多媒体数据库的图像存储特征优化聚类,图像向量量化矩阵描述为:
[H=Lxx(x,σ)Lxy(x,σ)Lxy(x,σ)Lyy(x,σ)] (2)
式中:[Lxx(x,σ)]为图像像素旋转不变矩;[Lxy]和[Lyy]分别为二值化的尺度空间向量量化系数。
对图像中的像素特征点进行归一化特征分解,得到信息点的码书[x(P(An))={x(sj)}, j=1,2,…,N,]对图像边缘轮廓进行向量量化特征聚类空间划分,得到图像检索信道中的图像[S]在网格点[(x,y)]处的压缩编码输出特征参量满足[minc∈r,g,bminy∈Ω(x)Ic(y)A→1,]此时连通区域满足[t(x)→0,]构建仿射不变的尺度空间,由于图像的像素幅值[A>0,]所以对每个尺度[σ(n)]的角点进行图像向量量化编码,输出编码结果为:
[R(k1,k2)=F(k1,k2)G(k1,k2)F(k1,k2)G(k1,k2)=ejθ(k1,k2)] (3)
式中[ejθF(k1,k2)]和[ejθG(k1,k2)]为相位分量。
在多媒体数据库中,两幅大小为[N1×N2]的位图图片[f(n1,n2)]和[g(n1,n2),]图像向量量化编码的每个像素点的均方误差[x(sj)]通过二维函数拟合得到向量空间图像信息的指向性聚类中心,表示为:
[x(sj)=1sjxi∈sjxi] (4)
式中[sj]表示[sj]中图像的相似度。
建立层级匹配量化编码模型,得到向量信息融合中心输出的特征信息为:
[F(k1,k2)=n1n2f(n1,n2)wk1n1N1wk2n2N2=AF(k1,k2)ejθF(k1,k2)] (5)
[G(k1,k2)=n1n2g(n1,n2)wk1n1N1wk2n2N2=AG(k1,k2)ejθG(k1,k2)] (6)
式中:[AF(k1,k2)]和[AG(k1,k2)]是图像的互相位相关函数。
在多媒体数据库中,图像检索的区域分布函数为:
[Ecv(c1,c2)=μ?Length(C)+ν?Area(inside(C))+λ1inside(C)I-c12dxdy+λ2outside(C)I-c22dxdy] (7)
式中:[c1]和[c2]为亚像素偏移特征系数;[Length(C)]为待匹配窗口的归一化长度;[Area(inside(C))]为轮廓参考点和匹配点的梯度模;[μ,ν,λ1]和[λ2]为向量量化编码的修正权重系数。
2 数据挖掘的图像分类算法
2.1 图像量化融合特征点数据挖掘
传统的图像分类方法采用图像边缘轮廓分割方法,结合语义特征提取实现图像聚类检索,在受到较大的扰动作用下图像分类的准确度不高。为了克服传统方法的弊端,提出数据挖掘的图像分类算法,采用Harris角点检测算法进行图像的特征点提取挖掘[9],图像Harris角点检测模型如图2所示。
对图2中对角点周围的像素点子集进行归一化分割,得到图像边缘轮廓直线段的尺度值为:
[s(k)=??s(k-1)+w(k)] (8)
其中:
[?=1000001100001000001100001,w(k)=N(0,σθ(k))0N(0,σx(k))0N(0,σy(k))] (9)
采用中值滤波器进行角点检测,初始化角点匹配滤波器,定义[K=0,]求解得图像的第[t]帧中点的变化分量,采用数据挖掘方法进行图像的角点筛选,得到特征点匹配函数为:
[skk-1=??sk-1k-1] (10)
对图像进行量化融合,求得相应时刻子块内的图像角点[x,y]的像素空间特征轨迹,因[s(k)=θ(k),Δx(k),][Δy(k),]对图像灰度化输出数据信息進行特征匹配,得到图像量化融合的迭代过程描述为:
[t(x)=1-minc∈r,g,bminy∈Ω(x)Ic(y)A] (11)
[U(x)=1-t(x)=minc∈r,g,bminy∈Ω(x)Ic(y)A] (12)
式中:[Ic(y)]为图像角点的关联特征值;[A]为幅度;[Ω(x)]为直方图灰度图像的邻域空间。
通过图像量化融合特征点数据挖掘,以提取的特征点为数据输入进行图像分类处理。
2.2 图像分类算法
采用模糊C均值聚类算法进行图像特征分类检索,假设图像量化融合特征点的数据时间序列为[x(t),][t=0,1,2,…,n-1],模糊C均值聚类的初始窗口定义为:
[u=[u1,u2,…,uN]∈RmN] (13)
求得图像分类特征点的参考点搜索匹配点时的最大梯度差像素为:
[AVGX=1m×nx=1ny=1mGX(x,y)] (14)
式中:[m,n]分别是窗口最大级数和时间窗口的宽度。
提取图像分类特征点的波束指向性信息,根据待匹配图像的亚像素偏移信息进行自适应加权,得到输出的加权向量为:
[x(t)=(x0(t),x1(t),…,xk-1(t))T] (15)
采用一个[1×N]的窗口进行图像分类的聚类中心搜索,确定图像Harris角点的大小[N,]计算其Harris角点的加权向量[ωj]的空间距离,表示为:
[dj=i=0k-1(xi(t)-ωij(t))2, j=0,1,2,…,N-1] (16)
以提取的特征点为数据输入,采用LGB向量量化编码进行图像的聚类中心划分[10],[lmax]级匹配窗口表示为:
[U={μiki=1,2,…,c,k=1,2,…,n}] (17)
计算两个匹配窗口间的先驗知识筛选模型,图像检索的初始状态为[xi(0)=xi(0)],通过模糊C均值聚类得到图像优化分类的目标函数为:
[Jm(U,V)=k=1ni=1cμmik(dik)2] (18)
根据数据挖掘模型提取特征点,求像素样本[Vi]的测度距离[(dik)2=xk-Vi2,]当聚类中心满足:
[i=1cμik=1, k=1,2,…,n] (19)
此时,在多媒体信息数据库中,图像优化分类的检索目标函数的极值为:
[μik=1j=1cdikdjk2m-1] (20)
[Vi=k=1m(μik)mxkk=1n(μik)m] (21)
通过上述算法设计,以提取的特征点为数据输入,采用模糊C均值聚类算法实现数据挖掘和图像分类。
3 实验与结果分析
为了测试本文算法的图像分类性能,实验环境为:Intel[?] 2.3 GHz CPU,2 GB内存,32位Windows 7系统的PC机,利用Matlab 2014实验平台进行测试实验。待分类的图像如图3所示,图像的第[t]帧中点的变化分量[D=12,]嵌入维数[m=2,]角点筛选的失真阈值[ε]=0.24,尺度[σ(n)(1,2,…,n)=0.235,]待分类图像的初始分辨率为520×38,滑动窗口归一化时间宽度为1.4 s。
对图3中的图像进行Harris角点检测,检测结果如图4所示。对图像中的信息特征点进行提取挖掘,以提取的特征点为数据输入,采用模糊C均值聚类算法实现数据挖掘和图像分类,得到图像中的信息特征分类提取输出结果如图5所示。
从图5可知,本文算法可以准确实现图像中信息特征的分类识别,为了定量对比性能,采用本文方法和传统方法进行对比实验,以分类精度为测试指标,结果如图6所示,执行时间和输出峰值信噪比的对比结果见表1,从图6和表1可知,本文方法的图像分类精度和图像峰值信噪比均要高于传统方法,图像分类效果好,执行时间短,说明图像分类的实时性较好,结果验证了本文算法的优越性。
4 结 语
本文研究了多媒体信息数据库中的图像优化分类问题,提出数据挖掘的图像分类算法,结果表明,采用该算法进行大型多媒体信息数据库的图像分类,对图像中特征点的检测准确度较高,输出峰值信噪比提升,提高了图像分类的准确性和鲁棒性。
参考文献
[1] 陶淑苹,张续严,金光,等.基于方向WPS改进TDI CCD遥感图像清晰度评价函数[J].红外与激光工程,2013,42(8):2080?2084.
[2] 顾淑红,花均南,吕涛.激光主动探测成像中拼接算法设计与仿真研究[J].激光杂志,2016,37(2):30?33.
[3] 代具亭,汤心溢,王世勇,等.扫描型红外焦平面探测器图像实时传输系统[J].激光与红外,2016,46(4):476?480.
[4] 王小玉,张亚洲,陈德运.基于多块局部二值模式特征和人眼定位的人脸检测[J].仪器仪表学报,2014,35(12):2739?2745.
[5] 朱贺,李臣明,张丽丽,等.联合灰度阈值分割及轮廓形态识别的河道提取[J].电子测量与仪器学报,2014,28(11):1288?1296.
[6] 李武周,余锋,王冰,等.基于形态学滤波的红外图像背景补偿[J].红外技术,2016,38(4):333?336.
[7] 施晓东,刘格.一种光学遥感图像海陆分割方法[J].国外电子测量技术,2014,33(11):29?32.
[8] 罗泽峰,单广超.基于网络和虚拟多媒体技术的海战平台视景仿真实现[J].物联网技术,2015,5(3):91?92.
[9] 陆兴华,张晓军.人员图像跟踪过程中多人交叉区域防丢失方法[J].计算机仿真,2014,31(9):243?246.
[10] 张晓戎,王程成,胡光波,等.混沌差分优化数据聚类及在故障诊断中的应用[J].压缩机技术,2013(6):16?21.