APP下载

基于特征提取和半监督学习的图像分类算法

2021-12-08吴涛

粘接 2021年11期
关键词:特征提取准确率图像

吴涛

摘 要:图像的光谱特征、高频纹理特征和中低频纹理特征,影响算法的特征提取结果,现有的图像分类算法由于特征提取与训练方法工作不到位,导致分类准确率难以达到预期目标,针对该问题研究基于特征提取和半监督学习的图像分类算法。算法设置过滤式、封装式以及嵌入式特征筛选规则,预处理原始图像特征信息;增强图像敏感区域,提取图像光谱特征,利用灰度共生矩阵和复值函数Gabor滤波,提取图像高频纹理和中低频纹理特征;数据训练采用半监督学习方法,通过不断更新分类器完成对图像的分类工作。结果表明,与5组其他分类算法相比,文中算法提取到了4处不明显的图像特征;在500、750和1 000次分类器更新的条件下,当近邻个数为7时,文中分类算法的准确率出现峰值,分别为92.51%、90.65%和90.22%,比5组算法的平均分类准确率,高出了1.98%、3.08%和4.14%,新的分类算法的分类效果超过预期。

关键词:特征提取;半监督学习;图像;分类算法;近邻个数;准确率

中图分类号:TP391 文献标识码:A     文章编号:1001-5922(2021)11-0092-06

Image Classification Algorithm Based on Feature Extraction and Semi Supervised Learning

Wu Tao

(The First Affiliated Hospital of Chongqing Medical University, Chongqing 400016, China)

Abstract:The spectral features, high-frequency and low-frequency texture features of the image affect the feature extraction results of the algorithm, existing image classification algorithms work do not in place due to feature extraction and training methods, leading to the classification accuracy is difficult to achieve the expected target, the image classification algorithm based on feature extraction and semi-supervised learning. The algorithm sets filtering, encapsulation, and embedded feature filtering rules to preprocess the raw image feature information, the image-sensitive regions are enhanced, image spectral features are extracted, and image high-frequency and medium-and low-frequency texture features were extracted using the complex-valued function Gabor filter, a semi-supervised learning method was used for the classification of images by constantly updating the classifier. The results show that the algorithm extracted four other image features of other classification algorithms, Under the conditions 500,750, and 1,000 classifier updates, when the number of close neighbors is 7, the accuracy of the text classification algorithm peaks, with 92.51%, 90.65%, and 90.22%, respectively, the average classification accuracy of the 5 sets of algorithms was 1.98%, 3.08% and 3.08% and 4.14%, and the new classification algorithm exceeded the expected classification effect.

Key words:feature extraction; semi-supervised learning; image; classification algorithm; the number of close neighbors; accuracy

0 引言

遙感、测绘技术和地理信息系统在时代发展过程中的不断更新,生成的图像也越来越精准详细,为土地类别分析、植被覆盖程度划分以及地质灾害等监测等工作,提供更加先进的技术支持。为了得到较为精准的分析结果,师芸等(2020)研究高光谱影像分类方法[1];王斌等(2019)则提出图像分类和检索方法[2]。其中前者强调了高光谱影像的特点和图像降维、特征映射等内容,后者则结合实际物体,将计算机视觉融入到图像分类当中。随着对科技手段的深入研究,杨萌林等(2020)认为上述分类方法当中,存在数据序列稀疏、不连续和不完整等问题[3];胡轩等(2020)则认为图像的目标形状和尺寸过于复杂,普通的分类方法无法充分获得图像的显著性空间信息[4]。

针对上述观点,高子翔等(2019)基于双路卷积神经网络模型,提出图像分类算法,通过优化池化组合丰富特征差异,加强特征表达层次从而实现特征差异互补,强化图像分类效果[5]。张艮山等(2020)利用局部二值模式算子构建LBP图,通过最小二乘支持向量机构建最优分类模型,实现对图像的分类[6]。王鑫等(2019)搭建一个具有7层卷积结构的神经网络,通过训练得到不同的高层特征,第5层池化层输出后进行降维,最终以串联的形式融合特征数据分类图像[7]。齐永锋等(2020)利用等距特征映射处理数据并挖掘非线性特征,以标记像元为中心构建softmax分类器[8]。许开炜等(2019)基于点特征相似性,优化卷积神经网络,根据显示的邻域像元对中心像元分类的影响程度,进行图像分类[9]。鉴于此,研究了基于特征提取和半监督学习的图像分类算法。

1 基于特征提取和半监督学习的图像分类算法

1.1 设置多重特征筛选规则

新的图像分类算法将特征提取与半监督学习相结合,设置过滤式、封装式以及嵌入式同步处理的特征筛选规则。过滤式特征筛选规则,根据样本数据之间的相关性,剔除存在冗余的样本,该规则定义下的图像数据,通过下列计算公式描述:

式(1)中,I (x,y)表示图像 I 的横纵坐标;g(x,y)表示联合概率密度;g(x)、g(y)分别表示不同方向的概率密度函数。过滤式特征筛选规则以上述公式为计算依据,对特征进行第1层过滤处理[10]。封装式特征筛选规则与第1层规则相反,通过评估前一层过滤得到的特征数据属性,得到满足分类要求的数据。第2层规则依靠递归特征消除法反复识别,通过选择其中最好或剔除最差的数据,分析每1个特征参数。该方法设置样本为,其中,xi、yi表示第 i 个特征数据的所在横、纵坐标;M表示总数量。将所有数据按照固定顺序排列,初始化特征序列并计算权重,得到:

式(2)中:λi、λj表示相邻的第个、第 j 个特征数据的识别系数。根据该值的平方,计算特征序列W中数据的得分,将得分较小的数据从W中剔除,更新W和前一层特征筛选结果[11]。嵌入式特征筛选规则在第2次特征筛选的基础上,根据范数正则化和最小二乘损失回归模型,建立目标函数:

式(3)中:Aω和B分别表示样本和标签;γ表示稀疏度调节参数。第3层规则根据上述公式获取目标,通过多条件特征筛选并存的方式,为特征提取工作进行数据预处理,保证半监督学习使用的数据集合种,少有甚至是没有冗余与干扰数据。

1.2 提取图像特征

利用设置的规则筛选特征数据后,提取图像的光谱特征和纹理特征,并构建特征集合。已知图像原始的波段灰度可划分为4个,分别为蓝、绿、红和近红外,分别用L、G、R以及NIR表示。已知图像背景影响近红外波段,所以图像的类别信息覆盖程度有所差异。近红外波段衍生归一化指数,该指数可以区分不同属性特征,具有很强的响应能力和敏感的识别能力,设置该指数为C1。当图像相似程度较高时,需要利用修正指数确定同一类属性特征的所在区域,所以设置该指数为C2。通过上述两个指数增强图像的敏感区域,公式为

式(4)中:k1、k2表示不同波段对图像的影响系数;  表示调节参数。确定敏感区域K后,根据亮度指数计算结果提取K区域的图像光谱特征,公式为

根据式(4)、式(5),实现对图像光谱特征的提取。图像除了具备光谱特征外还具备纹理特征,所以结合图像的高频纹理和中低频纹理特征,分别利用灰度共生矩阵和复值函数Gabor滤波,完成纹理特征提取工作。灰度共生矩阵描述了图像中灰度空间,所以算法将256灰度级线性压缩量化成16灰度级,计算0°、45°、90°以及145°四个方向的灰度共生矩阵。设置滑动步长为1、滑动窗口为3×3,通过计算特征向量平均值,设置纹理特征向量的分量。此次设计将对比度和同质度作为图像的纹理特征,这两个参数的计算公式为:

式(6)中:E 和 Hom 分别表示对比度和同质度;n表示对比对象数量;P (i, j ) 表示两两图像之间的相似性概率[12]。面对图像中的高频纹理特征时,算法按照上述流程提取特征,面对中低频纹理特征时,算法利用Gabor函数调制中心频率和方向,通过模拟视觉效果得到中低频特征,该函数的计算公式为

式(7)中,u和v表示方向和尺度;Vu,v表示函數在图像上的扫描频率;au表示边界条件;Fu,v(a,b)表示滤波特征;a和b表示像元位置;σ表示高斯因子标准差[13]。通过上述公式,提取中低频纹理特征,结合高频纹理特征提取结果,为半监督学习提供训练数据。

1.3 基于半监督学习更新分类器分类图像

分类器通过半监督学习方式进行训练,从未标记样本中提取有用信息。假设标记与未标记的特征样本集用S1和S2表示,则存在、。设置样本类别个数为m,半监督学习在全部样本集的基础上构建学习模型,预测待分类样本时,将预测值分类的错误率控制在最小。算法利用3个分类器进行协同训练,其中前两个分类器分类预测未标记样本S2,当两个分类器的结果一致且置信度高于预设值时,将未标记样本和S1都添加到第3个分类器的训练集合当中,根据已知参数建立分类器训练条件:

式(8)中,β表示训练指标;μ表示最差情况下模型的分类正确率;θ表示分类误差噪声比例上限;N表示分类器更新次数;ζ 表示置信度[14]。假设类别参数,则根据式(8)得到:

半监督学习在每次迭代时,前2个分类器标记样本后,将一致性的样本添加到第3个分类器中,假设第q次和第q-1迭代训练时,G q和G q-1表示被标记添加到分类器中的样本,S1∪G q则对于S1∪Gq和S2∪G q-1来说,第q次训练时的S1∪G q至今存在:

式(10)中,U q表示;Us1表示分类器噪声比例;e1q表示前2个分类器在第q次训练时的分类误差比例。已知公式(9)的计算结果与μ2之间存在正比例关系,所以当εq>εq-1时,μq<μq-1,此时可以利用第3个分类器对未标记样本进行学习。假设0≤e1q,eq-1<0.5,那么存在[15]。当上述条件成立时,对S1q进行采样,此时分类器的采样个数,通过下列公式确定:

式(11)中,要求S1q-1的绝对值,大于e1q和的比值。使用以上半监督学习流程更新分类器,通过分类器对图像进行类别划分,实现图像分类算法。

2 应用测试

设计对比实验,将文中提出的基于特征提取和半监督学习的分类算法作为实验组,将基于自适应池化的分类算法作为对照组A,将基于LBP与LSSVM的分类算法作为对照组B,将改进的基于深度学习的分类算法作为对照组C,将基于多尺度卷积神经网络的算法作为对照组D,将点特征相似与卷积神经网络相结合的分类算法作为对照组E。为了减少实验次数控制测试时间,以高分遥感图像作为此次实验测试对象,本文中算法的分类准确率超过90%时,优于所有对比方法,满足此次研究要求。准备稳定的测试环境,保证网络通信状态为最佳,分别将6组算法应用到高分遥感图像的分类工作当中,比较算法在不同环节当中的应用效果。

2.1 高分遥感图像特征提取效果

高分遥感图像纹理更多更复杂,选择高分遥感图像作为测试对象,增加测试难度的同时能够代表大多数图像,增强实验结果的说服力度。图1为算法分类测试过程中的某一分类目标。

图1中的深色区域代表建筑物所在位置,浅色区域代表绿色植被覆盖区域的所在位置。分别利用不同的算法提取图像特征,其中基于自适应池化的分类算法,利用构建的双路卷积神经网络模型,提取高分遥感图像特征;基于LBP与LSSVM的分类算法,在基于局部二值模式算子生成的LBP图中,提取特征数据;改进的基于深度学习的分类算法,利用七层卷积神经网络获取图像特征;基于多尺度卷积神经网络的算法,依靠等距映射挖掘非线性特性数据,从而实现对目标数据的提取;点特征相似与卷积神经网络相结合的分类算法,计算点特征相似性从而提取相似性数据。文中分类算法按照筛选规则预处理图像数据,然后利用式(4)~(7)的计算,提取高分遥感图像特征。图2为6组算法应用下,分别按照各自的特征提取流程获得的提取结果。

从图2可以看出,5个对照组算法和本算法获得的特征提取结果,与图1所显示的特征区域高度近似,但由于本文算法利用过滤式、封装式以及嵌入式筛选规则,预先处理了图像特征信息,所以获得了4处极不明显的特征区域。同样的测试条件下,5个对照组算法中,只有对照C组、D组以及对照E组中,提取到了不明显的图像特征,但只有对照E组的提取结果,与本文算法的提取结果类似。

2.2 分类效果

根据6组算法的高分遥感图像特征提取结果,继续完成图像分类工作,最终得到6组图像分类结果。实验通过比较预测标签和真实标签,评价算法对高分遥感图像的实际分类效果。设置3组指标,分别为敏感性指标(Sensitivity)、特异性指标(Specificity)和准确性指标(Accuracy),3个指标的计算公式为:

式(12)中:f1、f2分别表示真建筑区域和真植被覆盖区域;g1、g2分别表示假建筑区域和假植被覆盖区域。此次测试以多分类为研究重点,所以再引入识别率指标(Recognition)和准确率指标(Overall Recognition Accuracy)进行评价,计算公式为:

式(13)中,Mij表示第i个特征被划分到第j类集合中的数量;T表示类别总数。6组算法在图2显示的结果的基础上进行图像分类,根据式(12)和式(13),获得当分类器的更新次数为500时,不同算法的分类评价结果,如表1所示。

由表1可知,本算法的评价结果均高于5个对照组算法。已知影响算法分类结果的关键因素之一,就是特征数据的近邻个数,所以导出不同种算法,分类器进行500、750和1 000次更新时的分类结果,如图3所示。

由图3可知,当近邻个数为7时,6组分类器在500、750以及1 000次更新状态下,获得的图像分类准确率最高;当近邻个数为9时,6组算法的分类准确率最低。根据上述测试结果可知,无论分类器的更新状态如何,算法在满足7个近邻的条件下,能够获得更好的图像分类结果。综合上述测试结果,6组算法在近邻个数为7时,能够获得最好的图像分类效果,此时本文算法的分类准确率分别为90.51%、91.45%和92.86%,比5个对照组的平均分类准确率。分别高出1.98%、3.08%和4.14%,满足90%以上的预设目标。

3 结语

本文研究以现有的5种常规图像分类算法为对比,通过设置特征筛选规则,完善数据的预处理工作,采用半监督学习方法得到满意的测试结果,将使分类准确率达到90%以上。但综合此次研究过程来看,研究的新分类算法存在较多复杂的计算步骤,所以运行算法时容易出现数据迟缓、更新延迟等问题,今后可以对该算法进行优化,进一步完善机器学习的监督工作,完善分类器的数据训练与映射工作,进一步提高算法的分类效果。

参考文献

[1]师 芸,马东晖,吕 杰,等. 基于流形光谱降维和深度学习的高光谱影像分类[J]. 农业工程学报,2020,36(06):151-160+323.

[2]王 斌,黄竹芹,陈良宵. 圆周特征描述:有效的叶片图像分类和检索方法[J]. 软件学报,2019,30(04):1 148-1 163.

[3]杨萌林,张文生. 分类激活图增强的图像分類算法[J]. 计算机科学与探索,2020,14(01):149-158.

[4]胡 轩,卢其楷. 基于显著性剖面的高光谱图像分类算法[J]. 光学学报,2020,40(16):71-79.

[5]高子翔,张宝华,吕晓琪, 等.基于自适应池化的双路卷积神经网络图像分类算法[J]. 计算机工程与设计,2019,40(05):1 334-1 338.

[6]张艮山,田建恩,张 哲. 基于LBP与LSSVM的数字图像分类算法[J]. 液晶与显示,2020,35(05):471-476.

[7]王 鑫,李 可,徐明君,等. 改进的基于深度学习的遥感图像分类算法[J]. 计算机应用,2019,39(02):382-387.

[8]齐永锋,陈 静,火元莲,等. 基于多尺度卷积神经网络的高光谱图像分类算法[J]. 红外技术,2020,42(09):855-862.

[9]许开炜,杨学志,艾加秋,等. 点特征相似与卷积神经网络相结合的SAR图像分类算法研究[J]. 地理与地理信息科学,2019,35(03):28-36.

[10]何胜美,李高荣,许王莉. 基于秩能量距离的超高维特征筛选研究[J]. 统计研究,2020,37(08):117-128.

[11]杨弘凡,李 航,陈凯阳,等. 亮度变化下室外场景图像特征点提取方法[J]. 河南科技大学学报(自然科学版),2020,41(01):18-23+5.

[12]赵若晴,王慧琴,王 可,等. 基于方向梯度直方图和灰度共生矩阵混合特征的金文图像识别[J]. 激光与光电子学进展,2020, 57(12):98-104.

[13]杨恢先,付 宇,曾金芳,等. 基于正交Log-Gabor滤波二值模式的人脸识别算法[J]. 智能系统学报,2019,14(02):330-337.

[14]刘 坤,王 典,荣梦学. 基于半监督生成对抗网络X光图像分类算法[J]. 光学学报,2019,39(08):117-125.

[15]魏志强,毕海霞,刘 霞. 基于深度卷积神经网络的图上半监督极化SAR图像分类算法[J]. 电子学报,2020,48(01):66-74.

猜你喜欢

特征提取准确率图像
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
A、B两点漂流记
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于曲率局部二值模式的深度图像手势特征提取
名人语录的极简图像表达
一次函数图像与性质的重难点讲析
趣味数独等4则