基于自适应纹理特征融合的纹理图像分类方法*
2024-03-19韩晓天冯永安
吕 伏,韩晓天,冯永安,项 梁
(1.辽宁工程技术大学鄂尔多斯研究院,内蒙古 鄂尔多斯 017000;2.辽宁工程技术大学软件学院,辽宁 葫芦岛 125105)
1 引言
在自然界(生物、地理和煤岩等)的诸多领域以及工业制造领域中,纹理是各种物质所共同具有的一种本质特征。它不受物体形状、颜色和温度等因素影响,是描述许多类型图像特征的视觉线索,在分析图像的视觉内容方面发挥着重要作用。因此,纹理特征被广泛用来描述物体或材料表面的视觉特征,它所具有的独特性和稳健性在物体识别过程中起到了重要作用,是多种数据探索的关键信息。依靠纹理特征对图像进行处理在很多领域都有应用,如工业检查、医学成像、遥感、物体表面和面部识别等,都可以依赖于其物体表面的特异性纹理特征。对具有纹理特征的图像进行分析和识别一直是计算机工程应用背景下具有提挑战性的研究课题。
围绕纹理特征的研究主要集中于2个主题:一是提取高质量的纹理描述符,二是构建准确、高效、低成本的计算模型。
对高质量纹理描述符的研究目的是提取一种纹理描述符,能够减少因比例、照明和旋转等变化引起的同类图像视觉差异变化大或异类图像类间差异微小的问题,这要求纹理表示具有高鲁棒性和独特性,能够在无序的图像中找到规则的重复纹理信息。其中,工程领域中使用最为普遍和有效的是:局部二进制LBP(Local Binary Pattern)方法及其变体[1]、基于灰度共生矩阵GLCM(Gray Level Co-occurrence Matrix)的表示[2]和基于滤波器的方法[3]等。
自Ojala等[1]2002年提出LBP方法以来,在其基础上进行补充,出现了LBP的诸多变体。Zhang等[4]提出了局部Gabor二进制模式LGBP(Local Gabor Binary Pattern),从不同尺度和方向的Gabor滤波器过滤的图像中提取LBP特征,以增强纹理表示能力。Liu等[5]提出了中值鲁棒扩展局部二进制模式MRELBP(Median Robust Extended Local Binary Pattern)方法,它具有高独特性以及低计算复杂性,同时表现了对图像旋转和噪声的高鲁棒性。
LBP方法推进了紧凑高效的二进制描述符的提出,其中最值得注意的描述符包括Calonder等[6]人提出的二进制的鲁棒独立基本特征BRIEF(Binary Robust Independent Elementary Features)特征描述符和Rublee等[7]提出的面向BRIEF描述符的ORB (ORiented BRIEF) 描述符。这些描述符表现了与广泛使用的区域描述符如尺度不变特征变换SIFT(Scale-Invariant Feature Transform)[8]和加速稳健特征SURF (Speeded Up Robust Features)[9]相当的性能表现。总的来说,对于具有旋转变化且没有显著照明变化的大型数据集,LBP及其变体可以作为一种高效的纹理分类策略。但是,在存在显著照明变化、仿射变幻以及噪声损坏的情况下,LBP无法达到预期的性能水平。
基于统计方法的灰度共生矩阵法GLCM,是一种基于二阶统计量的纹理提取方法,通过计算图像中2个像素之间的关系来获取纹理信息[10],能够获取多类不同纹理特征的参数,较好地体现图像纹理在对比度、相关性、均匀性和熵等测量参数上的表现。近年,由于GLCM能够提取类间差异性纹理特征的特点,其纹理特征提取方法在工程类纹理表征分析方向的应用越来越多。欧利国等[11]将采用GLCM方法提取的纹理信息作为分类的特异性依据,进行了鱼类表型纹理分析研究。刘涛等[12]采集疲劳损伤金属表面形貌特征图像,构建三维形貌信息并转化为灰度图,采用灰度共生矩阵描述粗糙度子图纹理特征,得到纹理信息的变化规律,基于反差度、能量和逆矩差构建支持向量机模型,用于构建疲劳损伤状态评估。包姣等[13]在冲击图像超高速冲击HVI(Hypervelocity Impact)源识别和定位算法的研究中,为了更好地描述HVI信号,采用GLCM和图像熵值反映HVI信号时频统计特征。由于灰度共生矩阵在工程领域的广泛应用,以及其能够提取最大类间差异纹理特征的优点,本文提出了基于灰度共生矩阵的纹理描述特征,采用改进的神经网络架构来补充特征描述的复杂环境识别能力,从而进行类别广泛的复杂纹理图像分类。
在对纹理的高效深度学习模型的探索方面,自2012年破纪录的图像分类结果实现以来,近年来研究人员提出了大量基于卷积神经网络CNN(Convolutional Neural Network)的纹理表示法,CNN成功的关键是它能够利用大型标记数据集来学习高质量的特征。Krizhevsky等[14]提出了AlexNet模型,该模型在图像细粒度分类领域取得了巨大成效,使用预训练的AlexNet模型对纹理数据集进行分类,取得了突破性的进展,实现了特征表示从手工制作到CNN提取的转折。Cimpoi等[15]提出了VGGM模型,该模型与AlexNet具有相似的复杂性,但在纹理分类效果上表现更好。Simonyan等[16]提出了VGGVD模型,该模型具有比AlexNet更高的深度,模型参数规模较AlexNet和VGGM的更大。Szegedy等[17]提出了GoogleNet模型,由于其深度过大,不常用于纹理分类。Lin等[18,19]提出了双线性神经网络BCNN(Bilinear CNN),该网络模型在纹理识别中具有较好表现,获得了比费舍尔向量卷积神经网络FVCNN(Fisher Vector-CNN)更好的结果,这表明双线性池化相比Fisher向量具有更好的表征能力。与传统神经模型相比,该描述符更适用于纹理建模,但是具有维数过高的缺点,易导致小型数据集模型训练过程中出现过拟合问题。
针对现有分类方法对纹理属性图像分类精度不足以及鲁棒性不强的问题,提出一种基于自适应纹理特征融合的图像分类神经网络模型。该模型使用决策融合方法,将类间差异性较大的纹理特征作为可靠的补充性判别依据,与RGB图像特征联合实现图像的类别判断。本文的主要工作如下:(1)基于灰度共生矩阵构建最大类间差异性纹理特征,产生具有类间互异性的纹理图像集;(2)构建独立并行的改进双线性神经网络架构对纹理图像与原始图像进行特征提取;(3)基于多模态特征融合中的决策融合方法,根据最优融合的准则,构建多层神经网络架构,自适应学习联合特征信息的通道权重,重构分类特征向量,提升模型识别准确度。
2 纹理特征图像构建
2.1 灰度共生矩阵计算
灰度共生矩阵表示图像中一定距离和特定角度处出现一对灰度的相对频率。设给定图像I的尺寸为M×N,灰度为I,则从该图像中位置为(k,l),灰度为i的像素点出发,计算与其距离为d=(m-k,n-l),灰度为j的点(m,n)出现的概率p,并将其表示为p=(i,j,d,θ)。其中,d表示2点间相对距离,θ表示2点间的相对角度。d的范围为1到图像像素尺寸,θ的取值范围为0°,45°,90°和135° 4个不同的方向。将得到的矩阵除以所有概率的和得到归一化矩阵。不同角度和距离生成的GLCM具有不同特征值。在具有高度方向性特征的图像中提取信息主要依赖于正确角度的选择,通常使用4个方向上灰度共生矩阵的特征均值。但在取均值的过程中,会导致纹理图像的方向信息丢失,分类均度不高。在本文的分类中,公开数据集图像来源于多种材料物质,不具有过高方向性特征,因此在同类数据集的灰度共生矩阵计算中,以同一种方向0°作为标准进行分类,保持在类间标准的统一性。在灰度共生矩阵中使用了13个Haralick特征的4个信息不交叉的4个特征进行对比选择,分别是对比度(Contrast)、相关性(Correlation)、能量(Energy)和同质性(Homogeneity)。
2.2 特征提取
下面为从灰度共生矩阵中提取的4个常用纹理特征定义,使用这些纹理特征值可以将GLCM值表示为不同的特征向量,他们对图像纹理特征具有不同角度的表达特性。
(1)对比度(Contrast):能够反映图像中灰度沟纹的深度与厚度,体现图像灰度对比度的差异情况。
(1)
(2)相关性(Correlation):表示矩阵中一个像素与其相邻像素的相关性。
(2)
其中,μx,μy,σx,σy分别定义如式(3)~式(6)所示:
(3)
(4)
(5)
(6)
(3)能量(Energy):度量图像的纹理均匀性、像素对的重复特性和纹理粗细程度。
(7)
(4)同质性(Homogeneity):评估矩阵中非零项的均匀性。
(8)
2.3 纹理分析
根据纹理特征参数计算式(1)~式(8),计算提取各类图像样本中的图像表面纹理特征。以KTH-TIPS数据集的特征分析选取为例,在该数据集中提取样本图像,对其表面纹理特征取均值进行分析。如图1a中origin和图1b中origin,其在不同纹理特征参数下生成的纹理特征图像如图1所示。根据纹理特征图计算得到10类图像的4个特征量变化情况如表1所示。
Figure 1 KTH-TIPS examples of two types of image texture features图1 KTH-TIPS 2类图像不同纹理特征示例
Table 1 Image texture feature parameters of different categories
表2中VARPA函数能够计算出所给样本的总体方差,其计算如式(9)所示。AVEDEV函数用于描述所给出数据与其数据均值的绝对偏差的平均值,能够描述数据的离散程度,其计算如式(10)所示。
(9)
(10)
如表2所示,为了找出KTH-TIPS数据集中最易于分类的纹理特征,采用离散程度最大的Contrast特征参数作为提取图像纹理特征的主要参考。在KTH-TIPS-2b、UIUC和DTD数据集中,采用与KTH-TIPS中相同的采样方法,计算寻找差异性最大且分布最为均匀的纹理特征,分别为Contrast、Energy和Homogeneity。
Table 2 Dispersion degree of four feature parameters in different categories of images表2 4种特征参数在不同类别图像的离散程度
3 B-ResNet模型
3.1 特征提取模型
由Lin等[18]在2015年提出的双线性卷积神经网络BCNN模型,在纹理和场景识别中优于其他深度学习模型。该模型的具体实例化中,使用2个基于CNN的特征提取器CNN-A和CNN-B作为部件检测器和部件特征提取器来对图像进行特征提取,得到2幅特征图fA和fB,然后使用双线性池化函数将子模型抽取的2组特征进行特征交互得到最终的图像描述算子,通过分类模型进行分类。该模型的具体结构如图2a所示。
其中特征图在每个位置上的矩阵外积得到双线性特征的计算过程如式(11)所示:
B(l,I,fA,fB)=fA(l,I)TfB(l,I)
(11)
其中,l为图像位置信息,I为输入图像,fA(l,I)和fB(l,I)分别代表图像在l位置处的特征向量。
根据以上双线性特征的计算方法,BCNN模型通过对图像2组特征图的外积聚合,获得了捕获图像特征通道相关性的能力,但同时产生了特征向量维度过高和参数冗余的风险。为了解决这一问题,对CNN-A和CNN-B进行参数共享,即只计算单卷积神经网络分支的参数,对该卷积神经网络的输出特征进行外积相乘。参考网络深度和计算量,本文模型采用的参数更少,能够解决网络“退化”问题,并且以拟合效果更好的ResNet-18作为子模型构建双线性神经网络,模型结构如图2b所示。
结合迁移学习,本文将使用ImageNet数据集训练过的ResNet-18作为B-ResNet18的底层特征提取网络,将ImageNet中学习到的底层特征迁移到图像识别网络中,作为网络的初始化参数,对模型进行学习构建。
Figure 2 BCNN network structure and improved B-ResNet network structure图2 BCNN网络结构与改进的B-ResNet网络结构
3.2 融合模型
决策融合法是复杂图像环境下所使用的多模态特征融合方法中一种典型的后期融合方法,它将不同模态信息作为网络输入分别进行分类后,在决策级别进行信息融合。其底层思想是了解多分支模型的重要性与相关性,对信息进行强调和补充,在识别过程中,对不同通道予以不同权重,从多个角度对典型特征进行优化。与输入级融合相比,后期的决策融合可以学习到更多复杂和互补的特征信息,因此可以获得更好的性能[20]。
Figure 3 Structure of feature fusion model图3 特征融合模型结构
本文采用决策融合的方法,将数据图像包含光影、空间等变化的信息与提取的纹理特征信息进行融合,以补充和强调纹理信息。构建的分类模型可分为特征提取的B-ResNet18模型和特征融合子模型,特征融合子模型结构如图3所示。
将B-ResNet18中最后一个卷积层的特征向量进行平均池化(AVG Pooling),通过平均池化操作聚合特征图的空间信息,每个通道中的H×W个像素被压缩为一个实数,表示平均池化特征,此平均池化层的特征输出Xc及其计算过程如式(12)所示。根据式(12),计算原始图像和纹理图像的平均池化层输出,并命名为Xorigin和Xfeature进行水平方向上的连接,其特征向量输出尺寸分别为512×1×1。
(12)
连接后的特征向量表示为Xin,特征图尺寸为1024×1×1。
Xin=Xorigin+Xfeature
(13)
将Xin输入到2个结构相同的卷积注意力建议子网络,通过2个全连接层FC(Fully Connected layer)的多层感知器模块进行训练;最后经过激励层Sigmoid归一化为一组代表通道权重的0~1的实数Worigin和Wfeature。将通道权重与双线性神经网络的分类输出层特征在对应通道上相乘表示如式(14)~式(15)所示:
Decisionorigin=Forigin×Worigin
(14)
Decisionfeature=Ffeature×Wfeature
(15)
根据以上计算方法,使用基于元素求和的方法来合并输出特征向量,最终融合特征的分类器输出如式(16)所示:
Decision=σ(Decisionorigin+Decisionfeature)
(16)
其中,Decision为最终融合分类向量,Decisionorigin和Decisionfeature为原始图和纹理图的分类函数输出向量,σ(·)表示Sigmoid激活操作。
4 实验与结果分析
4.1 实验设备
本实验在一台CPU型号为12th Gen Intel®CoreTMi9-12900K,GPU为RTX 3090,内存(RAM)为64 GB的服务器上进行,所有实验基于深度学习的PyTorch框架完成,Python版本为3.9。在实验过程中,对每张图像进行随机旋转和随机裁剪,得到224×224像素大小的图像。模型训练阶段采用ImageNet预训练的B-ResNet18神经网络作为特征提取器。初始学习率设置为0.000 1。每经过20个Epoch将学习率衰减为原来的0.8倍。采用Adam算法进行参数优化,交叉熵作为损失函数。
4.2 数据集
为了展示所提出的融合纹理模型在纹理图像上的适用性和自适应融合方法的先进性,在4个与纹理相关的公共数据集:KTH-TIPS[21],KTH-TIPS-2b[22],UIUC[23]和DTD(Describoble Textures Dataset)数据集[24]上进行实验分析,并与经典分类算法及最近几年先进的算法进行比较。
数据库的基本信息如表3所示。数据集样本如图4所示。
Table 3 Description of four public datasets表3 4个公开数据集的信息描述
Figure 4 Samples of:KTH-TIPS,KTH-TIPS-2b, UIUC and DTD datasets图4 KTH-TIPS、KTH-TIPS-2b、UIUC和DTD数据集示例
4.3 评价标准
对分类模型的单次性能评估通常采用混淆矩阵,精确率(Precision)、召回率(Recall)、F1分数(F1-Score)和准确率(Accuracy)作为评价标准。以二分类问题为例,样本分为正、负2种类别,模型对样本的预测存在表4中的4种情况。
(1)混淆矩阵是对分类性能进行评估的重要标准,矩阵中列为模型预测得到的类别,行为样本的实际类别。
(2)精确率(Precision)定义为预测为正的样本中实际上正样本的比例。Precision的计算如式
Table 4 Prediction results of binary model表4 二分类模型预测结果
(17)所示:
(17)
(3)召回率(Recall)定义为实际正例样本中被预测正确的样本比例。Recall计算如式(18)所示:
(18)
(4)F1分数(F1-Score)能够对模型精确率和召回率做出综合评价,是对Precision和Recall的加权平均。计算如式(19)所示:
(19)
(5)在多次重复实验,取测试准确率的平均值时,平均分类准确率mA(mean-Accuracy)的计算如式(20)所示:
(20)
其中,N表示进行N次重复实验,i表示第i次实验,Accuracyi表示第i次实验的测试准确率。
为避免样本分布不均匀对模型效果评估的影响,采用以上评价标准在样本所有标签下表现的加权平均作为总体评价指标。同时,考虑到模型训练的不稳定性和偶然性因素影响,在每个数据集上做重复实验,对多次实验测试结果取平均分类准确率mA作为综合衡量指标。根据以上5个评价标准对所提模型的分类性能做出评估和分析。
4.4 对比实验
为显示本文模型分类的有效性和稳定性,首先在4个公共实验纹理数据集上与较为主流和先进的模型进行平均准确率的比较。由于参考模型所使用的数据集存在一定差异,因此4个数据集上的对比模型不完全统一,但能够基本实现算法对比的目的。表5~表8显示了不同模型在这4个数据集上的分类精度。其中一些模型在相应的原始出版物或相关出版物中缺乏标准偏差,因此列出了这些模型的平均分类准确率作为参考。
Table 5 Experimental results on KTH-TIPS表5 数据集KTH-TIPS上的实验结果
Table 6 Experimental results on KTH-TIPS-2b表6 数据集KTH-TIPS-2b上的实验结果
Table 7 Experimental results on UIUC表7 数据集UIUC上的实验结果
表5是经典模型、近年的先进模型与本文模型在KTH-TIPS上的运行结果。本文模型在该数据集测试混淆矩阵如图5a所示。KTH-TIPS数据集包含10类生活中的纹理特征实体图像,每类包含81幅图像,数据集规模较小。在该数据集上,本文所提模型平均获得了99.98%的分类精度,展现了本文模型在小规模数据集上优越的分类能力。在表5所列的模型中,基于排序随机投影特征描述子SRP(Sorted Random Projections)模型的分类准确率达99.30%,也具有较好的分类能力。SRP方法相较于其他模型的典型特征是其旋转不变性,因此它可以提高对旋转纹理的识别准确率。本文的模型能够取得比采用SRP特征描述符方法更优的效果,证明本文模型具备对旋转纹理的识别能力。
Table 8 Experimental results on DTD表8 数据集DTD上的实验结果
表6中是不同模型在KTH-TIP-2b数据集上的运行结果。KTH-TIPS-2b数据集包含11个数据类别,每个类别有432幅不同比例和照度的图像。由于图像的多样性和复杂性,使得KTH-TIPS-2b数据集的识别更具挑战性。对比分类结果显示,基于遗传编程的纹理签名方法GTS(1-NN) (Genetic Texture Signature)方法的分类准确率相对其他方法较高,为94.30%,而本文提出的模型比其准确率高5.65%,达到了99.95%。GTS(1-NN)提出了更先进的本地边缘签名纹理描述符LES(Local Edge Signature),LES基于边缘像素在特定局部区域的排列和方向的统计信息进行计算,它对旋转和比例变化不敏感。但是,在纹理数据的分类性能方面,GTS(1-NN)的性能状况与数据集的大小直接相关。例如,在小型数据集KTH-TIPS上,GTS(1-NN)表现明显较差。本文模型比GTS(1-NN)方法高5.65%的准确率,具有明显优势。本文模型在该数据集上的测试混淆矩阵如图5b所示。
Figure 5 Confusion matrices generated by the model on the common datasets图5 本文模型在4个公共数据集上生成的混淆矩阵
表7中的UIUC的数据集包含25个图像类别。每个类别包括40张分辨率为640×480的纹理图像,在不同的角度、光照变化和尺寸下拍摄,变化幅度很大,且不同类别所包含图像规模较小。按照实验的标准化要求,本文模型在该数据集上的单次测试混淆矩阵如图5c所示,最终的平均准确率为99.99%,相比FV-VGGVD(SVM)模型的高0.19%,是比较模型中性能最优的模型,因此本文模型在光照、角度、尺寸以及数据集规模性小的影响下,仍能达到理想程度。
表8为本文模型与其他先进模型在DTD数据集上的测试结果。DTD数据集包含47个图像类别,每个类别有120幅图像,是纹理数据集中类别较多,规模较大的数据集。本文模型在该数据集上的测试混淆矩阵如图5d所示,平均分类准确率为67.09%。由于DTD数据集的图像类别和数据较多,因此混淆矩阵中未显示具体数字,通过矩阵颜色深浅程度表示测试误差。与经典的滑动盒方法GBM(Gliding-Box Method)和多重分形谱估计MFS (Multifractal Spectrum of Fractures)模型相比,本文模型的高21.09%~24.09%,优势明显。此外,对于改进的深度学习识别算法,表现最好的是Wavelet CNN,它提出了一种新型的CNN架构,改进了CNN的纹理特征,将频谱分析整合到CNN中。这种架构利用CNN中容易丢失的频谱信息来实现纹理识别的相关性和有效性,在纹理相关的神经网络架构中具有明显的优势。但本文模型的平均分类准确率高于Wavelet CNN模型的6.39%,体现了本文模型在深度学习模型方向与纹理结合方向的正确性,也体现了深度学习网络的改进优势,避免了增加深度学习参数对识别效果的不利影响。在本文数据集中,本文模型的识别效果仅略差于PRC方法的。PRC方法计算图像中任何单元的最小和最大像素强度之间的范围,具有稳健性,是一种通过改进图像纹理特征描述符增加图像分类准确率的传统改进方法。这种方法需要在每张图像的分类阶段做出重复计算,与本文在神经网络结构做出改进相比,增强了特征描述符的描述性能,因此,这种方法在图像描述上具有显著优势。因此,下一步的工作,将继续改进模型中所使用的纹理描述符,在深度学习的基础上,融合更准确的纹理描述符,以便在纹理描述中获得更好的效果,达到增强特征的目的。总的来说,在更为复杂多样的DTD数据集上,与基于深度学习的模型相比,该模型的识别效果仍处于较高水平,反映了本文模型在复杂数据集上的综合性能和鲁棒性。
综合分析,本文提出的模型可以在不同程度上提高与纹理相关公共数据集的分类精度。与大多数先进和经典的模型相比,它具有可比性及算法上的优势。这证明了本文模型在纹理相关公共数据集上的优势,以及模型的普遍高效性。
4.5 消融实验
为验证本文模型的有效性和模型中各子结构对模型的贡献度,以传统双线性卷积神经网络作为基本网络在各公开数据集上进行消融实验,重复测试并取平均测试结果。同时,使用FLOPs浮点运算次数作为模型复杂度衡量标准,衡量模型的综合复杂度,其值越大,说明模型复杂度越高。实验结果如表9所示。
Table 9 Results of ablation experiments表9 消融实验结果
表9中,BCNN(vgg16)代表基于VGG16构建的双线性网络,使用RGB原始图像训练模型。为减少参数规模与降低模型计算复杂度,基于ResNet18构建改进的双线性神经网络B-ResNet18,仅使用原始RGB图像训练。为进一步提升类间纹理特征差异,在B-ResNet18模型基础上,使用纹理图像和RGB原图并行训练并进行决策融合。首先,B-ResNet18(0.5add)模型采用1∶1的简单权重融合。最后,根据自适应决策融合方式提出本文模型,对类间纹理特征进行最优融合策略的改进。
在分类精度上,相比于未改进的神经网络BCNN(vgg16),B-ResNet18在4个数据集上的分类准确率分别提升了5.79%~11.54%,证明使用规模更小的ResNet网络对模型进行改进的必要性,能够在一定程度上避免数据集规模小,模型过拟合带来的准确率衰减的问题。基于B-ResNet18模型,进一步将RGB图像特征与类间差异性纹理特征融合,通过2个分支网络作为特征提取器对图像纹理细节进行补充和加强,捕捉辅助判别性特征,将类间差异性信息引入图像分类判别中做出最终决策。在该部分针对双通道意义的对比中,表10对比了仅采用RGB图像训练的B-ResNet模型与本文融合模型在4个数据集上测试的不同评价指标。相较于B-ResNet模型,本文模型在4个综合评价标准中均具有稳定提升,平均分类准确率提升了1.04%~2.24%,实现了更优的分类效果,并保持了一定的稳定性,说明了双通道融合对于分类效果具有实际意义。在分类时间上,因为测试集数目相同,取模型测试消耗时间来比较4个公共数据集上测试集完成的效率。由分类时间数据分析可见,本文融合模型相较于单通道B-ResNet18模型,测试时间提升了0.88~3.29 s。说明双通道融合后模型在测试图像效率上也得到了提高,进一步体现了双通道融合对于纹理图像分类的综合价值。
在纹理特征图与原始图的特征融合决策方法上对比2种融合方式:B-ResNet18(0.5add)模型对各通道采取等同权重,相较于未融合前提升了0.89%~0.95%;本文模型采用自适应融合方法,相较于未融合前提升了1.04%~2.24%,提升效果更加显著。综合分析,采用自适应的纹理特征融合方式能够实现分类精度的进一步提升,证明双通道特征提取后的自适应决策融合方式对纹理图像分类具有更优的表现,提升效果更为显著和稳定。
在模型复杂度上,表9数据表明,原始BCNN(vgg16)模型具有最高的模型复杂度,其参数规模较大。由于KTH-TIPS,KTH-TIPS-2b和UIUC数据集规模较小,容易导致模型的过拟合,分类精度较低。为了避免模型过拟合带来的影响,采用参数规模更小的ResNet18对双线性网络进行改进,模型复杂度得到了很大程度上的降低。同时,实验验证本文模型在小型数据集上的分类效果具有明显的提升作用。在基于纹理融合的改进模型中,由于采用双线性训练,模型计算量具有一定程度的提升,可以避免过拟合的影响,实现分类精度的提升。相较于B-ResNet18(0.5add)模型,本文模型增加了自适应融合模型,计算复杂度提升较少,为0.12 GFLOPs,但由于自适应融合策略的改进,分类精度仍能实现不同程度的提升。
综上,本文针对双线性模型的改进和双通道融合策略的改进,能够在分类效果以及分类效率上起到有不同程度的提升作用。
Table 10 Weighted average evaluation index of model on common datasets表10 模型测试公共数据集的加权平均评价指标
5 结束语
本文对复杂情境下的纹理图像分类方法进行了2方面的改进。一方面是将原始图像与类间最大差异性纹理特征图像进行通道方向的融合,采用纹理特征图像的原图信息进行补充和加强,提高捕获信息的全面性。另一方面,在融合方法上进行改进,采用决策融合方法,构建多层的分类子网络,赋予模型自适应调整通道权重的能力,达到最优融合效果。将本文模型在4个公开数据集上进行实验,与其他主流模型相比,本文模型识别效果有明显提升,达到的平均识别效果更好,证明了本文模型在不同规模和方向的纹理数据集上都能取得稳定的分类效果。下一步改进方向是提升纹理描述符的特征表述能力,能够捕获更完善的纹理信息,提高模型的综合能力。另一方面,将本文模型在医学、工业检测等方面进行应用,在工程领域寻找更具适应性的特征改进方向,针对性地对本文模型进行改进。