基于多特征融合的织物图像检索
2021-11-13冯益青
李 锋,冯益青
(东华大学 计算机科学与技术学院,上海 201620)
0 引言
图像检索问题起源于 1970s末期,早期的研究主要是基于文本的图像检索(Text-based Image Retrieval,TBIR),它利用文本标注的方式对图像的内容进行描述,为每幅图片形成相关的描述特征的特征标注文本,在进行图像检索时,用户可提供待检测图像的关键字,检索系统将根据关键字检索出描述特征相符的结果,并将结果反馈给用户。但是,基于文本的图像处理不仅耗费巨大的人力、财力,使图像的检索效率有极大的局限性,而且图像的丰富内容很难由极短的文本清晰的标注出来。故传统的检索技术,例如基于文本的图像检索,已不能完全满足人们的要求[1]。由于基于文本的图像搜索存在许多的问题,1990s出现了基于内容的图像检索(Content-based Image Retrieval,CBIR)[2],它通过提取图像本身的内在特征例如颜色、形状、纹理、区域空间关系等图像特征,并比较这些视觉特征的相似性,从而筛选出符合用户要求的图片。相对于基于文本的图像检索,基于内容的图像检索利用图片内容的底层特征对图像进行检索,融合了计算机视觉、图像处理、图像理解和数据库等多个领域的研究成果,其中特征的提取有专门的特征算法完成,有效的避免了因人工参与而产生的主观因素的影响。目前,随着机器学习、深度神经网络等技术的不断完善和发展,出现了基于语义的图像检索。基于语义的图像检索立足于图像的语义特征,研究如何将图像的低层视觉特征映射到图像高层语义,使计算机检索图像的能力达到人的理解水平[3-4]。
本文在基于对图像检索背景的分析下,进一步考虑到相关的具体应用。科技的快速增长使得纺织行业飞速发展,织物图片不断增加。中国作为全世界最大的纺织品服装生产和出口国,保证纺织行业的可持续发展十分重要[5]。织物是纺织行业生产和发展的主要资源,每天都有成千上万的数据流动,图像作为织物的主要呈现方式,如何快速准确的从图库中取出符合用户需求的织物图片成为生产商和销售商面临的主要问题。不管是花型设计、库存管理还是材料采购等方面,判断样品花型图案是否存在,以及具体的库存位置都离不开图像检索技术。所以,本文结合现存图像检索技术和市场织物检测的需求,将图像检索的相关技术应用到对织物图片的检索,通过对织物图片的分析和技术的改进,希望能在织物检索的精确度上得到提高并缩短时间,这对于后续有关图像检索的性能和评估都有一定的参考意义,同时在解决目前市场对织物检测的把控和纺织业的可持续发展也起到一定的推动的作用。
1 方法
1.1 图像预处理
为了降低图像像素、尺寸不均等因素影响,有效地提取出织物图像特征信息,在织物图像特征提取前需要对初始织物图像进行预处理。本文预处理是将图片格式化成相同的尺寸。
1.2 特征提取
为克服单一特征提取的信息量有限,无法全面描述织物图片的内容的难题,并且结合织物图像自身的特点,依次提取织物图像的颜色特征、LBP特征、GLCM特征、SIFT特征,实现多特征融合。
1.2.1 基于颜色直方图的颜色特征
颜色特征是图像检索领域使用很广泛的特征。因为图像大部分都具有丰富的颜色信息,且图像颜色的提取很方便,已经形成了很多成熟的颜色提取方法。此外,颜色特征在差异性判断和相似性判断时,不仅效果好而且速度快。直方图是对图像数据进行统计的一种方法,可统计每一个强度值所具有的像素个数。
因为颜色特征的众多优势,首先选用颜色特征作为融合算法的基本特征。为了充分利用图像的颜色信息,考虑将图像的颜色信息进一步分解。图像有多种格式的颜色空间,其中最常见的是RGB空间。RGB颜色空间是由红色、绿色和蓝色三个颜色通道构成的。现有的许多图像检索方法都是直接考虑图像颜色信息的RGB整体表达,并没有从三个通道上独立的去提取特征。
本小节检索方法的主要思路是,将待检索图像和数据库图像从红色、绿色、蓝色三个颜色通道上的颜色信息出发,分别提取各颜色通道颜色信息并生成其相应颜色直方图,最终综合三个通道特征比较结果得出检索结果,并以此增加图像检索的精度。图像中的三个通道颜色所占的频率可分别通过颜色直方图直观显示,对图像特征提取结果的统计如式(1)所示,其中rk为像素的颜色等级,nk表示该颜色级为 rk的像素数量,n为图像像素总个数。
在采集图像的过程中,可能会因为光照等外在因素对图像产生噪声干扰。为了减少噪声对原始图像的干扰,可以采用图像平滑的方法对灰度直方图进行平滑处理,从而减少噪声对距离计算造成的影响。实质上图像平滑是一种低通滤波,它的目的就是减少突变梯度,把图像的亮度平缓渐变,从而改善图像的质量。对灰度直方图进行插值平滑处理为公式(2),表示把当前像素灰度值的2倍和该像素水平方向前后领域各像素的灰度值求和,然后求平均值,再将此平均灰度值再重新赋给当前像素。经过平滑操作会减少噪声对织物图像检索的影响,增强检索的准确率。
其中 f(i)为当前处理的像素的灰度值,f(i–1)为水平方向前领域的像素灰度值,f(i+1)为水平方向后领域的像素灰度值。
1.2.2 基于局部二值模式的纹理特征
颜色是图像检索领域使用很广泛的特征,但是由于织物图像的信息丰富,若单一的使用颜色特征可能会使得图像信息提取有限。纹理是反映图像里同质现象的一种视觉特征,它表达了物体表面具有周期性变化或缓慢变化的表面结构组织排列属性。纹理有着三大标志:不断重复某些局部序列性、非随机排列、纹理区域内为均匀的统一体。特别的,纹理特征不同于颜色特征,它通过综合像素值和其周围邻域的灰度来表现。纹理特征对于图像内容的区域性表达很有代表性。且同颜色特征一样,纹理特征的提取也比较方便,已经形成统计型纹理特征、模型型纹理特征、信号处理型纹理特征、结构型纹理特征等在内的多种纹理特征类别。
LBP(Local Binary Pattern)即局部二值模式[6,7],是一种典型的用于描述图像局部纹理特征的算子,由于其特征计算简单、检索效果好、具有灰度不变性和旋转不变性等多个显著优点,其在多个计算机视觉领域都得到了广泛的应用,其中比较著名的是LBP在人脸识别和目标检测中的应用。故本文选用LBP算子进行图像纹理特征的统计。
经过LBP算子的计算之后,图像的每个像素都会产生对应的 LBP特征值,本文定义 LBP计算时的采样点为 8个,形成的 LBP特征也是 0~255,也可表示为图像,一般称之为 LBP图谱。根据形成的LBP特征可以统计各特征值个数,从而形成一个直方图。把生成的直方图作为一个长度为256的向量。
在实际应用过程中,若直接使用该向量,一张图像至多生成一个长度为256的向量,可以反映图像灰度的像素值出现的次数,但是将会丢失图像的全部位置信息,造成重大的精度损失。故本文将图像分成4×4个区域,统计每个子区域的直方图向量,生成特征向量的维数为 256×4×4,然后再将各子向量结合表达织物图像的LBP纹理特征,并以此在控制检索时间的同时,尽可能的增加检索精度。LBP处理图像过程如图1所示。
图1 LBP处理图像过程Fig.1 The process of image processing by LBP
1.2.3 基于灰度共生矩阵的纹理特征
LBP是一种有效的局部纹理描述算法,将其与直方图结合可以实现纹理特征的描述。为了充分提取图像的纹理特征,对纹理特征继续进行深入研究,发现了Haralick等人提出了基于纹理特征的灰度共生矩阵表示法,这个方法提取纹理的灰度级相关性,根据像素之间的距离和方向建立灰度共生矩阵(GLCM),并由此灰度共生矩阵结合数学、物理等理论知识,提取有意义的统计量作为纹理特征向量。灰度共生矩阵是一种较为成熟的统计型纹理特征,其具有较好的适应能力和稳健性,在服装图像的检测和分类也有着较为广泛的应用。
灰度共生矩阵不能用来直接表示纹理特征,为了从灰度共生矩阵中得到更多的信息,将进一步计算它的能量、对比度、熵、逆差距。其中 L表示灰度图像的灰度级,P(i,j)表示GLCM中灰度值分别为i和j的像素对的条目数值[8]。
中心对称二值模式(Center symmetric local binary pattern,CS-LBP)是一种描述局部纹理的描述算子,是在LBP的基础上延伸而来的,它与基础的LBP算子相比降低了一半的数据维度,减少了一半的计算量。如图2所示,LBP计算时以nc为中心点,计算八个邻域上中心点与像素点差值的符号,若符号为负则赋值为0,反之赋值为1,按照 n0顺时针编码,最后将编码后的数据赋给nc。CS-LBP是对中心对称点的亮度差进行编码,即秩序编码四个方向上的梯度符号,LBP可以得到 2N个编码数,故 LBP算子的维度为 2N。而CS-LBP可以得到2N/2个编码数,相比于LBP,CS-LBP的计算量减少了一半。
图2 LBP和CS-LBP计算过程Fig.2 LBP and CS-LBP calculation process
在半径为 R的圆形区域里,中心点为(x,y),其中 ni和 ni+N/2是中心对称的两个像素点的灰度值,T为取值范围为[0,1]的阈值。
由于LBP算子编码的数据维度很高,本文将以步长为1,角度为0度、45度、90度、135度分别提取灰度共生矩阵,并计算它们的能量、熵、对比度和逆差距。在计算灰度共生矩阵时,为了加快速度,将设置16个灰度级,即GLCM本身需要降低灰度级,LBP与中心点比较大小,编码大小为256,CS-LBP与对称点比较大小,编码大小为16。CS-LBP直接生成16灰度级的特征图而LBP生成的灰度级是256。由于GLCM本身需要降低灰度级,而CS-LBP直接生成16灰度级的特征图,故本文选用CS-LBP与GLCM结合检测,以此提高检索精度和速度。
1.2.4 基于尺度不变特征变化的形状特征
LBP算法和GLCM算法都是从纹理的角度对织物特征进行全局统计,织物的印花形状或其他图案的形状也是织物的重要信息。故为了提高系统检索的准确率,织物的形状特征不可忽略。SIFT[9-12]即尺度不变特征变换,可以检索出图像中的关键点,是一种局部特征描述子。SIFT有许多优点,具有很好的稳定性和不变性,可以适应尺度缩放、旋转和亮度的变化,在一定程度上,还能不受视角变化和噪声的干扰;区分性好,可以在海量图像库中快速准确的进行匹配;多量性,一张图片会产生多个特征点;可扩展性,能够和其他的特征联合。SIFT可以准确的描述图像局部信息,主要检索角点、拐点等等信息,SIFT可很好的统计局部特征。
使用SIFT进行特征提取的四个步骤:生成高斯差分金字塔(DoG)构建高斯差分尺度空间;利用高斯拉普拉斯函数(LoG)检测多尺度空间极值点,选择DoG空间中的局部极值作为候选关键点;基于梯度方向的局部直方图,为每个关键点分配一个或几个主方向;为每个关键点复制一个128维方向参数并生成关键点描述符。图3是使用SIFT取织物图像的特征点。
图3 使用SIFT取特征点Fig.3 Use SIFT to get feature points
1.2.5 织物图像相似性度量
主要思想是对待检测图像和数据库中图像利用计算机视觉和图像处理技术分析并提取其自身的视觉特征,并映射为特征向量的形式来描述图像所包含的内容,然后选取适合的距离度量函数,根据提取的特征向量之间的距离来衡量样本图像与数据库图像间的相似度,从而实现从数据库中检索出目标图像的目的。
不同的相似性距离度量方法展现的效果不同,本文针对不同的特征向量采用不同的相似性距离度量方法。采取暴力匹配度量尺度不变特征变换,采用归一化度量颜色直方图、灰度共生矩阵、局部二值模式[13]。
2 特征融合
对经过图像处理提取特征的结果进行分析,根据每种特征值挑选相似图片的精准度、决定各特征在加权融合中所占的权重。各特征权重的选择尤为讲究,本文各特征的初始权重根据各特征的搜索准确度来分配。
加权融合算法[14]定义为:
式(9)中:Lh,Lg,Lb,Ls分别HIST特征、GLCM特征、LBP特征、SIFT特征待检测图片与图库中各图片特征向量间的距离;wh,wg,wb,ws为分别直方图、GLCM、LBP、SIFT特征对应的权重。
多特征的融合[15]可以全面表达图片内容,加大搜索精度,也可以有效避免单一特征不准确、单一特征的局限性、图像内容表达不完全等等问题,故多特征的良好融合尤为重要。
3 实验结果
准确率测试的数据集为1 000张512×384的纺织织物图像,其中包含事先标定的花朵印花、天空印花、波点印花、几何印花、卡通印花各16张,剩下920张为其他类型的织物印花,系统的检索准确率是对衡量系统性能的一个很重要的部分。本节根据多特征融合[1]的织物图形检索系统设置对比试验,进行系统的准确率测试。主要是将本文的特征融合检索方法与基于单一特征的织物图像检索方法进行对比实验。分别从单个特征和特征融合检索的查全率和查准率对本系统进行测试。本文从查全率和查准率两个角度对该系统进行检索准确率分析。
查全率是从数据库中检索出相关信息量和总量的比率。查准率是检索出的相关信息量和检索出的全部信息的百分比。将两者综合起来,可以有效的表示图像检索系统的检索效率。
查准率和查全率[1]的定义如式(10)和式(11)所示。
其中P表示查准率,R表示查全率,m表示检索到的图像总数,n表示图像库相关图像的个数,t表示正确检索到相关图像的个数。
分析以上公式可知,若查准率较小,表明算法的检索精度低;若查全率较低,说明检索到了大量不相关的图像。一个优秀的检索算法要求查全率和查准率较高。
在本次测试中,对基于每种特征检索出的前6张图像进行查准率评估,对每一种特征分别采用10张不同的图片进行10轮检索,以获得最终的平均准确率。其中,多特征融合的方法采用了经过权重反馈后的权重参数进行检测,各花型的查准率测试结果如表1所示。
表1 各花型查准率测试(单位%)Tab.1 Accuracy test of each pattern (unit %)
测试过程中,系统会在数据库中对样本图片按相似度排序,由于测试样本中事先标定的每种待检测印花均为16张,因此对基于每种特征检索出的前16张图像进行查全率评估,使用不包含于测试样本中的不同织物印花图案对所标定的每种印花织物进行 10轮检索,统计最终的平均查全率。各花型的查全率测试结果如表2所示。
表2 各花型查全率测试(单位%)Tab.2 The recall rate test of each pattern (unit %)
从表 1中可以看出对于天空印花这类纹理特征不明显,但是色彩特征较为固定的织物印花,颜色直方图的准确率相对较高,而对于波点印花这类颜色不固定,纹理特征规律且明显的织物印花,LBP与GLCM这种基于纹理的检索方式能获得相对更高的准确率,而对于花朵印花这类颜色鲜艳、形状特别、但纹理不均匀的织物印花,基于颜色直方图与 SIFT特征的检索方式会获得相对较高的准确率。
从表1与表2的对比可以看出当某种特征对某种印花的查准率越高,则相应的查全率也越高,查全率普遍低于查准率。但使用多特征融合以后查全率与查准率都有了一定程度地提升,这说明了采用多特征融合机制的正确性与必要性。
对两表进行分析,将多特征融合的查全率、查准率和单个特征的查全率、查准率对比,发现不同的特征对不同印花的敏感度不同,多特征融合的目的是在融合之后使得系统向检索精度最大的特征靠近,使得系统有较强的适用性。
4 结论
纺织行业的快速发展,大量花色、形状不同的织物图片信息由此产生。如何从海量的图像库中快速、精准的找出满足用户需求的图像资源信息,成为了图像处理领域的极具挑战性的研究性课题。本文对颜色直方图、局部二值模式、灰度共生矩阵、尺度不变特征变换进行融合,解决了单一特征的不准确、表达图像信息有限的缺点。运用特征权重融合各个特征,最后通过实验表明了多特征融合的有效性。本文方法在织物图像检索方面较一些传统的方法有优异的性能,但也存在不足之处,因此下一步的工作,将各权重修改成动态修改。