APP下载

基于小波散射网络下的图像检索

2019-01-10文介华谭立辉

广东工业大学学报 2019年1期
关键词:小波检索卷积

文介华,谭立辉

(广东工业大学 应用数学学院,广东 广州 510520)

随着互联网以及各类视觉设备的普及,存储的图像和视频早已不计其数,从而使得在海量图片中检索出与目标图片相似的图像变得极为困难. 因为这不仅需要考虑检索的准确度,还需要考虑检索所需的时间. 传统的图像检索方法主要分两种:一种是基于标签的图像检索(Text-Based Image Retrieval,TBIR),另一种是基于内容的图像检索(Content Based Image Retrieval,CBIR). TBIR方法主要是通过图像的关键字和标题等标签信息进行图像的检索,而CBIR主要是通过提取图像的特征,通过相似性度量、排序得出目标结果. CBIR一直是图像检索领域内的重心,而影响其检索效果的关键在于其提取的图像特征. 好的特征不仅对图像检索精确度有很大的帮助,在检索速度上面也有极大的提升. 主要的特征提取方式有:基于颜色的,一般采用颜色直方图实现检索;基于纹理方面的,有PHOG、LBP、Gabor等方式;基于形状、轮廓方面的,一般使用形状上下文描述子,这种不仅适合刚性物体,也对非刚性物体有较好的鲁棒性[1-4]. 这些经典的传统算法虽然很实用,但提取的特征一般比较简单和粗糙.

近年来,随着深度学习的兴起和发展,利用深度学习方法来提取图像的复杂特征成了研究的热点.深度学习提取的特征属于高层语义特征,它能更好地表达图像的内容和细节. 最近,研究者们提出了一种专门为计算图像之间相似度而设计的一种深度学习框架——孪生卷积网络(Siamese CNN),它在实际应用中取得了很好的效果. 由于此网络是监督性网络,需要大量的标签样本,因此它存在着一定的局限性[5-7]. 为了改进这种需要监督的局限性,Mallat S等[8]提出来了一种新的小波散射卷积神经网络. 它已经在理论上证明了通过此方法提取的特征具有平移不变性和形变稳定性,而且这种网络为非监督的前馈式神经网络. 它的识别效果在小数据集上表现良好,已经被成功运用到图像识别和语音识别等领域[9-13]. 因为小波卷积神经网络优越的性能和完美的数学理论性质,为了拓广其应用背景,类比经典的卷积神经网络的思路,所以Wiatowski T等人不断完善并扩展延伸了小波散射卷积网络的理论及其网络结构,使得非线性化和池化在网络中得以运用. 这在一定程度上使得提取的特征实现了降维[14].

针对图像检索的复杂背景、大规模图像检索消耗的时间过长以及深度神经网络需要固定输入尺寸等问题,本文主要利用小波散射卷积神经网络做了以下工作:(1) 将小波散射卷积神经网络运用到图像检索领域;(2) 对每张图片构造对应大小的小波核,解决任意尺度输入问题;(3) 对小波散射提取的特征进行加工,以特征系数的均值和方差作为新的特征,从而降低特征维度来满足大规模图像检索在时间上的需求.

1 小波散射卷积神经网络

图像检索的先决条件就是提取图像的特征,而特征的好坏直接关系到图像检索的准确度和检索时间. 有一种做法就是将其转化到时频域,然后求其特征. 早期使用的方法是傅里叶变换,该方法是频域分析法,只能描述全局特征,且提取出来的特征只有平移不变性不具备形变稳定性. 而由傅里叶变换改进的小波变换,提取的特征满足形变稳定性,在时域和频域都有很好的表现. 但是,单纯的小波变换对特征并没有平移不变性,最新提出的小波散射卷积神经网络恰好弥补了这一不足[5]. 本节将具体介绍如何利用小波散射卷积神经网络提取图像的特征.

小波散射实际上是二维方向母小波通过缩放、旋转得到一组小波簇,在不同尺度的情况下对信号源进行滤波,然后通过尺度函数不断提取其高频信息的过程. 具体过程如下.

因为小波变换不具有平移不变性,所以维持其不变性需要加入非线性的度量. 这里取小波变换的模算子更一般的有[14-15]

为了更好地分类,本文采用局部低通滤波器——Gabor小波作为尺度函数来提取细节,即

由此可得小波传播算子为

Lumion,中文名称流明,是实时的3D可视化工具,没有建模功能,该软件开发年限较短(2010年11月),但因其优势明显,迅速被园林规划设计、建筑设计等行业广为利用,主要优势是:渲染和场景创建时间极短,可节省大量时间和精力,拥有丰富的3D材质和模型,支持高分辨率视频和图像输出,可视化效果逼真,是对Google SketchUp软件的良好补充。

其中前一个分量表达的是信号不变的高频特征,后一个分量为稳定的低频特征(散射算子).

每做一次低频散射,都会伴随着高频的丢失. 因此,在下一步操作时又得恢复高频. 通过路径的不断迭代,最终可得

这样,可得小波散射的网络结构,见图1所示.

图1 小波散射卷积网络结构图Fig.1 Structure diagram of wavelet scattering convolution network

因为在网络的每一层都有低频稳定的特征输出,故其特征集合为

Mallat S等[8]在实验中已经得到当网络深度达到3层时,散射能量可达到99%以上. 因此本文所取的网络深度为M=3.

2 基于小波散射卷积神经网络的图像检索算法流程

2.1 算法思路

图2 检索流程Fig.2 the retrieval process

2.2 特征提取

本文算法小波散射结果如图1. 图像先通过小波散射卷积神经网络提取小波散射特征系数,此处设置网络深度M=3,方向L=4,尺度J=3,这样可提取出散射网络在不同尺度和不同方向上对应的3层特征系数矩阵:第1层为1个,第2层为12个,第3层为48个.所有特征集合在一起为是第1层特征系数矩阵是第2层的特征系数矩阵是第3层的特征系数矩阵. 图3(a)、(b)分别是原图和小波散射之后的特征图.

图3 恐龙及其小波散射特征实例图Fig.3 The original image and its wavelet scattering feature example

根据小波散射的性质,已知第1层特征系数矩阵为全局特征,能量最大,但噪声也最大. 第2层、第3层特征系数矩阵为局部特征,突出细节. 本文主要是通过分析小波散射特征系数矩阵的第2层和第3层,并计算其特征系数矩阵对应的平均值()和方差()来实现在图像检索方面的应用,其定义为

其中Ss,k表示第s个尺度,第k个方向上个的特征系数矩阵. 因此,根据上述方法得到最终的特征. 第2层特征为第2层系数矩阵的所有的均值和标准差级联一起第3层特征为第3层系数矩阵的所有的均值和标准差级联一起

2.3 相似度计算

本文采用的欧氏距离来计算相似度,即特征向量之间的距离来计算相似度. 根据式(7)、(8)的计算方式,可以得到每张图片的特征向量同样可以计算出待检索图片的特征向量根据欧氏距离计算两张图片的相似度S,见式(9).

3 实验结果及分析

本文采用电脑配置Windows 7,i5-6600cpu,8 G内存,MATLAB R2014a编程实现. 本文使用的数据库为图像检索中常用的corel-1000图像库作为实验数据库,其中包含了土著人、沙滩、大巴车、恐龙等10类图像,每个类别为100张图片,其大小为384×256像素或者256×384像素. 本文使用查全率(recall)P作为评价指标.

式(10)中M表示返回的检索图片数量,表示在返回结果中相似的图片数量.

图4(a)、(b)分别为恐龙和公共汽车在本文算法上检索的结果.

图4 恐龙和公交图片的检索结果Fig.4 The dinosaur and the bus image retrieval results

3.1 算法步骤

基于小波散射变换的图像检索算法步骤为:(1) 图片统一进行预处理,归一化. (2) 对图库和待检索的图片进行小波散射变换,提取其小波散射系数特征(此处用的最大池化和绝对值的非线性变换). (3) 针对第2层和第3层的小波散射系数特征矩阵,求其均值和方差.(4) 利用式(9),对图库中每张图片和待检测图片进行特征欧氏相似距离计算. (5) 利用下面3.2寻找最优的超参. 然后代入最优的,得到图库的检索模型.(6) 加载一张需检索的图片,代入已求最优的检索模型,返回10张相似的图片.

3.2 求解超参的值

本文在非洲居民类(其余类别背景相对简单)中随机选取10张图片,每张图片检索并返回这10张图片的结果. 在遍历(0~1之间)时,累计检索出准确结果最多的点,就定为最优的点. 如图5所示.

3.3 不同算法的检索性能比较

表1为结果返回10张图片本文算法和文献[15-16]的所有图片平均查全率.

由表1可知,本文算法在corel-1000图像库上的图像检索效果总体上优于另外两种算法,尤其是在公共汽车和花等轮廓和纹理特征比较明显的图像上检索效果尤为明显. 其中,在文献[15]中,它用到的方法是对图片的HSV3个通道分别做小波变换,级联3个通道的小波特征. 文献[16]是图像的颜色矩和小波变换相结合. 两者都为小波变换的纹理特征和颜色特征结合,相当于多特征的融合. 本文算法仅仅是基于灰度图的小波散射系数特征(单一特征),但效果却更好,这也验证了本文算法的可行性和优越性.

图5 不同取值下的累计准确结果的数量Fig.5 The number of accumulated accurate results under different values

表1 3种算法平均查全率比较Tab.1 Comparison of average precision of three algorithms

4 结论

本文算法是利用小波散射卷积网络方法来提取图片特征并进行加工以实现在图像检索方面的应用,实验表明了我们方法的有效性和优越性. 但此方法仅从图像的灰度图的纹理特性着手,用到的特征较为单一,并不能完美地检索出所有图片,同时在寻找超参值方面也有一定的局限,因此算法还需进一步深入研究,以提高检索效果.

猜你喜欢

小波检索卷积
基于多小波变换和奇异值分解的声发射信号降噪方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
构造Daubechies小波的一些注记
基于MATLAB的小波降噪研究
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
基于改进的G-SVS LMS 与冗余提升小波的滚动轴承故障诊断
专利检索中“语义”的表现
国际标准检索