基于图像检索技术的图片管理研究
2020-07-10杨帆
杨帆
摘 要 為拥有大量图片的用户提供按照以面孔为单位进行图片管理的方法,同时能够在众多图片中快速定位图片,实现高效准确的图片搜索,提高图片管理和检索效率。
关键词 图像检索;深度学习;特征表示
引言
传统的检索方法通常选择一些为多媒体相似性搜索提取低级特征,如欧几里得距离或余弦相似性。基于内容的图像检索是图像检索的基础之一,该方法旨在通过分析它们的视觉内容搜索图像,从而形象地表现出目标图像。然而,固定的相似性/距离函数可能会造成复杂图像检索任务的失败,提取低层视觉特征的语义鸿沟以及高层次的人类感知成为检索图像的挑战[1]。
1基于内容图像检索的深度学习
通过对CBIR任务应用深度学习,给出了所提框架的总体视图,其中为了实现深度CNN学习,该模型已经成功地在imageNet的ILSVRC-2012数据集上进行了训练并找到状态[2]。
深度卷积网络框架由两部分组成:卷积层和最大汇集层以及完全连接层和输出层。在神经网络结构中第一层为输入层,该层像素均值中心原始RGB像素。利用两种增强数据的方法来避免过度拟合,可以简单概括为:首先在尺寸为256×256的原始图像中随机抽取补丁,补丁数为224×224,利用这些补丁生成了能够水平反射和平移的输入图像,这些补丁能够支持网络进行训练。其次,照明和颜色不变性的捕捉工作,添加RGB到整个数据集,其中对RGB像素值的主要分量作随机倍数的改变,模型中测试集误差将会至少降低1%。
输入层后五个卷积层中第一卷积层和第二卷积层为响应归一化层和最大汇集层,第三层、第四层和第五层则不具备汇集和归一化,仅体现为互相连接。神经元输出函数是非线性函数,整流线性单位(ReLU),另外所采用的“重叠池”方案在训练时所耗时间较长,最大池化步骤能够增强特征映射的变换不变性。
2CBIR的特征表示
通过扩展CBIR任务中学习特征表示的训练模型来研究有效的技术,主要来解决两类问题:第一,如何将训练有素的CNN从分类应用到ImageNet中的CBIR任务。第二,如何在新领域的CBIR任务的学习特征表示中推广训练有素的CNN模型[3]。
下面详细介绍两种泛化方法。
方案一:直接代表。
将训练CNN模型的原始数据集作为图片集,直接采用DF.FC1,DF.FC2和DF.FC3之一的激活功能。并将数据集中的图像馈送到预训练CNN模型输入层,再从最后三层获取激活值,以此获得特征表示,由于只需要基于矩阵乘法一次计算前馈网络,整个方案将非常有效。
方案二:通过模型再培训进行精炼。
通过使用ImageNet训练模型的参数初始化CNN模型,在新图像数据集上重新训练不同CBIR任务的深度卷积神经网络。根据可用的标签信息,有两种方法可以重新训练CNN模型[4]。
3面部图像标注结果与分析
使用Pubfig83LFW面部数据集上的第一和第三特征方案来评估基于搜索的面部图像标注性能,结果中可以发现:
(1)通过与众所周知的面部图像表示特征进行比较,方案一在面部图像数据集上表示较差。特别的是,(DF.FC1)的最佳MAP值仅为0.51。
基于KNN注释方法,通过比较方案一和方案二的Precision-Recall可以看到,采用方案二可以显著提高检索性能。这一结果再次验证了CNN模型在新领域中学习有效特征的良好泛化性能。
通过使用方案二并在新的面部图像数据集上重新训练新的深CNN模型,可以显著提高深度特征的性能[5]。
4结束语
通过介绍基于内容的图像检索中(CBIR)的表示问题,目的是评估深度学习是否是希望在长期内弥合CBIR中的语义差距,以及通过探索最先进的深度学习技术,实现CBIR任务的实质性改进特征表示和相似性度量。在大规模数据集上预训练的深度CNN模型可以直接用于新CBIR任务中的特征提取;通过预先训练的CNN模型提取的特征可能会或可能不会比传统的手工制作的特征更好,但通过适当的特征提炼方案,深度学习特征表现出始终优于所有数据集上的传统特征;当在新域中应用特征代表时,能够发现相似性学习可以进一步提高预训练深度模型的直接特征输出的检索性能。
参考文献
[1] Agnieszka M,Michal G.Data augmentation for improving deep learning in ima-ge classification problem[C]. 2018 International Interdisciplinary PhD Workshop.IEEE,2018:117-122.
[2] Perez L,Wang J. The Effectiveness of Data Augmentation in Image Classification using Deep Learning[J]. Computer Vision and Pattern Recognition,2017(12):12-22.
[3] Felea I,Vertan C,Florea L. The use of deep learning in image segmentation, classification and detection[J]. Computer Science,2016(3):6-15.
[4] Asadi-Aghbolaghi M,Albert Clapés,Bellantonio M,et al. A Survey on Deep Learning Based Approaches for Action and Gesture Recognition in Image Sequences[C].IEEE International Conference on Automatic Face & Gesture Recognition. IEEE,2017(1):476-483.
[5] Litjens G,Kooi T,Bejnordi B E,et al. A survey on deep learning in medical image analysis[J]. Medical Image Analysis,2017(42):60-88.