基于深度哈希的数字档案图像检索方法＊

2023-10-15湖州师范学院信息工程学院陈静雯成新民王少阳周阳费志高

数字技术与应用 2023年9期

湖州师范学院信息工程学院陈静雯成新民王少阳周阳费志高

针对数字化档案图像检索存在的检索效率差、耗费大量存储空间等问题，本文以ResNet50 作为主干网络，将最后一层全连接层替换为哈希层，以端到端的方式输出档案图像的二进制哈希码，利用汉明距离来衡量图像间的相似度，有效提高了数字化档案图像的检索效率并降低了所需的存储空间，为深度哈希方法应用至数字化档案图像检索中提供了一定的理论支持。

随着数码照片档案的不断普及，数字化档案已经逐渐取代纸质档案，成为档案存储的主要形式。数字化档案是指借助文字识别技术、计算机技术以及网络存储技术，将传统的纸质、声像等类型的档案转化为数字形式存储在数据库中。档案的数字化，满足了当代社会网络信息的传输需求。不仅如此，在档案信息数字化情况下，人们检索档案信息更加方便，能够实现档案资源的共享[1]。图像是记录档案的一种重要形式，它鲜活而准确地记录了事件的发生。理论上，使用图片来检索档案照片不会存在由于标注不准确而造成检索结果丢失或错误，可以大大地缓解馆员负担，便于发现照片档案间的关联与网络组织，有助于利用好重复的信息资源[2]。

数字图像档案面临的一大难题就是如何在图像数据库中搜索到目标图像。传统的数字图像档案一般是通过人工标注的方法，对图像上的事件、地点、人物等信息标注后进行检索，这种检索方法不仅耗时费力，由于人工标注存在的语义偏差，检索出的图像也会存在很大的误差。面对档案图像的急速增长，现有的图像检索方式已经不足以满足用户需求，将基于深度哈希的图像检索技术应用于档案管理，以解决档案图像检索存在的语义偏差问题、提高档案检索效率，就显得日趋重要。深度哈希由于其强大的学习能力和良好的可移植性而被应用于数据检索[3]。其目的是通过将高维图像数据转换为较为紧凑的低维二进制码，从而在很少的存储容量内保留更丰富的原始图像的信息，故目前常将深度哈希方法引入图像检索中，达到节省存储空间并且有效地提升检索效率的目的。本文基于深度哈希方法的特点，利用端到端的网络框架生成图像哈希码用于图像检索，实现一个档案图像检索系统，解决数字图像档案的检索问题。

1 数字档案图像检索研究背景

随着现代信息化技术的发展，档案数字化成为当下档案事业规划的重中之重。然而，当下大多档案管理系统仍是以关键字作为档案图像检索的主要渠道，这种方法并不能精确地找到目标图像，给档案管理带来了一系列困难，并且容易导致档案图像的重复上传，从而浪费了大量的存储空间。因此，基于内容的图像检索在档案图像管理中的应用就显得尤为重要。

早期所采用的档案图像检索方法大多都是基于文本的图像检索，随着深度学习的发展，利用图像深层特征来进行图像检索并应用于档案图像管理中成为了当下档案数字化发展的流行趋势。马双双等人[4]提到，档案工作数字化转型是适应数字中国发展战略、提高档案治理效能、实现档案事业高质量发展的必然选择和必经之路。江媛媛[2]等人从多个方面介绍了图像检索技术应用在档案管理中的优越性。任夏荔[5]等人提出了一种基于深度学习特征的主成分分析的图像检索方法。赵学敏等人[6]结合照片档案管理，构建了一个基于Keras 深度学习框架实现，使用深度学习模型为VGG16 网络模型，使用局部敏感哈希算法进行相似度匹配的照片档案管理系统。田思等人[7]探讨了人工智能技术在档案图像检索领域应用的必要性。李娟等人[8]提出了一种自动标注的档案检索方法，提升了数字图像资源的利用率。

综上所述，档案数字化是档案事业发展的必然趋势，档案图像检索是档案管理中的重要环节。而早期档案图像检索方法大多是基于文本的图像检索，随着基于内容的图像检索方法的提出，开始采用浅层图像特征进行匹配，但这种方法未能准确识别出图像中的高级语义特征，并且生成的高维特征占用较大的存储空间，从而导致检索效率低和准确率差等问题。故本文将深度哈希方法应用至档案图像检索中，一方面，深度神经网络用于提取图像特征以进行有效的内容表示；另一方面，使用哈希码代替图像高维特征能够有效降低所需存储空间并进行快速相似度计算。

2 方法介绍

深度哈希方法将深度学习与哈希技术相结合，通过深度神经网络获取图像的特征表示，进而得到图像哈希码。现有深度哈希方法可分为数据相关的和数据无关的哈希方法。数据无关的深度哈希方法中，图像哈希码是通过随机矩阵映射而来。如局部敏感哈希算法（Locality Sensitive Hashing，LSH）[9]通过随机映射得到哈希码。但这种方法通常需要较长的哈希码来提升检索性能，不能生成紧凑的哈希码，导致存储空间的浪费。而数据相关的哈希方法能够通过训练数据得到紧凑哈希码，有效提升检索效率。

数据相关的哈希方法还可进一步分为监督的哈希方法以及无监督的哈希方法。无监督的哈希方法不依赖数据标签，仅使用图像信息来学习哈希函数，如ITQ[10]、SH[11]以及无监督深度哈希DeepBit[12]、HashGAN[13]等，但这种方法通常由于缺少数据标签而导致图像语义信息的缺失，不能获得一个良好的检索效果。而监督的哈希方法能够充分利用图像数据的标签信息，获得比无监督哈希方法更好的效果，如HashNet[14]、DPSH[15]、DBDH[16]等都是较为典型的监督深度哈希方法。故为了有效地从档案图像集中检索出目标图像，本文将监督深度哈希方法应用至档案图像检索中。

现有深度哈希网络大多以端到端的方式生成图像哈希码。如图1 所示，为使检索的效率及准确率有所提升，本文采用ResNet50[17]网络作为主干网络进行特征提取工作。ResNet 网络是一种残差网络，由多个残差块堆叠而成，以一个超深的网络学习图像的局部及全局特征。其中，ResNet50 网络模型由五个部分组成，共包含了49个卷积层和1 个全连接层，第一部分为一个卷积层，第二到第五部分为残差块，最后一部分为全连接层。本文将最后一层全连接层替换为哈希层，以端到端的方式直接输出图像近似哈希码。最后通过符号函数将其转化为图像哈希码，提升图像检索效率。模型训练时，损失函数同时考虑成对损失和哈希码平衡[16]，保留档案图像间的相似性并将+1 和-1 的出现概率分别保持在50%。具体过程描述如下:

图1 基于ResNet50 的深度哈希网络结构图Fig.1 Deep hash network structure based on ResNet50

对于图像特征匹配，采用汉明距离衡量图像间的相似度，具体计算过程如公式（2）、公式（3）所示:

令Oij表示bi和bj之间的内积:

则bi和bj的汉明距离为:

档案图像实现图像检索功能，给定一张图像，希望能够从已有档案图像数据库中检索出与之相似的图像。为获得较好的检索效果，本文首先训练深度哈希网络模型，利用训练好的网络模型为档案图像进行特征提取以获得图像的近似哈希码，然后使用符号函数将近似哈希码映射为用于图像检索的哈希码，最后进行图像特征匹配，并利用汉明距离衡量图像间的相似度。

3 实验

本文实验使用Python 作为编译语言，采用pyTorch框架实现。

3.1 档案图像数据集收集与预处理

本文从中国档案资讯网、浙江档案网、湖州档案信息网以及以历史人物景点为关键词检索等渠道获取公开的图像1230 张，考虑到档案图像的特殊性，对获取到的图像进行灰度处理。之后，对图像进行裁剪、旋转等操作进行数据扩增得到共13530 张图像作为档案检索数据集以满足图像检索需求，其中档案图像数据集中的部分图像如图2 所示。

图2 档案数据集中部分图像Fig.2 Part of the image in the file data set

在将档案图像数据集输入到网络模型前需要进行数据集的划分。本文将数据集按6:3:1 的比例将数据集划分为数据库、训练集和测试集。

为能够准确提取档案图像的特征信息，需要对输入网络的图像数据集进行预处理工作。由于本文所获取到的图像数据集存在着大小不一致的情况，故首先将对图像的尺寸进行预处理工作，将它们统一处理成尺寸为224×224 大小的图像。其次，为提高数据的表现力，对图像进行数据标准化处理，即去均值、归一化处理，本文采用ImageNet 数据集的均值和标准差进行标准化。

3.2 深度哈希网络模型的训练

在训练时，需要对参数进行微调。本文采用RMSProp（Root Mean Square Prop）算法对网络进行优化，初始学习率设为5×10-5。图像的Batch Size 设为128，权重衰减系数设为1×10-5。采用预训练的ResNet50 作为网络模型的主干网络，成对损失和量化损失相结合作为模型训练的损失函数。训练结束后，可以得到多个训练后的网络模型，根据平均检索精度（mAP）[18]等指标选择最优模型，利用该网络模型对档案图像进行特征提取。

3.3 提取图像特征信息

要准确地匹配待检索图像与数据库图像的特征信息，最重要的是对档案图像特征的提取。利用训练后得到的网络模型，计算档案图像数据库图像的哈希码，为每张图像生成一个图像特征向量，所有图像特征向量构成图像特征库。

3.4 图像特征匹配

提取到待检索图像的哈希码，与数据库图像的特征向量集进行对比，一一计算待检索图像哈希码与数据库图像特征向量之间的汉明距离，得到最后的相似图像序列。汉明距离即比较向量的每一位是否相同，即进行异或操作，求出不同位的个数，用来表示向量间的相似度。汉明距离越小，表示两张图像间的相似度越高。

在存储相同数量的图像特征时，深度学习方法生成的图像高维特征占用30.74MB 的存储空间。而深度哈希方法则仅占用1.97MB，有效节约图像检索的存储成本。具体实现效果如图3 所示，可以看出，深度哈希方法在档案图像检索中取得了良好效果。

图3 档案检索实现效果Fig.3 Implementation effect of file retrieval

4 结语

传统档案检索大多都是基于人工手动标注并使用关键字来检索目标图像，容易存在语义偏差而导致检索的结果也存在着很大的误差。故本文将深度哈希方法引入到档案图像检索中，有效提取图像特征值用于图像检索。基于深度哈希方法能够以较少的存储容量保留更丰富的原始图像信息的特点，本文以一种端到端的方式生成档案图像二进制哈希码，并利用汉明距离来衡量图像间的相似度，得到图像的相似序列，达到在管理档案图像时避免重复上传而导致的存储空间的浪费以及提升图像检索效率的目的。虽然本文所采用的数据集存在着数据样本量小、不能完全模拟档案图像数据等问题，但一定程度上降低了图像特征的存储空间，提高了检索速度，为深度哈希方法应用至档案图像检索中提供了一定的理论支持。