深度学习在数字图像档案智能检索中的应用研究

2021-06-29李娟王瑞良

数字技术与应用 2021年5期

李娟王瑞良

(1.中原工学院,河南郑州 450007;2.中国广电河南网络有限公司郑州市分公司,河南郑州 450000)

0 引言

随着信息技术的发展与信息设备软硬件性能的快速提升,人们在企事业单位及日常生活、工作中利用数字成像设备(如手机、数码相机)形成了海量的图像、视频等数字化的影像档案,这类档案蕴含着比其他类型更加丰富的档案信息,记录并管理着人类历史的进程,而如何从这些大规模的数字化档案中快速有效地检索出用户所需要的图像,增强档案管理的数字化、智能化,成为当今档案管理工作的主要问题之一,也是创造档案最大化社会效益的手段之一。

近几年,人工智能技术迅速崛起,人们获取信息和使用信息的途径也得到了迅猛的发展,如图像分类、图像识别已应用于现代社会中的各个领域,且发挥着越来越重要的作用。将基于深度学习的图像识别技术应用于档案管理工作中,并提高档案检索效率,是数字档案信息资源管理工作中的重要组成,也是利用计算机对其进行智能化的、高效的处理亟待解决的问题。

1 数字图像档案存储与检索的研究现状

数字图像档案的存储与检索目前采用的方式复杂多样,但大部分数字图像数据都采用表+实体的方法来存储,即将数字图像存储在文件系统中,数据库表只提供一个字段存储图像数据文件的存储路径,这种管理模式将路径与图像分开存储,容易造成二者的不一致性,给档案的管理和维护工作带来了一定的难度,同时也大大降低了档案的安全性。随着大数据的发展与非结构化数据库的出现,将图像文件与其他数据同时存储在数据库当中是十分有必要的,这样就避免了数据的不一致性,也增强了数据的安全性和可迁移性。

数字图像档案面临的另一个难点是如何对数据库中的图像进行检索,传统方法是进行人工标注图像内容,这种方式已无法与现在媒体的产生速度相匹配了,不仅耗费大量资源,且容易出错。张倩[1]等人根据内容和性质,将信息集合到一个预先设定的类别中,当用户查询某个关键词时,搜索引擎只根据这些描述进行检索,提高所需信息的命中率;郑国富[2]等人是先对图像内容进行分类,再提取用的需求特征,当然用户进行检索时,将检索内容进行转变,并进行相似度匹配,从而查询出有用的信息;姬凤英[3]等人是在输入图像时提取图像特征向量,根据用户指定的查询特征利用距离函数与数据库中的特征向量进行相信匹配,并分级进行检索,先进行纹理匹配再进行颜色等其他特征的匹配以提高检索的准确率。

以上方法的缺陷是特征由人工选取,选取什么特征、选取多少特征,直接决定了提取特征向量的好坏。而且,对于一些类别之间差异细微、图像干扰严重等问题,利用传统的机器学习方法进行的识别精度将大打折扣。

随着数字图像档案的海量增长,信息检索的效率逐渐满足不了档案工作的需求,因此,本文将利用深度学习方法解决数字图像档案的智能检索问题。

2 Faster R-CNN图像检测技术

在继2014年Rcnn[4],2015年Fast R-CNN[5]后,2016年Shaoqing Ren,Kaiming He,Ross Girshick 等人共同提出了Faster R-CNN[6]物体检测的卷积神经网络模型。Faster R-CNN 其结构描述如图1 所示,最左边是输入图片,经过卷积层得到特征图(feature map)。基于该特征图,通过区域生成网络(RPN)提取区域推荐窗(region proposals),每张图片生成300个推荐窗,把这些推荐窗映射到CNN的最后一层卷积特征图上;再由基于兴趣区域的池化层(RoI pooling)生成固定尺寸的特征图;最后利用Softmax Loss和Smooth L1 Loss对分类概率和边框回归联合训练。

图1 Faster R-CNN 网络结构图Fig.1 Faster R-CNN Network Sstructure Diagram

Faster R-CNN使用了两级探测器,由三个重要部件组成:共享底层卷积层、区域推荐网络(RPN)和基于兴趣区域(ROI)的分类器。RPN网络主要用于生成region proposals,首先生成一堆Anchor box,对其进行裁剪过滤后通过softmax判断anchors属于前景(foreground)或者后景(background),即是物体或者不是物体,所以这是一个二分类;同时,另一分支bounding box regression修正anchor box,形成较精确的推荐。ROI Pooling层利用RPN生成的推荐和VGG16 最后一层得到的特征图,得到固定大小的推荐特征图,进入到后面可利用全连接操作来进行目标识别和定位。Faster R-CNN 的核心思想是用RPN代替之前的Selective Search(选择性搜索),将提取的推荐框由2000个减少为300个,质量高、数据量少,解决了求出所有可能的候选框非常耗时的问题,且卷积网和Faster R-CNN部分共享,检测速度大幅提升。

图2是Faster R-CNN网络在PASCAL VOC2007 数据集中的检测结果。模型采用VGG-16,获得这些结果的运行时间大概每幅图像是198ms。从结果来看,通过Faster R-CNN 可以找出图中有哪些对象,并标记出这些对象的具体位置信息。

图2 Fast R-CNN 目标检测案例Fig.2 Fast R-CNN Target Detection Case

3 检索模式设计

3.1 图像档案的存储模式

在数字图像档案信息的存储阶段,考虑到图像检索与操作的一致性,将摒弃传统的关系数据库表,采用非结构化数据库(如TRIP)作为存储的首选方案。非结构化数据库对字段长度没有上限,不影响存储空间,而且采用面向对象的大对象机制,该类数据库专门有一个二进制数据的存储字段,能存储多达200多种不同格式的电子文件,也提供有字段用于存储文件原始的base64编码,即可将文件原始内容全部存储至数据库中。因此,若一份档案文件关联若干子文件或图像,档案文件实体及其子文件(或子图像)的实体元数据均以子记录的方式存储于数据库中。图像元数据中需增加检测对象和目标位置及精确度三个子字段来描述抽取后的内容,如表1所示。

表1 图像子记录元数据表设计Tab.1 Design of Image Sub-record Metadata Table

由于一幅图像可能识别出的物体种类较多,可对检测对象字段、检测对象和目标位置及精确度进行子字段设计,即一个字段可以存储多项信息。例如,一本书的作者有若干名,即可将作者设置为子字段的方式将每位作者存储其中。

3.2 图像检索流程

整个数字图像检索模块可如图3 所示,由存储模块、训练模块和检索模块构成。其中存储模块负责档案文件的存储,包括各类文件的原始数据、提取的元数据以及对图像数据预检测部分;训练模块则根据用户预设的分类内容对样本进行训练,找到适用本项目的参数配置及网络结构;检索模块则依据用户输入的检索关键字,通过搜索引擎查询出符合用户描述的图像。

图3 检索功能结构图Fig.3 Retrieval function structure diagram

下面分别介绍这几个模块:

(1)图像训练模块。该模块以PASCAL VOC2007 数据集作为训练样本基础,结合档案所需要类别,对训练样本进行适当修改,仍以VGG16 作为预训练网络模型作为基本网络,对Faster R-CNN 进行训练,并获取相关网络模型的参数。

(2)图像存储模块。该模块将原始图像以二进制编码形式存储在数据库中,同时将该图像进行预处理,以提高检测的准确度,如:对图像进行几何变换、去噪、去模糊等处理。然后将处理后的图像送入训练后的Faster R-CNN对象检测模型进行目标识别,将识别出的类别、位置及精度信息依次存入至数据库中。

(3)搜索引擎。该模块针对前期图像提取的对象检测结果,在数据库中,先检索出含有相同的目标的所有图像,并对其标注的精确度使用排序算法进行从大到小的排序,同时可将位置信息标注在图像上,最后显示到用户的检索结果界面中。

4 总结

本文提出了一种基于深度学习技术的智能数字图像档案检索模式,不但能够自动标注并保存数字图像档案的内容,而且还能对精度排序,检索出与用户输入的关键字最接近的内容,大幅度减少了用户的检索时间,并提高了检索的准确率。不但可以提升数字图像档案资源的利用率,而且能够满足用户多元化的需求,也关系到后续信息服务的深入开展。