非物质文化遗产图像数据库的搜索技术
2018-03-01沈美于翔
沈美 于翔
摘 要:随着计算技术的发展以及计算机硬件性能的提高,模式识别、人工智能、数据挖掘以及图像处理等研究领域的发展也取得了长足的进步,促使在超大样本训练集上进行的机器学习得以实现。因此,对样本集数据库的管理,尤其是如何更好地利用数字化技术为非物质文化遗产保护服务,以及如何利用现有的关系型数据库实现非物质文化遗产—南通蓝印花布的图像纹样进行检索,就显得尤其重要了,文章对此进行研究。
关键词:关系型数据库;非物质文化遗产;南通蓝印花布;搜索技术
2006年5月经国务院批准蓝印花布列入第一批国家级非物质文化遗产名录。吴元新先生通过整理、收藏上万件明清以来实物及图片资料以及上万件纹样纸版,出版了《中国蓝印花布纹样大全》藏品卷。然而,利用先进的信息化、数字化等技术手段感悟对非物质文化遗产—“蓝印花布”项目传承与保护的研究、开发工作却少之又少,尤其是利用图像数据库技术来对蓝印花布纹样进行管理则处于空白阶段。
基于内容的图像检索(Content-Based Image Retrieval,CBIR)是当前多媒体检索中研究最为广泛的一种[1]。其主要是将图像自身的视觉特征(如颜色、形状、纹理等)作为图像的内容加以表示,从而进行查找、匹配,最终将与样例图像相似的图像返回给用户。CBIR涉及多个领域的研究内容:如计算机视觉、图像处理、图像理解、模式识别、人工智能、数据库技术、支持向量机学习、贝叶斯学习、决策树学习及相关反馈交互式学习等[2],并在多个领域得到了广泛的应用。本文在充分考虑时间对于蓝印花布图像纹样搜索影响的前提条件下,构造一种新的蓝印花布图像数据库搜索空间树方法,从而提高了蓝印花布图像数据库“以图找图”检索方式的成功率,其最终图像检索效果更好,准确性更高,速度更快。
1 应用背景
非物质文化遗产是我国传统优秀文化的代表,是真正屬于我们“自己”的文化。正因为此,我国对于非物质文化遗产的保护、传承与文化交流越来越重视;在各级政府与社会的帮助下,对非物质文化遗产的保护、传承与文化交流已发展到利用更为先进的理念、技术与手段来实现[1]。南通蓝印花布作为国家首批非物质文化遗产之一,其数字化建设仅仅处于起步阶段。因此,以蓝印花布数字化图像为研究对象,以数字化技术为核心,利用传统的关系型数据库,努力探索一条通过关系型数据库来架设图像数据库,从而实现蓝印花布数字化图像的存储与管理就显得势在必行。
目前,图像数据库要么是以数据信息组成文件名的方式实现数据分类与查找,要么是将图像数据存储在服务器端;这两种方法都存在不可避免的弊端:首先,是由于图像数据的属性信息只存在于文件名中,从而限制了查找的高效性和数据属性描述的可扩展性;其次,在图像数据库的检索过程中,是通过服务器端的计算机程序完成,从而增加了服务器的负担,尤其是外部访问量增大时,这种检索速度的影响将尤为明显[2]。
综上所述,目前图像数据库的开发与建设方面存在以下不足。
(1)针对图像数据的描述不能方便地随意扩展,使其不能满足基于图像数据的科学研究对图像数据描述特征属性多样性的需求。
(2)影像图像数据的存储以及编号不能反映图像数据之间的关联性,比如不同时间点或者不同图像采集模式所得到的图像数据之间的关系,不能很好地得到体现。
(3)图像数据在服务器上的上传和下载过程都在服务器端完成,这种设计增加了服务器端的负担,影响了针对数据仓库的上传、检索和下载速度。
(4)当用户需要从众多图像数据检索结果中有选择性地下载部分结果时,没有很好的选择性的批量下载的方法[3]。
因此,针对南通蓝印花布纹样图像数据库设计需求,解决现有技术中图像数据库检索效率不高、存储、检索关键词扩展性不好、数据与数据之间关联不明确、计算机图像处理研究技术及现有图像数据仓库管理方法的不足,我们提出了一种新的基于内容的、可扩展、高效存储、检索的图像数据仓库管理方法。
2 南通蓝印花布搜索引擎的构建策略
蓝印花布是一种距今已有一千多年历史的传统工艺印染品。大量研究表明,蓝印花布在其漫长发展过程中,其纹样图像带有明显的时代印记,不同时代蓝印花布纹样及其参照纹样在数量、种类等方面不同。由此,蓝印花布数字化图像的相应识别比对值在空间分布密度是不均匀的。通过长期的研究发现,蓝印花布纹样具有在时间与相关图像纹样呈现相关联的结论。因此,构建一个以时间为参数、以蓝印花布识别比对值为主要关键字的搜索算法是开发蓝印花布纹样图像数据仓库的关键所在[4]。
3 构建基于关系型数据库的蓝印花布纹样数字化搜索技术
数字化技术是一种信息处理技术,即将许多复杂多变的信息转变为可以度量的数字、数据,并由此建立数学模型,进而将它们转变为一系列可以进入计算机的二进制代码的技术,是计算机技术、多媒体技术、智能技术和信息传播技术的基础[5]。
南通蓝印花布图像纹样图像数据库,如查找、搜索等方面仍然采用传统的文字描述方式不仅会因为文字描述准确性差而导致查找效率低下,而且还会丢失多个其他方面属性,从而造成不必要的损失。因此,利用蓝印花布纹样与参照纹样比对产生的数值来区分两个不同纹样,同时,针对南通蓝印花布纹样与时代特征相关联的特点,将时间与传统二叉树相结合,先以时间参数为主索引,构造出一个二叉树结构;随后再在各个时间块内,利用蓝印花布识别比对值,构造出一个基于蓝印花布纹样识别比对值的链表结构,从而在整体上构造一种空间二叉树,达到高效检索南通蓝印花布纹样的目的。
3.1 南通蓝印花布纹样的数字化采集、预处理
本文以南通蓝印花布的数字化纹样图像为研究对象,通过数码相机等设备为其进行数字化图像的采集。另外,针对蓝白两色的蓝印花布这一特点,对其数字化图像进行相关预处理,包括灰度化、中值滤波去噪和归一化等操作;经过大量实验后,确定采用加权值法与最大值法结合的灰度化处理来处理,其公式如下所示:
图像数字化处理的基础就是图像特征提取,图像特征提取的结果直接决定了图像分割的结果;不同类型的图像对象,其图像特征不同,所进行的图像分割依据及其方法也不同,因此,相应的分割算法也完全不同。目前,广泛使用的图像分割方法主要有阈值分割、基于变形模型分割、基于区域生长分割、聚类法分割等[6]。通过分析可知:只有蓝白两色的蓝印花布,可通过加权值将基于阈值的分割算法及基于边缘检测的分割算法相结合来分割蓝印花布纹样[7]。
3.2 新型蓝印花布图像数据库搜索空间树构造方法
新型蓝印花布图像数据库搜索空间树主要是将时间与传统二叉树相结合,以时间参数为主索引,构造出一个二叉树结构;随后再在各个时间块内,利用蓝印花布识别比对值,构造出一个基于蓝印花布纹样识别比对值的链表结构,从而在整体上形成一种空间二叉树的结构。其步骤示意如图1所示。
检索新的蓝印花布纹样时,先进行年代判断,并通过查询空间二叉樹,确定其在空间二叉树的大致位置,随后产生一个新的纹样识别比对值,并在该区域内的蓝印花布识别比对值链表中进行查找,最终达到检索的目的。
在蓝印花布图像数据库搜索空间树构造建设过程中,随着录入纹样的增多,通过与参照纹样比对后产生的纹样识别比对值也会越来越多,从而形成一个以参照纹样比对值为起点的链表,该链表与参照纹样比对值一起形成一个搜索空间二叉树结构,每个空间树结点下都有一个有序链表,若某段空间段内比对结果较密,则该结点下链表长度较长;反之,若一空间段内比对结果值相对稀松,则该结点下链表长度值较小。在蓝印花布的发展过程中,蓝印花布的纹样数量、种类不同,从而导致其参照的比对纹样在数量上不同,进一步造成其比对值分布密度不仅不同,而且是随机变化的。而采用空间二叉树则可根据蓝印花布纹样数量分布的密度,动态调整链表的内容。
因此,在建设蓝印花布纹样数据库的过程中,蓝印花布纹样与标准纹样比对结果的分布是不断变化的,随着数据库建设的不断推进,整个二叉树中的结点会越来越多,有些结点上的链表数据丰富,而有些则会比较稀少,甚至出现空结点。此时就需要将比对结果密度较少的结点进行合并,以节省内存空间并提高查找效率。故对整个搜索空间树来说,需要不断调整该空间树结构并对其作出相应评价,以确定当前二叉树是否有调整的必要。
实践表明,在蓝印花布的发展过程中,蓝印花布纹样数量、种类不同,从而导致其参照的比对纹样在数量上不同,进一步造成其比对值分布密度不仅不同,而且是随机变化的。采用空间二叉树则可根据蓝印花布纹样数量分布的密度,动态调整索引表的内容。当然,可采用固定数目的标准纹样在整个时间段内将空间划分成固定的几块数据区域,识别比对数值将落在固定的几个区域内,形成一个静态的二叉树。
4 结语
大量的实验表明,在Java EE环境下利用OpenCV机器视觉库函数对蓝印花布图像进行一系列标准化处理后,再利用动态的搜索空间树实现蓝印花布纹样数据库的搜索功能,不仅在时间效率上有显著提高,而且在准确性方面也取得了突破性的进展。