面向文化遗产领域的移动视觉搜索模型研究*

2019-03-20曾子明宋扬扬

图书馆论坛 2019年3期

曾子明，宋扬扬

0 引言

近年来，文化遗产的数字化建设成为图书馆界日益热门的话题。文化遗产的数字化是指采用数字采集、数字存储、数字处理、数字展示、数字传播等数字化技术将文化遗产转换、再现、复原成可共享、可再生的数字形态，并以新的视角加以解读，以新的方式加以保存，以新的需求加以利用[1]。文化遗产数字化建设的内容主要包括数字处理技术、数字存储技术、数字共享平台或系统三部分。文化遗产数字化建设最重要的意义是利用数字化技术将文物、古迹、戏曲、工艺、方言等所承载的历史和文化知识进行传播和共享，为研究人员和学者提供专业的知识资源，为普通读者提供丰富、有趣的历史文化知识，真正实现民族文化的传承和繁荣发展。

文化遗产的数字化载体包括文本、图像、音频、视频和3D模型等，其中包括图像、视频、3D模型等在内的视觉载体可以更完整、更形象、更清晰地保存文化遗产的语言、文字、结构和形式等特征，成为文化遗产数字化保护最主要的载体。如今文化遗产视觉资源的存储量远远超过文本资源。然而，目前文化遗产数字资源的获取方式以文本搜索为主，不适应其资源类型。同时，移动互联网高度普及和快速发展，4G和5G移动网络相继实现，随时随地、快速获取所需知识资源的移动阅读成为人们的一种生活方式。然而，目前文化遗产领域的知识服务仍然局限在场馆范围内，具有很大的被动性，显然不能满足当下日益个性化的读者需求。而移动视觉搜索(Mobile VisualSearch，MVS)利用便捷智能设备获取物理空间图像、视频、3D模型等视觉对象作为检索对象，并在视觉对象知识库范围内利用移动互联网检索其关联信息[2]，具有便利、高效、灵活的特点。因此，MVS能够适应当下文化遗产数字资源的存储类型并克服其检索服务的不足，更好地满足读者日益个性化的阅读需求，为文化遗产领域的知识服务提供了一种新思路和新工具，对文化遗产知识的传播和继承具有积极的作用和影响。本文基于文化遗产数字化建设和MVS相关研究现状的不足，分析面向文化遗产领域的MVS服务的必要性，提出面向文化遗产领域的MVS模型，并探讨模型实现的技术框架。

1 研究现状

我国文化遗产的数字化建设始于20世纪90年代初，经过20多年的发展，主要在对文化遗产的数字化复制、复原、4D影像体验馆、数字影像记录、增强现实再现等方面取得了大量重要成果[3]。例如，故宫的“超越时空的紫禁城”项目，利用3D技术仿真模拟故宫全貌，读者只需轻轻点击鼠标就能足不出户免费“游览”故宫[4]；敦煌研究院经过多年的探索和实践，已完成一百多个洞窟的图像采集、全景漫游节目制作、三维描述以及文献数据库20万条[5]。在学术方面，黄永林等人[6]从建立数字化分类体系、数据采集标准、知识可视化表达、新技术综合运用体系、多媒体交互体系平台、保护与传承技术体系六个方面探讨了非物质文化遗产的深度开发与运用；付跃安[7]从资源建设、资源组织、数据加工、文本建设、服务与版权等方面探讨图书馆地方文化遗产数字化建设，并结合图书馆业务特点提出了具体的实施策略；包鑫[8]以黑龙江省西部少数民族地区为例探讨了地方高校图书馆非物质文化遗产资源的采集策略，并从平台建设、构建原理和优化策略三个方面论述数据库的建设举措。这些研究重点集中在数字化技术的应用、构建方式或策略、理论框架等方面，缺少服务方式的创新。同时，目前文化遗产知识服务仍然以场馆为中心，未能真正考虑用户的个性化需求，缺乏灵活性。此外，资源检索方面仅支持文本搜索，而存储量占主导地位的视觉资源的利用率不高。

2009年Chen等[9]在第一届移动视觉搜索研讨会上首次系统地提出了移动视觉搜索的概念，经过近十年的探索，已经取得了一些成果。国外相关文献主要是从计算机领域对其涉及到的技术(如特征提取与表示、高维索引与匹配、几何一致性检验、图像标准)进行创新和发展。Duan等[10]提出一种视觉检索方法，该方法通过学习一个定制的JEPG量化表来深度压缩查询图像；Chen等[11]提出一个紧凑、有识别性的全局签名来描述每个图像，利用图像的颜色信息和相似图像的关系来提高检索精度；Matsuzaki等[12]通过多视图合成图像提取局部特征，并根据关键点的检测和量化误差的特征鲁棒性来定义特征可靠性，以控制数据库的大小。国内的研究集中在MVS的检索机制、构建方式、管理机制等方面，如赵宇翔等[13]归纳MVS中的游戏化元素及其对应的动因示能，提出面向大数据的MVS游戏化设计框架；刘喜球等[14]从视觉大数据资源的识别、获取、存储与分析、MVS服务支撑平台等角度出发构建服务框架，提出具体的实施思路；张亭亭等[15]提出以众包理念和方法来获取新的视觉资源，并从收集方式、收集成本、参与时间和机制体现四方面与传统的信息检索模式进行对比。由此可知，国内外的研究成果都从移动视觉搜索本身出发，缺少与具体领域和应用的结合，尤其是在文化遗产领域研究方面。

综上可知，文化遗产数字化建设的主要方式是通过图像、视频、3D模型、动画等方式进行复制、复原和保存，其视觉资源的存储量已经远远超过了文本资源。然而其检索方式单一，仍然以文本为主，视觉资源的利用率不高，显然与实际的资源类型不符。同时，移动互联网快速发展和高度普及，随时随地获取所需资源已经成为读者的一种阅读习惯和生活方式，读者的需求呈现多样化、个性化的特点，特定场馆的单一文本检索无法满足当前读者的检索需求。而移动视觉搜索能够提供多样化的视觉资源检索方式，具有高效、便利、不受时空约束的服务特点，已成为信息服务领域重要的检索工具。因此，将移动视觉搜索应用到文化遗产领域并构建相适应的服务模式，能够提高文化遗产视觉资源的利用率，优化文化遗产领域的知识服务，满足读者的个性化阅读需求，对促进文化遗产知识的传播、继承和发扬都具有十分重大的积极作用。

2 移动视觉搜索模型的体系结构

目前，文化遗产领域的各个组织或机构，如数字图书馆、数字博物馆、文化遗产特色数据库、文化遗产知识科普平台等，都是独立存储文化遗产数字资源的，且存储的内容各不相同，单独的某个机构无法实现对某个主题资源几近完整的存储，这就需要机构之间的资源共享来丰富彼此的馆藏。而智慧图书馆以物联网和云计算技术为支撑，能够实现各种资源的充分共享和协同管理，包括知识资源以及存储和管理这些资源的系统和设备等。针对文化遗产数字资源的这种存储特点，本文依托智慧图书馆，将数字图书馆、数字博物馆、特色数据库、文化遗产知识科普平台等各种文化遗产知识服务机构通过智慧云互联为一个统一的整体，实现知识资源的协同管理、智慧化整合和充分共享。

社交网络的普及使读者的需求呈现出较强的即时性和交互性特点，读者越来越注重与信息服务提供者的互动与交流，希望自己的需求和反馈等信息可以及时到达平台，同时也能够直接、实时接收平台的服务与信息。读者的这种需求特点就要求信息服务平台能够提供可以直接、便捷交流的窗口及根据实时情境变化的即时服务。因此，本文通过实时情境采集和建立社交网络平台，为读者提供社交、个性化推荐、LBS等智慧服务，进而将移动视觉搜索无缝、动态、实时地嵌入读者的文化遗产知识活动中，并利用采集到的情境信息、社交等服务数据全方位、多角度分析读者检索意图和文化遗产知识需求，实现个性、多样、准确、灵活、交互的文化遗产移动视觉检索服务。在此基础上，构建面向文化遗产领域的MVS模型，该模型的体系结构如图1所示。

图1 移动视觉搜索模型的体系结构

2.1 数据采集层

数据采集层主要利用物联网技术对面向文化遗产领域的MVS服务所需要的数据进行采集和传输，包括待检索的外部视觉对象、文化遗产数字资源、读者相关信息。

(1)外部视觉对象采集：通过移动智能终端(如VR眼镜、AR设备、智能手机、平板电脑等)采集待检索的视觉对象，包括图像、视频、动画、3D模型、地图等，并将其传输到智慧图书馆的数据库中等待进一步的处理。

(2)内部文化遗产数字资源共享：将数字图书馆、虚拟博物馆和特色数据库中的文化遗产数字资源通过互联网进行采集并传输到智慧图书馆的智慧云中进行存储，实现资源的充分共享和利用。

(3)读者信息采集：利用网络数据监控工具采集读者在文化遗产知识服务过程中的行为数据，包括浏览行为、检索行为和社交行为等；利用RFID、蓝牙、GPS、监视器、传感器、红外感应器等感知传输设备捕捉与读者相关的情境信息，包括物理情境和社会情境。其中，物理情境是指物理存在的、不以人的意志为转移的信息，包括时间、读者所处的地理位置、当时当地的天气、移动终端性能和屏幕大小、网络上传和下载速率等等。社会情境是指用来描述读者并与读者个人直接相关的信息，包括年龄、性别、职业、社会关系、受教育程度、所进行的社会活动等。这些信息对面向文化遗产领域的移动视觉搜索服务具有十分重要的作用，通过挖掘分析这些信息得到读者与文化遗产知识相关的偏好、检索目的等重要信息，将这些信息融入到智慧服务中将极大地提高服务质量和效果。

2.2 资源管理层

资源管理层依托智慧图书馆的Hadoop云计算架构，利用分布式的存储设备、计算集群和调度组织系统对文化遗产MVS服务过程中涉及的数据资源进行存储、组织和协同管理，为视觉检索和智慧服务提供基础和保障。

(1)原始数据存储。对采集的原始数据分别进行存储，以方便后续处理和组织，包括待检索的外部视觉对象源、内部的文化遗产数字资源、读者的网络行为数据和情境信息等。

(2)资源组织。对采集的原始数据分别进行相应的处理，获取高层的、有组织、有价值的知识。对待检索的视觉对象和文化遗产视觉资源分别进行视觉特征计算：特征检测、特征提取和特征表示，将处理后的文化遗产视觉资源存储到数据库中，方便视觉检索过程中能够快速获取候选视觉对象的特征向量，提高视觉检索的效率，减轻终端设备的计算负担。待检索的视觉对象处理后等待与数据库中候选视觉对象进行特征匹配。对文化遗产数据资源进行语义标注和关联分析，实现文本资源和视觉资源之间的语义关联，将关联后的视觉资源进行索引标注，方便视觉检索过程中能够快速定位和获取到文化遗产视觉资源，提高检索效率。对采集的读者行为数据和情境数据分别进行行为分析和情境计算，通过逻辑推理获取读者的知识模型，即这些数据中所蕴藏的价值信息。例如，读者在文化遗产领域的兴趣、与文化遗产相关的活动内容、潜在的文化遗产阅读倾向等。这些价值信息有助于理解读者视觉检索的真实意图，降低语义鸿沟，同时为个性化的文化遗产知识服务提供了方向和依据，有利于提高服务的质量和效率。

(3)知识存储。对经过处理和计算得到的知识进行有组织地存储和管理，包括文化遗产视觉资源的特征索引、文化遗产数字资源的关联索引、读者知识模型和MVS案例等。这些知识为上层的文化遗产知识服务提供了数据资源支持和便利。

(4)资源协同。文化遗产知识服务数据通过Hadoop云计算架构进行分布式存储和并行计算，即存储数据的介质和计算设备物理上相互独立，但在互联网中相互联通，智慧云对这些存储介质和计算设备进行协同管理，实现文化遗产数字资源的充分共享。

2.3 视觉检索层

视觉检索层以基于超图的视觉检索引擎为主，以超图学习机制、评价反馈机制和逻辑推理机制为辅，实现文化遗产领域的视觉检索服务。基于超图的视觉搜索引擎是文化遗产视觉检索的核心，它将处理后的待检索视觉对象和特征索引库中文化遗产视觉对象的特征量化为特征词包，然后以这些特征词包为基础构建超图模型，并计算数据库中文化遗产视觉对象与待检索的视觉对象之间的关联分数，系统根据关联分数高低对结果进行排序。超图学习机制为视觉搜索引擎提供机器学习的技术支持，完成超图模型的构建、学习和计算任务。逻辑推理机制和评价反馈机制则为文化遗产数字资源的MVS服务的改进和优化提供支持和帮助：逻辑推理机制通过对读者情境信息、行为信息进行逻辑分析和推理，获取读者潜在的兴趣、偏好、目的等知识模型，帮助视觉检索引擎深刻理解读者的检索意图，降低语义鸿沟问题。评价反馈机制通过对读者的浏览、阅读、检索等行为分析读者对文化遗产知识服务的评价和感受，进而对服务进行改进，以改善读者的服务体验。

2.4 智慧服务层

智慧服务层以读者为中心，为读者提供一站式的文化遗产MVS知识服务。MVS使读者可以通过多种途径、多种载体形式智能检索文化遗产知识资源。例如，读者可通过AR、VR眼镜等设备对敦煌石窟的壁画、雕塑等文物实景进行即时搜索，也可以通过移动终端的摄像头等对文物的复制品进行拍照，将图片上传到智慧图书馆的MVS系统进行手动搜索，获取相关的知识资源。将社交、LBS、推荐等服务无缝嵌入读者的情境活动中，为读者提供实时、准确的个性化知识服务：对文化遗产领域相同或相似主题感兴趣的读者之间可建立讨论社区，也可与该领域的专家直接沟通，实现读者间知识的充分共享；可以根据读者的地理位置，为读者提供附近相关的文化遗产场馆、景点等，例如，可以根据读者在敦煌博物馆的位置，为读者推送该位置附近壁画、雕像等文物的年代、内容、含义、历史事件等相关知识，也可为读者提供到达某个古迹、遗址或场馆等的路线规划和实时导航；可以根据读者的兴趣、物理情境和社会情境进行综合逻辑推理分析，主动为读者推荐符合读者偏好的文化遗产知识资源、文化遗产领域的专家和交流圈等，使读者不用搜索也可以享受到内容全面、丰富的文化知识资源服务。面向文化遗产领域的移动视觉搜索服务还为读者提供一站式智慧导航服务，包括主题导航、智慧展示和读者个人信息管理等。主题导航将资源云中的文化遗产数字资源按主题进行关联和分类，形成以主题为核心的知识架构和图谱，清晰的分类和知识层级为读者展示以主题为核心的知识体系，方便读者查阅。读者可根据自己的需求和兴趣在导航栏中查找相关的文化遗产资源主题；智慧展示可根据读者的需求对系统提供的知识资源自动选择展示方式，例如根据移动终端屏幕大小、网络状况和检索的结果等决定展示的形式是文本、图像、视频还是图文并茂；读者个人信息管理包括账户管理、个人文化遗产主题标签选择或设置、评价反馈等，为读者提供个人兴趣爱好的初始化操作、对MVS等智慧服务的评价反馈提供通道和途径，这不仅可以优化视觉搜索和推荐模型，提高检索和推荐的准确率，也可以提高服务质量，改善读者的阅读体验。

2.5 服务交互层

服务交互层以智慧云为依托，将文化遗产领域的数字图书馆、虚拟博物馆、特色数据库、视觉搜索平台、文化遗产知识科普平台等机构或组织有机地进行互联，实现文化遗产数字资源的充分共享和协同管理，是读者与智慧图书馆交互的窗口。读者在任一个服务平台均可访问智慧图书馆下的各机构的文化遗产馆藏资源，便捷地获取丰富、多样的文化遗产知识资源和知识服务。

3 MVS模型实现的技术框架

3.1 基于超图的移动视觉检索

文化遗产领域的数字资源主要以图像、视频为主要载体，与普通的视觉资源相比，文化遗产由于历史原因导致的唯一性和独特性，使得其视觉资源具有较强的语义特征。例如，敦煌壁画《飞天》，与之相似的图像均与“敦煌”“壁画”“飞天”等语义相关。除语义特征外，文化遗产的视觉资源还包含色彩、纹理、边等一般的视觉属性特征。例如，古代水墨画，尤其是彩色水墨画的重要特点是着色层次，而且颜色是图像内容组成的基本要素，颜色特征与几何特征相比更可靠、更稳定，对图像中子对象的大小和方向的变化都不敏感，具有较强的鲁棒性，因此，通过颜色特征值能更好地描述文化遗产视觉资源的视觉特征。然而，传统的视觉检索技术，如SIFT技术，虽然具有尺度、旋转不变性以及具有部分的照度不变性，对图像中的背景噪声、遮挡等影响具有良好的适应性，运行效率高，具有良好的可扩展性，可从图像上提取出大量的特征[16]，但SIFT算法只利用了图像的灰度信息，忽略了图像的色彩、纹理、边和语义信息等属性，不能准确、全面地描述文化遗产数字资源的视觉特征。

为了更全面、准确地描述文化遗产视觉对象，需要充分考虑各项属性特征。因而在进行相似性计算时，要分别考虑各视觉对象同类属性之间的相似关系，这就涉及到多种属性关系的处理和计算。此外，与待检索的视觉对象相似的视觉对象也不唯一，即待检索的视觉对象与文化遗产数据库中的多个视觉对象存在关联关系，因此待检索的视觉对象与候选视觉对象间也是多元的关联关系。因此，需要一个能够较好地表示视觉对象间多元关联关系的计算模型，以完成文化遗产视觉检索的匹配过程。

目前，图论能够较好地表示对象之间多元关系，图包括顶点和边两个元素，每个数据对象为一个顶点，边连接具有相似性的两个顶点，因此可以表示对象之间的二元关系。超图是图论的扩展和延伸，由Berge于1970年第一次提出和阐述[17]，经过众多学者的研究和努力，超图已在计算机科学获得了长足的发展。超图的边称为超边，可以连接N(N≥2)个顶点，这使得超图能够直观地、完整地描述多个数据对象之间复杂的多元关系，此外，超图还可以表示多个顶点之间的局部聚合信息、像素或分块在局部领域与多个像素或分块间的多重相关关系，保留了多种特征信息，从而能够确保算法在数据描述上的完整性和准确性[18-19]。因此，本文引入Cai等人[20]提出的超图模型来表示和计算文化遗产视觉对象之间的关联关系。基于超图的视觉检索流程如图2所示。

图2 基于超图的移动视觉检索流程

(1)特征提取。色彩：从每个像素中密集地提取颜色描述符作为3种通道的色彩模型(LAB)值，然后对128个簇进行K-means聚类，并将每个图像的颜色描述符量化为128-bin的直方图。纹理：通过文本滤波器组计算每个像素48维描述符，并将每个图像的纹理描述符量化为256-bin的直方图。边：使用标准的边缘检测器发现边缘，这些边的方向被量化为8个无符号的bin，这为每个图像产生一个8-bin的边缘直方图。灰度：从每个像素的8×8相邻像素块中提取4像素步长的描述符，然后将描述符量化为1000维的特征词包。语义：因语义属性通常出现在图像中的一个或多个特定区域，因此将每个图像分割为2×3的网格，并分别从每个网格中提取以上四种特征。

(2)特征表示：将以上五种描述符量化为特征词包并进行综合，这样就为每个图像获得了一个9744维特征词包。

(3)基于超图模型的特征匹配。将每个视觉对象看作一个顶点，超边连接具有相似属性特征的视觉对象，在此基础上用邻接关系表描绘待检索视觉对象与候选视觉对象间同类属性的关联关系，并以此为依据构建超图模型的关联矩阵。然后通过超图拉普拉斯函数计算得到视觉对象的关联分数，并进行排序得到初步的检索结果。

(4)结果优化。将获取的读者数据，包括网络服务数据和实时情境数据，通过逻辑推理和分析得到的包含读者检索目的和需求等信息的知识模型融合到视觉检索过程中，降低读者与底层检索间的语义鸿沟，帮助视觉搜索引擎优化检索结果，将优化后的结果返回给读者。

3.2 基于Hadoop平台的云存储

任务的顺利运行。基于Hadoop平台的云存储框架如图3所示。

图3 基于Hadoop平台的云存储模型

由于文化遗产视觉资源来自多个不同的组织和机构，每个机构或组织在采集文化遗产视觉资源的过程中使用不同的设备、技术和载体，导致视觉资源的数据类型复杂格式多样，此外，由于视觉资源本身包含大量的视觉信息导致数据量十分庞大，因而有组织地存储和有效地管理文化遗产视觉资源成为一项艰巨且重要的任务。本文利用Hadoop开源云计算平台在数据存储和计算方面的优势，采用HDFS分布式文件系统实现对文化遗产视觉资源原始数据的存储和管理，基于MapReduce分布式计算框架实现MVS的并行计算和分布式存储，实现面向文化遗产领域的移动视觉检索服务的实时性要求，并利用其智慧化管理平台对系统和设备进行协同组织，保障各项

首先，将文化遗产视觉对象资源切割成若干个分片，将分片上的数据进行预处理后以标准形式存储到文件系统中，并由主节点(NameNode)进行协同和管理。主节点中的元数据存储了视觉对象分片的关键信息，包括文件名称、存储的物理位置及文件中的信息摘要等，服务器可根据元数据实现视觉对象的快速定位和语义关联，为后续的计算过程提供技术支持。其次，启动MapReduce程序：Map阶段通过设定一些函数和映射分别对视觉对象的分片进行计算得到特征向量；Reduce阶段将分片的特征向量进行整合得到视觉对象完整的特征向量，并将其存储到HBase分布式数据库中，为后续匹配过程奠定基础。

该云存储模型利用Hadoop平台为面向文化遗产领域的移动视觉搜索提供各种管理系统和管理机制，实现平台的正常运转。如，集成服务系统使读者可以直接通过该平台访问各个分馆的知识资源，极大地减轻了读者的操作负担；协同管理平台通过对文化遗产数字资源进行知识挖掘和语义关联，实现知识资源的充分利用和共享；负载均衡系统根据各个系统和设备的性能指标分配任务，并对其运行负载状态进行实时监控和管理；安全预警机制通过制定一系列的规则和策略预防可能发生的风险和灾难，并在其发生后采取及时有效的应对措施，以降低灾难造成的损失。

4 结语

针对文化遗产领域检索方式单一、知识服务缺乏灵活性和个性化等不足，本文提出面向文化遗产领域的移动视觉搜索模型，以读者为中心，将一站式文化遗产MVS知识服务无缝嵌入到读者情境活动中，针对读者的具体情境提供个性化、智慧化的文化遗产知识服务，并针对实现该模型的技术框架进行了探讨，对文化遗产领域知识服务的发展具有重要的意义。未来的研究工作将集中在文化遗产领域视觉搜索过程中涉及的技术的改进和优化，包括底层视觉特征和语义特征的提取、特征向量表示、相似度计算等，尤其是超图技术在图像相似度计算和排序方面的应用，通过研究改进超图算法并应用到视觉检索过程中，以提高视觉检索的精确度，为面向文化遗产领域的MVS服务提供技术支持。