商业型视觉搜索体系建设的实践及启示

2016-11-18张兴旺向宏华柏雪

图书与情报 2016年5期

张兴旺向宏华柏雪

摘要：商业型视觉搜索体系是当前视觉搜索应用研究的最重要组成部分，对其进行系统分析，能为数字图书馆视觉搜索理论与应用研究提供重要的参考和借鉴。文章通过调研国内外商业型视觉搜索体系建设情况，将视觉搜索体系进行了分类，选择其中具有代表性案例进行对比分析，在此基础上提出数字图书馆视觉搜索体系建设需要注意的问题。数字图书馆视觉搜索体系建设需要重视体系领域导向、视觉对象知识库建设、视觉资源获取伦理与法则、标准化整理与加工、资源版权与平台安全等问题。

关键词：知识服务；视觉搜索；数字图书馆；视觉大数据

中图分类号： G2254.9 文献标识码： A DOI：10.11968/tsyqb.1003-6938.2016091

Abstract Commercial visual search system is the most important part in the current visual search application research. Systematic analysis of the system can provide an important reference for visual search theory and application research of digital library. Through a research of the domestic and foreign commercial visual search system construction， classification was made and one representative case was analyzed and compared. Then problems which should be paid attention to in the construction of present digital library of visual search system were pointed out， including the system of field oriented， ethics and the law， the standard of collection and processing， resource copyright and platform security.

Key words knowledge service； visual search； digital library； visual big data

1 引言

随着互联网技术与服务模式的飞速发展，从不同途径产生的文本、图像、视频与3D模型等视觉大数据资源及用户生成内容（User-Generated Content，UGC，如图书评论、微博、视频分享等）以全新形式整合在一起，全面地描述着事件、主题及其关联信息，并在大数据环境下呈现出以下特点：不同类型的视觉大数据资源（如文本、图像与视频等）相互依存与关联，数据来源（各类平台和应用等）广泛丰富[1]，视觉大数据资源与用户之间的交互需求越来越迫切。正如谷歌前技术主管Norvig于2010年指出“文本、图像和视频等视觉资源及用户交互信息、传感信息的有机融合，会给搜索引擎带来巨大挑战，如何对视觉搜索结果进行资源深度整合将会成为Google未来十年面临的最大挑战”[2]。

视觉大数据资源的价值发掘、知识发现需求与互联网技术的交汇融合催生了视觉搜索模式的诞生，使之成为信息检索领域研究的热点问题。自2009年斯坦福大学的Griod等将其引入到信息检索领域以来[3]，出现了许多基于时空语义关联的视觉资源整合与视觉搜索应用平台，为用户提供视觉大数据知识服务。如著名的Google知识图谱、Facebook Graph Search、百度视图、爱奇艺大脑等。已有的视觉搜索应用大部分局限于商业型应用，尽管能从理论、技术上为数字图书馆领域开展相关研究提供一些参考，但也存在着搜索结果可信度不高、性能不够理想或不够稳定、用户体验质量不佳、应用局限性较强等问题，给视觉搜索理论与应用研究带来了一定困扰，使其暂时难以移植到数字图书馆领域。同时，我国数字图书馆、公共文化服务大数据工程领域又亟待解决相关问题。国务院2015年印发的《促进大数据发展行动纲要》《国务院关于积极推进“互联网+”行动的指导意见》等文件均明确提出要培育和发展公共服务大数据工程，并要求加强数字图书馆建设[4]，开展对视觉大数据资源的开发与利用的研究工作[5]。

基于此，本文对国内外商业型视觉搜索平台的商业背景、应用领域、主要功能与服务模式等进行调研与对比分析，总结归纳商业型视觉搜索体系建设的内容与方法，探讨给图书馆带来的启示，以期为我国数字图书馆应用和建设提供参考和借鉴。

2 商业型视觉搜索体系建设现状与分析

自2009年发源于心理学、生理学领域的视觉搜索理论被引入到信息检索领域以来，它逐渐成为国内外工业界与学术界研究的热点，也产生了许多商业视觉搜索应用案例。本文采取网络调查法对国内外较为著名的视觉搜索应用进行调查。从资源使用类型、信息搜索模式、覆盖范围及体系成熟度等方面考虑，选择了国内外影响力较大、性能相对较稳定的商业型视觉搜索应用。

2.1 已有视觉搜索体系的分类

根据视觉搜索体系的服务模式和资源类型，可将当前商业型视觉搜索体系分为三大类：

（1）基于知识计算引擎的视觉搜索体系。随着资源描述框架（Resource Description Framework，RDF）项目与技术的全面发展，文本、图像、视频等视觉资源之间的异构语义关联关系能得到更好地表达和描述。传统互联网异构资源之间的“超链接”关联方法，开始向新型的异构资源之间的“实体与实体”关联方法转变。在这种理论与方法的基础上，国内外各相关组织在此基础上构建了基于知识计算引擎的视觉搜索体系。目前，各个公司、机构、组织建立的视觉搜索体系多达100多种，与之相关的应用更是将近200种。其中，比较具有代表性的有Google知识图谱（Knowledge Graph）、Facebook的实体搜索平台（Graph Search）、Evi的知识搜索平台（TrueKnowledge）、Wolfram Research的WolframAlpha、基于维基百科等在线百科知识构建的知识搜索平台DBpedia、YAGO、Omega、WikiTaxonomy、Microsoft的Probase、百度的“知心”、搜狗的“知立方”、维普的“智立方”等[7]。就覆盖范围、数据规模和体系成熟度而言，目前最为成功、影响力最大、功能最齐全的是Google知识图谱、WolframAlpha、Probase等，其实体数量都在10亿以上。相对而言，国内的“知心”“知立方”“智立方”在服务模式、体系成熟度、功能、搜索效果与性能等方面都略显不足。

（2）基于视觉资源类型的视觉搜索体系。由于视觉资源内容是现实物理世界多角度、全方位的多元化反映，通过视觉资源可获取更加全面、精确的全方位知识服务情景感知，能够为数字图书馆嵌入式协作化知识服务提供有效支持，进而促进现实物理世界和虚拟信息空间的有机融合。而包含有相同内容、价值与知识，但不同类型的视觉资源，彼此之间蕴含着内在的时空语义关联信息，通过彼此关联时空信息的整合与分析，清晰地组织和描述物理世界的变迁、客观规律的演化与视觉资源的利用。在这种理论与方法的推动下，国内外都开展了大量相关研究，出现了Google知识图谱、Google语音搜索、图片搜索与视频搜索、Google Now、百度识图、Microsoft Visual Search、Wolfram Alpha、爱奇艺大脑等具有代表性的、以视觉资源类型为处理对象的视觉搜索体系。

（3）基于领域驱动的专业性视觉搜索体系。所有理论与技术研究的最终目的都是付诸应用，视觉搜索亦不例外。由于视觉大数据资源价值的产生机理与知识转换规律具有高度的领域依赖性，使得视觉搜索在具体应用过程中，更加依赖于应用领域的专业性和行业性。同时，由于视觉搜索理论与技术仍处于初步发展阶段，存在着许多不足之处，使得视觉搜索应用目前尚未深入到人们日常生活中，但在一些专业领域，国内外出现了一些较具代表性的专业性视觉搜索体系，如瑞士联邦理工学院推出的Kooaba、Yahoo！的IQ Engines、Google的Google Goggles、Amazon的Snaptell、Idee的TinEye Mobile、雅典国立技术大学的WeKnowIt IMG REC、日本日立公司的Gazopa等[8]。

2.2 已有视觉搜索系统的比较分析

已有的商业型视觉搜索体系除了基本的视觉资源整合、浏览、分析与搜索功能之外，分别都隶属于不同的应用领域，拥有各自的核心功能、拓展业务和关键技术。本文从以上三类商业型视觉搜索体系中分别选取了性能较稳定、体系相对成熟、借鉴价值相对较高的五个视觉搜索平台作为代表，从应用领域、商业背景、服务模式、资源类型和主要功能等几个方面进行对比分析（见表1）。

2.3 已有视觉搜索体系的实践与分析

为了更好地了解和理解已有商业性视觉搜索体系，根据以上对比分析，本文从总体建设与使用情况、视觉数据来源、存在问题等3个方面展开分析。

2.3.1 总体建设与使用情况

Google知识图谱、TinEye、WolframAlpha、爱奇艺大脑等视觉搜索体系一经推出，就为信息检索领域带来了新的活力。毫无疑问，视觉搜索体系在信息检索的检索对象、查询意图、检索行为和基于知识的交互反馈上展现出强大的生命力和发展潜力。从国内外已有视觉搜索体系建设情况来看，笔者能找到并统计出来的应用大约120多个，经初步调研，目前这些视觉搜索体系中，85%以上是商业型应用（如Google知识图谱、百度识图、Probase、小猿搜题、TinEye与MulticolorEngine等），15%左右为研究型应用（如清华大学的Sketch2Photo、斯坦福大学的Visual Search Dataset等）。笔者在网络调研过程中也发现，很多视觉搜索网站和应用查找起来非常困难，许多应用不管是通过Google、百度、Bing，还是通过视觉搜索应用的主页，都很难找到相应的功能体验链接，将近43%的视觉搜索应用只出现在相关论文、各类新闻或通知上，笔者甚至未找到对应的主页。

另外，国内外已有的商业型视觉搜索体系总体建设情况仍不甚理想，了解率、利用率、普及率和掌握率偏低。笔者曾对西部某省属高校图书馆学科覆盖理工类、人文社科类的65位用户（含19位教师、46位本科以上学生的）进行过简单调研。其中，听过或了解过Google知识图谱、百度识图、爱奇艺大脑等视觉搜索应用的仅有11人（3名教师听说过Google知识图谱；1名教师看过Google知识图谱相关资料；2名教师使用过百度识图；1名学生经常使用百度识图；4名学生偶然使用过爱奇艺大脑部分功能，但从未听说过“爱奇艺大脑”概念）。而对于TinEye、WolframAlpha、DBpedia、Probase、知立方等其他视觉搜索应用，几乎没有人了解，更不用说使用。尽管笔者所做的这些调研工作不具备一定的权威性和代表性，但这个调研结果仍然能从某些方面反映出一些问题。

2.3.2 视觉数据来源

为了提高视觉搜索平台性能，提升用户体验质量和效果，不仅需要视觉搜索体系包含有大量视觉大数据资源、关联知识与关联关系，还需要它能够提供自主学习功能，自动更新视觉搜索知识、关联关系与视觉资源[9]。在这种情况下，视觉搜索体系就需要通过互联网自主获取、分析、组织、分析、理解、表达和描述与之相关的视觉大数据资源（包括文本、图像、音视频，以及来自视觉资源之间的语义关系和各种垂直关联关系）来覆盖、完善和补充新的视觉搜索知识；另一方面，视觉搜索体系也会从各种复杂结构化、半结构化和非结构化网络资源中提取相关视觉资源的“属性-关系-值”对来丰富视觉大数据资源的表达与描述。此外，视觉搜索体系也需要通过搜索日志来发现新的视觉资源实体、关联关系与关联知识，从而不断完善和拓展视觉对象知识库的覆盖面。

从国内外已有视觉搜索体系建设情况来看，视觉数据来源主要分为以下四个方面：

（1）半结构化和非结构化视觉数据。互联网中包含有大量文本、图像、音视频等异构视觉资源，这些都是已有视觉搜索体系必须要获取的数据源，同时，根据视觉搜索体系所属应用领域、服务模式与服务内容的不同，也需要自主生产它所需要的文本、图像和音视频等视觉资源。

（2）视觉资源之间的语义关联数据与关联知识。由于视觉搜索体系关键之处在于，能找出异构视觉资源之间的语义关联关系，并建立对应的关联知识库。因此，建立的“属性-关系-值”对、“关系-实体”对、“属性-值”对与“实体-关系”对与对应的视觉对象知识库等，也成为该体系最重要的数据来源之一。

（3）复杂结构化数据。事实上，各组织在构建视觉搜索体系时，还考虑使用大量的结构化数据，如LOD项目不仅把DBpedia、YAGO等，还包括MusicBrainZ（音乐知识库）和DrugBank（全球最大药物知识库）等特定领域的视觉对象知识库，而这些知识库所包含的视觉资源，大部分都是复杂结构化数据。

（4）日志类数据。对于提供视觉搜索服务的公司、数字图书馆厂商而言，日志类数据是其多年积累下来的宝贵数据，也是视觉对象知识库重要组成部分，是视觉搜索体系的重要资源。

2.3.3 已有应用存在的问题

从已有商业型视觉搜索体系的研究与应用来看，尽管这些视觉搜索技术与体系已面世，且在以往很长一段时间内获得了科技企业、科研机构和研究团队足够的人力、物力与财力投入，但当前仍未被广泛应用，剖析其原由，主要有以下原因：

（1）理论体系不够完善。视觉搜索理论源于心理学与生理学，引入至信息检索领域不到十年时间，且前期发展缓慢，近几年才逐渐引起工业界与学术界注意，想在这么短时间内完成“产生→发展→消费→利用”这个过程，显然是不大现实的。

（2）技术体系不够成熟。目前视觉搜索理论与技术仍处于不断完善、发展与优化的阶段，尤其是对于视觉资源理解、组织、描述、视觉特征表示、提取与匹配等技术，仍需要不断研究和优化。

（3）标准化问题和互操作问题未解决。已有商业型视觉搜索体系各自拥有大量的视觉分析和处理算法、技术方案、服务模式与系统平台可供选择和使用，但在不同体系架构、应用领域和技术方案下的视觉搜索体系之间的有机融合，必然会引来异构资源整合与处理的标准化问题、异构体系之间的互操作性问题，但从已有理论与应用研究成果来看，各视觉搜索体系彼此独立，彼此之间的标准化、互操作等问题并未得到解决。

（4）现有应用暂不具备通用性，且性能不够理想。从已有商业型视觉搜索体系的服务内容、建设模式与应用领域来看，目前除了基于知识计算引擎的视觉搜索体系（如Google知识图谱、DBpedia等）应用具有一定的通用性，易被普通用户接受之外，另两类视觉搜索体系都具有较强的领域依赖性，暂时还没有提供具备较强通用性的服务功能。但前者也存在一定的局限性，如主要接受文本型搜索对象，对图像型、视频型视觉资源支持度较低。由此可认为已有商业型视觉搜索体系主要是为某些特定领域、行业提供相应的内容或功能上的视觉搜索服务。

3 商业型视觉搜索应用带给图书馆的启示

3.1 注重数字图书馆视觉搜索体系建设的领域导向

一方面，已有商业型视觉搜索体系理论与应用研究大部分都具有较强的领域依赖性，如百度识图目前制作了花卉品种与美女图片等两个领域、爱奇艺大脑目前主要是针对影视视频领域、Google知识图谱围绕知识问答与知识服务领域、TinEye与MulticolorEngine应用主要围绕葡萄酒或旅游服务等特定领域来开展；另一方面，已有商业型视觉搜索体系所处理的视觉资源类型也各自具有一定的限制，并非针对全范围、全类型、全资源的视觉资源，而是针对某一个或几个特定类型、领域或学科的视觉资源，如Google知识图谱主要是针对文本与图像等类型、百度识图主要针对图像类型、爱奇艺大脑主要针对视频类型等。

商业型视觉搜索体系的这些局限，给数字图书馆领域开展视觉搜索理论与应用研究提供了重要参考。因此，数字图书馆视觉搜索体系的理想研究过程是：首先，选择某特定领域、学科、专业或行业，确定需要获取、分析、组织、表达、理解和描述的视觉资源类型；其次，制定完整的理论体系、系统研发、平台搭建、应用推广策略和缜密的研发计划；再次，系统地去探索某特定领域的视觉资源价值的产生机理、转换规律与时空语义关联关系；最后，形成一套具有普遍意义、完整、有价值的数字图书馆视觉搜索体系。

3.2 重视数字图书馆视觉对象知识库的建设

笔者曾在文献[8-9]中多次提出视觉对象知识库建设是视觉搜索体系建设与发展最为重要的环节，它建设的好坏直接影响到视觉搜索体系能否成功。高文院士研究团队也曾经多次强调视觉知识库（或称视觉数据集）视觉搜索服务依赖于视觉对象的高精度匹配和识别，通过建立高度结构化、高质量的视觉知识库，用户可迅速将现实物理世界的视觉对象与虚拟信息空间中的视觉资源建立关联，才能方便快捷地获取待搜索视觉对象的时空关联信息，获取到“所见即所知”的新一代搜索服务[10-11]。从已有商业型视觉搜索体系建设与发展现状来看，也充分印证了这一观点。

因此，如何准确有效地获取、分析、组织与管理大规模视觉对象知识库是数字图书馆视觉搜索体系建设面临的一个极具挑战性课题。只有解决好这个问题，才能有效地建立数字图书馆视觉搜索体系，为用户提供“所见即所知”式视觉搜索服务。

3.3 严格遵循视觉资源获取、保存的伦理与法则

数字图书馆存储的文本、图像和视频等视觉资源源于人类生活，用于用户教学、科研、工作和生活，图书馆在获取、存储这些视觉资源的同时，也必须要遵守一些基本规则。一方面对互联网与现实生活中正在传播或可能存在的反动、色情、违背社会伦理与道德伦常、违反法律法规、负面消极的视觉资源应该毫不犹豫地摒弃；另一方面自建某特定领域视觉搜索体系必然需要实地采集相关视觉资源，在采集过程中可能会对周围人、事、物、环境等产生影响，因此，就务必在协调好各方关系，保护涉事多方利益。如在进行某些特定领域（如非物质文化遗产）视觉资源实地采集信息的过程中，可在双方知情愿意的情况下进行，必要时可签订相应的使用协议。

3.4 重视视觉资源的标准化整理、加工与利用工作

已有商业型视觉搜索体系建设过程中，所有视觉资源都是经过专业化整理、加工与处理的，不同之处在于，商业型视觉搜索体系基本都是采用机器手段，部分自建的基于特定领域的视觉搜索体系是采用人工手段。对于图书馆而言，视觉资源搜集、整理与加工的最终目的是为了给用户提供相应服务。如果将所需要的视觉资源搜集回来束之高阁，或不进行规范化、系统化、标准化整理和加工，就会导致花费了无数时间、精力和财力获取到的是视觉资源也无法充分利用，使得数字图书馆视觉搜索体系建设这项工作失去了价值和意义。

从图书馆实际工作和数字图书馆应用研究的角度来看，导致视觉资源未被充分开发和利用的原因，主要有：一是参与加工、编辑与处理人员少、人员专业性不强、或软硬件设施跟不上，导致视觉资源价值无法被充分发掘；二是视觉资源获取、整理、加工与分析工作未建立标准规范，导致相关环节衔接出现问题；三是涉及到版权问题，大部分获取原生视觉资源未获得相关人员授权；四是视觉搜索平台的功能与性能无法充分满足要求，这也是当前图书馆面临的最大难题。

3.5 重视视觉搜索平台的安全和视觉资源的版权问题

无论在任何时候，资源版权和平台安全问题都是需要解决的关键问题，也是无法回避的难点问题，数字图书馆视觉搜索体系也不例外。从目前已有商业型视觉搜索体系所采用的策略来看，主要有：一是与用户签订相关安全管理、使用与建设协议，协议形式是通过设定默认电子协议方式，用户在开始参与建设与使用时，必须遵守相关协议与安全操作规范才能继续参与；二是通过软硬件方式限定相关安全操作、资源访问与知识服务权限；三是建立资源与服务实时更新、安全实时监控、版权实时检测机制；四是强化用户、服务与资源提供者的行为安全与资源版权的自我管理意识。这四点经验值得数字图书馆领域借鉴。

4 结语

视觉搜索体系的建设工作本身是一项系统而又繁杂的工程，也是数字图书馆信息检索模式创新与变革的必然方向。尽管在不同领域、不同环境和不同需求下，它的表现形式、服务模式、业务功能、甚至名称都会有所不同，但其致力于为用户提供嵌入式、协作化的大数据知识服务的本质是不会变的。

随着诸如Google、百度等商业型搜索引擎在知识服务领域的影响力和技术水平正在飞速前进。图书馆目睹了一大批信息检索工具、知识服务平台的崛起与腾飞，也亲身目睹了无数用户放弃数字图书馆，转而成为商业型搜索引擎的忠实拥蹙者。视觉搜索未必会成为挽救图书馆最有效的手段和工具，但却能有效提升数字图书馆信息检索效果与用户体验质量，对于提升图书馆核心竞争力也会产生积极影响。在移动互联网与大数据技术飞速发展大背景下，如何借助“互联网+”的地方，在数字图书馆与信息检索前沿领域寻求基础性突破，亟待图书馆产业界、学术界的共同努力。

参考文献：

[1] 吴飞，朱文武，于俊清.多媒体技术研究：2014—深度学习与媒体计算[J].中国图像图形学报，2014，19（11）：1423-1433.

[2] Norvig P.2020 visions[J].Nature，2010（463）：26-32.

[3] Griod B.Chandrasekhar V.，Grzeszczuk R.et al.Mobile visual search：architectures，technologies，and the emerging MPEG standard[J].IEEE Computer Society，2011，18（3）：86-94.

[4] 国务院关于印发促进大数据发展行动纲要的通知[EB/OL].[2016-04-01].http：//www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.

[5] 国务院关于积极推进“互联网+”行动的指导意见[EB/OL].[2016-04-01].http：//www.gov.cn/zhengce/content/2015-07/04/content_10002.htm.

[6] 国家自然科学基金委员会.“大数据驱动的管理与决策研究”重大研究计划2015年度项目指南[EB/OL].[2016-04-01].http：//www.nsfc.gov.cn/publish/portal0/tab38/info49994.htm.

[7] 王元卓，贾岩涛，赵泽亚，等.OpenKN—网络大数据时代的知识计算引擎[J].中国计算机学会通讯，2014，10（11）：30-35.

[8] 张兴旺，黄晓斌.国外移动视觉搜索研究述评[J].中国图书馆学报，2014（3）：114-128.

[9] 张兴旺，李晨晖.数字图书馆移动视觉搜索机制建设的若干关键问题[J].图书情报工作，2015，59（15）：42-48.

[10] 段凌宇，黄铁军，高文.移动视觉搜索技术研究与标准化进展[J].信息通信技术，2012（6）：51-58.

[11] 段凌宇，黄铁军，Alex C K，等.移动视觉搜索技术瓶颈与挑战[J].中国计算机学会通讯，2012，8（12）：8-15.

作者简介：张兴旺（1982-），男，桂林理工大学图书馆副研究馆员，研究方向：数字图书馆；向宏华（1978-），女，桂林理工大学图书馆馆员，研究方向：信息服务；柏雪（1988-），女，桂林理工大学图书馆助理馆员，研究方向：信息服务。