国际图像互操作框架（IIIF）及在数字资源集成中的应用*

2020-04-24付跃安

图书馆论坛 2020年4期

付跃安

0 引言

经过多年发展，包括商业数据库与非营利文化数据库在内的数字资源库为数字图书馆提供了丰富的内容资源，特别是近年来随着数字人文受到重视，一大批基于文献遗产数字化项目建立的数字图书馆相继问世。但不同机构(甚至同一机构内)在数字资源的共享上存在障碍，这源于不同资源库和平台使用了独立的技术框架、资源格式和应用程序，导致不同资源库在资源存储、管理与传播上存在差异，其对用户的影响主要体现在用户无法一站发现、使用和管理资源，必须往返于不同平台并熟悉多个平台功能。为解决数字资源“孤岛”问题，学界引入资源集成概念，并先后在理论和实践上进行了探索。根据实现方式，目前出现了3种集成：第一种是将不同来源的对象资源集成到一起，如世界数字图书馆，但由于实施难度大，成功的案例不多，业界更多采用另外2 种集成方式，即基于元数据的集成和功能集成，前者采用元数据收割或提交等方式建设统一的数据服务平台，如美国公共数字图书馆、欧洲Europeana，后者提供统一的导航和检索平台(如跨库检索)，由系统调取各库信息并在同一个平台展示，各图书馆使用的发现系统基本上采用的是后一种。第二种与第三种集成虽然实施较多，但共同问题是主要面向发现服务，能协助读者在一个平台中查找资源，但由于不保存对象资源，读者在使用资源时仍然受“孤岛”问题困扰——读者需要前往各个平台利用资源，并受制于平台浏览器功能的局限；读者只能采用保存链接或将资源下载到本地等“笨拙”的方式对资源进行管理，特别是当平台不允许读者下载或对下载设置限制时，读者在保存资源时会面临很大障碍。为此，需要将资源集成向“纵深”推进，不仅能帮助读者一站发现资源，也能实现读者对资源的统一使用和管理。

2018年12 月，笔者作为交流学者应邀前往大英图书馆(The British Library)访问，期间了解到一种新的资源交互协议——国际图像互操作框架(International Image Interoperability Framework，IIIF)正在被全球越来越多的图书馆、博物馆、档案馆、文化遗产组织、软件公司等机构采用，该框架能有效协助用户对资源进行一站使用和多来源集成，支持用户与资源的多种互动，同时对基于元数据收割的发现服务也能起到改进作用，值得国内图书馆界认真对待。

1 国际图像互操作标准概述

IIIF 于 2011 年被提出，2015 年 6 月大英图书馆、新西兰国家图书馆、欧洲Europeana、牛津大学图书馆、哈佛大学等29个机构宣布成立该框架。IIIF致力于建设一个全球图像互操作框架，借助关联数据、JSON数据交换、W3C网络协议等技术和标准，在不同系统和平台之间架起沟通的桥梁，使资源被方便地共享、分析和注释，为学者和研究人员提供对资源的最优访问[1]，以解决文化资源在被数字化后产生的难于被发现、被再利用、引用、交换和比较分析等的挑战。尽管IIIF面向的是“图像”资源，但它并不是一个单纯的图像技术，而是对以图像格式存在的数字资源的传播和利用提出一整套标准框架，由于当前多数文献遗产资源平台都是采用扫描或拍照建库，图像是主要资源形态，因此IIIF具有广泛的适用性。

IIIF定义了若干个系统间用于交换数据的接口(API)，它们能用于描述和传递图像及关于图像的结构化数据。IIIF 目前共设置4 个API：图像API、展示API、授权API与检索API，前两个为核心API，后两个为扩展API。图像API支持参数化图像URI构造，根据标准化HTTP或HTTPS请求，返回一幅图像或图像的基础技术信息，其中返回图像的URI 结构为：{scheme}：//{server}{/prefix}/ {identifier}/ {region}/ {size}/ {rotation}/{quality}.{format}，前4项为共享要素，描述了同一资源库中所有图像的共有属性，后5项为个性要素，从区域、大小、角度、质量、格式等方面由客户端或用户对图像进行设置。展示API基于Shared Canvas 数据模型，返回JSON-LD 文档，提供了图像或图像集的描述信息(如元数据)、结构、顺序、布局及关联内容(如文本数据、标注数据等)等并予以组织，以确保图像在基于网络的浏览环境中被正确显示、导航和操作。展示API还支持合作性标注、修正和语义抽取等，并可将不同的标注工具、描述工具、地理信息工具等配合使用[2]。检索API提供已知资源内的搜索功能(不用于查找资源和提供发现服务)，例如若图像资源被添加了文本数据，检索API可提供对文本的检索。授权API主要是用来对版权资源的使用权限进行设置，但不影响IIIF功能的发挥。

图1 IIIF展示API数据结构[3]

在IIIF资源传播中，实现关键是请求方系统向资源方系统提交所请求资源的信息，这一信息是一种类似货物清单的资源列表(Manifest，简称“资源表”)，采用JSON-LD文件，以关联数据集成多个来源的信息，如元数据、资源结构和布局及顺序、关联内容等，其中包括指向图像的URI。一个资源表对应的是一种资源，既可以是独立的图像，如一张照片、一幅地图，也可以是一个图像集，如一本数字化古籍，有些机构甚至将整个文件夹作为资源表的对应单元[4]。对普通用户来讲，该过程可以简化为“拖-放”的过程，即在资源平台找到需要的资源后，将资源旁边的IIIF标志拖到图像浏览器即可。一般情况下，资源方大都提供了资源表的JSON文件，用户点击IIIF按钮即可查看和下载，如果用户对JSON 文件比较熟悉，也可以对资源表进行修改，以生成符合需要的资源表。

自推出以来，IIIF就以简单有效而受到越来越多机构青睐，目前已形成一个全球使用网络。除上述单位外，其他参与机构还包括大英博物馆、美国公共数字图书馆、剑桥大学、斯坦福大学、密歇根大学、耶鲁大学、哈佛大学、哥伦比亚大学、多伦多大学、东京大学等，以及一些国家图书馆或博物馆(如美国国会图书馆、澳大利亚国家图书馆)，OCLC 数字资产管理平台(CONTENTdm)亦宣布支持IIIF。我国厦门大学图书馆于2016年安装了Loris2图像服务器，搭建IIIF 影像接口，并在前端配置IIIF 资源浏览器OpenSeadragon[5]。这些机构不仅是IIIF 的使用者，也是IIIF的研究者，为完善IIIF做出了贡献。例如，IIIF资源浏览器Mirador最早就是由斯坦福大学开发，由于该浏览器属于开源软件，哈佛大学又进行了改进；英国牛津大学Bodleian图书馆甚至开发了一款IIIF 资源表编辑器，使不熟悉JSON文件的学者也能方便地对资源表进行编辑、修改。为方便机构和学者围绕IIIF进行延伸开发，IIIF在软件开发平台github.com中设置IIIF专栏，用于发布各种开发成果。

2 国际图像互操作框架的应用特点

2.1 独立于系统环境

IIIF并不排斥各个机构对数字图书馆技术和标准的选择，而是在现有技术和标准之上，另外搭建一条内容描述和传播通道，使采用不同服务器、使用不同工具和标准建设的图像资源在此通道上实现输入、输出的标准化[6]。例如，在上述图像API 的URI 结构中，其中一项为“格式”(Format)，IIIF 对图像格式并无限定，资源平台可以自行选择资源格式，如JPEG、TIFF、PNG、PDF等，上述格式的图像均可以在IIIF环境下被调取和显示。再如，IIIF官网特别强调，IIIF并不提供某种所有系统都必须遵守的信息标准(如元数据标准)，任何系统采用的任何元数据都可以被正确传递和显示，如下文剑桥数字图书馆藏牛顿手稿《基础数学》的资源表(元数据节选)JSON 文件[7]所示，每一项元素至少包括两项内容：标签名与值，字段名本身被作为标签名而获得传递。系统环境的独立性避免了不同机构为实现资源共享和技术兼容而对系统进行的标准化改造，降低了资源集成的障碍。

{"viewingDirection"："left-to-right"，

"metadata"：[

{"label"："Origin Place"，

"value"："England"}，

{"label"："Date of Creation"，

"value"："c.1669-1700"}，

{"label"："Title"，

"value"："Elementary Mathematics"}，

……

2.2 开放的应用建设

IIIF属于资源传递标准，与其有着直接联系的是两类应用：图像服务器与图像浏览器，对此IIIF也没有专门要求，而是采取开放政策，允许不同机构自行开发或选择应用。根据IIIF 官网，目前已有多款支持IIIF的图像服务器与图像浏览器(详见表1[8])被开发出来，其中很多服务器和浏览器是开源软件，这些服务器与浏览器中有些是专门为IIIF开发的，有些是对已有服务器和浏览器的改进。在基于图像格式的资源建设和服务中，图像浏览器的安装是不可缺少的，因为没有图像浏览器，读者就无法查看和操作资源，但图像服务器的安装并非必需，因为仅借助网络服务器系统也能提供图像服务，不过安装图像服务器却能带来显著不同。在数字资源建设和服务中，对于图像资源往往要进行多次处理，按照使用场景、使用目的等生成诸如拇指图、概览图、高清图等衍生图像。如果不安装图像服务器，这些衍生图像就需要分次生成并被分别保管，给系统运行、存储和管理造成压力。但如果安装了图像服务器，上述处理过程就可以自动完成，也不必分别保存，实现“一次发布，多次使用”。正是考虑到图像服务器的这一特点，IIIF的图像URI提供了参数设置功能，IIIF浏览器能根据用户的操作形成关于区域、大小、角度、质量及格式等图像参数，用户也可以手动对这些参数进行更改，IIIF 图像服务器根据携带参数的URI 传送图像，而不是在全部图像下载后用户才能查看，从而提高了传输效率[9]。

表1 IIIF图像浏览器与图像服务器列表

2.3 保存与使用分离

按照传统的数字图书馆建设和服务，资源方一方面要对资源进行保存和管理；另一方面也要搭建使用环境，资源保存和使用服务由同一机构提供，但IIIF突破了这一模式，实现了保存和使用的分离，其过程如下：借助资源表，用户所在平台向资源方服务器发出请求，资源方服务器将被请求的图像和信息以数据包的方式发送到用户所在平台并在用户本地显示和接受用户操作，但资源却不会在用户本地备份，同时用户对资源的各种操作如缩放、加标签和注释等数据也不会被回传给资源方服务器，由用户所在平台自行处理。这种保存与使用的分离对数字资源建设和服务具有多重意义：一是避免了在本地保存资源而引起版权风险；二是减轻了用户所在平台管理资源的压力；三是由于不存在频繁的数据回传，降低了网络带宽压力，也减轻了资源方系统保存用户数据的压力。不过，这一方式也有缺陷，就是用户对资源的操作记录容易丢失，目前IIIF平台多数都不提供操作数据托管服务，用户只能借助个人电脑中的缓存获取历史操作记录[10]，一旦更换电脑或浏览器，或者清理缓存，有关数据就会消失，这给用户使用带来不便。实现用户操作数据的本地保存是IIIF研究团队下一步的攻关目标。

3 国际图像互操作框架在资源集成中的应用

3.1 为用户搭建一站资源使用环境

IIIF技术使用户一站使用资源成为可能。传统情况下，用户只能利用资源所在平台的浏览器使用资源，如果用户需要的资源来自多个平台，用户就要往返于不同平台并熟悉多个平台功能。尽管元数据聚合平台与跨库检索系统能方便用户一站发现资源，但由于不能集成对象数据，用户仍然要前往资源所在平台使用资源和查阅信息。由于采用标准的传输协议，借助IIIF技术，用户就可以突破资源所在平台局限，从一个浏览器中查看和操作任何来源并且支持IIIF的资源。例如，大英图书馆的读者可以利用大英图书馆安装在平台中的IIIF浏览器(Universal Viewer)查看和操作剑桥数字图书馆、斯坦福大学图书馆、哈佛大学图书馆等机构的资源。用户甚至可以自由选择浏览器，而不影响对资源的使用。例如，大英图书馆的读者可以使用剑桥数字图书馆的IIIF浏览器(Mirador)打开斯坦福大学图书馆的资源。这一功能为用户一站使用多个来源的资源提供了方便，也能使数字图书馆将资源开放给专业浏览器，提高资源的使用价值。

为方便用户一站使用资源，图书馆需要在平台上安装IIIF浏览器。借助该浏览器，读者不仅可以查看本机构资源，也可以查看其他机构资源。图书馆可以将原有浏览器全部替换成IIIF浏览器，也可以在保留原有浏览器的情况下设置可选浏览器，这样既满足了读者对IIIF浏览器的需要，也保留了本地平台个性化的界面、标志或品牌以及对使用的控制[11]，如剑桥数字图书馆就在原资源查看界面旁设置了“在Mirador 中打开”的按钮，这体现了IIIF技术系统环境独立性的优势。图书馆还可以在发现系统中嵌入IIIF浏览器，读者检索到资源后点击打开原图，系统从资源所在库调取资源并在IIIF浏览器中显示，从而将一站发现和一站使用在同一个平台完成，读者不必前往资源所在平台使用，使发现系统的使用体验得到改进。

除浏览器外，数字图书馆还可以为用户搭建多种IIIF资源应用环境。例如，可以在博客或网络文章中提供嵌入图像或图像区域的功能，或创建能集成多来源资源的虚拟展览。为了给研究人员、学生的项目研究提供一个资源保存、管理、交流和成果展示的平台，波士顿东北大学图书馆建立了一个专门的系统(The Community Enhanced Repository for Engaged Scholarship，CERES)，项目人员可在系统中创建自己的展览、页面、博客等，在涉及图像资源时，系统嵌入了能够兼容IIIF 资源的浏览器，通过定制化的API请求命令调取项目组存储在图书馆机构库中的资源或外部资源，并集成到所制作的展览、页面或博客中[12]。

3.2 为用户安装专业浏览器

IIIF自设计之初就希望为学者提供一个专业图像查看和操作工具，如深度缩放和流畅平移，对尺寸、区域、方位、分辨率等的灵活修改，标签和注解添加，对资源的全文检索(已建有文本数据)等，各IIIF 图像浏览器对此都给予了良好支持，并提供了特色功能。其中，Mirador以其独特的功能受到学者青睐。Mirador 是基于JavaScript、专门针对IIIF 开发的开源浏览器，能提供多资源库、可配置、可扩展、便于整合的图像浏览和注释创建与图像比较环境，提供的功能包括可用来比较多个图像资源的多窗口环境、对内容结构和视觉的同步导航、遵从开放注释(Open Annotation)的注释创建和可深度扩展的图像浏览、元数据展示、原文阅读、书签添加等。Mirador 最突出的功能是多窗口创建功能，即在同一个页面，用户可以建立多个子窗口，每个子窗口都可以独立查看资源并对资源执行Mirador所支持的操作，从而方便用户对不同来源的资源进行比较和分析，也可以对同一资源的不同部分同时进行查看和比较、分析，甚至可以将被不同机构收藏的手稿残片拼接起来。Mirador还提供了多种注释创建功能，如读者可以框定某个区域并为该区域添加注释，可添加信息类型包括文本、链接、图片、音视频等。如果资源本身带有文本数据，Mirador还可以提供对文本的全文检索，检索结果以高亮方式同步显示在资源上。

3.3 为用户多来源集成资源创造条件

用户需要的资源往往来自多个平台，支持IIIF 的平台大多提供了资源的JSON 文件(资源表)，用户可以对这些JSON文件执行保存、编辑和修改等操作，从而建立个人数字图书馆。用户还可以对不同来源的JSON文件执行合并、排序等操作，以建立个性化资源表，获得流畅的使用体验。例如，对于年代久远的文献遗产，许多资源都分散收藏在不同机构，甚至一套书或一本书的不同部分也分藏于不同单位，如《永乐大典》就分散收藏在多个国家的多个机构中，IIIF的这一功能可以在用户端屏蔽来源差异，使用户感觉在使用一部完整的资源。图书馆可以借助IIIF及软件提供的功能，为用户建立一个可深度定制的个人工作空间，使读者方便地将全球资源库中与个人研究和工作有关的资源集成到一起，并使读者获得对这些资源进行统一收集、储存、标注、管理和共享等功能[13]，即使不熟悉JSON 文件，用户也能借助图形式化操作界面对IIIF资源进行集成和编辑。多伦多大学图书馆基于IIIF为用户构建了一个功能丰富的本地软件套装，用户可以根据需要将该套装下载到电脑上，管理自己的资源。用户既可以上传本地资源，也可以从其他平台调取资源，软件集成了Mirador，用户既可以查看和操作资源，也可以创建虚拟展览，并将这些资源应用于教学展示、研究等。目前多伦多大学共提供3个软件套装，分别具备不同的功能，由用户选择安装[14]。日本国立情报研究所和统计数理研究所共同设立的人文学公开数据共同利用中心(Center for Open Data in the Humanitiees)开发了IIIF集成平台(IIIF Curation Platform)，该平台开发了自有IIIF浏览器，并提供了一系列软件套装，利用该平台，用户可以将全球IIIF资源库中对自己有用的资源执行保存、截取、编辑、添加注释等操作，以建立个人数字图书馆，也可以将所保存的资源向他人共享[15]。

3.4 建设虚拟特色数据库

借助IIIF技术，图书馆可以从全球资源库中为本地用户遴选资源并在不保存对象资源的情况下为用户建设虚拟特色数据库，同时通过嵌入IIIF浏览器为用户提供一站使用服务。从前台看，用户感觉不到资源不在本地的影响，也感受不到不同资源平台功能上的差异，特别是那些由不同机构分藏不同部分的同一资源，用户在使用时能获得一致的体验。日本人文学公开数据共同利用中心就利用其开发的ICP技术，从日本国文学研究资料馆、庆应义塾大学图书馆、京都大学图书馆收藏的图像资源中，以面部表情为对象，建设了虚拟专藏“面部表情专藏”(Collection of Facial Expressions)，收集了各图像资源中不同人物、不同形态的面部表情，并由机器为图像添加标签，平台安装了统一的IIIF浏览器。截止本文调查，该专藏已有5，824张面部数据[16]。由于仅需在本地保存资源的有关数据，而不用对资源进行复杂的下载、转换和加工，因此这一方式能减轻建库馆员压力，提高建库效率，同时也能减少在本地保存资源带来的版权风险。这一方式也扩大了特色数据库的资源入藏范围，因为并非所有资源库都允许用户下载和在本地保存资源，如果采用在本地备份方式建设数据库，会导致无法从某些数据库中集成资源，这也是当前国内特色数据库建设的瓶颈之一。

4 国际图像互操作框架对改进发现服务应用性分析

由于IIIF技术主要面向终端用户，以提供资源库之间或资源库与数据聚合平台之间的互操作为目的，因此IIIF并没有设置中央数据库，不提供内容整合和发现服务，这在IIIF官网中有明确说明。尽管如此，自IIIF推出伊始，人们就对借助IIIF实现发现服务抱有浓厚兴趣，并成立了研究小组，OCLC 还基于其数字内容管理系统(CONTENTdm)的图像资源开展了这方面的尝试，推出了IIIF Explorer测试版。在数字资源整合的两种方式中，IIIF在元数据整合中的应用得到了较多关注。目前，元数据整合使用最普遍的是基于OAI-PMH协议的整合技术。但该技术具有封闭性，对数据提供方有一定技术要求。IIIF使系统间的标准化通信成为可能，因而IIIF为基于元数据收割的数据整合提供了便利，这已被一些实验和案例研究确认[17]。在IIIF的API提供的输出信息中，存在着足够的信息供HTTP机器人对IIIF端点爬行并收割数字资源的链接及相应数据。IIIF的API结构清晰，易于理解，使元数据整合平台从各库获取数据变得容易。因此，对于已经实施了IIIF技术的数据提供者，基于IIIF的元数据收割能大大降低技术和成本要求，提高数据提供者参与的积极性。不过IIIF在支持数据整合方面也有不足，如数据集成需要的部分元素并非强制，一些数据集未提供有关元素；IIIF也没有提供数字对象的修改时间戳，当资源库变得较大(10万件以上)或带宽有限时，会影响数据的收割效率，但在不涉及大型资源或在带宽有保障时不会有太大影响，数据整合平台也可以结合其他技术予以克服。

5 结语

IIIF的推出使数字图书馆之间的跨平台资源交换成为可能，有助于减少因平台异构造成的用户在使用和管理资源方面遇到的障碍。同时，IIIF对于图书馆重构应用系统，提升资源管理效率也能发挥作用。例如，图书馆可以建立独立的图像资源库，其他系统如网站系统、活动管理系统、在线展览系统、资源推荐系统、自动化系统、社交管理模块等均可以调用该库资源，图像服务器根据请求生成不同分辨率、不同格式的衍生图像，满足系统的不同需要。不过由于IIIF推出时间有限，其应用潜力尚未得到充分发挥，同时存在一些不足，如用户数据难于保存、缺少独立客户端、资源类型有限(目前仅支持图像资源，对音频和视频资源的支持仍在研究之中)，但其开放性特点为用户开发各种IIIF 应用提供了空间，也为克服这些不足带来了曙光。

致谢笔者在研究过程中获得了大英图书馆Sandra Tuppen博士、Kai-Chuan Chapman女士的热情帮助，她们提供了大量资料，并联系大英图书馆负责IIIF的技术人员解答有关问题，谨致谢忱！