“大学数字图书馆国际合作计划”项目的电子书实践与发展
2022-09-23金佳丽
金佳丽,黄 晨
0 引言
2000 年,中美两国计算机科学家共同发起倡议,建设中美百万册书数字图书馆项目(Million Book Project,MBP)。这一倡议得到中国教育部、美国国家科学基金会和印度科学院的重视与支持,最终发展成为一个全球数字图书馆项目(Universal Digital Library,UDL),开始了全球最早的大规模数字化资源工程。2001年,项目中方被教育部定名为“高等学校中英文图书数字化国际合作计划”(China-Academic Digital Academic Library,CADAL),与中国高等教育文献保障系统(CALIS)共同构成中国高等教育文献保障体系(CADLIS)。2009 年,项目更名为“大学数字图书馆国际合作计划”(China Academic Digital Associative Library,CADAL)。如今CADAL 已经成为一个拥有多学科、多类型、多语种海量数字资源,面向公众开放的全球最大的公益性数字图书馆,是国家创新体系的重要信息基础设施之一。从最初的图书数字化到数字图书馆进而走向智慧图书馆,技术的进步带来了知识传播的革命。本文将目光聚焦到电子书,梳理电子书在内涵、组织形式、呈现方式、检索技术、阅读体验、服务模式等方面的发展变迁,回顾CADAL在电子书方面的实践与发展,以期在总结经验教训的基础上,科学规划,赋能升级,实现从数字化、网络化向智能化时代的跨越。
1 基于OEB的电子书技术与特征
作为全球数字图书馆项目(UDL)的一部分,CADAL创立的初衷是希望所有人不论何时何地都可以通过互联网访问到全人类的知识。要建这样一个百万册图书、TB量级的数字图书馆,如何将电子书以最优质便捷的方式开放给全球用户成为首要思考的问题。经过中方潘云鹤院士和美方Raj Reddy教授等专家的共同研讨,在项目建设之初,首先确立以电子图书框架结构标准OEBPS(Open eBook Publication Structure)作为工程实施标准。OEBPS标准建立于XML体系基础上,具有可互操作性、可扩展性、开放性和易用性等优点,是被业界广泛采用的一种开放框架规范[1]。
确定好遵循的标准后,CADAL将数字资源分成两个等级——典藏级和发布应用级。典藏级文件(Archive File)指数字对象采集过程所获得原始图像文件、原始音频文件、原始视频文件经过加工处理后得到的高精度、无压缩(或高品质压缩)的文件;发布应用级文件(Application File)指典藏级文件经过加工处理后得到的用于网上在线浏览的文件或特定应用的各类派生文件。CADAL对每个类型的数字资源分别制定了加工和应用等级标准,表1 是图书期刊数字对象的等级标准。由表1 可见,典藏级图像文件采用的是TIFF、JPEG 文件格式,而发布应用级文件的文件格式和压缩格式直接关系到用户的阅读体验,所以一直在随着技术发展和用户需求的变化而不断调整,大致经历了3个阶段:一是基于DjVu 的网络发布,二是基于Flash 的便捷浏览,三是基于国际图像互操作框架(IIIF)的互动浏览。
表1 图书期刊数字对象等级标准[2]
1.1 基于DjVu的网络发布
CADAL在创建之初就确定了高精度的扫描标准,因此在网络条件下,如何传输和呈现高精度图像成为一个技术难点。在考察了当时互联网传输最常见的GIF和JPG格式之后,中美双方的计算机专家经过讨论,决定采用DjVu作为这一项目的电子书网络传输格式。
DjVu是1996年AT&T实验室开发的一种针对高解析度、高质量彩色扫描文档的发布技术,它的压缩效率比JPEG和GIF等格式彩色文档优5~10倍,比TIFF格式的黑白文档好3~8倍。与PDF相比,如果数字化文档含有图片,DjVu将小于PDF 封装。更重要的是,CADAL 获得了AT&T实验室的授权,可以免费使用该项压缩技术。于是,在CADAL项目一期,采用卡内基梅隆大学提供的转换软件,将扫描文件转码为DjVu格式的发布文件。项目二期建设中,浙江大学的技术中心进一步将扫描、图像处理、元数据编辑、导航生成与格式转换等电子书生成环节集成为一个生产系统,通过DjVu来完成电子书的封装和发布。
1.2 基于Flash的便捷浏览
CADAL数字资源以DjVu格式上网发布后,用户需要下载DjVu 插件以支持浏览器解析阅读。尽管DjVu 插件只有600KB(同类型的Acrobat Reader 是6M)且免费,但是由于DjVu的应用并不普及,很多用户不愿意额外安装这一插件。为了进一步提升用户阅读体验,CADAL决定放弃DjVu 插件,改为浏览器兼容性更好、受欢迎度更高的Flash Player插件。Adobe 公司的Flash Player 在各主流操作系统中均可用,也支持各类浏览器。据Millword Brown公司2011 年的调查显示,接近99%的网络用户安装有Flash Player 10 及 其 更 高 版 本[3]。另外,随着CADAL二期加入音视频多媒体资源的数字化,Flash Player更有利于这些数字资源的展示。这样就形成了CADAL网站前端以Flash形式展示,后台图像实时转换的服务模式。这种情况,一直持续到2019年Flash没落,CADAL门户网站重新升级。
1.3 基于国际图像互操作框架(IIIF)的互动浏览
随着CADAL门户网站的二次升级,2021年3月,CADAL开始着手实现国际图像互操作框架下的图像文件转换与图像文件在线浏览。国际图像互操作框架(International Image Interoperability Framework,IIIF)是由全球各地图书馆、博物馆、美术馆、档案馆等机构推出的一项国际化技术通用标准,旨在让不同机构的资源传输速度更快、质量更高、成本更低。在IIIF框架下,用户可以实现基于图像服务器的图片管理,可自由进行缩放,快速显示高清超大可视化图片;实现基于带标注的图片管理,在图片上做数字化标注,可用于多模态知识图谱的创建;同时,还可以对图像进行OCR识别,得到OCR文件保存到索引服务器,转换为注释列表,通过结合manifest上传服务器,实现全文检索。最重要的是,提升报纸、图形图像类型资源的加载速度和用户浏览体验。
电子书格式选择是资源建设和利用的基础,关系到资源共享与用户体验,需要大胆探索、小心论证。纵观国内外电子书市场,各大电子书平台都有自己的电子书格式,国内如北大方正(Apabi Reader)的CEB格式、清华同方的CAJ格式、超星的PDG 格式,国外如Adobe 公司的PDF格式、微软公司的LIT格式、Amazon公司的KFX格式。这种五花八门、各自为营的格式壁垒增加了阅读障碍,与CADAL作为公益性数字图书馆所坚持的开放共享原则是相背离的。20年来CADAL始终坚持OEB开放电子书规范,以共建共享为理念,以用户需求为导向,以技术革新为契机,不断调整电子书的内容格式和前端浏览方式,力求实现电子资源的易获取、高清度、全开放,从而不断提升用户的阅读体验。
2 从电子书到知识空间
电子书一词由Electronic book翻译而来,其基本概念学界尚未有定论。有研究认为,电子书的内涵随着时间的发展不断变化,1998-2002年多从电子阅读器的角度出发研究电子书,2002年至今,从内容角度来看待电子书已经成为共识[4]。有学者根据发行前有无印刷版,将电子书分为天生的电子书和转换的电子书[5];也有学者将电子书分为:Ebook1.0、Ebook2.0 和Ebook3.0。Ebook1.0 是将传统图书数字化,Ebook2.0 是只有数字化形态的原生电子书,Ebook3.0 是集成了文字、图表、声音、视频、动画及其他功能(如交互)模块等要素的多媒体读物[6]。CADAL的电子书也经历了一个内涵和外延不断拓展的过程。
2001-2012年是CADAL的数据积累阶段,整个项目全身心地致力于海量文献资源的数字化。10年间在20余所高校建立数字资源加工中心,形成杭州、深圳两个加工基地,月加工能力2,100万页,最终共数字化250万册图书。表2列出数字资源加工贡献度较高的前10 所高校。在采集加工过程中,数字对象的载体形式不断扩展。首先进行的是纸本文献的数字化,包括图书、期刊、报纸、古籍、侨批、科技报告、书画、手稿、印章等各种类型的文本资源。接着,将音视频、老照片、文献缩微胶卷纳为数字化对象。此外,还开发了“2.5 维扫描技术”对甲骨、竹简等浅浮雕文献载体进行数字化[7]。
表2 CADAL数字资源加工册数TOP10高校
2013年,CADAL的数字资源积累已经是一览众山小,于是转向对已有海量资源的整合和挖掘,思考泛在的数字环境下,如何将分散、多样、异构、非结构性的数字资源整合在一起,成为有机的整体,使之能够有效地被保存、发现和获取。对此,CADAL项目专家提出要打破单本“书”的概念,建设超媒体阅读体验空间。
超媒体阅读体验空间突破了传统的“文字+二维图像”的展示模式,开始将传统文本、图像、音视频数据融入到虚拟现实环境中进行展示。例如,CADAL网站上的《红楼梦菜谱》(王柏春,1992)[8]讲述了《红楼梦》中的饮食文化,并列出雪塔燕窝、金银蹄膀、红烧果子狸等63道菜的菜谱,讲述每道菜的原料、操作方法、风味特色、营养分析,并对菜的历史进行回溯。CADAL将这本书上的相关信息通过标题、关键词、作者、内容分类特征等元数据进行关联,从而展示出更全面的信息(见图1)。在介绍雪塔燕窝一菜时,附上金丝燕的图片,燕窝形成过程的视频,产地泉州、崖州、万宁的链接和介绍,配料熟火腿、水香菇的图片及介绍,清代袁枚《随园食单》对燕窝的记载,红楼梦各章节涉及到燕窝的场景,制作雪塔燕窝的视频等等。这样就把单一的文本信息进行扩充,综合链接文本、图像、音视频等多种资源来揭示一个知识单元,形成一个超媒体阅读体验空间,给读者以视觉、听觉上的全方位信息,开创了新型的数字阅读模式。
图1 “红楼菜谱”样例展示[9]
3 基于电子书内涵拓展的服务转型升级
回首CADAL20年发展,服务模式的每一次升级都离不开对电子书的挖掘和再发现。早在2013年,CADAL确立了从“数字图书馆走向智慧图书馆,进而升华到知识中心”[9]的目标之后,结合跨媒体、人工智能、大数据处理等技术,开始对电子书进行边界拓展和深度解析,打破单本书籍孤立的知识组织形式和呈现形式,将其以边界互联的知识网络与细粒度化的知识元形式呈现,积极探索知识服务新模式。
3.1 跨媒体检索
探索的第一步是打破不同类型数字资源边界,将数字图书馆联通成一个开放的数字环境。为此,首先要解决“异构鸿沟”(Heterogeneity Gap)和“语义鸿沟”(Semantic Gap)这两个科学难点[10]。对此,CADAL在超媒体阅读空间探索实践的基础上,借助机器学习提出“跨媒体”思想,通过学习、推理及其他智能型处理,来实现从一种媒体类型到另外一种媒体类型的跨越,即“媒体跨越、语义关联”。其实质是寻找不同类型媒体间的相关性。跨媒体检索与传统的多媒体检索技术的本质区别在于,后者集中在基于内容的单模态特征分析与检索,主要研究单模态数据集的相似度度量问题;而跨媒体检索要解决不同模态的多媒体对象之间相关性匹配问题[11]。比如,输入一张爆炸画面的图像数据,可以检索到一段爆炸声音的音频。跨媒体搜索支持任一种媒体形式的输入,支持任一种媒体形式的结果,挖掘多媒体对象语义及关系,建立统一的跨媒体索引机制。经过长期努力,CADAL 项目的技术专家在跨媒体计算领域取得一系列成果,不仅完成“跨媒体海量信息融合与智能内容搜索引擎产品开发”(“863计划”重点项目课题,编号:2006AA010107)等多个重点项目,而且申请了“一种基于深度神经网络的跨媒体排序方法”(中国,CN201410531101.1)等多项专利。
3.2 知识抽取与知识元关联发现
科技的发展使得信息获取更便捷,人们在学习研究时不再是苦于没有书读,而是面对太多的图书与信息,无从下手。CADAL 团队认识到,对海量信息的处理将是大数据时代的关键和用户的核心需求。因此,在将数字图书馆变成一个跨学科、跨媒介的海量知识总库后,CADAL开始着手资源的细粒度化,以知识元为单位深度解析电子书,进行知识抽取与知识元关联发现。
知识概念之间的先后关系对科研教学来说至关重要。例如,想学习“条件随机场”的知识,首先要知道“隐马尔可夫模型”。无论是课程辅导还是自主学习,需要以合理的顺序组织知识。CADAL的技术专家提出了一种特定领域的概念提取方法和基于非监督学习的图书概念前后序关系抽取方法[12]。借助海量电子教科书,获取每本书的章节序列,通过无监督聚类方法对语义相似的章节进行聚类来获取学习对象,创建出类似于地铁地图一样的学习图,基于ILP技术从学习图中选择一组信息量高、流畅且冗余度低的学习路径,帮助用户提高知识学习效率[13]。这样CADAL可针对某一领域的图书,自动抽取其核心概念以及概念间的前后序关系,构建“领域知识空间”,帮助用户推荐学习资料;也可以某个概念为核心,将分散在不同图书中的知识综合起来,形成专题,方便用户全面学习某个知识点。
CADAL研发的用于知识图谱构建实体关系的抽取工具、文献影响力评估工具等,根据用户的检索请求,对学术信息资源进行细粒度知识元加工和封装,把相关知识元抽取出来,汇聚成个性化的知识信息,甚至编辑成一本新的专属电子书,可以满足不同用户的个性化知识需求。CADAL将电子书内容细粒度化到知识元,并通过知识元之间的语义关联,形成知识网络,大大拓展了电子书的深度和广度,为数字人文的研究与实践奠定了基础。
3.3 知识服务
基于一系列关键技术的突破,CADAL项目深入挖掘海量资源,成功实现了一系列的知识服务,如图书专题自动生成、基于内容的智库文献影响力评估、中国书法知识服务[14]、中国文学编年史知识服务[15]、中医药知识服务[16]、工程科技知识服务等。以中医药知识服务为例,图2展示了其基本路径。
图2 中医药知识服务的演示过程[17]
中医药是一个知识密集型的研究领域,面对这样一个大规模的知识工程,CADAL首先从已有的中医典籍中抽取中药、方剂、诊断、病案等信息,并将其细粒度化为知识元,构建中医药知识库,通过跨媒体检索技术提供百科全书式的知识集成与搜索服务。在此基础上,借助语义理解、自然语言处理等技术,CADAL进一步提供面向科研的知识发现服务和面向临床实践的决策支持服务,如中药的相关性查询和推荐、产地分析、方剂对比。为了挖掘方剂成分的加减变化与药物性味等深层次信息,CADAL开发了方剂用量统计工具、方剂贡献度计算工具、方剂功效组成分析工具,最终以可视化的方式多维度地将知识结构与内容呈现出来(见图3),为用户提供完整、系统的知识图谱。
图3 中草药知识可视化[18]
近年CADAL一直致力于数字图书馆服务模式的转型升级。服务模式的转型要以用户需求为导向,重点还是回归电子书内容本身,从信息资源管理向知识资源管理转变,信息组织向知识组织转变,实现用户个性化需求驱动的知识元聚合和知识协同,由文献服务走向知识服务。
4 结语
CADAL项目自启动以来,始终着眼于全球资源共建共享和人类文明共同进步,以“共建共享”为理念,致力于资源的全开放获取。如今CADAL 已收录有超过280 万册中英文电子书,数据总量达1.4PB,服务2,500余所国内外学术机构,是我国高校图书馆最大规模的知识整合平台之一。从CADAL关于电子书的一系列实践和发展中可以看出,从二十年前将纸质图书扫描成电子文档开始,电子书的概念内涵和外延一直在不断拓展和演化。如今的电子书早已打破了单本书的界限而成为一个个按需重构的“知识空间”,对电子书进行深入挖掘与解析,是数字图书馆服务模式转型升级的基础。由此,学术数字图书馆也从单个的服务系统升级为开放的数字环境,成为一种“基于知识内容、应用环境和应用群体有机交互的数字化知识化服务机制”[19]。