负责任创新视域下的谷歌数字图书馆项目:历史回顾、影响分析及对智慧图书馆建设的启发∗

2023-06-07彭佳芳佘延锋秦晓婕

山东图书馆学刊 2023年5期

彭佳芳佘延锋秦晓婕

(1 中山大学图书馆,广东深圳 518107;2 剑桥大学出版社广州代表处,广东广州 510095;3 广东省立中山图书馆,广东广州 510110)

1 引言

近年来,谷歌数字图书馆项目在宣传和行动上日显低调,与其2010 年宣称要“扫尽全世界的1.2亿本书”的姿态不可同日而语。但作为一项备受瞩目、影响力巨大的重大创新工程,谷歌数字图书馆一度引领了人类知识获取和利用方式的转型,在商业、技术、法律等多个领域产生了划时代的影响。事实上,在2016 年美国最高法院最终判决相关的版权案件之后,谷歌数字图书馆项目已经在某种程度上完成了其历史使命,尽管项目本身仍在持续,但其已经不再是争议的焦点。

正如中山大学肖鹏副教授在一次演讲中指出的,谷歌数字图书馆项目是复合性的、跨领域的综合创新项目,它以技术创新为开始,却最终通往了文化创新这一深刻的命题。他认为,尽管谷歌数字图书馆项目并非真正意义上的图书馆,但其从“技术创新”到“文化创新”的纵深发展历程对于当前的智慧图书馆建设具有重要的参考价值。在此背景下,本文作者收集了大量一手档案和资料,尝试系统梳理谷歌数字图书馆项目发展历程,并借助负责任创新分析框架[1],以更加有效识别谷歌数字图书馆所带来的价值局限性,为当前智慧图书馆建设提供新视角和新启发。

2 研究综述

目前对于谷歌数字图书馆的历史和影响研究主要集中在两个方面:一是关注该项目发展历史中的重要事件,二是从不同视角分析该项目所带来的影响。

已有多个研究针对谷歌数字图书馆的重要事件进行了回顾。 Deanna M 等对谷歌数字图书馆图书数字化历史进行回溯,描述了谷歌创始人谢尔盖·布林(Sergey B)和拉里·佩奇(Larry P)如何提出建立一个世界通用数字图书馆的理由,并利用谷歌大量财政资源使其成为现实的过程;过程内容主要包括合作计划进程、出版商对版权问题的反对意见以及最终决定项目发展的法庭案件[2]。 Ronald M 则对牛津大学图书馆参与项目的过程进行了回顾,还原了牛津大学图书馆从2002 年开始与谷歌商讨合作数字化至协议确定的过程[3]。董永飞等人对谷歌数字图书馆发展历程进行了简单梳理,介绍项目发展过程中的重要事件,如出版商计划、版权争议、庭审结果等[4][5]。

关于谷歌数字图书馆影响分析研究,学者们主要从法律、技术、文化、学术等多个角度进行评估。例如,Ronald M 和Baksik C 认为谷歌数字图书馆虽然没有先例,但该做法对社会有益,属于合理使用[6][7]。Mann T 认为谷歌数字图书馆采取的快速搜索技术对学术研究有不适用之处,刘念则建议普通图书馆将谷歌视为技术合作伙伴,协同打造数字图书馆[8]。Millie J 提出谷歌数字图书馆可以帮助学者发掘“睡美人”书籍,但需确保图书数据及其元数据准确性的观点[9]。同时,谷歌数字图书馆所带来的如文化垄断、加剧全球图书使用不平衡、传统出版行业用户流失等问题也被指出[10][11]。

综上,当前的谷歌数字图书馆研究针对其发展历史及影响进行了回顾分析:首先,主要关注谷歌数字图书馆建设过程中的特定事件、尤其是法律问题,缺乏对其发展历程的全面和连续性研究。其次,由于项目涉及到多个利益相关主体和复杂的版权问题,现有研究的开展时间多是伴随谷歌数字图书馆同步开展,资料搜集存在天然的局限性。也正由于许多研究是与项目建设同步的“伴随性研究”,因此在影响分析方面,这些研究也很难开展多角度、综合化的分析。与上述工作相比,本文的一大优势是相对滞后的时间点,因此反而能够全面、系统地搜集相关资料,并从历史的角度回顾谷歌数字图书馆的发展,从而做出更加理性、综合的判断与分析。

3 历史回顾

本文所用主要历史资料来自谷歌数字图书馆的官方网站以及密歇根大学图书馆、斯坦福大学图书馆、美国作者协会、美国出版商协会等机构储存的重要档案资料。其中,密歇根大学和斯坦福大学图书馆是项目早期合作的图书馆,相关站点数字化并公开了大量的一手档案文献;而美国作者协会和出版商协会是谷歌数字图书馆版权纠纷的主要上诉方,公开发布了与案件相关的过程性文件和内部资料。这些一手材料在此前的研究中几乎没有被提及和使用。

历史分期是梳理文献资料、澄清事物发展进程的重要手段,也是相关历史研究的主要方法之一[12]。作者们通过对谷歌数字图书馆的分期工作,尝试梳理项目在不同阶段所做出的探索和努力,以及遇到的困难或挑战,为其影响分析提供素材。密歇根大学图书馆和谷歌合作相关的概述文献表明[13],谷歌早于2002 年就与密歇根公共图书馆开始酝酿图书数字化事宜。伴随项目正式启动而来的是版权纠纷,经过两年多的磋商,谷歌和上诉人于2008 年10月28 日达成了和解协议[14]。基于和解协议相关文件的分析研究,笔者认为谷歌花费大量资金,与上诉人协商和解的目的在于加速发展数字图书馆项目,因此确定达成协议日期为谷歌数字图书馆进入发展时期的时间点。但由于和解协议最终未获得批准,上诉人于2011 年12 月12 日重新提出集体诉讼,相关资料显示谷歌此后逐步减少项目资金投入及活动,项目发展进入稳定期。基于上述的重要历史节点,我们将谷歌数字图书馆项目发展历程分为4 个时期:(1)酝酿时期2002 年起至2004 年10 月7 日项目正式发布止;(2)启动时期2004 年10 月7 日起至2008 年10 月28 日达成和解协议止;(3)发展时期2008 年10 月28 日起至2011 年12 月12 日上诉人重新提出集体诉讼止;(4)稳定时期2011 年12月12 日起至今。

3.1 酝酿时期

酝酿时期始于2002 年,“一小群谷歌人正式启动了秘密的‘图书’项目”[15],同时初步与密歇根大学图书馆联络合作。该时期止于2004 年10 月7日,谷歌在德国法兰克福书展上正式发布“出版商计划”(Google Print)[16]。这一时期,谷歌开始研发新技术,并筹备与图书馆、出版商的合作项目。

可以说,谷歌数字图书馆项目早期的重点就是技术创新。谷歌于2004 年9 月申请了专利扫描技术7508978[17],重新设计了扫描机器和流程,图书无需被逐页压平即可实现3D 扫描,大幅提高了扫描速度,对图书也不造成损伤。另外,谷歌在光学字符识别技术(Optical Character Recognition,OCR)取得了进展,据2009 年谷歌图书产品经理布尼特·索尼(Punit Soni)《告别谷歌目录搜索》官方博文所述,“2001 年,我们推出了谷歌目录搜索(Google Catalog Search),以展示一项新技术(即OCR),该技术使搜索成百上千个产品目录的全文成为可能”[18]。 2012年版本的谷歌图书历史简介明确说明了2003 年软件工程师们“在解决他们遇到的棘手技术问题方面取得进展”,使OCR 技术能够识别430 种不同语言中的“奇怪类型大小、不寻常字体或者其他异常情况的图书”[19]。

早期的合作模式也是以技术创新为中心的探索。谷歌创始人拉里早在2002 年就以校友身份与密歇根大学图书馆商谈合作,使其成为谷歌数字图书馆首个合作的图书馆[20]。随后,纽约公共图书馆、牛津大学图书馆、斯坦福大学图书馆、哈佛大学图书馆于2004 年12 月确定与谷歌合作[21]。总结合作图书馆项目公告或答疑资料,可以了解到谷歌满足了合作图书馆共同关注的技术需求,包括规模化的扫描速度、实现图书无损扫描和提供新的资源搜索及访问方式等方面[22][23][24][25][26]。在与出版商合作方面,谷歌于2004 年10 月7 日正式发布“Google Print”,并与15 家出版商(如Blackwell、剑桥大学出版社等)签订了协议,宣布合作[27]。根据协议,出版商提供纸质扫描样书或上传已有电子书至项目数据库,谷歌则在图书搜索结果页面呈现出版商信息、图书购买链接或相关广告,从而实现增加出版商销量和网站点击量的目的,并与合作出版商分享广告的收益。

3.2 启动时期

自2004 年10 月7 日谷歌数字图书馆进入启动期,直至2008 年10 月28 日谷歌与美国出版商协会、美国作家协会在版权纠纷问题上初步达成和解协议[28]。期间伴随着版权纠纷,谷歌数字图书馆不断完善数字化技术,并在合作方面取得进展。

技术创新问题在启动期间依然备受关注。谷歌主要致力于发展OCR 技术和改善用户体验。 2005年,谷歌从惠普公司承接了Tesseract 开源OCR 引擎的维护工作,并于2006 年8 月发布了新的开源OCR引擎[29]。该引擎被著名开源技术网站Linux. com称为“一个巨大的飞跃”,令开源 OCR 领域“得到了显著的改善”[30]。 2005 年11 月,谷歌Google Print重命名为 Google Book Search(即Google Books),以期“更好体现产品的特点”[31],并推出一系列网站新功能。如2006 年8 月,谷歌开始提供不受版权保护的经典著作的完整版本下载功能[32]。 2007 年2月,谷歌推出其它网站可以直接进入并引用谷歌图书搜索结果的应用程序接口(Application Program Interface,API)[33]。同年7 月,谷歌数字图书馆推出查看不受版权保护图书纯文本的功能,且基于谷歌已有的无障碍搜索项目,发布数十万本无障碍公有领域作品,让使用语音输出、屏幕阅读和盲文显示器等自适应技术的人群实现无障碍阅读[34]。

值得注意的是,在技术之外,谷歌数字图书馆项目所引发的社会问题、尤其是版权问题开始浮现。由于未经版权人授权,项目将受版权保护的图书进行数字化并向公众提供部分内容预览的做法引起了部分出版商和作者的强烈反对。 2005 年8 月,谷歌宣布暂停扫描受版权保护的图书,并提出“选择退出”(Opt-Out)机制[35]。 2006 年10 月,美国纽约南区地方法院合并受理美国出版商协会和作者协会对谷歌提出的诉讼。经过了两年左右的磋商,谷歌与美国出版商协会、作家协会于2008 年10 月28 日达成和解协议[36]。尽管和解诉讼初步达成,但版权的梦魇却依然笼罩在项目的上方,给其未来的发展蒙上了一层阴影。

当然,版权纠纷没有阻碍谷歌数字图书馆项目的高歌猛进。自2006 年6 月开始,谷歌允许独立作者注册合作伙伴账户[37]。拥有图书版权的作者可以与谷歌签订授权协议,享受免费的宣传机会和广告收入分成。截至2007 年12 月底,已有10000 多个出版商和作者参与了合作计划[38]。而到2008 年和解协议达成时,超过20000 个出版商和作者参加其中[39]。同时,合作的图书馆数量也不断增加,2007 年已有28 个图书馆参与了合作[40]。

3.3 发展时期

发展时期起于2008 年10 月28 日谷歌和上诉人达成初步和解协议,止于 2011 年12 月12 日作者协会重新提出集体诉讼。谷歌数字图书馆技术及合作持续发展,但版权纠纷仍未结束。

这一时期,技术创新的重点从早年的“数字化”层面转移到“应用”层面。谷歌数字图书馆不断地进行优化,针对移动设备推出了手机应用版本并向用户提供超过150 万册无版权电子书[41]。在后续的发展中,谷歌数字图书馆加入了“词云”(Common Terms and Phrases)功能[42],以及面向开发人员的图书API[43],为外部用户提供更多便捷的访问方式。此外,在和解协议未得到最终批准的情况下,谷歌探索了数字图书馆新的利用方式。例如,发布了图书词频指示器(Google Ngram Viewer),提供电子书内容的词频数据并加以可视化[44]。同时,谷歌电子书店(Google ebookstore)也开始运营,它拥有数百万本版权已经过期的免费图书以及数十万本谷歌已取得版权的收费新书,成为全球规模最大的电子书店之一。谷歌进一步提出了云存储个人图书馆的概念,并将电子书设计为开放兼容模式,让用户可以使用不同设备访问谷歌电子书[45]。 2011 年,谷歌数字图书馆发布了“The Everything Kids”系列儿童涂鸦电子书,为孩子们提供了多种生动有趣的场景和素材,并允许他们在Web 阅读器中选择涂鸦模式,进行自由绘画和填色[46]。

谷歌数字图书馆项目在开展新合作的同时,也面临着与其他数字图书馆项目竞争的局面。而这种竞争之所以出现,并不是简单的技术竞争或商业竞争,事实上也反映了各国政府(甚至包括美国内部)对谷歌“文化霸权”问题的担忧。 2010 年,谷歌数字图书馆项目在欧洲取得了较大进展,与意大利文化遗产部[47]、奥地利国家图书馆[48]、荷兰图书馆[49]等展开了合作,截至当年12 月,项目“已将来自35,000多家出版商、40 多家图书馆和100 多个国家/地区,包含400 多种语言的超过1500 万本图书数字化”[50]。但在此期间,为了抵制谷歌数字图书馆的垄断,其他数字图书项目陆续涌现,如2008 年11 月,欧洲数字图书馆上线[51];2013 年4 月,美国数字公共图书馆正式发布[52]。

在版权问题方面,2008 年11 月,纽约联邦地区法院初步批准了谷歌和解协议[53],但在听证过程中,公众反对态度强烈。随后,谷歌于2009 年11 月提交改进版和解协议,作出了相应修正以回应公众的疑虑[54],但仍受到质疑。 2011 年12 月12 日,因双方无法达成一致,作者协会再次向美国纽约南区法院提出集体诉讼[55]。

3.4 稳定时期

时至今日,谷歌数字图书馆发展速度相较之前有所减缓,进入稳定期。据威斯康辛大学图书馆临时馆长爱德华·凡证实,2012 年初项目图书扫描速度不到最初的一半[56]。 2015 年10 月,谷歌发言人玛吉·希尔斯(Maggie Shiels)声称谷歌已经扫描了超过2500 万册的图书,仅比2010 年谷歌1500 万册电子书多出1000 万册左右,也远低于2010 年8 月5日谷歌官方估计的所有图书数量——大于1.29 亿册[57]。

在版权纠纷事件上,美国最高法院于2016 年4月18 日确认谷歌数字图书馆在未经授权的情况下进行版权保护作品的数字化和全文搜索是合理使用行为,结束了长达数十年的版权争议[58]。此后,项目稳步推进。 2019 年10 月,谷歌推出全新设计的桌面版谷歌图书,并透露出已收录超过4000 万册电子书[59]。项目网站还为视障用户提供多种辅助功能,如最常见的低视力支持功能,实现网页缩放、调整字体和大小、实现高对比度以及自定义颜色支持[60],支持快速键盘访问[61]、屏幕阅读器和放大镜功能[62]。 2022 年,谷歌图书APP 应用还增加了人工智能有声书的功能,同样为视障人群提供更好的阅读体验。

尽管项目进入低调稳定的发展状态,但其仍是全球大型数字图书馆项目。进入新阶段的谷歌数字图书馆项目更加强调与合作伙伴共建文化包容氛围、更加强调公共利益的保障,与最开始相比,项目思路有了很大的转变。近年来谷歌数字图书馆项目仍继续与大型图书馆展开合作,如2021 年3 月,谷歌与荷兰安特卫普市合作数字化该市帕拉丁博物馆和亨德里克图书馆的部分馆藏;2022 年2 月,谷歌与比利时鲁汶大学图书馆、比利时皇家图书馆达成协议,向公众提供重要的数字化历史文献[63]。

4 负责任创新视域下的谷歌数字图书馆影响分析

在上文的历史回顾中可以看到,谷歌数字图书馆项目以技术“发家”,却受制于版权纠纷以及文化包容的争议。尽管它在目前进入低调的稳定发展期,但其探索经验为我们开展智慧图书馆建设提供了重要的反思素材。

为了更好地展开分析和研究,我们引入了负责任创新的理论框架[64]。 “负责任创新”强调在推进某项创新实践或者决策时,应当考虑道德伦理及社会期望的可接受性,并估量其可能产生的影响,构建与创新适配的机制和制度体系,以实现可持续发展[65][66]。基于上述谷歌数字图书馆历史回顾,笔者将运用负责任创新理念,从技术、伦理、经济和社会四个层面对项目的影响进行综合剖析。

在技术影响层面,谷歌数字图书馆通过创新OCR 和图书扫描技术等数字化技术实现了快速的大规模图书数字化,加快了数字图书馆建设的步伐,密歇根大学图书馆项目答疑文件就提到与谷歌合作得到的数字化副本“价值是巨大的,因为我们需要1600 年的时间和数亿美元来转换这些材料”[67]。此外,谷歌数字图书馆在发展过程中借助技术创新不断优化应用程序,如提供API 供第三方应用访问并不定期更新应用程序功能,还推出Google Editions数字图书应用程序(后为Google Play Books),不仅使用户享受了更加便捷和高质量的服务,还令跨平台阅读成为业界潮流[68]。

在伦理影响层面,根据牛津大学图书馆馆长雷哲·卡尔(Reg Carr)的演讲稿[69],谷歌与牛津大学图书馆合作的大规模数字化项目完美契合了图书馆一贯的战略目标:“将其伟大的馆藏分享给更广阔的世界”。可见,谷歌数字图书馆通过与其他图书馆、出版商等合作,为公众提供4000 万册左右电子图书全文搜索功能,在世界范围内推广了数字化文献资源。但是,谷歌数字图书馆未经版权人同意对受版权保护的图书进行数字化处理和在线提供搜索服务的行为遭到多个国家和地区不同著作人发起一系列版权诉讼,引发了学者们就数字时代版权保护和合理使用的矛盾展开了广泛的讨论[70][71]。

在经济影响层面,一方面,谷歌数字图书馆与出版商和作者合作将纸质图书数字化,并在搜索页面中呈现相关的信息、购买链接或广告,通过这一创新的合作模式,有力促进了数字化出版物的市场发展和数字化产业的进步。同时,谷歌数字图书馆推出电子书店,在与合作伙伴共享部分广告收益的同时,扩大了数字出版物的市场规模并带动数字化相关领域如数字出版和数字技术等的发展。另一方面,谷歌数字图书馆虽然催生了其他数字图书馆项目,但是依托其在搜索引擎市场上的“垄断地位”抢占数字出版物市场,侵害了出版商和作者版权收入权益,导致不公平竞争[72]。

在社会影响层面,谷歌数字图书馆延长了图书信息资源的保存年限,并避免了传统纸质图书因为环境变化或其他因素而受损。另外,谷歌数字图书馆在应用程序完善过程中增加了盲文阅读、涂鸦图书功能,为盲人和儿童等弱势群体提供了良好的阅读体验,凸显了其责任意识。值得注意的是,谷歌数字图书馆打破了世界文化的平衡,使得英语文化在世界占据优势甚至垄断地位。正如法国国家图书馆馆长让·纳内(Jean-Noel Jeaneney)所言[73],“Google是一个美国的商业公司,如果由它来建造全球最大的数字图书馆,图书信息的筛选明显带上美国文化的烙印,英语则处在更加强势的地位”。

从负责任创新角度来看,谷歌数字图书馆作为一项技术创新工程,在推动知识传播、提高阅读体验等方面产生了积极影响,但是,该项目也存在一些负面影响和潜在风险,比如导致出版业不公平竞争、文化垄断等问题。

5 谷歌数字图书馆对智慧图书馆建设的若干思考

智慧图书馆建设是数字化社会发展的一项重要任务,在实现创新的同时也需要注重负责任的问题,以期平衡各方面的影响。下文将结合谷歌数字图书馆的发展历程及其影响分析内容,关注当前智慧图书馆建设应当如何更好地实现“负责任创新”。

5.1 加强技术创新,优化用户使用体验

谷歌数字图书馆通过技术创新实现了图书扫描技术和阅读方式的升级,不断优化用户使用体验,如借助全文检索、图书词频指示器等技术手段或工具,用户可以更快地找到所需内容,并获得更加深入和全面的信息。借鉴谷歌数字图书馆在数字化技术方面的经验,智慧图书馆应当加强技术赋能,积极探索大数据、人工智能等新兴技术的应用,并结合实际情况进行创新,不断优化用户使用体验。例如,可以利用人工智能技术对图书馆数字化资源进行深度处理和分析,为用户提供更加深层次的信息服务。

5.2 制定版权保护方案,强化风险管控能力

谷歌数字图书馆处理版权问题时,未与利益相关方提前沟通,导致版权纠纷持续数十年,阻碍了数字图书馆发展步伐。但值得肯定的是,在版权纠纷发生后,谷歌数字图书馆积极应对并提出了和解协议。在坚持公开透明原则的同时,智慧图书馆需要考虑公共利益和社会公众参与度,并了解各方利益和关切,以协商制定合理的版权保护方案,尽量避免在数字化项目中出现侵犯版权、损害作者和版权人合法权益等问题。此外,智慧图书馆也应该强化风险管控能力,采用积极协商和解和遵循法律程序等方法,最大程度维护各方利益。

5.3 加强共享合作,构建可持续发展模式

谷歌数字图书馆与密歇根大学图书馆、纽约公共图书馆等大型图书馆合作,基于图书馆馆藏资源进行图书数字化,最终实现电子书资源共享。智慧图书馆建设也可以借鉴谷歌数字图书馆合作思路,与合作出版商在数字阅读领域开展深度合作,发掘双方的利益共同点并设计出有利于实现双方共赢的合作模式。同时,智慧图书馆还可以积极寻求与其他图书馆的合作机会,充分利用各自的资源优势,促进数字资源共享,减少资源重复建设。例如,在图书馆资源共享平台上,进行电子书或数据库资源互相借阅、信息共享。

5.4 注重文化包容,关注弱势群体阅读权益

谷歌数字图书馆发展经验表明,关注特殊群体是实现可持续发展的重要因素之一,项目关注了视障群体和儿童群体的特殊需求,并提供辅助技术和优化服务。但是,谷歌数字图书馆却由于主要数字化英语文化图书资源,对其他语言文化形成文化霸权而遭到抵制。由此,智慧图书馆建设不仅需要注弱势群体如视障群体、儿童群体、老年人群体的阅读权益,还需要注重文化包容,实现多元文化共存,真正促进知识的传播、普及和共享,实现数字化时代的文化创新和社会发展。