人工智能时代图书馆信息分析的著作权例外规则*

2020-01-08王文敏

图书馆论坛 2020年9期

王文敏，高军

0 引言

随着人工智能(AI)技术的持续发展，人类进行信息分析的方式发生重大变革。信息分析(Information Analysis)亦称情报分析，是指根据特定问题的需要，对大量信息进行深层次分析和加工，从而解决问题的信息劳动过程。人工智能的信息分析在图书馆领域具有广泛的应用前景。作为信息和知识的重要收藏机构，图书馆界已经开始利用人工智能技术为读者提供包括智能检索、智能书目推荐、智能咨询和反馈等多方面的个性化信息分析服务，逐渐开始向以自动化、智能化为特点的“智慧图书馆”转变。基于此，国际图书馆界一直对人工智能技术的发展保持密切关注。2019年9月，国际图联(IFLA)积极参与世界知识产权组织(WIPO)召开的“知识产权与人工智能产权组织对话会”，并就WIPO 编写的有关人工智能的议题草案发表意见：人工智能是当今世界的发展趋势，但也应重视其带来的法律风险，图书馆的使命是促进馆藏作品的获取和使用，帮助用户进行科研活动，因此应尽可能采取著作权例外制度，实现对作品进行有效的信息分析[1]。2018 年在美国图书馆协会(ALA)年会上，图书馆和信息技术协会推出学术图书馆中的第一个AI实验室[2]。2019年国际图联大会会前卫星会议信息技术分会(IFLA WLIC 2019)的主题是“机器人在图书馆：挑战或机遇”，来自全球图书馆界的专家学者分享了各自对人工智能在图书馆领域应用的观点[3]。

当前我国图书馆学研究主要关注人工智能技术在图书馆领域的具体运用，对与之相关的知识产权法，学界主要着眼于人工智能生成物的著作权属性问题[4]，对图书馆领域利用人工智能技术进行信息分析所引发的法律风险以及由此对著作权例外规则造成的挑战研究较少。法律上的不确定性将会给智慧图书馆的建设带来极大的障碍，为此需要进行深入分析并提出有效的应对策略。

1 人工智能时代图书馆信息分析面临的侵权风险和法律困境

人工智能的核心竞争力就在于其具有强大的信息分析能力，能够通过大数据训练集自动分析重要的模式与趋势，并利用该规律处理新的数据训练集[5]。人工智能将赋予图书馆更强大的信息检索功能，能够发现传统检索服务没有检测到的文本关联，并根据文献检索结果进行深度的分析比较，这将使图书馆的内容提取和文献索引服务更加便捷和准确。人工智能要在图书馆领域得到广泛运用，而信息分析正是图书馆提供智能服务的前提。图书馆信息分析大致可以分为三个阶段：信息输入阶段、信息处理阶段和信息输出阶段，每个阶段都面临着一定的著作权侵权风险。

1.1 著作权侵权风险

(1)信息输入阶段。图书馆提供智能服务的前提是全面系统地掌握馆藏文献或数据。比如，谷歌公司推出的Talk to Books搜索引擎，需要检索约十万本书后回答用户提出的问题。毫无疑问，上述过程需要先对图书馆馆藏资源进行数字化，建立可供提取分析的内容库，然后才能对数字化的馆藏数据进行全面检索从而实现快速匹配与定位。信息输入是信息分析的前提。正如人们需要阅读、观看和聆听各种信息，经过系统的学习才能创作出新的作品，人工智能机器也需要使用足够庞大的信息进行训练，才能培养其智能的行为模式，继而为图书馆提供智能化的服务。然而，图书馆内容库中的文本、图片、声音往往受到著作权法的保护。在信息分析之前，图书馆首先要通过人工智能技术将这些作品的格式转换为标准的数据格式、抽取有用的信息并按照一定的结构重新组织，建立属于该次信息分析范围的内容库。这一过程必然会涉及对原作品进行大规模的数字化复制，也就意味着信息输入阶段存在侵犯复制权的风险。

(2)信息处理阶段。人工智能在图书馆信息处理中所采用的技术手段十分复杂，需要对图书馆的内容库进行多次复制和模仿。一般情况下，这种复制行为只持续短暂时间，不属于稳定长久的复制而只是计算机对作品的临时复制。我国著作权法中的“复制”仅指永久性复制行为，临时性复制在我国并不属于侵犯复制权的行为[6]。基于此，信息处理阶段的临时复制行为在我国著作权法中的侵权风险较低。即使在将临时复制纳入复制权控制范围的欧盟等发达国家和地区，出于促进数字信息自由流通的目的，临时复制在满足若干条件时也属于著作权例外的情形，不会侵犯著作权。从另一个角度来看，在图书馆信息处理阶段中，计算机对作品或数据的自动分析与人们对作品的阅读与欣赏并无本质区别，不同之处仅仅在于学习的主体是机器而不是人。由于著作权法上没有一个所谓的“阅读权”或“欣赏权”来控制此种行为，其本身并不是著作权法意义上的作品利用方式，因此本来就无需征求权利人的同意，更不会构成对著作权的侵犯。正如马克斯·普朗克创新与竞争研究所在报告中强调的那样，对作品或数据的自动分析本身类似于人类的阅读行为，这意味着只要人工智能有权阅读文本，就有权进行文本挖掘[7]。据此，人工智能在信息处理阶段的行为并不会侵犯著作权。

(3)信息输出阶段。此阶段是指图书馆通过对作品的智能分析得出结果，进而利用该结果为读者提供搜索、推荐、咨询和反馈等服务。例如，谷歌的Talk to Books 搜索引擎根据读者的咨询提供一段逻辑性的回复或某书中的内容，读者可以根据计算机的回答来选择自己感兴趣的书籍。根据“接触加实质性相似”的著作权侵权判断标准，如果输出的内容是全新的作品或根本不构成作品的信息(如谷歌图书馆案中信息搜索后输出的内容为某关键词出现的次数，或者原文内容的极少片段①)，则并不构成侵权；但如果输出的内容与原作品存在实质性相似，除非构成著作权限制或例外的情形，否则可能会侵犯复制权、翻译权或改编权，如果对图书馆信息分析的内容库未经许可擅自传播，还将导致对广播权和信息网络传播权的侵犯。

1.2 著作权法律困境

人工智能时代图书馆信息分析的3个阶段具有不同的侵权风险，在讨论著作权例外规则的适用时，究竟应当对三个阶段分别进行定性分析还是应当将其看作一个整体进行分析？对此学界和司法界并未达成共识，存在两种代表性的观点，即“整体定性论”和“分段定性论”。在我国王莘诉谷歌图书馆案一审中，法院持“整体定性论”，认为应当将内容输入阶段的全文复制行为与后续的作品使用行为作为一个整体看待，若是为了实施后续的合理使用行为而未经许可地对书籍进行全文复制，那么前一阶段的复制行为应当认定为合理使用行为的一个部分②；而在王莘诉谷歌图书馆案二审中，法院却持“分段定性论”，认为后续阶段的行为是否构成合理使用，不影响前一阶段中对全文复制行为的定性③。

无论是整体定性论还是分段定性论，二者在本质上并不矛盾。著作权法对各项受控行为进行精细化的切割和解读，这是因为不同的受控行为具有不同的目的并将产生不同的效果[8]。基于此，若上述三个阶段中各项受控行为具有相互独立的目的和效果，此时整体定性论就不再适宜，但若三个阶段中的行为在目的和效果上完全一致，此时无论是整体定性论还是分段定性论都可以得出相同的结果。图书馆信息分析的3个阶段虽然分别具有不同的法律风险，但当第一阶段中的信息获取只用于第二和第三阶段，而不具有其他用途，即3个阶段具有同一目的、能够实现同一效果时，可以将3个阶段的3种行为视为“信息分析”这一种行为进行统一考量。

由于图书馆信息分析整体行为具有一定的侵权风险，只有当其属于合理使用的情形时才能免于承担侵权责任。当前，我国的著作权例外规定仅能涵盖极少部分符合条件的图书馆信息分析行为，绝大部分图书馆信息分析行为仍然面临较大的著作权侵权风险。我国《信息网络传播权保护条例》第7条规定了适用于图书馆、博物馆等五馆在内的著作权例外情形，然而该条款有着严格的适用条件。首先，提供信息的地点限于馆舍之内，不能通过互联网向馆舍之外的读者提供数字化的作品；其次，图书馆提供的作品被严格限定为“合法收藏时就以数字格式存在的”或“已经损毁或濒临损毁、丢失或失窃、格式过时、难以购买”的情形。据此，图书馆信息分析行为一般无法满足“五馆使用”这一著作权例外的要求。此外，图书馆信息分析行为也无法满足“适当引用”和“课堂教学和科研使用”的要求。虽然信息分析的目的属于“为了介绍、评论某一作品、说明某一问题”或是“出于教学和科研任务的需要”，但其往往涉及对作品的全文复制，并不符合“适当”或“少量”的要求。

在国际竞争日趋激烈、人工智能技术日新月异的今天，为解决人工智能信息分析带来的法律困境，美国、英国、德国、日本、欧盟等发达国家和地区走在了前列，通过修订立法或确定司法判例的方式扩张了著作权例外的具体情形。2019年欧盟《数字单一市场版权指令》(以下简称《指令》)及其成员国(德、法等)的著作权法都设置文本与数据挖掘例外的规定；2018 年日本增设“信息分析”的著作权例外条款[9]；近年美国在谷歌系列案件中也将谷歌公司全文复制图书的行为认定为合理使用①。目前在图书馆领域，人工智能带来的法律困境亟待解决。我国在面对信息分析带来的著作权问题时不应无所作为，应考虑图书馆信息分析行为的特点，重新评估图书馆信息分析的市场利益和政策博弈，以此为依据对著作权例外规则作出调整。

2 图书馆信息分析适用著作权例外规则的正当性

在著作权法的发展历史上，新的传播技术和交易模式往往使用户使用和传播作品的方式发生变化，进而促使著作权例外的范围发生扩张或限缩的不同走向[10]。为了应对图书馆使用作品进行信息分析带来的挑战，应当回归到著作权例外规则的正当性理论基础，结合图书馆信息分析的自身特点，从法经济学和法社会学的分析路径分别予以考察。

2.1 图书馆信息分析的两大特征考察

人工智能时代，图书馆信息分析的行为与传统的图书馆作品使用方式并不相同，具有两个鲜明的特点，即非表达性和低密度性。前者决定了图书馆信息分析行为属于转换性使用，后者证成了图书馆信息分析不宜采用著作权法定许可规则而应当适用合理使用的规则。

2.1.1 非表达性

传统意义上对作品的使用是“表达性”(expressive)的，但人工智能时代图书馆信息分析对作品的使用却具有“非表达性”(nonexpressive)的特点，即图书馆信息分析使用的不是原作品的表达，而是原作品中蕴含的信息和数据。从本质上看，非表达性使用是一种典型的转换性使用，能够产生不同于“原作”使用性质的新价值和新功能，因此图书馆信息分析不会侵占作品原有的市场，符合著作权例外规则的要求。美国第九巡回法院的Sega案是最早将非表达性使用认定为合理使用的判决之一，在该案中，被告在对原告的游戏卡带进行反向工程的过程中不可避免地复制了原告游戏软件的源代码，法院认为出于非表达性目的使用作品将构成不侵权的合理使用④。此后的搜索引擎缩略图系列案件进一步发展了非表达性使用的理论。在美国Kelly案⑤和Perfect 10案⑥中，搜索引擎公司未经许可将原告拥有版权的完整大小的图片下载到自己的服务器上，然后做成缩略图储存在服务器中，删除原来完整大小的图片复制件，再将缩略图提供给公众；法院认为，缩略图仅仅是改善用户对图像访问的工具，低分辨率的缩略图不太可能被用于审美，由于被告使用的并不是原告富于艺术性的表达，且这种非表达性使用不会取代原图片的市场，因此被告的行为并不构成侵权。

同样，图书馆信息分析也是建立在对作品进行非表达性使用的基础上。在美国谷歌图书馆案中，谷歌图书馆扫描了大量的图书用于计算机信息分析，法院指出，谷歌图书馆开发的关键词搜索等服务提供的是关于书籍的信息，而不是书籍的表达，产出的内容并不是表达性的作品，法律将谷歌图书馆视为一种将表达性作品转换为非表达性内容或事实的工具，这种信息分析的非表达性行为构成了合理使用中的转换性使用①。因此，基于人工智能技术而实施的图书馆信息分析往往具有“非表达性”的特点，其本质上是一种对作品的转换性使用，不同于原作的使用方式，不仅不会损害原作者的利益和市场，还能够进一步鼓励知识发现新方式的研发和科学研究方法的突破，最终达到丰富社会文化的目的。

2.1.2 低密度性

在人工智能时代，图书馆信息分析最为突出的特点是作品使用的低密度性，该特征也决定了图书馆信息分析应适用著作权例外规则。利用人工智能技术对图书馆内的作品进行信息分析时，需要以大量作品为基础，单个作品对最终形成的成果贡献极小。人工智能的内容库中可能包含成千上万著作权人享有权利的作品，如果每一件作品都需要经过许可和付酬才可以使用，意味着需要付费的作品数量庞大，付费对象及方式也难以确定，由此将引发极高的交易成本，无疑会增加人工智能研发和推广的负担。即使选择法定许可、强制许可付费的方式，从理论上看似乎能够降低交易成本，但却无法及时根据市场的情况作出回应和调整，甚至将反过来给人工智能技术的应用带来无法逾越的障碍[11]。此外，大量没有联系渠道的“无主作品”依然存在，而且许多著作权人未必理解其作品对社会公共文化事业的重大意义，不会轻易将作品许可给人工智能使用。若科研工作者出于法律风险的考量，放弃先进的信息分析技术，把创新的精力投入到最基本的文献整理和实验数据测试工作中，这些繁琐的程序和高昂的费用将足以阻止人工智能这一先进技术的应用，从而也给社会带来重大的损失。上述法律障碍必然会阻碍图书馆利用信息分析技术来优化和提升各类智能化服务；而要求图书馆因信息分析行为向著作权人付费将徒增信息分析的成本，不仅著作权人获益甚微，甚至会引发诉讼泛滥，造成司法资源和社会成本的巨大负担。鉴于此，图书馆信息分析应适用著作权例外规则。

2.2 图书馆信息分析的市场失灵评估

从法经济学市场失灵的理论出发，考虑到著作权许可市场的交易成本和公共利益的需求，图书馆信息分析也应当适用著作权例外规则。戈登(Gordon)教授在1982 年一篇开创性文章中指出，著作权例外的理论基础在于市场失灵(market failure)[12]。“市场失灵”在经济学上原指市场无法有效率地配置资源的情况，戈登教授将“市场失灵”用于合理使用领域，来指代社会期望使用作品但却无法由市场力量来实现的状态。著作权制度是一种具有工具性质的激励机制，当交易成本过高、当事人之间无法通过市场交易获得作品时，才能将该行为纳入著作权例外的范围，以法定的权利配置取代自由的交易行为。正如前文所述，图书馆信息分析的低密度性使得向著作权人一一支付报酬成本高昂、无法实现，这种著作权许可市场的市场失灵使图书馆信息分析适用著作权例外规则成为了最有效率的选择。

除此之外，市场失灵的概念还应作广义的理解，不仅包括交易成本过高、双方当事人之间无法自由协商的情形，还应该包括公共利益无法实现的情况[13]。这就意味着，若著作权法阻碍了图书馆信息分析的开展，造成社会公共福利的减损，则同样也属于市场失灵的情形，此时图书馆信息分析应当适用著作权例外规则。当前，若图书馆信息分析无需授权和付费，无疑将有利于科技发展、公平竞争和社会进步，广大的作者和科研工作者也能从中获益；但如果因为著作权问题而禁止图书馆开展信息分析，那将会阻碍技术进步和社会整体发展，造成无法估量的损失。需要指出的是，图书馆信息分析不仅事关公共文化事业的发展，还与科学研究事业的发展甚至产业的前途密切相关。我国人工智能产业正处在飞速发展的上升期，与发达国家在国际市场上进行激烈的竞争。对于参与人工智能竞争的每个国家而言，若人工智能使用作品的行为在一国被判侵权，将促使新技术向其他为人工智能营造宽松法律环境的国家转移，最终该国也将在人工智能领域的国际竞争中落后于竞争对手，丧失宝贵的发展机会。基于此种公共利益的需要，我国在具体制度设计上应当以较为宽松的著作权例外制度给予图书馆信息分析行为更好的发展环境。

2.3 图书馆信息分析的政策博弈考量

从法社会学的角度分析，图书馆信息分析适用著作权例外规则是对当前利益集团博弈导致的“少数者偏差”的政策矫正。著作权政策的形成是两个利益集团博弈的结果，一类是总体比例很大但却较为分散的大集团，如图书馆读者或科研人员团体，另一类是总量较小但行动力强的利益小集团，如著作权人及其背后的出版集团。奥尔森的集体行动理论认为，小集团比大集团更有效率和更富生命力。作为大集团的广大图书馆读者难以组织起来、采取行动以强化其共同利益，公共图书馆的游说能力极弱，也很难给政策施加足够压力；反之，作为小集团的著作权人及其背后的出版团体在利益的驱使下具有很强的游说能力[14]。立法政策往往反映的是著作权人及出版者这一小集团的利益，很难反映大集团的利益，由此形成的立法容易产生不均衡的“少数者偏差”[15]，图书馆用户和科研团体的意向均难以在政策中得到体现。鉴于此，图书馆信息分析更应适用著作权例外规则，确保图书馆用户和科研工作者能够自由地使用作品进行信息分析，不被强势的著作权小集团利益所左右。

现今有关图书馆信息分析的各国立法也体现了利益集团之间的博弈和对著作权保护政策的不同选择。2019 年欧盟《指令》以及英国、德国等的文本与数据挖掘规定都在主体、客体、目的等要件上采取较为严格的立场⑦，而日本、美国对此却采取较为宽松的态度，尤其是日本，其发展本国大数据和人工智能产业的愿望极为强烈。为了保护创新产业的领先优势，日本在判断信息分析行为是否构成合理使用时采取了较为宽容的做法，由此被称为“机器学习的乐园”[9]。严格的要件能够对著作权人的利益给予更充分的保护，但却可能对新技术的发展造成阻碍；而宽松的要件则可以赋予新技术更大的发展空间。鉴于我国当前在人工智能和大数据产业面临的激烈竞争，应当借鉴美国和日本的做法，为信息分析行为制定较为宽松的著作权例外规则，以便图书馆信息分析行为获得一个良好的发展环境。正因如此，IFLA在WIPO“知识产权与人工智能产权组织对话会”上指出，对于能够合法接触的作品，图书馆信息分析行为与作品的正常市场开发没有冲突，也不存在对权利人合法利益的不合理损害，IFLA赞成采取不会给作品的获取和使用带来新障碍的无报酬的著作权例外规则，即允许在合法获得的作品中使用数据进行信息分析[1]。

3 人工智能时代信息分析著作权例外规则的设立

人工智能这一新技术并没有颠覆著作权法的原理，我国现有的著作权制度仍然蕴含了回应的能力，只需在现有著作权例外制度框架内进行一定的改造，以更好地寻求解决之道。值得注意的是，修改现有的著作权例外规则会导致原有的图书馆例外、合理引用、教学和科研使用等条款变动过大，并不合适，为此可以考虑将已经在许多国家立法中付诸实践的信息分析例外(Information Analysis)或文本和数据挖掘例外(Text and Data Mining，TDM)纳入我国著作权例外的情形中。立法用语方面，由于我国不像欧盟那样制定了专门的数据库保护指令，并未对“数据”赋权，“挖掘”一词也容易给人带来语义不明的困扰，因此采用“文本和数据挖掘”的用语并不妥当。可以考虑借鉴英国“文本和数据分析”(Text and Data Analysis)或日本“信息分析”的用语，设置著作权“信息分析”例外的专门条款；借鉴相关国家立法的规定，进一步明确界定该条款的前提、主体、目的和储存等要件，包括图书馆在内的信息分析主体均可适用该例外条款。

3.1 信息分析的主体要求

信息分析著作权例外条款的适用主体不仅包括图书馆、科学研究组织等公共文化或学术性机构，而且还应进一步扩大。欧盟《指令》规定了两种类型的文本与数据挖掘，其中第3条规定文本与数据挖掘的主体为研究机构(research organization)。《指令》第2条定义部分对“研究机构”作出了规定：“研究机构”是指大学，包括其图书馆、研究所或任何其他实体，该机构应当符合“以非营利为基础”或“出于为成员国所承认的公共利益而进行研究”的条件⑧；《指令》第4条还规定“分析处理环节的TDM例外”，却未对TDM 的主体进行限制。与欧盟对主体要件的规定相比，日本和美国对主体均未施加任何限制，商业性的主体(如谷歌公司)同样能够成为合理使用的主体。实际上，美国、日本的相关规定更加合理，信息分析例外不应限定行为主体的身份，而应扩展到所有已经合法接触作品的人。首先，信息分析技术不仅在科学研究方面非常重要，在其他私营和公共机构中往往也得到广泛的使用，包括政府服务、商务决策、新应用程序或技术的开发，在某些情况下图书馆仅仅依靠自己的力量甚至无法实现人工智能信息分析，还需要与科技公司合作，如基于公私合作关系(publicprivate partnerships，PPP)开展信息分析活动，因此过于严格的主体要求会限制信息分析的实施效果。其次，欧盟《指令》中所规定的，“研究机构”要“以非营利为基础”或“出于为成员国所承认的公共利益而进行研究”，仍然是含糊不清的法律术语，在实践中将引发如何区分的问题，不得不等待法院在未来的司法判例中进一步界定[16]。为此，不宜将信息分析条款中的主体局限于研究组织，应借鉴英国在文本和数据分析例外中的法律用语，主体为囊括企业、信息中介机构、研究人员和记者等的“任何人(person)”⑨，再通过其他要件来对信息分析的范围进行限定。

3.2 信息分析的客体要求

信息分析针对的客体是能够“合法接触”(lawful access)的作品。欧盟《指令》和英国《版权、外观设计和专利法案》都规定信息分析的前提是使用者获得了对作品的“合法接触”。根据欧盟《指令》中对立法理由的阐述，合法接触应理解为基于开放获取政策或者通过权利人与研究组织或文化遗产机构的合同安排而取得的合法接触途径。取得合法接触的主要方式有订阅作品(subscriptions)，这意味着订阅覆盖的范围都属于合法接触的范围，用户可以对数据库中的作品进行信息分析；同时，若作品已经在线向公众免费提供(freely available online)，且权利人未以适当的方式对其复制权作出保留，也将被视为能够被合法接触的作品⑧。此外，除了订阅和在线公开的作品，对作者无法向市场有效提供数字版本的作品，由于发生了著作权许可市场的失灵，可适当地将这些作品扩大解释为人工智能可以“合法接触”的内容，允许对此适用信息分析例外。

3.3 信息分析的目的要求

信息分析的目的应限定为“科学研究或其他合理目的”。首先，应当明确出于“科学研究”(scientific research)目的进行信息分析属于著作权例外，以保证法律的可预见性，而图书馆信息分析也属于广义的“科学研究”；其次，信息分析的目的并不限于“科学研究”，还应当增加“其他合理目的”，为更多的信息分析行为提供适用著作权例外的空间。欧盟《指令》第3条明确规定，文本与数据挖掘例外必须是出于“科学研究”的目的，但在第4条“分析处理环节的TDM例外”中却并未对TDM 作出目的上的限制。虽然信息分析对“科学研究”特别有益，但同样也能够在科学研究之外为创新提供激励，其范围不应过于狭窄，以免扼杀来自其他领域的创新。欧盟《指令》第3条中，“科学研究”目的下的文本和数据挖掘例外反映的是多个成员国最低限度的共识，但这并不妨碍各成员国可以规定超出科学研究目的的文本和数据挖掘例外[17]。为此，应借鉴日本和美国的做法，无需对信息分析的目的作出限定，采用“科学研究或其他合理目的”这一宽泛的用语，使该项例外能够在更大的范围内适用。

3.4 信息分析内容库的安全保存措施

人工智能信息分析结束后需要(将相关的数据集及成果等)安全地储存到相应的内容库，以供下一次信息分析或者结果验证使用。各国立法例都对TDM 后续的储存行为进行了严格要求，值得我国在立法中充分借鉴。如德国法律规定，文本与数据挖掘完成后，可以将内容库发送到法律指定的机构进行长期存储，应删除任何其他副本⑩。欧盟《指令》在第3条也作出了类似规定：为文本和数据挖掘而制作的作品复制件应以适当的安全级别存储，并可保留以用于科学研究，包括用于核实研究结果⑧。此外，在美国谷歌图书案中，谷歌公司重点证明其采取了严格的技术保护措施，不会导致图书数字版本的外泄和传播①。学界对该问题十分重视，如马克斯·普朗克创新与竞争研究所针对该问题提出相关建议：“成员国应指定一个机构安全地存储用于文本和数据挖掘的数据集，并使其仅供验证之用”[7]。因此，为了防止泄露内容库中的文本而引发不堪设想的后果，有必要采取严格的安全措施，防止未经许可传播内容库。

3.5 技术保护措施和合同的例外规定

此外还需要明确，虽然著作权人可以通过技术保护措施和合同来确保其作品的安全性和完整性，但技术保护措施和合同原则上不能排除信息分析的开展。即使规定了信息分析属于合理使用，也会有权利人利用技术保护措施或者合同的霸王条款来排除人工智能对作品的使用。我国《信息网络传播权保护条例》只规定了4项允许规避技术措施的例外情形，远少于世界其他主要国家或地区立法所规定的例外情形数量，无法满足数字时代图书馆进行信息分析的需要，为此应该增设例外情形，通过法律的强制性规定防止权利人利用技术保护措施进行技术圈地。基于此，可以借鉴马克斯·普朗克创新与竞争研究所的相关建议条文：“任何违反第1款或第2款规定的权利和义务的合同条款均不可执行。应允许权利人采取必要措施，确保网络和数据库的安全性和完整性。这些措施不得不必要地妨碍文本和数据挖掘。”[7]当然，信息分析需要对已订阅内容和网上内容的来源作区别对待，前者可视为已经获得了权利人的默示许可[18]，技术措施和合同都不能排除信息分析的开展；但后者仍然允许通过合同协议或单方声明等方式保留权利。比如，欧盟《指令》就规定，对于已在网上公开发布的内容，可使用机器可读的方式(machine readable means)来保留这些权利，包括通过设置爬虫协议黑名单或者网站附加条款，阻止他人对网站中的内容进行抓取⑧。

综上，建议在现有的著作权例外条款的基础上增加一项信息分析例外，具体条文规定可参考如下：“出于科学研究或其他合理目的，可以在必要限度内使用已经合法接触的作品开展信息分析，应指定一个机构安全存储用于信息分析的数据集。”此外，还应当在相关的细则中明确：原则上技术措施与合同不能排除信息分析行为，但对于已在网上公开发布的内容，允许使用机器可读的方式来保留其权利。

4 结语

人类发展大数据和人工智能的终极目标在于改善人类的生活[19]。正如埃隆·马斯克倡导的那样，机器人接管了苦差事，可以让个人自由地从事有意义的工作[20]。人工智能时代，图书馆的信息分析为科研人员节约了大量信息搜寻的时间，带来了研究方式的新变革，但同时也给传统的著作权例外规则带来一定的挑战。发源于小数据时代的著作权例外规则，在适应大数据时代的产业发展需求时存在诸多困境。无论是从人工智能时代图书馆信息分析的“非表达性”和“低密度性”的特点出发，还是从信息分析适用著作权例外的法经济学和法社会学的基础理论分析，我国都应该对信息分析采取鼓励和宽容的立场。未来，人工智能还将在图书馆领域大有作为，有助于提高资源的检索效率，充分挖掘图书馆文献资源的潜在价值，实现图书馆的便捷、精准和高效服务。为此，应当在立法中增加“信息分析”的著作权例外条款，将包括图书馆信息分析在内的行为认定为合理使用。

注释

① Authors Guild v. Google，Inc.，804 F. 3d 202，209（2015）.

② 北京市高级人民法院（2013）高民终字第1221号民事判决书。

③ 北京市第一中级人民法院（2011）一中民初字第1321号民事判决书。

④ Sega Enterprises Ltd. v. Accolade， Inc.， 977 F.2d 1510 （9th Cir.1992）.

⑤ Kelly v. Arriba Soft Corp.，336 F.3d 811 （9th Cir.2003）.

⑥ Perfect 10， Inc. v. Amazon.com， Inc.， 508 F.3d 1146 （9th Cit.2007）.

⑦ 英国2014年通过修改其《1988年版权、外观设计和专利法案》率先规定了文本和数据挖掘的例外。德国在著作权法的修改中也增加了文本与数据挖掘例外，修正案于2018年3月1日生效。

⑧ 本部分内容由作者参照欧盟2019年《数字化单一市场版权指令》的序言，第3、4条翻译而来。

⑨ 本部分内容由作者参照英国2014 年修订的《版权、外观设计和专利法案》第29条翻译而来。

⑩ 本部分内容由作者参照德国2017年修订的《著作权法》第60d条翻译而来。