文本与数据挖掘著作权合理使用的域外实践与借鉴*

2022-02-17赵力

图书馆 2022年3期

赵力

（天津科技大学文法学院天津 300457）

著作权限制与例外制度，广义上包括著作权的思想和表达二分法、著作权保护的独创性条件、著作权保护期限的限制、著作权的权利穷竭、合理使用、法定许可、强制许可等[1]。在特定条件下，法律允许他人自由使用著作权作品而不必征得著作权人的同意，也不必向著作权人支付报酬的情形，被称为合理使用[2]。著作权合理使用制度是著作权限制与例外最为核心的制度之一。大陆法系国家在其立法文件中一般不直接采用“合理使用”这一术语[2]1，美国版权制度中采用合理使用（fair use）概念，英国版权制度中采用公平交易（fair dealing）概念。

文本与数据挖掘在科研领域有着重要的应用，然而文本与数据挖掘跟著作权保护存在潜在冲突。技术行业，将其精炼获得信息的资源一律视为数据，数字化的作品被作为计算机分析的原始材料，文本与数据挖掘的来源包括已出版图书、期刊或者其他可能受到著作权保护的作品。目前，已有出版商通过合同对研究者的文本与数据挖掘进行严格控制，科研人员的非商业性文本与数据挖掘受到一定程度的限制。欧洲法院Infopaq I、Infopaq II 案，美国Google 图书馆案、HathiTrust 数字图书馆反映了欧美在协调文本与数据挖掘和著作权保护方面的司法实践。美国通过版权法第107 条合理使用制度的解释，将商业性文本与数据挖掘列入转换型使用的范畴。在立法方面，英国2014年《版权、设计、专利法案》修正案规定了文本与数据挖掘例外制度，法国2016-1231 法案规定文本与数据挖掘例外制度，德国于2018 年3 月1 日实施文本与数据挖掘例外制度。《欧洲议会与理事会2019 年4 月17 日关于数字单一市场的著作权和邻接权及修改第96/9EC 号指令和第2001/29/EC 号指令的第2019/790 号指令》（以下简称“欧盟第2019/790 号指令”）规定了作为科学研究和创新手段的文本与数据挖掘例外。我国司法实践中，判决“爬虫”构成著作权侵权，“企业画像”行为构成不正当竞争。

鉴于我国新修订的《著作权法》三步检测条款具有封闭性，文本与数据挖掘不属于法定十三种著作权合理使用情形，以及司法实践认为我国《著作权法》未将营利性使用认定为侵权要件的共识，在现行制度下，非商业性文本与数据挖掘在我国也存在被法院判决为著作权侵权的风险。美国学者指出，文本与数据挖掘著作权例外的规定，实际上构成国家之间在技术发展与进步上的竞争，从英国、日本等国家以及欧盟及其成员国的文本与数据挖掘著作权例外立法改革中，可初见端倪[3]。在文本与数据挖掘著作权例外方面，域外司法与立法实践具有深远意义，值得深思与借鉴。

1 文本与数据挖掘著作权例外概述

1.1 文本与数据挖掘概述

文本与数据挖掘（Text and Data Mining， TDM），是指从机器可读的材料中得到信息的过程。文本与数据挖掘的流程为复制大量材料，精炼数据，并重新组合数据以预测新的发展趋势[4]。文本与数据挖掘主要包括以下步骤：①收集和编译数据；②计算过程中将数据格式化；③数据分类和聚类；④在计算机内存中处理数据；⑤存储数据以实现再分析[5]。上述步骤都涉及作品的复制，制备多个作品复件。

1.2 文本与数据挖掘的价值

目前，文本与数据挖掘在科研领域有着重要的应用。第一，文本与数据挖掘提高科研效率。大多数领域的科研工作者，受到信息过载的挑战。海量的潜在关联期刊文章每天都在发表，等待科研工作者发现、阅读和分析。计算机分析能够帮助科研工作者找到最相关的文献。而且，计算机能够独立分析和处理，筛选出与科研工作者的研究领域最为相关的信息[6]。第二，文本与数据挖掘帮助准确预测趋势。文本与数据挖掘算法适用于大数据或者机器学习（machine learning），文本与数据挖掘算法分析海量数据，帮助研究者进行决策，分析出相关趋势[7]。第三，文本与数据挖掘形成新的研究模式。例如，科研工作者希望了解特定的基因结构或者疾病的传播途径，可通过文本与数据挖掘的方式，利用对大量文献的广泛分析，找到尚未被发现的联系，文本与数据挖掘的研究成果，可能形成新的研究模式[8]。

1.3 文本与数据挖掘及其和著作权保护的冲突

文本与数据挖掘和著作权保护存在潜在冲突。技术行业将其精炼获得信息的资源一律视为数据，数字化的作品被作为计算机分析的原始材料，文本与数据挖掘的来源包括已出版图书、期刊或者其他可能受到著作权保护的作品。技术行业重视的是作出分析和判断所依据的算法，而选择高效率高效能算法是文本与数据挖掘的关键。但是，文本与数据挖掘的来源，有可能是受到著作权法保护的作品。美国Google 图书案、HathiTrust 数字图书馆案，认定文本与数据挖掘属于著作权合理使用的范畴，不构成著作权侵权。欧盟及其成员国则大多将非商业目的、为科学研究单一目标的文本与数据挖掘作为著作权例外的范畴。

出版商通过合同对研究者的文本与数据挖掘进行严格控制。主要通过订阅模式而非开放获取模式的科学和学术期刊出版商，通常通过合同中对于资源的接触和使用条款，来控制研究者进行文本与数据挖掘。例如，ELSEVIER 公司的文本与数据挖掘政策为，公司采用许可为基础的方式，自动允许订阅机构的研究者进行非商业性目标的文本挖掘，但是应当获得接触完整文本的许可[9]。为进行文本与数据挖掘，研究者首先需要获得数字对象标识符（Digital Object Identifier， DOI）。其次，研究者需要参阅出版商的文本与数据挖掘协议，筛选允许进行文本与数据挖掘的出版商清单。最后，研究者需要提交数据对象标识符清单和出版商清单并获得相应文章的全文权限。综上所述，出版商的著作权策略使得研究者的非商业性文本与数据挖掘在程序上更为烦琐。

2 文本与数据挖掘著作权例外的域外司法实践

2.1 欧洲法院的文本与数据挖掘著作权例外实践

2.1.1 Infopaq I 欧洲法院咨询意见

Infopaq 公司运营媒介管理和分析业务，主要包括从每日出版丹麦新闻报纸及其他期刊中起草摘要。摘要文章根据客户同意的主题以及“数据获取程序”进行，最后的摘要结果以邮件的形式发送给客户。DDF 公司是丹麦专业的日报出版商，DDF 向Infopaq 公司投诉其数据获取程序。Infopaq 公司向丹麦西部地区法院提起诉讼，要求确认Infopaq 公司有权在丹麦进行数据获取程序，无需经过DDF及其成员的同意。丹麦西部地区法院驳回Infopaq 公司的起诉后，Infopaq 公司向丹麦最高法院提出上诉。丹麦最高法院向欧洲法院请求作出咨询意见。

欧洲法院认为，Infopaq 公司最初两项复制行为，即扫描产生TIFF 文件和由TIFF 文件获得文本文件，构成短暂性复制，能够自动删除[10]。第三项复制行为，即储存11 个精炼单词，提交法院的证据并不能够评估技术程序是否是自动的、及时删除复制、不受使用者意志干扰，以及在技术程序终结后，上述复制是否继续存在[10]66。最后一项复制行为，Infopaq 公司在程序之外进行，即打印包含11 个精炼单词的文档，仅在纸质介质被损坏时消失[10]67。欧洲法院认为Infopaq 公司的复制行为不符合欧共体2001/29 指令关于复制例外的规定[10]69。

2.1.2 Infopaq II 欧洲法院咨询意见

丹麦最高法院认为，Infopaq 公司仍有权请求欧洲法院作出咨询意见，除去打印11 个精炼单词的行为，Infopaq公司的其他三类复制行为，是否构成违反欧共体2001/29指令[10]23。欧洲法院认为，案件涉及的技术环节，包括对于报纸文章的电子自动研究、识别和精炼先前定义的关键词，以便更有效率地撰写摘要。该案存在三种复制行为，即通过文件扫描获得TIFF 格式文本，复制TIFF 文本，获得包括11 个精炼单词的文档。涉案技术过程若无复制行为，就无法精确和高效率地实施，因此涉案临时复制行为构成完整和实质性的技术过程[10]30-34。

欧洲法院认为，技术过程中的数据收集，目的在于高效率地起草摘要，精炼的11 个单词，并无其他使用目的。在使用目的是否合法方面，尽管撰写摘要并未获得著作权人许可，但上述行为并未被欧盟著作权立法所明确禁止。因此，复制行为不能被认为是非法行为[10]43。欧洲法院认为，复制行为不得具有独立的经济重要性，即由复制行为产生的经济利益不得与对作品合法使用产生的经济利益不同或者可分割，复制行为不得产生超越其复制作品的独立经济价值。本案中，由临时复制产生的效益，因其仅使得被复制作品的价值具体化，既非与被复制作品不同，也非与被复制作品可分割[10]50-51。欧洲法院最终认为，Infopaq 公司数据获得程序中的临时复制行为，既不与作品的正常利用相冲突，也不构成对作品权利人合法利益的损害[10]56。

2.2 美国的文本与数据挖掘著作权例外司法实践

美国版权法第107 节规定，构成版权合理使用需要满足四个条件：①使用的目的和性质，是否为商业性使用或非营利性教育目标的使用；②受版权保护作品的性质；③与受版权保护的作品作为整体相比较，使用部分的数量和实质；④使用对于受版权保护作品的潜在市场或者价值的影响。

2.2.1 Google 图书案涉及文本与数据挖掘著作权例外的判决

2005 年秋季，美国作者协会（Authors Guild）和美国出版者协会（Association of American Publishers，AAP）起诉Google 公司，主张其扫描尚在著作权保护期限内的作品，提供尚在著作权保护期限内作品的片段扫描文本（snippets）违反著作权法之规定，侵犯作者著作权。此后，5 家主要出版者公司，包括McGraw-Hill 和Macmillan 公司，对Google 公司提起类似诉讼。Google 图书馆案中，美国联邦第二巡回上诉法院认为Google 图书系统性和机构性复制图书，提供全文检索和包含检索词文本的服务，构成合理使用。法院指出，转换性使用，是指与原作品新的和不同的使用方式，或者扩展其使用方式，因此符合版权法中促进公众知识（public knowledge）的目标[11]。复制以提供检索服务，构成转换性使用，原因在于其并未提供与被复制作品相同的信息，而是提供了关于作品新的信息。Google公司事实上的商业性目的，与后文所述HathiTrust 数字图书馆并不构成实质意义上的区别。法院拒绝关于商业性动机应当比转换性使用更为重要的主张[11]219。

2.2.2 HathiTrust 数字图书馆案涉及文本与数据挖掘著作权例外的判决

Authors Guild, Inc. v. HathiTrust[11]87,90案中，80 个图书馆和其他机构联合获得Google 公司数字图书复制件创建HathiTrust 数字图书馆，涉及1 000 万余册图书。HathiTrust数字图书馆对数字图书进行三种形式的使用。第一，提供检索服务，允许读者根据其检索确定相应的作品。检索结果仅显示检索词出现的相应作品的页码。第二，提供残障人士阅读服务。HathiTrust 数字图书馆通过可适应性技术，提供作品全文的无障碍阅读服务。第三，更换副本。允许读者在丢失、破坏、被盗窃，以合理价格无法获得原件的情形下获得副本。联邦第二巡回上诉法院支持地区法院的判决结果，认为第一、第二种使用方式构成合理使用。联邦第二巡回上诉法院认为，机构性和系统性复制，提供全文检索，构成转换性使用，对于受版权保护作品的潜在市场或者价值影响很小。法院认为，合理使用的第四要素仅在使用构成对于原作品的替代从而产生损害后果的前提下适用[11]99。因此，在第四要素下，任何由转换性使用构成的经济损失，不属于对于原作品的替代[11]99。法院驳回原告关于允许全文检索限制潜在市场的观点[11]100。法院并不认为通过可适应性技术提供作品全文的无障碍阅读服务属于转换性使用[11]101，但法院认为对残障人士提供阅读服务构成合理使用。

3 文本与数据挖掘著作权例外的域外立法发展

3.1 欧盟及其成员国文本与数据挖掘著作权例外的立法概况

欧盟第2019/790 号指令规定了作为科学研究和创新手段的文本与数据挖掘例外。然而，欧盟成员国关于文本与数据挖掘著作权例外的立法先于欧盟指令层面。英国尚未脱欧之前，2014 年版权法修正案规定了文本与数据挖掘例外制度，法国2016-1231 法案规定文本与数据挖掘制度，德国2017 年9 月1 日通过的著作权法修正案，于2018 年3 月1 日实施，规定了文本与数据挖掘例外。

欧盟第2019/790 号指令序言第8 款规定，文本与数据挖掘技术允许对于数字形式信息的自动计算机分析，包括文本、声音、图像或者数据。文本与数据挖掘处理大规模数据以获得新知识和发现新的可能趋势。文本与数据挖掘技术在数字经济中盛行，存在广泛共识，能够促进研究社群并且支持创新，让大学和其他科研机构受益，也让文化遗产机构受益。但是，在欧盟，上述机构面临着从事文本与数据挖掘的法律不确定性。在特定情形下，文本与数据挖掘包含被著作权保护的行为，例如对于作品的复制，从数据库中提炼内容等。在没有文本与数据挖掘著作权例外的情形下，文本与数据挖掘行为需要获得权利人的授权。欧盟第2019/790 号指令序言第5 款规定，在研究、创新、教育和保存文化遗产领域，存在数字技术允许，但尚未被欧盟现有著作权限制与例外制度清晰包含的使用，将对于内部市场功能产生负面影响。之前指令对于科学研究、创新、教育和文化遗产保存的著作权限制与例外制度，应当在新技术下重新评估。文本与数据挖掘著作权例外应当被引入。

3.2 欧盟及其成员国文本与数据挖掘著作权例外的构成要件

3.2.1 文本与数据挖掘著作权例外的目的

欧盟第2019/790 号指令第3 条第1 款规定，文本与数据挖掘的目的为科学研究。欧共体第2001/29/EC 号指令第5（3）（a）款规定，为教学阐释或科学研究的单一目的而进行的使用，只要标注来源和作者，除非标注不可能，且使用范围在实现非商业目的方面有正当理由。欧共体第2001/29/EC 号指令第5（3）（a）款的科学研究单一目的限制，使得在其他领域著作权限制与例外并不适用。因此，文本与数据挖掘若不符合科学研究目的，或者具有商业目的，包括直接或间接的商业获益，将被排除在欧共体第2001/29/EC 号指令第5（3）（a）款的适用范围之外。

3.2.2 文本与数据挖掘著作权例外的主体

欧盟第2019/790 号指令第3 条第1 款规定，文本与数据挖掘的主体包括研究机构（research organizations）和文化遗产机构（cultural heritage institution）。英国版权法29A 款规定，文本与数据挖掘的主体，为合法有权接触作品、进行复制的主体。法国著作权法规定，文本与数据挖掘著作权例外的主体为具有合法来源，即在版权人同意的条件下合法获得的复制件，以及在文本与数据挖掘过程中存储和传播的文本的主体[12]。

3.2.3 文本与数据挖掘著作权例外的对象

欧盟第2019/790 号指令第3 条第1 款规定，文本与数据挖掘的对象包括有合法接触权的作品或者其他客体。法国著作法规定适用于作品和数据库的文本与数据挖掘例外，文本与数据挖掘的对象为具有合法来源即在版权人同意的条件下合法获得的复制件，以及在文本与数据挖掘过程中存储和传播的文本[12]197。

3.2.4 文本与数据挖掘著作权例外的行为

欧盟第2019/790 号指令第3 条第1 款规定，文本与数据挖掘的行为包括复制（reproductions）和提取（extractions）。以欧洲法院 Infopaq 咨询案所涉的内容挖掘服务为例，内容挖掘程序包括 5 个步骤：第一，Infopaq 公司在数据库中对于相关出版物进行人工登记。第二，拆散出版物的书脊，将出版物变成活页并开始扫描。扫描过程使得出版物每页生成 TIFF 文档。扫描完成之后，TIFF 文档被传送至 OCR（光学文字识别）机器。第三，OCR 机器将 TIFF 文档转换为二进制数据，使其能够被文本挖掘软件所识别。第四，对文本进行关键词检索，每次确定关键词，在每篇文档中关键词所占比例按照 0 至 100 排列。为了更加方便地检索文献，最终文档被删除。第五，在文本挖掘结束时，涉及检索关键词的页数被打印于封面[4]。

3.3 文本与数据挖掘是否适用于数据库

欧盟文本与数据挖掘不适用于数据库。欧共体第96/9/EC 号指令（以下简称欧共体数据库指令）第6（2）（b）款规定，数据库作者享有以下权利：①通过任何手段、形式，部分或者全部，临时或者永久复制；②翻译、改编、整理和任何其他改动；③以任何形式向公众分发数据库或其复制件；④任何向公众传播、展示或者表演的行为；⑤任何复制，向公众分发、传播、展示或表演，产生与（2）款有关结果的行为。欧共体数据库指令序言第36 款指出，科学研究必须具有非商业性，即不以获得任何经济优势为目标。若利用数据库有商业目的，则不论组织或者个人的性质，著作权限制与例外规定不得适用。因此，基于商业目的而对数据库进行文本与数据挖掘，不适用著作权限制与例外，否则违反欧共体数据库指令第6（2）（b）款规定。欧共体数据库指令第5（a）款规定，受保护的数据库作者享有通过任何手段、以任何形式、部分或者全部的临时或者永久复制权。对于数据库的文本与数据挖掘，即使只是临时复制，也将落入数据库权的保护范围。欧盟第2019/790 号指令第3 条、第4 条规定排除了对于数据库的适用，对于数据库的文本与数据挖掘，应当获得数据库作者的事先书面同意。

但是，欧盟成员国特别是德国和法国，其著作权法中的文本与数据挖掘著作权例外适用于数据库。德国著作权法规定，在科学研究中，为实施对于大规模作品的自动分析，应当允许复制来源材料，包括自动和系统地复制，目的是创造特别是可进行标准化、结构化、类型化分析的语料库。该语料库，能让特定范围、从事共同科学研究的公众可获得，监控该科学研究质量目标的独立第三方亦可获得。涉及对于数据库的利用时，对于数据库的利用应当与对于数据库的通常利用相一致，并保护数据库权利人的相关权利[12]197。

3.4 文本与数据挖掘复制件的处理

欧盟第2019/790 号指令第3 条第2 款规定，第1 款规定的作品或者其他客体的复制件应当基于合理安全水平保存（stored），并可以为包括验证研究结果的科研目的而保留（retained）。欧盟第2019/790 号指令第3 条第3 款规定，权利人应当被允许采取措施保障作品或者其他客体所在的网络和数据库的安全和完整。上述措施不应当超过实现目标的必要限度。欧盟第2019/790 号指令第3 条第4 款规定，成员国应当鼓励权利人、科研机构和文化遗产机构通用地定义涉及义务实施，以及第3 条第2 款规定的保存和保留措施、第3 条第3 款规定的安全和完整措施的最佳实践。

欧盟成员国著作权法中的文本与数据挖掘著作权例外规定中，涉及对复制件的处理相关规定。法国著作权法规定，在文本与数据挖掘研究过程中制作的技术附件的保存和传播，在研究活动结束之后，应由特定机构进行处理[12]197。德国著作权法规定，一旦研究工作完成，后续及对来源材料的复制应当被删除，公众不可获得[12]197。

4 涉文本与数据挖掘著作权问题在中国的实践与评论

4.1 涉文本与数据挖掘著作权问题在中国的司法实践

所谓网络爬虫行为，是指一种按照一定的规则，自动地抓取万维网信息的程序或脚本[13]。我国司法判决中，对于网络爬虫行为的著作权侵权作出定性。所谓企业画像行为，是把企业信息标签化，在一系列真实数据的基础上为企业建立标签模型体系，将企业的具体行为属性进行归类，最终形成一个多元化的企业标签对象[14]。我国司法判决中，认为未经许可的企业画像行为构成不正当竞争。

4.1.1 江苏海豚网络科技有限公司与北京爱奇艺科技有限公司信息网络传播权纠纷案

一审法院判决指出，海豚公司抗辩其未对搜索结果进行分类、推荐，全部信息均通过爬虫技术从互联网获得，但从海豚公司网站和客户端提供的播放链接来看，首页的搜索结果对爱奇艺未作任何标注，但对其他网站均标注了“无广告”“在线播放”“可下载”等信息，观众显然会根据上述标注进行播放选择，故海豚公司的该项抗辩，法院不予采信。海豚公司应当知道在其网站上出现的众多第三方链接存在侵权，但未采取删除、屏蔽、断开链接等必要措施，一审法院认定其主观上存在过错，客观上帮助了链接第三方实施侵权行为，因而构成帮助侵权行为。二审法院维持一审法院的判决[15]。

4.1.2 中文在线数字出版集团股份有限公司与深圳聚领威锋科技股份有限公司信息网络传播权纠纷案

一审法院判决指出，涉案应用程序的介绍显示“使用最新的网络爬虫技术，智能帮你追踪你喜欢的网络小说”。虽然涉案作品的详情界面下方标注了第三方网站网址及选择的用户比例等，但点击该内容后，并未出现网页跳转，而是瞬间显示涉案应用程序中涉案作品的详情界面，继而显示涉案作品的内容，且在返回涉案应用程序中涉案作品的详情界面进行下载时并未显示下载来源。被告的涉案行为使得网络用户可以在其个人选定的时间、地点实现对涉案作品的下载，侵犯了原告享有的信息网络传播权及获得报酬权，应当承担停止侵害、赔偿损失的法律责任[16]。

4.1.3 深圳市腾讯计算机系统有限公司与湖南聚漫文化有限公司著作权权属、侵权纠纷案

一审法院判决指出，被告提出其使用爬虫程序，对互联网的内容进行搜索，不存储内容，但原告提交的《公证书》显示，在被告经营的“漫云”App 上可以查看漫画作品《尸兄》，整个查看过程均是在“漫云”App 内完成，并没有显示跳转至第三方网页，同时鉴于被告未提交证据予以证明“漫云”App 系提供搜索服务，故法院认定“漫云”App 中的漫画作品系由被告提供，对被告的该项辩称意见，法院不予采信[17]。

4.1.4 北京小犀快跑科技有限公司与深圳市第一推信息技术有限公司著作权权属、侵权纠纷案

一审法院判决指出，第一推公司辩称其从虎嗅网中抓取涉案文章、标注了涉案文章来源于微信公众号AI 财经社、作者为吴倩南以及原标题等信息。但是，第一推公司未提交证据证明其从小犀公司或虎嗅网获得使用涉案文章的授权。因此，第一推公司未经许可在其网站使用了涉案文章的内容，侵犯了小犀公司对涉案文章享有的信息网络传播权，应承担停止侵权、赔偿损失的民事责任[18]。

4.1.5 杭州阿里巴巴广告有限公司、阿里巴巴（中国）网络技术有限公司等与南京码注网络科技有限公司等不正当竞争纠纷案

一审法院判决指出，争议焦点之一是码注公司抓取和使用数据的行为是否在合理限度之内。原告为收集数据投入了大量资源且为原告经营活动的重要资源。二是原告通过网站作出了法律声明，禁止未经许可使用爬虫软件获取、使用涉案数据，故涉案数据虽已公开，但并非可以任意获取、使用的开放数据，码注公司不可以毫无节制地抓取、使用涉案数据，应当本着善良、诚信的原则，在必要限度内使用涉案数据[19]。应当注意，在本案中，被告企业画像只是对于数据而非作品的利用，否则有可能涉及著作权侵权。

4.2 涉文本与数据挖掘著作权中国司法实践的评论

目前，我国法院已有涉及爬取数据的司法判决，从既有判决结果分析，对于商业性文本与数据挖掘，法院大概率会作出著作权侵权的判决。《保护文学和艺术作品伯尔尼公约》《世界知识产权组织版权条约》《与贸易有关的知识产权协议》允许成员国对著作权作出限制的规定，提出“三步检验标准”，即对专有权利的限制应局限于特定情况，不应与作品的正常利用冲突，且不得不合理地损害权利人的合法利益。我国新修订的《著作权法》第二十四条，将原著作权法第二十二条和著作权法实施条例第二十一条的内容融合，增加“不得影响该作品的正常使用，也不得不合理地损害著作权人的合法权益”，形成“三步检测”规则。然而，鉴于我国《著作权法》三步检测条款具有封闭性，文本与数据挖掘不属于法定十三种著作权合理使用情形。司法实践存在共识，我国《著作权法》未将营利性使用规定为侵权要件，因此，在现行制度下，非商业性文本与数据挖掘在我国也存在被判决为著作权侵权的风险。江云龙诉无锡市贸易资产经营公司著作权侵权纠纷案[20]法院判决指出，《著作权法》未将营利性使用规定为侵权要件，未经许可使用他人的作品，不属于著作权合理使用和法定许可范畴的，依法应认定为侵权行为。而非商业性文本与数据挖掘一旦被法院判决为著作权侵权，无疑将对相关技术行业的发展十分不利，甚至有损我国在相关行业的技术竞争力。

美国学者指出，文本与数据挖掘著作权例外的规定，实际上构成国家之间在技术发展与进步上的竞争，从英国、日本等国家以及欧盟及其成员国的文本与数据挖掘著作权例外立法改革中，可初见端倪[4]。在文本与数据挖掘著作权例外方面，美国司法实践通过转换性使用这一著作权合理使用的情形，甚至将商业性文本与数据挖掘著作权例外纳入著作权合理使用范畴，美国司法实践对于文本与数据挖掘技术的发展，无疑具有深远意义，值得深思。

5 文本与数据挖掘著作权例外域外实践的中国借鉴

5.1 非商业性文本与数据挖掘的司法适用

我国新修订的《著作权法》，规定了三步检测条款，但文本与数据挖掘著作权例外条款尚未列入。关于转换性使用问题，章凯平、广州网易计算机系统有限公司著作权许可使用合同纠纷二审民事判决书指出，一方面，“转换性使用”并非我国法律对著作权利限制的情形之一，另一方面，并非所有具有转换性的使用行为都应被认定为合理使用。构成合理使用的转换性程度应当达到一定高度，即受众关注点主要在于对作品转换性使用所产生的价值、功能或性质，而非作品本身的文学、艺术价值，这种转换性使用行为增进社会知识财富的贡献超过对著作权人利益的损害。转换性程度越高，对著作权人利益损害越小，则认定构成合理使用的可能性越高[21]。鉴于前文所述文本与数据挖掘对于科学研究和技术进步的客观价值，从促进技术发展的角度，我国各级法院对于非商业性文本与数据挖掘在司法适用方面，有必要确认其属于著作权合理使用的范畴。最高人民法院《关于案例指导工作的规定》中指出，全国法院在审理与指导性案例类似的案件时，应当参照指导性案例。最高人民法院《关于统一法律适用加强类案检索的指导意见（试行）》中强调法官对指导性案例的参照和对其他类案的参考，旨在实现法律的统一适用。各级法院有必要充分发挥指导性案例和类案检索的功能，统一裁判尺度，弥补立法的不足。

5.2 文本与数据挖掘著作权例外的立法建议

我国有必要借鉴欧盟及其成员国关于文本与数据挖掘著作权例外的规定。我国著作权法的后续修订中有必要作出规定，为科学研究目标的文本与数据挖掘，应构成著作权合理使用。有权进行文本与数据挖掘的主体，至少应包括公益性科研机构和文化机构。文本与数据挖掘的对象，至少包括合法获得的作品。文本与数据挖掘的行为，应包括复制、提取和精炼。文本与数据挖掘的作品或者其他客体的复制件，应当基于合理安全水平保存，并应基于验证研究结果的科研目的而保留。权利人应当被允许采取措施，保障文本与数据挖掘的作品或者其他客体及其复制件所在网络和数据库的安全和完整，但该措施不得超过实现上述目标的必要限度。应当鼓励权利人、科研机构、文化机构定义涉及保存和保留措施、安全和完整措施的最佳实践。一旦研究工作结束，文本与数据挖掘过程中的复制件应当被删除或者由特定机构进行处理，不得为公众获得。对文本与数据挖掘作品或者其他客体及其复制件的任何出售、出租、许诺销售行为，应当被认定为著作权侵权行为。一旦被认定为著作权侵权行为，后续任何目标的行为，都应当被认定为侵权行为。最后，旨在禁止和限制文本与数据挖掘著作权例外的合同条款，应认定为无效。