机器学习使用作品的著作权风险与化解的法律路径
2023-04-17陈诺杨兴
陈 诺 杨 兴
(中国人民大学 法学院,北京 100872;广东金融学院 法学院,广东 广州 510521)
一、机器学习使用作品的著作权风险分析
在机器学习中,传统的预先规划操作流程被一种自主学习的机制替代,使得机器能够从数据中自主学习和提取模式、规律和知识。与传统的计算机学习不同,机器学习更加灵活和自主,不再需要人工干预来确定学习对象和特征,而是通过算法进行自动的特征选择和模型构建。①孙阳:《人工智能的合理使用之辩》,《海峡法学》2018年第3期。机器学习也具备自我完善和优化的机制,通过不断与环境进行交互和反馈,机器能够根据反馈信息自主调整和改进自身的学习算法和模型,以适应不断变化的需求和环境。这种自我完善机制使得机器学习具备了持续学习和不断演化的能力,能够更好地适应复杂和多变的任务和环境。②Sean Semmler and Zeeve Rose,“Artificial Intelligence,Application Today and Implications Tomorrow”,Duke Law& Technology Review,(2017):85.
机器学习概念涵盖广泛,学界、业界对其定义也不甚相同,本文所探讨的机器学习是指推进机器智能化活动的关键支撑技术,它从海量的数据中获取新的知识或技能,同时完善自身功能。机器学习的过程包括广泛地收集训练数据,而后又通过“电子复制”的方式将它们输入计算机系统中形成训练数据集,以便于对它们展开分析以及结果生成。近些年,人脸识别、语音识别、购物推荐、文本生成、健康医疗等领域背后无不是机器学习技术快速发展的身影。
与人类学习类似,机器学习也面临学习材料以及学习资源的问题。模型的建立,还有进一步的算法优化都需要大量的作品作为训练资源,而这些资料中往往包括受著作权法保护的作品,包括文学、摄影、影视、美术、音乐以及计算机软件等作品。如全球知名图片提供商Getty Images 起诉热门人工智能绘画工具Stable Diffusion 的开发者Stability AI。Getty Images 声称Stability AI 未经“许可”以及提供“补偿”,复制了Getty Images数十亿个文本和图像用以训练模型,并对其进行编码和解码,侵犯其复制权。并且Stability AI 在未经Getty Images 授权的情况下复制Getty Images 的版权作品创作衍生作品,侵犯了美国著作权法①美国著作权法第106 节内容规定了作者所享有的5 项权利,即复制权(right to reproduce)、发行权(right to distribute)、演绎权(right to prepare derivative works)、公开表演权(right to publicly perform)和展示权(right to display)。下作者的复制权、发行权、演绎权等权利。此外,还有三位艺术家对综合艺术平台DEVIANT ART 提起了诉讼。在起诉书中,原告认为被告在可以获得但没有获得原告的许可下,用原告的图像训练人工智能或其他计算机程序、算法或其他功能预测引擎并创建基于该作品的衍生作品,侵犯了原告的复制、发行、传播等权利。②Getty Images 诉Stable Diffusion 起诉状,https://stablediffusionlitigation.com/pdf/00201/1-1-stable-diffusion-complaint.pdf,最后访问时间:2023年11月11日。
目前在数据输入活动中常见的收集作品的方式为,通过“爬虫协议”爬取网站数据,未经许可抓取数据库数据,或者未经许可将作品数字化并形成数据集③刘友华、魏远山:《机器学习的著作权侵权问题及其解决》,《华东政法大学学报》2019年第2期。,在此过程中,可能涉及侵犯作品的复制权,因为作品需要被收集和分析。这些收集的活动往往涉及著作权人的“复制权”,同时在2020年的我国著作权法修改中,复制权中引入了“数字化”方式,导致了更多的作品收集行为可能被纳入复制权的范畴。其次,在作品收集之后,需要对作品进行加工、整理、汇编等操作。如果这些操作的结果构成著作权法意义上的新作品,可能涉及侵犯改编权和汇编权。此外,如果需要将文字作品翻译成不同的语言,可能涉及翻译权的问题。最后,在生成与提供最后结果阶段,公司需要通过互联网传输数据或改编后的作品,或者将其上传到云端。从著作权法的角度来看,这可能涉及侵犯向公众传播权,包括信息网络传播权和广播权。总而言之,机器学习会无可避免地对数据进行拷贝、翻译、篡改、重新编写等行为,可能涉及著作权人的复制、发行、演绎等权利,抑或是构成了《中华人民共和国著作权法》第五十二、五十三条所规定的侵权行为,由此引发侵权争议。
著作权法旨在鼓励文学创作和传承,给予著作权人相当程度的专有权以鼓励创作。而著作权人获得的专有权和机器学习具有相当程度的矛盾冲突。分析既有研究成果,可以发现当前对于机器学习与著作权合理使用制度的讨论存在两个方面的问题。第一,对于机器学习使用作品的特点有所忽略,从而造成评价机器学习与保护著作权人权利冲突之间存在较大区别。第二,对于如何将机器学习中对作品的使用纳入现行著作权法之中,是法定许可还是合理使用制度存在争议。基于前述问题,本文希望借助机器学习使用作品的特点说明为何需要将其纳入著作权限制与例外。同时本文将讨论“法定许可”与“合理使用”的制度选择不同,希望对保护著作权人的权利和促进机器学习技术发展间的利益平衡有所助益。
二、产生风险的原因
首先需要明确的是,应当对机器学习使用作品这一行为进行法律上的规制与处理,并且需要为机器学习创设著作权的限制与例外。目前机器学习与著作权的冲突体现在实践中是著作权人与机器学习公司的矛盾,体现在法律上是著作权人的权利保护与促进技术发展的矛盾。相对于人类有限的认知能力,机器学习的能力是无限的。程序可以不断地自我设定目标,实现成长进化,于是机器通过学习具备了超越设计者本人的智能,也具备了在各个领域战胜人类的实力。其不但可以识别人脸、文字、语音、场景,还可以理解语义、自主创作。但我国现行的著作权法却更偏向于严格保护作品,并规定了版权使用者都需要为使用作品征得授权人的许可并支付报酬,否则作品就会陷入侵权的状况。然而机器学习技术的研发者则需要有大量的训练数据,按照目前我国著作权法的规定,研发人员如果使用受著作权法保护的作品,需要在获取训练数据前征得著作权人许可。而如果研究公司未获得授权或未提供报酬,依现行的司法规定,作品权利人可以向机器学习研发公司提起法律索赔,虽然每部作品的索赔费用不一定都非常高昂,但这样庞大的作品基数所产生的天价索赔也并非普通公司所能承担的,更别提由此而产生的巨大司法成本和社会成本。
所以,现有知识产权法律体系有必要作出回应,以调适科技发展与著作权保护的矛盾,应对新型科技挑战,平衡各方权益。接下来,本文将主要从机器学习特点三个方面,即低密度化、创造性强、算法偏见,考察论证应当为机器学习创设著作权的限制与例外。
(一)低密度化
机器学习利用作品的方式多种多样,具体取决于应用场景和任务要求。机器学习可以利用已有的作品数据来训练模型,从而对未知的作品进行分类或预测。例如,根据文本内容进行情感分析,对音频数据进行语音识别,对图像进行目标分类等。这种能力让机器学习能够在大规模作品数据中发现模式和趋势,从而进行准确的分类和预测。同时机器学习可以从大量作品中提取有用的信息和摘要。通过对作品数据的分析和模拟,机器学习可以自动提取关键词、主题、摘要或总结,从而帮助用户快速了解和浏览大规模的作品内容。机器学习也可以利用作品数据来评估模型的性能,并进行优化和改进。通过对已有作品的分析和比较,机器学习可以衡量模型的准确性、效率和创造性等指标,并帮助优化模型的表现。总的来说,机器学习通过对作品数据的学习和分析,可以进行分类、预测、生成、提取、总结、评估和改进等多种操作,从而实现对作品的利用和增值。
但在机器学习中,数据的规模和多样性对于取得良好的模型性能至关重要。对于机器学习公司而言,单个数据对其收益的贡献微乎其微,只有通过收集大量作品数据并进行大规模的分析和运算,机器学习技术才能发挥其真正的作用。这种低密度化的特点要求机器学习公司采取全面的数据收集策略,包括数据采集、数据清洗、数据标注等环节。数据收集的过程可能涉及与不同数据来源的协商和合作,以确保数据的完整性和质量。同时,数据的规模也直接影响到机器学习算法的复杂性和模型训练的时间成本。较大规模的数据集可以提供更全面的样本分布,以及更丰富的模式和特征信息,从而可以训练出更准确的模型。除了数据规模,数据的多样性也对机器学习的效果和创造力产生重要影响。多样化的数据可以帮助机器学习模型更好地适应不同场景和样本,提升泛能力和创造潜力。只有通过收集和运用海量作品,机器学习技术才能实现其真正的潜力。
(二)创造性强
著作权法的主要目的是保护原创作品的创作者并鼓励他们进行创作。它赋予作品的创作者一定的权利,例如复制、分发、展示和修改作品的权利。这些权利在一定程度上鼓励了创作者进行创新和创造性的表达。机器学习作为一种创作工具或辅助工具,可以通过分析和处理大量数据生成新的作品,从这个角度来说,机器学习与著作权法的目的是一致的,都是为了鼓励创作。
同时,创造活动是一种推陈出新的历史过程,新的创作活动往往受益于前人的启迪。到了今天,学习主体发生了变化,但不可辩争的是,机器学习的能力也是人类智慧发展的延续和辅助。近些年来机器学习所呈现出的巨大潜力超乎想象,其不仅可以在分析输入作品的基础之上进行创作,也可以超越人类的智慧,发现作品的规律并进行创作。如果说监督学习下的机器学习是在人的智能引导下进行模型的训练,无监督学习下的机器学习则是在去除分类、标签的要求后,就能够直接根据所标注的数据进行训练,进而自主地确定在数据集中出现的规则,与人进行创作无异。机器本身也成为创作的主体,成为辅助人类创作的重要工具,这与著作权法鼓励创新创作的目的也一致,同时也就要求法律为其提供相应的保障。
(三)算法偏见
机器学习算法通常通过大量的数据进行训练,以学习数据中的模式和规律。然而,如果训练数据本身具有偏见或不完整,那么算法生成的结果也可能具有相应的偏见。例如,一个以男性为主的训练数据集可能会导致算法在生成结果时偏向于男性的观点和偏好,而忽略女性的需求和权益。同时如果数据采样方式不具有代表性,或者存在一些系统性的偏差,那么算法在训练过程中可能会受到这些偏见的影响。例如,在音乐创作领域,如果数据采样倾向于某一地区的音乐,那么音乐风格便会受到限制。
机器学习技术目前面临的一大瓶颈便是数据的质量不高以及如何解决算法偏见的问题。如果训练数据不充分或者带有偏见,那么机器学习会加剧这种片面所带来的问题。由此可见,数据质量的好坏直接关系人工智能作品的好坏。正如前文已述,在获取优秀作品数据集方面,著作权制度的限制可能导致几个问题。首先,由于著作权保护,许多优秀的作品可能无法被自由获取和使用,这使得构建全面、丰富的数据集变得困难。其次,由于数据集的构建往往需要多个作品的整合,涉及多个著作权人的许可和合作,这也加大了收集作品的复杂度和法律风险。进而使得人工智能开发者必须采用“法律限制较少但带有偏见的数据集”来训练,这也是造成作者计算结果具有偏见的主要原因。①Amanda Levendowski,“How Copyright Law Can Fix‘Artificial Intelligence’s Implicit Bias Problem,”Washington Law Review,(2018):589.所以高质量的训练数据集可以很大程度影响机器学习的效果,减少算法偏见。
三、化解的法律路径
随着新技术的发展,机器学习涉及的流程可能越来越复杂,牵涉的行为也越来越多,传统的单项行为进一步复杂化,成为具有更多流程的行为。在数据输入、创建数据集以及训练数据的过程中,涉及的第三方著作权也会增多。从上述讨论中,我们可以看到,为机器学习创设著作权的例外是机器学习特点所决定的,接下来我们应当讨论如何设计该项著作权的例外。
在现代社会中,因为存在着著作权约束与反约束等现象,以及存在着创作者、使用者双方在行使权利中一定的程序冲突,为促进文学艺术事业发展、保障作者及其他主体权利、促进社会公平,就必须统筹兼顾,平衡并协调一切可能彼此冲突的因素。通过比较不同的机器学习使用作品集的风险化解路径,我们才能够推动机器学习技术的进展,并使之对著作权人的影响减至最低。
(一)法定许可与合理使用
现行著作权法框架下,有三种使用尚在保护期内的作品的合法途径,包括授权许可、法定许可与合理使用。针对这三种制度,为应对机器学习使用作品的需求,学者们有不同的选择取向,并且每位学者对一种制度所能涵盖的机器学习具体范围给出了自己的定义。有学者认为机器学习去收集分散的权利成本过于高昂,因此应当允许机器学习援引著作权合理使用制度。有学者仅仅支持将为科学研究目的而进行的文本与数据挖掘的机器学习行为纳入合理使用制度。①张惠彬、肖启贤:《人工智能时代文本与数据挖掘的版权豁免规则建构》,《科技与法律(中英文)》2021 年第6期。有学者主张借鉴美国版权法体系下灵活、开放的合理使用制度②林秀芹:《人工智能时代著作权合理使用制度的重塑》,《法学研究》2021年第6期。,以应对未来可能出现的新技术,根据个案判断是否构成合理使用。宣喆提议,在不排斥商业化合理使用目的基础上,开展对人工智能创意知识产权领域内合理使用的制度构建。③宣喆:《论分类保护视角下人工智能创作的著作权合理使用》,《出版发行研究》2022年第3期。另一部分学者从最大程度保护著作权人的角度提出应当用“法定许可制度”满足机器学习使用作品的需要。即机器学习系统没有产生新的版权作品,只是用了数据集来训练技术,不够具有转化性。并且机器学习的过程中复制了作品,因而侵犯了著作权人的专有权,对于版权作品的复制不能认为构成著作权合理使用制度,应当采取“法定许可”的解决之道④高阳、胡丹阳:《机器学习对著作权合理使用制度的挑战与应对》,《电子知识产权》2020年第10期。。此外,也有意见认为通过成品征收补偿金制度可以解决机器学习与作品保护制度之间的矛盾问题。⑤高阳、胡丹阳:《机器学习对著作权合理使用制度的挑战与应对》,《电子知识产权》2020年第10期。可以总结得出:部分学者认为机器学习的过程侵犯了著作权人专有权,应当通过法定许可制度保护著作权人的利益;部分学者认为把机器学习纳入合理使用制度将帮助技术自由发展,同时也满足著作权法中鼓励创新的目的。而由于机器学习使用作品的低密度化以及部分作品无权利主体等特点,授权许可无法实现。
笔者认为,从制度角度来看,法定许可与合理使用通常都被视为对著作权的限制。其区别可总结为,合理使用既无须征求著作权人同意,也无须支付著作权人相应报酬,而法定许可使用则虽无须征求著作权人同意,但需要支付著作权人相应报酬。所以接下来本文将讨论机器学习对著作权人产生的影响以及是否需要对著作权人进行补偿,从而确定选择合理使用制度还是法定许可制度。
机器学习能够运用的领域包括如音乐生成、文本生成、图像生成这些容易引起著作权人反感的表达型领域,以及在图像识别、论文查重、代码错误识别等非表达型领域。目前已有的讨论大多为非表达型的机器学习做出了肯定的答案,即构成转换性的合理使用,但对于表达型领域的机器学习,还暂时没有定论。接下来本文将主要针对表达型领域的机器学习对著作权人的影响进行深入讨论。
过去的文献认为表达型的机器学习使用作品将无需经过版权人的授权,也无需向版权人付费,将使得版权人无法控制对自己作品的使用。机器学习基于原作品独创性表达生成的新创作物有可能取代原作品,侵占原作品版权人的市场,对著作权人造成负面影响。在判断是否会对著作权人产生影响时,中国部分法院曾尝试在维持合理使用制度必要限度的前提下,对著作权侵权纠纷中合理使用的抗辩理由进行适当的弹性认定,适当考虑利用行为的目的、所利用部分与整体在数量上的比例、被利用作品的性质、对潜在市场的影响等要素。这主要借鉴了美国的四要素检测法,本文也将重点考察机器学习利用行为的目的以及被告对潜在市场的影响以及机器学习特点,并将考察结果用于分析表达型机器学习对于著作权人的影响以及是否应当对著作权人进行补偿。
首先是机器学习利用行为的目的。有学者认为商业目的有时会弱化合理使用的色彩,但鉴于商业机构所能真正承担相关数据挖掘成本的强大实力,和目前科研机构与商业机构合作开发的趋势,商业目的在评定合理使用目的的正当与否所持比重较小。是否是具有生产性或者不同于原来的使用目的和方式、是否提供额外价值,才是用来评价机器学习使用目的正当更为重要的标准。美国法院认为,判断某种情况是否构成合理使用的一个标准是:是否构成转换性使用。在此种情况下,合理使用的其他要素考虑占比将会降低。这种转换性体现在新创作的作品是否在原作品的基础上,以具有创造性的或者不同的特征来优化原作品的表达、内容和信息。在我国司法实践中,也存在借鉴创新性转化来判断合理使用行为。在王某与北京谷某信息技术有限公司案中,法院认为被告通过片段的方式展现图书,是为了提供相关图书检索服务以及便利用户。该种服务区别于平时的服务,是一种转换性的使用,因而不构成侵权。由此可见,转换性规则的运用,可以解决商业性使用作品的行为能否构成合理使用之难题。以Chatgpt 为例,在训练其系统时,作品的中间复制是“非表达性的”。最终过程的目的是创造一个有用的生成式人工智能系统,这与人类消费作品时的目的有很大的不同,机器学习系统的训练显然是具有高度变革性的。可以说Chatgpt 以其文本创造性输出的方式改变了原作,所以不应当被认为是侵犯了原著作权人权利。
其次是对著作权人潜在市场的影响。一个典型的案例便是机器翻译与翻译作品、译者语料之间可能存在的著作权冲突以及相互市场的影响。目前机器翻译通过不断提升优化自身的底层技术,从原来的主要采用词典翻译和规则翻译,到利用大规模的语料库和统计算法进行翻译,到目前神经网络翻译阶段,利用深度学习算法进行翻译。机器翻译的质量伴随着技术的发展不断提升,机器翻译把译者从机械、枯燥的翻译工作中解放出来,让译者从事更富有创造性的工作。从这个角度可以说,机器学习非但没有抢占原著作权人的市场,著作权人反而可以受益于机器学习相关技术的进步,在基础的工作中节省精力,提升自己的效率。
最后,为机器学习创立合理使用类型并非对著作权人毫无保护。今天的大多数版权侵权分析也内含对机器学习技术的分析。比如YouTube 的侵权比对系统,YouTube 允许版权所有者向YouTube的内容ID 系统提交作品。当一件作品被上传到YouTube 时,它将与内容ID 数据库进行比较,如果该过程中使用作品,分析作品的行为被认定为侵权,将不利于保护著作权人的权益。
同时,机器学习最大的特征是需要使用海量的作品。支付单件作品的成本或许不高,但海量作品累积起来所形成的作品使用费却很高昂,由此导致机器学习的成本巨大。支付高额的作品许可使用费所增加的成本最终也会反映到产品的售价上来。目前的机器学习技术尚处在发展初期,专业的作品授权市场还没有建立,事先取得授权的方式存在交易成本昂贵且无法有效消解偏见的问题。虽然法定许可制度能够在一定程度上保障著作人的权益,但其后续配套措施的落地还面临一定的困难,法定许可中的报酬的分配也是个困难的工作,有效执行也面临非常大的阻碍。①刘友华、魏远山:《机器学习的著作权侵权问题及其解决》,《华东政法大学学报》2019年第2期。
正如前面所述,机器学习的低密度的特点给著作权的传统许可方式带来了巨大挑战:法定许可的最大缺陷在于其无法解决市场失灵问题,同时法定许可因其仍需要与著作权人协商许可费,从根本上无法达到提升机器学习效率的目的。反观合理使用制度,其可以消弭因市场失灵而出现的著作权人与作品使用者之间为了版权作品的使用进行协商的时刻。减少交易费用,提供经济学上合理性的解释。在没有合理使用的前提下,使用著作权人的作品将受到一定限制,而此时引入合理使用规则就能够从最大程度上解决交易成本过高的问题。在这一过程中,整个市场在著作权作品上的资源分配与共享也获得了实现,也避免了诉讼爆炸及严重遏制机器学习科技进步的情况。①王文敏:《人工智能对著作权限制与例外规则的挑战与应对》,《法律适用》2022年第11期。因此,相比于法定许可制度,合理使用制度更加适合为机器学习提供合法性依据,使用方式得当也不会损害著作权人的权利。
(二)机器学习合理使用的立法路径与解释路径
为机器学习创设合理使用类型并非代表着对所有机器学习使用情形都予以保护。目前我国立法仍然会从三步检验法以及司法解释的角度保护著作权人的合法权益。从立法角度来看,考虑到我国著作权法短时间内修改的可能性较小,如果需要为机器学习创设著作权法中的特例,则需要对《计算机软件保护条例》《信息网络传播权保护条例》和《著作权法实施条例》等法律文件进行修改来增设权利类型。因此,在修改《著作权法实施条例》时引入专门的机器学习例外条款是最好的解决办法。修改立法也有助于司法机关对机器学习树立明确的态度,最大程度促进技术的发展。《著作权法实施条例》是行政法规,如果在其修订草案中明确增设机器学习的合理使用情形,将有利于保障著作权例外情形下的稳定性。通过为机器学习制定新的行政立法,来达到合理或适当使用以增进社会利益的目的,没有超越著作权人能够预见的情形。
值得注意的是合理使用制度是一种对抗专有权利的制度,允许使用者在满足条件的情况下对受版权保护的作品进行复制、传播等形式的利用,但并不为使用者提供免费获取作品的渠道。在欧盟国家和英国的版权例外规定中,也将“合法获取”作为适用要件之一,以确保相关数据库拥有合法访问权限。②万勇:《人工智能时代著作权法合理使用制度的困境与出路》,《社会科学辑刊》2021年第5期。我国立法时也应该引入“合法获取”作为机器学习合理使用的要件。这样做可以确保使用者在进行复制、传播和利用数据时具备合法获取这些数据的前提。
同时,我国著作权法第二十四条明确规定,合理使用范围内,不得影响该作品的正常使用,不得不合理地损害著作权人的合法权益。即使将机器学习纳入著作权合理使用的范围,也需要通过三步检验法对技术公司使用作品的行为进行判断,以避免对著作权人造成损害。将机器学习纳入著作权合理使用的范围仍然需要判断该种使用行为是否对著作权人造成了经济利益损害,产生了替代性的结果,继而判断使用作品行为是否构成合理使用。将机器学习技术纳入合理使用范围并不是意味着技术可以不加限制地侵害著作权人的利益,而是需要根据具体个案考察对于原著作权人的影响。
同时为应对实践的需要,目前也需要考虑从法律解释的角度入手,尽量将部分情形纳入现有的合理使用立法文本之内。例如从我国著作权法中关于合理使用的法律、行政法规中规定“其他情形”进行词义空间的扩大,从而使机器学习“有法可依”。
目前我国著作权法第二十四条列举的“合理使用”的情形中,并没有明文规定机器学习这一项,所以机器学习不能直接适用知识产权的例外规定。按照我国目前对著作权法第二十四条第(一)项的规定,“合理使用”制度主体要件为“个人学习、研究”。但机器学习的主体通常为公司。如果是公司的科研人员,其机器学习行为也很难仅限于“学习、研究”等非商业目的。但是如果通过对营利性主体所进行的“科研”做扩大解释,可能可以作为机器学习中的作品使用行为应急之策。如若部分使用机器学习的公司提供了基础性技术,如通过人脸识别技术为安全、国防等领域提供保障,可以作为其进行人脸学习研究的合法性依据。
同时根据我国目前的《著作权法》第二十四条第(二)项的规定,“为介绍评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品”,可以不经著作权人许可亦无须支付报酬。根据法条文本内容,机器学习使用数据的目的如果是评论与说明,可以考虑通过此条为自身行为提供合法依据。但在机器学习中使用数据时,需要遵守“适当引用”的原则,即对于已有作品的使用必须符合一定的适当性要件,避免对著作权人的利益造成损害。适当引用的要求包括以下几个方面。首先,被引用部分不能构成被引作品的主要部分或实质部分,即引用作品与被引作品应具有明显的区别。这是为了确保引用作品不成为作品的“竞争者”,对著作权人的创作权益产生不利影响。其次,引用的数量应适度,不能超过合理的范围。这意味着在机器学习中使用数据时,需要适度地引用著作权作品的内容,以避免超过适当的引用范围。最后,引用的方式和目的应当符合合理的学术研究或创新需求,而不是为了商业化或直接替代原作品。
同时我国著作权法第二十四条第(六)项和第(八)项规定,以科学技术发展或是以文化遗产机构收藏为目的而利用作品的行为,都可能具有对计算机学习技术适用“合理使用”的余地。该情况下的科研机构如若也使用机器学习技术,可以从该角度为其提供合法依据。
机器学习使用作品的情形也可以在满足三步检验法的角度下被解释为合理使用的情形。司法实践可以对我国著作权法第二十四条“法律、行政法规规定”等相关规定作出整体性解释。使之不仅包括法律规定合理使用情况下的具体条款,也包括在法律规范功能原则下的规定应符合国际公约中的“特定、特殊情形”的具体条款。事实上,我国司法实践早已突破了上述三步检验法的第一个环节中的限制,将部分行为视为合理使用,比如出于教学目的拍摄电影、为拍卖目的展示图册,以及网页“快照”的使用行为。如若立法无法及时满足实践的需要,则可以考虑从法律解释的角度入手,尽量将部分情形纳入现有的合理使用立法文本之内,借此为合理使用制度创造更多空间。
结语
既然目前的技术发展和现有的法律制度存在冲突,为保障技术发展以及法律的适应性,我们讨论当前话题仍然是有意义的。本文在第一部分明确了目前著作权法、著作权人与利用作品进行机器学习的科技公司主体之间的矛盾,在第二部分通过探讨是否应当通过著作权例外来解决此矛盾,以及在第三部分探讨具体运用著作权哪一种例外解决矛盾,并分析了不同手段可能带来的潜在优势与劣势,以及为机器学习设定合理使用类型和司法解释如何为机器学习扫平障碍进行了说明。
从域外的立法情况来看,为了便利机器学习和运用大数据分析,多国政府也曾多次修订了其著作权法。比如日本在2018 年修订著作权法后,将机器利用信息的研究领域范围从“计算机信息分析”拓展为所有“提供新的知识和信息”领域。修订后的法规扩大了侵权豁免的商业行为范围,为盈利性活动也留下了适当空间。另外,为减少上面所列出的条款带来的法律使用空间僵化,日本引入了柔性合理使用条款,具体为:日本著作权法第30 条之四非享受性使用条款、第47 条之四计算机附随性使用条款以及第47 条之五信息处理轻微利用条款。①郑重:《日本著作权法柔性合理使用条款及其启示》,《知识产权》2022年第1期。2014 年的英国版权法、2016 年的法国著作权法、2017 年的意大利著作权法都规定可以对版权产品实施复制,虽然仅限于非商业性的研究目的。2016 年欧盟委员会制定的版权指令草案,明确了文本数据保存、挖掘方面的版权例外,适用对象主要是社会公益组织和科研机构,以非商业性目的作为潜在语境,也体现出了欧洲各国对谨慎立法的态度。2019 年,由欧盟委员会所制定的《单一数字市场版权指令》(Directive on Copyright in the Digital Singles Market,下称《DSM 指令》)采取分类处理的办法,即例外情形区分以科学研究为目的的文本与数据挖掘和不限目的的文本与数据挖掘。《DSM 指令》为科学研究中的文本与数据挖掘提供了更大的自由度。①张惠彬、肖启贤:《人工智能时代文本与数据挖掘的版权豁免规则建构》,《科技与法律(中英文)》2021 年第6期。美国的最高法院也有裁决,认为利用作品、使用数据的行为一旦能够取得相应的社会公益效果,能够经由合理使用而得以规范。②张润、李劲松:《利益平衡视角下人工智能编创使用行为的法律定性与保护路径研究》,《出版发行研究》2020 年11期。我们看到各国从“文本挖掘”,到“文本与数据挖掘”再到“提供新的知识和信息”,法律所允许的机器学习的材料与范围在不断扩大,除文本外,艺术作品也逐渐成为机器学习的内容,未来有可能涵盖更多的作品类型。
尽管各国立法目前对于机器学习自由使用作品都较为保守,但各国对于著作权例外可能带来的价值是有所认识的,这就体现在前述不断修改的立法中。同时各国也认识到,机器学习技术所蕴含的重大社会意义,可以利用该项技术为国家经济与社会的发展服务,例如欧洲经济委员会曾表示:“伴随着数字革命,机器学习已经成为日常生活的一部分。目前数据体量的不断扩大,以及机器学习对于数据的依赖更深,对于数据广度的要求也不断加深。”③联合国欧洲经济委员会:机器学习为生成现代、高效的统计数据铺平道路,https://news.un.org/zh/story/2021/04/1082222,最后访问时间:2023年11月11日。这也说明机器学习的应用的确为社会发展带来了机遇。柏林一家智库墨卡托中国研究所的政治学家Kristin Shi-Kupfer表示,如果中国不能在机器学习方面取得真正的突破性研究进展,中国在人工智能领域很难取得突破性成果。④Sarah O'Meara:《中国的人工智能是否会在2030年领先世界》,https://news.sisuer.cn/wp-content/uploads/2020/06/Will-China-lead-the-world-in-AI-by-2030.pdf,最后访问时间:2023年11月11日。这也从侧面说明机器学习可以为各个领域的发展提供强大的数据分析和模式识别能力,有助于挖掘和利用海量数据中有价值的信息,推动科学研究和创新发展,如果中国重视机器学习技术,就将对中国人工智能领域起到积极推动作用。
可以设想,在中国机器学习科技高速成长的时期,我国法学界终将无法避免对机器学习的拷贝作品、分析作品、输出表达等活动进行价值评判。如果认为机器学习不构成合理使用,就会导致很多正在开展人工智能研究项目的个人或者组织(尤其是企业)为大量使用著作付费,或者将获得保护的著作全部清理出数据库,这就大大增加了我国本土企业开发机器学习技术的成本,也妨碍了我国机器学习技术的正常发展。若将其定义为合理使用,则能够为我国的人工智能领域的发展以及第四次信息技术工业革命中所涉及的整个产业提供一定的竞争性优势,⑤张金平:《人工智能作品合理使用困境及其解决》,《环球法律评论》2019年第3期。是著作权制度中平衡著作权人、社会公共利益和使用者利益的有效措施。希望通过本文的讨论,能够促进这项制度的完成,为机器学习使用作品和数据提供法律依据,减少成本,促进新型行业的发展。