APP下载

生成式人工智能机器学习的版权困境及其制度因应

2024-11-21吴家煦来小鹏

编辑之友 2024年11期

【摘要】生成式人工智能机器学习所引发的著作权法争议,本质是传统版权产业与新兴人工智能产业之间的利益分配争议。机器学习行为类型化的技术特征以及合理使用制度步骤式的适用逻辑,决定了对该问题应当按照分类分步的思路进行处理。在前置的行为定性问题上,机器学习可分为非表达型和表达型两类,前者属于非作品性使用无侵权责任;后者因属于作品性使用而落入著作权专有权利控制范畴,存在侵权使用与合理使用之分。在后续的规则设置问题上,基于经济分析路径,非商业性目的的机器学习符合“三步检验法”标准,属于合理使用范畴;商业性目的的机器学习虽不满足合理使用条件,但仍能通过产业主体间私人自治的版权规则构建实现合法化转型。

【关键词】生成式人工智能 机器学习 作品性使用 合理使用 法定许可

【中图分类号】G230 【文献标识码】A 【文章编号】1003-6687(2024)11-096-09

【DOI】 10.13786/j.cnki.cn14-1066/g2.2024.11.013

以ChatGPT为代表的生成式人工智能的诞生,不仅预示着一场新的智力革命的到来,更因其所展现的巨大应用潜力而被视作推动第四次信息科技革命的“技术奇点”。生成式人工智能以数据、算法和算力作为核心要素,依赖于以数据挖掘分析技术为底色的机器学习,通过数据投喂进行模型训练进而实现算法升级和技术跃迁。海量数据输入下的机器学习模型训练,使得生成式人工智能在事实上具备系统科学领域所定义的“涌现能力”。①然而,机器在学习过程中被“喂养”的除了源于公有领域的数据资源外,还不可避免地大规模涉及受著作权法保护的作品内容。这导致生成式人工智能在带来广阔产业发展前景的同时,也引发了有关著作权合法性的担忧。2023年7月,超15000名美国作家协会会员联合发布署名公开信,要求OpenAI等人工智能公司不得未经许可利用作品进行A780fbc7c077d3bba247c54ff42696c7aI模型训练,并且还应当对之前的作品使用行为进行财产性补偿。[1]2024年3月,由于未经新闻出版机构许可使用受著作权保护的内容训练聊天机器人,谷歌被法国市场监管机构处以2.5亿欧元罚款,成为全球首家因训练数据而受到处罚的人工智能公司,对此谷歌称监管机构并未充分考虑当前人工智能开发商摸索新路的艰难处境。[2]在我国,以被喻为全球AIGC平台侵权第一案的“奥特曼案”为代表,审理法院认定未经许可利用作品进行人工智能模型训练并提供生成式服务的行为构成著作权侵权。①

技术的变革本身虽蕴含生机与希望,但同时也充斥着风险与挑战。[3]生成式人工智能一方面因具有重要经济意义和创新价值而广受青睐,另一方面却因如影随形的复杂著作权问题而冲击着现有法律秩序。可以说,生成式人工智能的出现不仅是一次重大的科技革命,更引领着一场深刻的社会变革。对于这样一个新兴事物所引发的著作权问题,应警惕避免陷入技术治理上的“科林格里奇困境”。[4]既不应在技术发展的早期阶段就过早地实施控制,以致阻碍技术生产力的进一步发展;也不应等到技术已经深度融入整个经济社会结构后才施加干预,导致治理成本大幅提升乃至所产生的负面效应已无法消除。机器学习是生成式人工智能的关键技术,对于机器学习过程中使用作品所导致的著作权法争议,在因应路径上须以对技术运行原理的拆解为前提,同时结合著作权制度的适用逻辑,厘清究竟何种情形下的机器学习作品使用行为与既有规范存在合法性冲突,在此基础上探求如何调整和构建相应的版权规则,以更好地解决争议,从而有效化解人工智能时代技术发展与合规需求之间的矛盾。

一、机器学习著作权法争议的检视与解构

生成式人工智能作为新质生产力的典型代表,其所引发的高关注度使得当前有关机器学习著作权问题的讨论进入白热化。已有研究虽然从多个角度对该问题进行了不同阐释,但囿于理论层面共识的缺乏以及制度层面规则的缺失,致使相关争议仍存在很大不确定性。鉴于此,有必要回归对于机器学习著作权法争议本身的检视与反思,从中梳理出争议背后的实质焦点并加以解构,从而为后续研究锚定方向。

1. 机器学习著作权法争议的检视反思

当前,有关生成式人工智能机器学习行为定性及其制度安排的讨论仍处于争议之中,尚未形成共识。在理论探讨上,目前主要存在以下四种观点。其一,合理使用说。该观点认为,鉴于人工智能技术对促进经济发展具有重要意义,为避免因海量侵权纠纷引发技术治理上的过度控制,导致人工智能产业发展受到“寒蝉效应”的影响而遭遇阻滞,有必要将机器学习纳入著作权合理使用范围以使之实现合法化转型。[5]在相应的学理分析上,该观点主要基于“转换性使用”理论,主张机器学习作品使用行为所指向的并非作品的独创性表达部分,也不以再现作品的文学艺术科学价值为目的,属于在功能或目的上具备转换性的“非表达性使用”,足以构成合理使用。[6]其二,法定许可说。该观点同样主张机器学习作品使用行为具有经济意义上的正当性,但认为相较于合理使用制度对技术进步的倾斜保护,法定许可制度能够在有效解决机器学习著作权问题的同时,更好地兼顾权利保护与技术发展之间的平衡,故可考虑将机器学习纳入法定许可范畴以实现合法化转型。[7]其三,许可使用说。该观点认为,机器学习作品使用行为不仅会影响作品的正常利用,还会导致著作权人一直以来通过许可转让获取收益的商业逻辑陷入失灵,致使内容生产端因丧失经济激励而走向枯竭。故从保障著作权人利益的角度出发,不应将机器学习纳入合理使用或法定许可范畴,而须沿袭“先许可后使用”的传统模式,否则即构成侵权。[8]其四,排除控制说。不同于前述诸观点,该观点主张机器学习对作品的利用属于著作权控制之外的行为,并不会对著作权人利益造成削弱。应当将机器学习作品使用行为从著作权专有权利控制范畴中予以排除,无须适用著作权制度进行“先进后出”式的分析来为之抗辩,从而迎合人工智能的发展。[9]

纵观当前对于生成式人工智能机器学习著作权问题的探讨,大多围绕产业主体间的利益博弈展开,基于促进人工智能产业发展或维护传统版权产业利益的不同考量,通过理论及现实层面的正当性证成,寻求与既有制度的适配。但这一论述逻辑仅仅是对机器学习著作权问题的一种直观反映和机械分析,一方面在技术层面上忽略了对机器学习使用作品的技术过程还原,另一方面在制度层面上缺乏对版权规则适用理念的剖析。正因如此,实践中有关机器学习著作权问题的诸多讨论,才会陷入执着于对现有著作权制度进行改造或重构,试图以此将机器学习完全纳入既有制度框架从而一劳永逸地解决问题的误区。这种“一刀切”的做法,不仅无法有效回应和兼顾不同产业主体的利益诉求,更无益于化解机器学习著作权法争议上的僵局。

2. 机器学习著作权法争议的本质解构

世界银行2023年发布的生成式人工智能报告显示,全球生成式人工智能产业市场预计将于2026年达到65亿美元,然而传统版权产业不仅未能从中分得相应的利益,其原有市场还因此受到强烈挤占和冲击。[10]可见,生成式人工智能机器学习的著作权法争议,本质上是传统版权产业与新兴人工智能产业之间的利益分配争议,其直接影响到后者当前发展模式的合法性以及未来发展生态的塑造。对于这样一个涉及经济、政治、科技等诸多方面的复杂问题,若是仅以全有或全无的两极化态度来简单对待,不加区分地认定所有机器学习行为都构成或不构成著作权侵权,进而判定都适用或不适用合理使用规则,很可能造成争议的进一步加剧。

应当认识到,在技术层面上,目前实践中已经发展出多种类多形态的生成式人工智能,不同的机器学习类型对于作品使用行为的差异,表现在从工作机制到运行结果的各个方面;在法律层面上,合理使用规则的适用前提在于存在落入著作权专有权利控制范畴的侵权使用行为,这是探讨是否构成合理使用的重要基础,作品使用行为若不构成侵权自然也就无须设置相应的合理使用规则。[11]因此,机器学习行为类型化的技术特征以及合理使用规则递进式的适用逻辑,决定了对该问题的回答应分解为两项子问题,按照“两步走”的方式进行阶梯式处理。具体而言,首先是前置的行为定性问题,即是否所有类型的机器学习行为都落入著作权专有权利控制范畴涉嫌侵权,这决定了是否存在进一步适用合理使用规则的前提与必要;其次是后续的规则设置问题,即是否所有落入著作权专有权利控制范畴涉嫌侵权的机器学习行为都满足合理使用规则的适用条件,这决定了其最终能否实现合法化转型。遵循这一分类分步的思路,对上述两个问题依次展开论述,以在有效维持产业主体间利益平衡的基础上,科学合理地应对生成式人工智能机器学习所引发的著作权法争议。

二、前置问题:机器学习行为的著作权法定性

生成式人工智能机器学习著作权问题的妥善解决,首先有赖于准确界定机器学习过程中使用作品行为的法律性质。实践中是否所有类型的机器学习行为都必然落入著作权专有权利控制范畴涉嫌侵权,对这一前置性问题的回答将直接决定后续版权规则设置的走向。解决这一问题也就意味着明确是否有必要通过合理使用规则的适用来完成机器学习行为的合法化转型。

1. 机器学习行为定性的分析基础:“作品性使用”概念的引入

机器学习依托数据“喂养”开展模型训练,其使用的海量数据既包括处于公有领域的资源素材,也包含受著作权保护的作品内容。对已经进入公有领域的资源素材的使用不会受到著作权法的限制,而对于版权作品的使用是否将导致所有类型的机器学习行为都落入著作权专有权利控制范畴构成侵权,对这一问题的判断关键在于准确认定机器学习对于作品的不同使用方式,是否都属于著作权法意义上的使用。换言之,只有当机器学习作品使用行为属于著作权法意义上的使用,此时该行为才可能因涉嫌侵权而具有进一步讨论是否满足合理使用标准的必要,否则便不存在侵权争议,即在机器学习过程中能够自由地使用作品。

有学者通过借鉴商标法领域内商标性使用和非商标性使用的划分理念,将著作权法领域中的使用行为区分为作品性使用和非作品性使用,并指出只有在作品性使用情形下才存在讨论构成侵权使用抑或合理使用的必要。[12]在商标法语境下,商标性使用是指对于商标识别来源功能的利用行为。反之,描述性使用等非基于商标识别来源功能的使用行为则是非商标性使用,此时由于不构成商标法意义上的使用,故也就不存在进一步分析是否构成合理使用的侵权前提。[13]同理,在著作权法范畴中,作品性使用是指对作品进行著作权法意义上的使用,即通过利用作品中的独创性表达以再现其文学艺术科学价值。非作品性使用则是一种技术性使用,是指将作品作为一种工具进行功能性利用,以便获得其中不受著作权保护的事实性信息等相关要素。[14]而作品中的独创性表达部分并未被使用,其文学艺术科学价值也不会得到再现。由于非作品性使用并不属于著作权法意义上的使用,相应的也就不存在落入著作权专有权利控制范畴进而涉嫌侵权的可能,此时合理使用规则也因适用前提的缺失而不再有出场的必要。基于该思路,可将“作品性使用”这一概念运用至人工智能领域,用以分析机器学习使用作品行为的著作权法定性问题。

2. 类型化视角下机器学习行为定性分析

生成式人工智能机器学习在技术流程上以数据输入环节为开端,以针对学习资料的提取分析环节为核心,但最终是否存在内容输出环节则因具体类型的不同有所差异。基于机器学习的这一工作特征,可以依据有无表达性内容的输出将其划分为非表达型机器学习与表达型机器学习,进而对不同机器学习行为的著作权法定性进行类型化分析。[15]

非表达型机器学习即无表达性内容输出的机器学习类型。其目的通常在于提取分析作品中不受著作权保护的事实性信息,实际上只是将作品当作其模型训练的工具加以利用,属于系统运行过程中不具有著作权法意义的非作品性使用,因不触及作品中的独创性表达而不存在落入著作权专有权利控制范畴构成侵权的可能。实践中许多生成式人工智能机器学习都属于该类型,譬如目前广泛应用的人脸自动识别系统。人脸自动识别系统通过大量收集新闻报道中含有人物形象的拍摄图片,从中提取人脸要素作为数据资料进行算法训练。新闻图片通常都享有著作权,但由于此类非表达型机器学习仅仅提取其中的人类面部生理特征这一不受著作权保护的事实性信息,而非为了利用具有创造性的内容表达以输出并再现其艺术价值,不会影响作品的正常利用及形成替代性竞争,故该作品使用行为属于不具有著作权法意义的非作品性使用,能够自由使用作品而不涉及著作权侵权。应当意识到,不同于传统物权所具有的绝对排他性,功能主义视角下的著作权并非禁绝所有接触和使用作品行为的专有权利,而是意在控制针对作品独创性表达部分的相关利用行为。[16]因此,非表达型机器学习对于作品的非作品性使用并不触及著作权专有权利,亦不构成侵权。

表达型机器学习是存在表达性内容输出的机器学习类型,旨在吸收利用作品中具有独创性的表达特征,进而输出并再现作品的文学艺术科学价值,这显然属于著作权法意义上的作品性使用,可能因落入著作权专有权利控制范畴而存在侵权使用与合理使用之分。实践中属于该类型的生成式人工智能机器学习同样常见,如微软于2014年启动开发的“下一个伦勃朗”(The Next Rembrandt)项目,通过将画家伦勃朗的画作作为学习资料进行模型训练,创作出仿照伦勃朗的绘画风格但又不同于原作的新画作。[17]该类表达型机器学习对于作者创作风格和作品内容的模仿与展现,本质上是对作为作品核心部分的作者个性化表达的使用,明显属于著作权法意义上的作品性使用行为,可能对原作的著作权在市场上产生竞争乃至替代效果。当然,伦勃朗早在1669年逝世,其画作也因早已进入公有领域而能够被自由使用,故不会存在侵权争议。但倘若该类表达型机器学习所使用的是其他仍处于著作权保护期限内的作品,那么就可能因此落入著作权专有权利控制范畴,继而存在构成侵权使用或合理使用的判断空间。

可见,关于生成式人工智能机器学习的著作权法定性问题不可一概而论,并非所有类型的机器学习行为都可能落入著作权专有权利控制范畴构成侵权,应当根据机器学习使用作品的不同方式,以及是否存在表达型内容的输出进行类型化分析。具体而言,非表达型机器学习由于对作品的非作品性使用行为不具有著作权法意义,故不构成侵权,也不会引起争议。而表达型机器学习则涉及对作品独创性表达的利用与再现,属于著作权法意义上的作品性使用,因此落入著作权专有权利控制范畴,有待进一步判断究竟是侵权使用,抑或是合理使用。因此,生成式人工智能机器学习的著作权法争议,实际上围绕基于作品性使用的表达型机器学习而展开。同样,后续关于机器学习行为的版权规则设置问题的讨论,亦应该以该类型机器学习为中心。

三、后续问题:机器学习行为的版权规则设置

如前所述,在所有的机器学习类型中,只有表达型机器学习因属于作品性使用而落入著作权专有权利控制范畴。然而是否所有的表达型机器学习均能够纳入合理使用范畴,该问题将最终决定其究竟是侵权使用,还是因满足合理使用条件而具备行为合法性,无须承担侵权责任。合理使用规则不是现代科技的对立物,现代科技也不是合理使用规则的“掘墓人”。[18]对于机器学习行为的版权规则设置,应当在严格遵循合理使用规则适用逻辑的基础上作出相应判断。

1. 机器学习适用合理使用规则的梯度分析

我国现行著作权法对于合理使用规则适用标准的建构,遵循《伯尔尼公约》的“三步检验法”,①即应当符合特定且特殊情形、不得影响原作品的正常使用、不得不合理地损害原作品著作权人的合法权益。针对机器学习行为是否适用合理使用规则的判断,也应按照该标准逐步展开阶梯式分析。

(1)关于第一步,是否“符合特定且特殊情形”,即行为在目的或范围上是否具有可预见性与合目的性。[19]具体到本土法源,应按照《中华人民共和国著作权法》(以下简称《著作权法》)合理使用制度的列举式规定,判断相关行为能否纳入某种合理使用法定情形当中。在2010年修正后的《著作权法》所列举的十二种合理使用法定情形中,机器学习行为表面上看似满足个人学习研究或教学科研两类合理使用情形的要求,实则却缺少纳入的解释空间。原因在于,在两类合理使用情形的主体限制性要件上,个人学习研究情形强调个人使用,适用主体仅限于自然人而不包括法人或其他组织。但人工智能开发的系统性和复杂性所导致的巨额成本,决定了其事实上无法由个人单独完成。教学科研情形则强调适用于高校、科研院所等科研教育公共机构,无法涵盖具有商业性质的企业主体,这意味着作为人工智能开发重要力量的广大企业被排除在外,显然有悖于实际。[20]

面对该问题,目前主要有两条解决路径可供选择。一是经过第三次修订后的《著作权法》,在合理使用制度的立法模式上实现了由完全封闭向相对开放的转变,第十三项“法律、行政法规规定的其他情形”的增设,为将机器学习行为纳入合理使用范畴提供了可能。在具体操作上,可借助《中华人民共和国著作权法实施条例》修订的契机,在其中增加关于机器学习使用作品的专门例外规定,从而完成与合理使用兜底条款的对接,使兜底条款由象征性的宣示意义转化为真正具备司法适用上的实践价值。[21]二是鉴于人工智能时代背景下机器学习的重要创新价值与社会意义,可考虑通过修订《著作权法》的方式,专门增设机器学习合理使用法定情形,从而为人工智能的发展提供更加完善的制度保障。从机器学习日益成为当今信息生产过程中的基础性技术手段这一发展趋势来看,将其纳入合理使用范围确有必要。但需要明确的是,无论作何选择,机器学习行为最终能否适用著作权合理使用规则,均以其是否通过“三步检验法”后续两个步骤的考察为前提。

(2)关于“三步检验法”中的后两步,对两个“不得”要件,世贸组织裁决委员会在其作出的权威解释中,采用经济意义上的分析路径对二者分别进行了阐述。①所谓“不得影响原作品的正常使用”,是指对于原作品的利用不得与著作权人通过行使法定权利以获取经济利益的市场行为相抵触。为确保原作品著作权人行使法定权利所获取的经济利益能够稳定地归于其自身,对于原作品的利用不得与原作品著作权在市场上形成竞争乃至替代关系。[22]为了防止因合理使用制度的适用范围变得过宽而损害著作权人的经济利益,造成著作权法对作品创作的激励功能被削弱,应当统筹考虑原作品著作权在市场上的既有利益和预期收益两个方面。此外,考虑到技术发展对于作品使用方式的影响与改变,这里的正常使用在范围上也不能一成不变,既要包括当下已有的传统使用方式,也要涵盖未来可能的潜在使用方式。所谓“不得不合理地损害原作品著作权人的合法权益”,是指在不违背利益平衡精神的前提下,允许对原作品的利用行为在一定合理范围内可以对原作品著作权人的经济利益造成适当减损。该要件的存在事实上起到了一定的缓和作用,意在确保原作品著作权人的经济利益不会遭受过度损害的同时,尽可能地将合理范围内的作品利用行为纳入其中,从而化解著作权人与使用者之间的矛盾,以及避免造成合理使用制度的适用范围被不当限缩。[23]关于作品使用行为对著作权人造成的利益损害是否合理的问题,可以借助比例原则进行判断,具体包括四个方面:一是目的正当性,即所实施的行为应具有正当目的;二是手段适当性,即所采取的限制性手段应能够促成目的的实现;三是手段必要性,即所采取的限制性手段应是所有手段中造成损害负担最小的一种;四是损益相称性,即实施行为所获得的收益与造成的损害之间应保持均衡。[24]

遵循上述思路,在经济分析视角下,对于机器学习行为是否满足“三步检验法”中两个“不得”要件的考察,有必要依据是否具有商业性目的的经济标准进行分类判断。首先,关于第二步“不得影响原作品的正常使用”,由于非商业性目的的机器学习主要应用于科学研究、社会治理等公共事业领域,因此并不会阻碍著作权人行使专有权利,即通过作品进行获利,也不会与原作品在著作权市场中形成竞争或替代关系。而商业性目的的机器学习,则出于逐利动机应用于各种形式的营利活动中,所产生的独立著作权市场利益将挤占原作品既有的著作权市场利益,与后者形成竞争或替代关系。另外还要看到,将作品作为学习资料进行算法训练虽然不是传统的作品使用方式,但当下迅猛发展的人工智能技术使其注定成为未来不可或缺的一种重要的作品使用方式,这也为著作权人开拓潜在的著作权市场提供了新的空间。[25]因此,无论是基于对当前还是对未来的考量,商业性目的的机器学习都会影响著作权人对作品的正常使用。

其次,关于第三步“不得不合理地损害原作品著作权人的合法权益”,按照比例原则的分析进路,一是在使用目的的正当性上,非商业性目的的机器学习往往立足于增进社会福祉之理念,广泛应用于社会治理等公共事业方面,其公益目的具有明显的正当性。而商业性目的的机器学习则以追求私人利益和市场竞争优势为目的,其损害原作品著作权人合法利益的行为难谓正当。二是在目的实现手段的适当性上,根据市场失灵理论,当著作权人与使用者为达成交易所付出的成本显著高于该笔交易所能带来的收益时,便无法依赖市场机制促成自愿交易。[26]为维护知识产品市场的运行秩序以促进作品传播,著作权法通过设置合理使用制度对市场交易障碍进行纠正,从而保证那些必要的或有益于社会的作品使用行为不至于因高昂的交易成本无法实施。[27]非商业性目的的机器学习可应用于公共事业领域以推动社会福利增加,其非营利特性使得著作权人往往因无法获取相匹配的收益而选择拒绝交易,继而导致交易成本不断攀升并形成交易壁垒,最终出现市场失灵。为使有益于社会的作品使用行为不因交易成本过高而无法实施,通过限制著作权人的复制权等部分专有权利,将非商业性目的的机器学习纳入合理使用的做法应被看作是适当的。但就商业性目的的机器学习而言,其营利特性的存在使之不具备纳入合理使用的适当性。三是在手段之于目的的必要性上,并非要绝对化地将所有类型的机器学习行为都纳入合理使用范畴,而是在对机器学习行为进行类型化区分的基础上,仅考虑在特定情形下(即仅限于非商业性目的的表达型机器学习)适用合理使用规则,从而让著作权人尽可能承受最小权利限制和利益负担,同时,也与合理使用制度内含非商业性使用要件的理念相契合。[28]四是在造成损害与获得收益的相称性上,从公益和私益的价值位阶对比来看,非商业性目的的机器学习在带来科技创新进步与社会福利增加的同时,并未过多挤占著作权人利用作品获得收益的市场空间,对著作权人造成的较小利益减损是成比例、可接受而非不计代价的,故符合相称性要求。而商业性目的的机器学习,在追求私人利益的同时虽然也可能在一定程度上起到了促进创新的附带性作用,但与其对著作权人造成的市场替代和利益损害规模相比,两者之间难以相称。

综上,在按照经济分析思路对机器学习行为进行类型化区分的基础上,依照“三步检验法”标准,非商业性目的的机器学习符合特定且特殊情形,既不与原作品的正常利用相抵触,也不会不合理地损害原作品著作权人的合法权益,满足合理使用规则的适用条件,有必要纳入合理使用范畴以保障其创新价值的释放。而商业性目的的机器学习,由于其不符合“三步检验法”的要求,因此不是合理使用的情形。

2. 非合理使用情形下机器学习的版权规则安排

商业性目的的机器学习虽然无法满足“三步检验法”标准而不适用合理使用的规则,但多元化的版权规则框架仍为其提供了实现合法化转型的其他可行路径。换言之,合理使用制度的适用缺位,反倒为著作权人与人工智能开发商就非合理使用情形下机器学习行为的版权规则安排,留下了进一步探索和互动的合作空间。

作为与合理使用相并列的一项著作权限制制度,法定许可同样对著作权人之于作品的人身权利部分予以限制,准许使用者在未经著作权人许可的情况下以特定方式利用作品,从而为作品传播使用活动提供便利。但不同于合理使用的是,一方面法定许可表现出了对带有商业性目的的作品使用行为的接纳。也正因如此,法定许可要求使用者应当向著作权人支付报酬以实现对后者财产权利的确认和尊重。[29]另一方面法定许可还允许著作权人通过事先声明的方式进行权利保留,从而将作品排除在适用范畴之外。这种保留选择空间的立法安排,实际上暗含了立法者对于著作权人与使用者可以就许可条件进行协商约定的认同。[30]相较于合理使用,法定许可在消除市场流转障碍、提升作品使用效率的同时,也保证了著作权人利益的实现,从而有效维持不同主体间的利益平衡。此外,法定许可的法律特征还表明,私人自治历来都是一种最基础最直接的纠纷化解渠道,具备适用上的优先性,纵使是在相关法定规则的设置中也不可或缺。可见,在面对生成式人工智能机器学习所引发的著作权法纠纷时,除了寄希望于法定规则的完善,也应重视私立规则的重要作用。对此,可考虑以法定许可作为制度蓝本,构建基于产业主体间私人自治的“准法定许可”版权规则。

以利益平衡原则为核心,基于产业主体私人合作的“准法定许可”版权自治规则的构建,主要由基础性许可规则与附加性限制规则两部分组成。首先,关于基础性许可规则的安排可参照著作权法定许可制度的相关规定,即生成式人工智能开发商出于机器学习训练数据目的,可以在事先未获得著作权人许可的情况下使用作品。如此一来,便保证了机器学习使用作品的稳定性和持续性,使人工智能开发商追求技术进步与产业发展的需求得到回应。其次,关于附加性限制规则的设置,为使著作权人利益得以实现,延续其在以往许可使用模式下获取收益的目标,同时为尊重著作权人对作品的处置自由以及实现对人工智能开发商使用作品行为的监管,有必要针对未经许可的机器学习作品使用行为施加一定义务或限制,具体包括以下几方面。

(1)付酬义务。著作权制度旨在合理回报人类的智力劳动,私人自治版权规则的构建亦如是。[31]遵循该设计目标,人工智能开发商未经许可使用作品进行机器学习的,应当向著作权人支付相应报酬。对于报酬的标准确定及其给付,一是可以通过强化著作权集体管理组织在其中的作用,由其在广泛征求著作权人意见并吸纳部分著作权人直接参与的基础上,会同人工智能开发商依据市场行情协商确定付酬标准并代为给付。[32]我国目前已经形成了五大著作权集体管理组织,行业范围覆盖音乐、音像、文字等多个方面。著作权集体管理组织的介入,一方面能够保障著作权人的谈判地位和利益实现,降低其交易风险与监督成本;另一方面也有利于减轻人工智能开发商的搜寻成本和协商成本,从而提升其所追求的作品使用效率。当然,就当下著作权集体管理组织的传统运行机制而言,为适应人工智能时代的发展需要,有必要在内部运行透明度、许可费用分配效率、协商促进配套机制等方面做出相应的调整与改进。[33]二是考虑到如今网络内容平台作为数字作品的主要生产聚集地,已经事实上成为机器学习所需优质数据资源的重要来源。故人工智能开发商还可通过与内容平台建立合作,依托内容平台与著作权人之间的服务协议同著作权人达成合意,按照著作权集体管理组织确定的付酬标准,在未经许可但支付报酬的情况下使用作品。

(2)披露义务。对于著作权人有关作品使用情况的知情权和监督权的保障,是决定其是否进一步主张权利保留或权利救济,以及确保人工智能开发商依法依约使用作品的重要基础,故有必要就机器学习的版权数据训练情况进行公开披露。在具体要求上,可参考欧盟《人工智能法案》关于人工智能模型训练的相关透明度义务,要求未经许可使用作品进行机器学习的人工智能开发商,应当在实际使用前的一定合理期限内,对拟使用的作品名称及其作者、拟使用的目的及方式、拟付酬标准等详细情况进行事先公告,以提升作品利用过程的透明性。[34]

(3)作品使用限制。为保证著作权人的作品处置自由以及尊重私人主体之间的自治空间,当著作权人作出权利保留的声明,明确表示不得将作品用作机器学习时,人工智能开发商的作品使用行为就理应受到限制。对于作品使用限制的具体设置,可借鉴谷歌数字图书馆计划中的“选择退出”(Opt-out)机制并将之分为两类。①一是事先退出,即在前述披露公告期内若著作权人表示不同意,人工智能开发商不得使用其作品进行机器学习。二是事后退出,即在披露公告期限届满后人工智能开发商使用作品进行机器学习但著作权人表示不同意,人工智能开发商应当立即将作品从数据库中删除,同时按照之前公告的付酬标准向著作权人支付使用作品期间的报酬。

另外,在责任承担与权利救济上,若著作权人发现人工智能开发商未经许可使用作品且未支付报酬,或是人工智能开发商未按照约定使用作品或支付报酬,可仿照“通知—删除”规则下的处理程序,通知人工智能开发商立即将作品从数据库中删除并支付使用作品期间的报酬。人工智能开发商在接到通知后应当立即采取相应措施,或是选择与著作权人进行协商达成合意,转而进入版权自治私立规则的适用范畴。若人工智能开发商未能及时采取措施或是与著作权人达成相关合意,则著作权人有权提起诉讼,通过与法定程序的衔接来实现对自身权利的救济以及对人工智能开发商责任的追究。

面对传统授权使用模式的制度性失灵以及合理使用法定规则的适用性困难,基于产业主体间私人自治的“准法定许可”版权规则,为非合理使用情形下的机器学习行为提供了实现合法化转型的可行路径。在具体设计上,“准法定许可”版权规则以维持利益平衡为核心理念,集法定许可制度权利限制之“刚”与私人自治机制灵活适用之“柔”于一身。通过贯彻“促进加限制”的二元价值取向,既保证了机器学习技术发展对于作品使用效率的追求,又回应了著作权人为了获得创作激励而对作品许可利益的关切,从而有效弥合人工智能开发商与著作权人关于非合理使用情形下机器学习行为的著作权法争议。

结语

生成式人工智能的快速勃兴,正引领着一场有关信息生产和知识创造的技术革命,在进一步解放人类精神生产力的同时,也打破了以往作品利用模式下的产业利益互动格局,引发有关机器学习使用作品的著作权法争议,冲击与重塑着传统著作权制度的底层逻辑。我国于2023年7月出台的《生成式人工智能服务管理暂行办法》中明确强调,生成式人工智能模型训练应以对知识产权的尊重为前提。

生成式人工智能机器学习的著作权问题兼具技术和制度两个面向,一方面技术的发展需要法律制度不断作出调整以涵盖出现的新问题,另一方面法律制度的协调又能够反过来推动技术进一步发展。关于生成式人工智能机器学习的著作权法争议,其本质是传统版权产业与新兴人工智能产业之间的利益分配分歧。解决问题的正确思路是始终秉持实现产业主体间利益平衡的基本理念,结合生成式人工智能机器学习的技术特征以及著作权相关法规制度的适用逻辑,在遵循阶梯式分析进路的基础上,对机器学习作品使用行为的不同情形作出关于著作权合法性的准确判定,据此分别设置合理版权规则,采取相应的规制举措。唯有如此,方能在有效缓和产业主体利益冲突的基础上,实现技术发展与权利保障之间的共赢。

参考文献:

[1] Authors Guild. More Than 15000 Authors Sign Authors Guild Letter Calling On AI Industry Leaders to Protect Writers[EB/OL].[2023-07-18].https://authorsguild.org/news/thousands-sign-authors-guild-letter-calling-on-ai-industry-leaders-to-protect-writers/.

[2] David Meyer. Google Becomes the First AI Company To Be Fined Over Training Data[EB/OL].[2024-03-20].https://fortune.com/2024/03/20/google-250-million-euro-fine-france-news-publishers-ai-bard-gemini-training-data/.

[3] 刘少军,聂琳峰. 数字藏品版权的功能、困境与治理[J]. 北京联合大学学报(人文社会科学版),2023(1):51-61.

[4] David Collingridge. The Social Control of Technology[M]. New York:Palgrave Macmillan Press,1980: 11.

[5] 吴汉东. 人工智能生成作品的著作权法之问[J]. 中外法学,2020(3):653-673.

[6] Matthew Sag. The New Legal Landscape for Text Mining and Machine Learning[J]. Journal of the Copyright Society of the USA, 2019(2): 346-365.

[7] 刘友华,魏远山. 机器学习的著作权侵权问题及其解决[J]. 华东政法大学学报,2019(2):68-79.

[8] 马忠法,肖宇露. 论人工智能学习创作的合理使用[J]. 山东科技大学学报(社会科学版),2020(5):32-38,47.

[9] 刘晓春. 生成式人工智能数据训练中的“非作品性使用”及其合法性证成[J]. 法学论坛,2024(3):67-78.

[10] World Bank Group. Publication: Generative Artificial Intelligence[EB/OL].[2023-07-07].https://openknowledge.worldbank.org/entities/publication/4f623641-ba34-4f0d-9a7d-105f02a5ee00.

[11] 魏远山. 生成式人工智能训练数据的著作权法因应:确需设置

合理使用规则吗?[J/OL].图书情报知识,1-11[2024-10-23].http://kns.cnki.net/kcms/detail/42.1085.G2.20240515.1112.002.html.

[12] Abraham Drassinower. What's Wrong with Copying?[M].Cambridge: Harvard Universitr2P0cOEguBNIiP+YujRMkg==y Press, 2015: 87-88.

[13] 李安. 机器学习作品的著作权法分析——非作品性使用、合理使用与侵权使用[J]. 电子知识产权,2020(6):60-70.

[14] Edward Lee. Technological Fair Use[J]. Southern California Law Review, 2010(4): 797-874.

[15] Benjamin Sobel. Artificial Intelligence's Fair Use Crisis[J]. Columbia Journal of Law & the Arts, 2017(41): 45-98.

[16] 徐小奔,杨依楠. 论人工智能深度学习中著作权的合理使用[J]. 交大法学,2019(3):32-42.

[17] Shlomit Yanisky-Ravid. Generating Rembrandt: Artificial Intelligence, Copyright, and Accountability in the 3A Era: The Human-like Authors Are Already Here: A New Model[J].Michigan State Law Review, 2017(4):659-726.

[18] 吴汉东. 著作权合理使用制度研究(第四版)[M]. 北京:中国人民大学出版社,2020:200.

[19] 张陈果. 解读“三步检验法”与“合理使用”——《著作权法(修订送审稿)》第43条研究[J]. 环球法律评论,2016(5):5-24.

[20] 张金平. 人工智能作品合理使用困境及其解决[J]. 环球法律评论,2019(3):120-132.

[21] 万勇.人工智能时代著作权法合理使用制度的困境与出路[J]. 社会科学辑刊,2021(5):93-102.

[22] 熊琦.“视频搬运”现象的著作权法应对[J]. 知识产权,2021(7):39-49.

[23] 熊琦. 著作权合理使用司法认定标准释疑[J]. 法学,2018(1):182-192.

[24] 张翔. 刑法体系的合宪性调控——以“李斯特鸿沟”为视角[J]. 法学研究,2016(4):41-60.

[25] 李安. 机器学习的版权规则:历史启示与当代方案[J]. 环球法律评论,2023(6):97-113.

[26] Wendy J Gordon. Fair Use as Market Failure: A Structural and Economic Analysis of the Betamax Case and Its Predecessors[J].Columbia Law Review, 1982(8): 1600-1657.

[27] 刘禹. 机器利用数据行为构成著作权合理使用的经济分析[J]. 知识产权,2024(3):107-126.

[28] 冯晓青,胡梦云. 合理使用视野下“私人复制”著作权问题研究[J]. 南都学坛,2011(6):78-86.

[29] 冯晓青. 知识产权法前沿问题研究[M]. 北京:中国政法大学出版社,2023:390.

[30] 熊琦. 著作权法定许可制度溯源与移植反思[J]. 法学,2015(5):72-81.

[31] 司晓. 奇点来临:ChatGPT时代的著作权法走向何处——兼回应相关论点[J]. 探索与争鸣,2023(5):79-86,178-179.

[32] 张平. 人工智能生成内容著作权合法性的制度难题及其解决路径[J]. 法律科学(西北政法大学学报),2024(3):18-31.

[33] 张惠彬,王怀宾. 版权优先还是技术优先?——法国应对AIGC版权风险的趋势及启示[J]. 编辑之友,2024(5):103-112.

[34] 高雅文,来小鹏. 生成式人工智能语料版权问题研究[J]. 出版广角,2024(5):27-34.

The Copyright Dilemma and Institutional Responses of Generative Artificial Intelligence Machine Learning

WU Jia-xu, LAI Xiao-peng(Civil, Commercial and Economic Law School, China University of Political Science and Law, Beijing 100088, China)

Abstract: The copyright law dispute caused by generative artificial intelligence machine learning is essentially a dispute over the distribution of interests between the traditional copyright industry and the emerging artificial intelligence industry. The technical characteristics of machine learning behavior typification and the applicable logic of fair use of institutional steps determine that the problem should be handled in a step-by-step approach based on proper classification. Machine learning can be divided into two categories in the qualitative problem of pre-existing behavior: non-expressive and expressive. The former belongs to non-derivative use without infringement liability; The latter falls under the exclusive control of copyright due to its belonging to derivative use, and there is a distinction between infringing use and fair use. In the subsequent rule setting issue, based on the perspective of economic analysis, non-commercial machine learning meets the "three-step test" criteria to constitute fair use. Although machine learning for commercial purposes doesn’t meet the requirements of fair use, it can still achieve legal transformation through the construction of private autonomy copyright rules among industry entities.

Key words: generative artificial intelligence; machine learning; derivative use; fair use; statutory license

(责任编辑:张君)

基金项目:科技部国家重点研究计划项目“知识产权司法保护与跨部门协同服务关键技术研究”(2022YFC3303000);北京市法学会2023年市级法学研究课题“算法安全综合治理体系建构研究”(BLS2023B010)

作者信息:吴家煦(1997— ),男,福建三明人,中国政法大学民商经济法学院博士研究生,主要研究方向:知识产权法、数据法;来小鹏(1960— ),男,陕西西安人,中国政法大学民商经济法学院教授、博士生导师,主要研究方向:知识产权法、数据法。

① “涌现能力”是指当人工智能模型训练参数达到一定量级后,定量上的变化导致行为发生质变,其性能表现产生无法解释的显著提升,致使其突然具备语言理解、逻辑推理、生成创造等方面的强大能力。

① 参见广州互联网法院(2024)粤0192民初113号民事判决书。

① 《伯尔尼公约》第九条第二款规定:“本联盟成员国法律有权允许在某些特殊情况下复制上述作品,只要这种复制不致损害作品的正常使用也不致无故危害作者的合法利益。”

① 参见Report of the WTO Panel, United States-Section 110(5) of the US Copyright Act, WT/DS160/R(June 15, 2000)。

① 参见Field v. Google Inc. 412 F. Supp. 2d 1116 (D. Nev. 2006)。