生成式AI著作权侵权风险化解路径探究
2024-08-14谭伟
[摘要]文章通过分析生成式AI著作权侵权现状以及现行著作权法框架下生成式AI的侵权化解困境发现,现有法律文本下的生成式AI侵权应对策略存在以下不足,即授权许可模式失灵、现行合理使用制度存在适用困境。对此,文章从合理使用的判定方式、增设专门条款两个方面提出因应化解侵权风险的合理使用制度改造方案,以期为生成式AI的多领域适配、多行业赋能给予更高的灵活性。
[关键词]人工智能;著作权法;合理使用;数据训练
2022年,美国OpenAI公司开发的ChatGPT(Chat Generative Pre-trained Transformer)一经发布便火爆全网,并引发社会各界的热议。ChatGPT可通过对话的模式完成用户所指定的各项任务,如回答问题、翻译、文本写作甚至程序编写等。然而,ChatGPT并非仅是性能优越的聊天机器人,其还是OpenAI公司使用大量优质数据集进行训练,并经过一系列复杂的内部算法操作而得到的基础模型。通过专业优化训练,ChatGPT可以适配不同的场景,为多个行业赋能。未来,ChatGPT这类生成式AI甚至可能成为人工智能时代的新型数字基础设施[1]。
虽然生成式AI前景一片大好,但是当前其应用还须面临一系列挑战,如著作权侵权、算法歧视、生成内容帮助他人犯罪等,给个人隐私保护、算法安全、数据主权乃至国家安全都带来巨大的风险[2]。以著作权侵权为例,美国有8000多名作家联名要求多家知名人工智能企业赔偿他们的版权损失,道琼斯公司发布声明指责OpenAI公司未经其许可违约使用《华尔街日报》的内容[3],Stability AI未经授权使用图片公司Getty images网站上大量的图片链接及文本来训练Stable Diffusion[4],生成式AI著作权侵权早已屡见不鲜。目前,立法或司法机关亟须探寻一条适合我国著作权侵权风险化解的路径,从法律制度上理性看待生成式AI及其相关产业的发展与风险预防,力求生成式AI在我国法律框架下实现健康良性发展。
一、生成式AI著作权侵权现状
当前,生成式AI的开发整体分为“输入—学习—输出”三个阶段,因此生成式AI的著作权侵权问题也可以细分为输入端和输出端,也有学者将其称为生成式AI作为“读者”的著作权侵权问题和生成式AI作为“作者”的著作权侵权问题[5]。
第一,在输入阶段,相关著作权侵权问题主要与生成式AI的预训练(Pretrain)相关。预训练作为AI模型开发的核心步骤,极大地推动了生成式AI的落地。例如,ChatGPT在预训练阶段就需要输入超万亿个单词的人类语言数据资料作为训练材料,而这些数据资料主要来自于Reddit社交媒体平台、Common Crawl语料库、维基百科、Web Text语料库、书籍等[6]。这些海量的数据让ChatGPT能快速获取通用知识,从而掌握涌现能力,这也是生成式AI能够高速发展的关键。值得注意的是,这些训练数据并非都来源于公共领域,部分数据来自某些数据库。尽管当前我国著作权法并未对相关主体获取数据库的数据作明确规定,但是相关主体获取并使用数据库内的数据仍要事先取得数据库权利人的许可。同时,部分训练数据属于著作权法意义上的作品,相关主体使用这些数据同样要事先取得作者的许可。然而,这些作品中存在一定数量作者身份不明或者身份明确但是难以追踪联系的作品,也称“孤儿作品”[7]。我国法律并未对孤儿作品的使用作特别规定,当前学界对孤儿作品的版权侵权问题也存在争议,这无疑加剧了开发生成式AI这一行为的侵权风险。此外,尽管能够联系到作者,但是由于需要获得授权的作者规模庞大,因此通过逐一联系的方式来获取授权并不具备实际可行性。因此,生成式AI的开发者在面临这一困境时,往往选择冒险行事,即在未获取授权的情况下直接使用作品来进行预训练。这种侵权行为无疑会给生成式AI带来侵权的“污点”,导致众多版权人在事后通过联名信或法律诉讼等方式向生成式AI的开发者追索赔偿。在机器学习阶段,开发者对数据采取标记、翻译等行为,可能会侵犯作者的改编权、翻译权等财产权利。此外,机器学习时的缓存可能存在临时复制行为,尽管我国在《信息网络传播权保护条例》起草过程中曾承认临时复制属于复制行为,受复制权控制,但是最终并没有将临时复制纳入复制权的控制范围[8]。
第二,在输出阶段,若是生成式AI的生成内容与原训练材料差别不大,二者之间存在实质性相似,生成式AI向多个用户传播该内容可能会存在侵犯作者信息网络传播权的风险。
二、现行著作权法框架下生成式AI的侵权化解困境
训练数据是生成式AI的发动机[9],其规模与质量的优劣对生成式AI的性能有着深远的影响。在提升生成式AI性能的过程中,训练数据的挖掘与存储扮演着至关重要的角色。同时,在输出阶段,用户的反馈成为优化生成式AI性能不可或缺的关键因素。文章主要探究预训练和输出阶段的著作权侵权问题,以期降低生成式AI在发展过程中的著作权侵权风险。当前,现有法律文本下的生成式AI侵权应对策略存在以下不足。
(一)授权许可模式失灵
由于著作权本质上属于私权利,相关主体想要使用他人作品通常需要征得著作权人的授权,否则将构成侵权。这种法律制度设计起源于“印刷时代”,当时的传播技术十分单一,著作权人采用“一对一许可”的模式进行授权,足以满足当时产业主体的利益需求。然而,传播技术的进步必将引起著作权法律制度的变革。在人工智能时代,人工智能技术的兴起给著作权法框架内的各项制度带来较大的冲击,为了适应人工智能技术的发展,著作权法必须随之作出调整。就许可制度而言,随着人工智能技术的迅猛发展,传统的授权许可模式已逐渐无法适应其需求。生成式AI在预训练阶段需要庞大的数据资料,动辄以百亿计,生成式AI开发者若采用授权许可模式来逐个联系著作权人,沟通签约意向、协商合同细节及费用,不仅成本高昂,而且效率低下,使得当事人难以通过市场交易机制实现各自需求,进而可能导致“市场失灵”现象。
(二)现行合理使用制度存在适用困境
合理使用制度是平衡著作权人利益与公共利益的集中体现,充分体现了著作权法的利益平衡功能,既保障了公众对作品的阅读权利,也有利于促进社会科学文化的进步,同时并未损害著作权人的合法利益。当前,我国合理使用制度本质上是沿袭《保护文学和艺术作品伯尔尼公约》中规定的“三步检验法”,即“合理使用只能在某些特殊情况下使用”“合理使用不得与作品的正常利用相冲突”“不得损害著作权人的合法权益”。《中华人民共和国著作权法》(以下简称“《著作权法》”)第二十四条第一款所规定的12种具体情形便是对第一步中“特定情况”的具体列举,在符合第一步的条件下仍需要满足第二、三步才能构成合理使用[10]。当前,最有可能作为抗辩依据的情形有以下
四种。
第一,个人使用,即“为个人学习、研究或者欣赏,使用他人已经发表的作品”[11]。此处规定的“个人”一般指使用者本人及其家庭,不包括使用者所在的科研团队或者公司等。生成式AI作为人工智能领域的前沿技术,单靠个人难以承担如此庞大的费用以及完成如此复杂的科研任务[12]。同时,此条文中的“使用”仅限于不以营利为目的的使用,而当前生成式AI的开发者大多是具有营利目的的互联网公司等,因此不属于“个人使用”这一情形。第二,适当引用,即“为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品”[11]。引用的适当性要求包含以下两个条件,一是引用的目的要适当,即其引用的目的是创作新的作品来表达自己的思想。从表面上看,生成式AI确实需要引用他人已发表的作品,但其生成内容并不是或者并不全是“为了介绍、评论某一作品或者说明某一问题”,其引用目的取决于用户所输入的提示词(Prompts)的具体内容。而用户使用生成式AI的目的十分广泛,不局限于介绍评论作品或者说明问题等,且生成式AI生成的内容并不全是作品,因此无法完全适配“适当引用”的情形。二是引用的作品来源明确,即应当指明作者姓名或者名称、作品名称。而GPT-4、文心一言等生成式AI所生成的内容并未标明所使用的文献名称、文献作者等信息,因此并不满足此项要求。综上,“适当引用”不能成为生成式AI化解侵权风险的法律依据。第三,科学研究,即“为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用”[11]。从表面上看,科研机构或互联网公司的科研人员开发生成式AI属于本条所规定的科学研究,但是实际上此种情形是为了公共利益而对著作权所施加的限制,科研主体仅限于国家设立的教育、科研公共事业单位,如经相关主管部门批准设立的学校、全额财政拨款的国家科研机构等[13]。因此,互联网公司的科研人员开发生成式AI便不满足此情形,且本条文对复制的量提出了要求—仅限于少量复制,而生成式AI在进行数据挖掘时可能会对作品进行全文复制,因此无法通过此种情形化解侵权风险。第四,兜底条款。2020年修改的《著作权法》将“法律、行政法规规定的其他情形”添加至第二十四条第一款中,与此前的十二种合理使用具体情形相并列,看似是对“特定情形”的兜底条款,允许法律或者行政法规规定新的特定情形来突破之前的穷尽列举式立法。然而,当前并未有法律、行政法规规定新的具体情形,因此有学者认为在合理使用制度中引入兜底条款看似开放,实则封闭[14]。由此,当前相关主体仍无法依靠适用兜底条款来进行开发生成式AI这一行为的侵权抗辩。
三、因应化解侵权风险的合理使用制度改造方案
合理使用制度既不需要使用者获得著作权人的授权意向,也不需要向著作权人支付授权费用,因而能够较为全面地解决上文提到的难题。合理使用制度的立法动机在于维护公共利益,立法机关为了公共利益的需要而在著作权人的专有领域中划出部分区域,允许公众可以自由接触作品。从表面上看,著作权人利益会因此而有所降低,但是这本就是立法机关在设计合理使用制度时所容许的。因此,司法机关适用合理使用制度来解决相关侵权问题是适宜的,目前需要探究的便是开发生成式AI这一行为的合理使用制度的适用路径。
(一)合理使用的判定方式
生成式AI在预训练阶段和输出阶段均存在侵犯著作权人权利的风险,究竟是对这两个阶段的行为分别单独判断是否构成合理使用,还是由于两个阶段具有一定关联性而将之进行整体判断[15],这是司法机关亟待思考的问题。
第一,司法机关若是进行单独判断,则需要预训练阶段与输出阶段均满足合理使用的适用条件,仅仅只是单一阶段构成合理使用并不能对开发生成式AI这一行为进行著作权法框架内的侵权豁免,因为每一阶段都是开发生成式AI所必需的阶段,仅仅对单一阶段豁免仍然会导致著作权人有权请求其在另一阶段停止侵权并支付许可费用,甚至起诉开发者。当前,生成式AI在预训练阶段所采取的全文复制行为会对合理使用判定造成极大的阻碍。如前文所述,预训练阶段的全文复制行为不属于我国《著作权法》第二十四条第一款所列的任一情形,因此司法机关很难通过合理使用制度去豁免生成式AI在预训练阶段的侵权行为,从而持续影响之后的机器学习阶段和输出阶段。因此,在单独判断的情况下,立法机关如果不从立法上对合理使用制度进行相应修改,则使得生成式AI开发者需要付出极高的交易成本与权利人协商,以获得两个阶段所须的多项专有权利的许可。
第二,预训练阶段与输出阶段之间具有关联性,司法机关可以选择将两个阶段当作一个整体进行判定。由于预训练阶段的全文复制行为、格式转换等行为在为后续输出阶段提供训练材料或其他辅助作用,因此司法机关可以将预训练阶段看作输出阶段的一个重要辅助阶段,从而着重考虑输出阶段的传播行为。若生成式AI在输出阶段向用户传播的内容与其在预训练阶段所使用的内容存在实质性相似,则生成式AI极有可能侵犯了作者的信息网络传播权。但是,由于当前此情形不属于合理使用的任一情形,司法机关仍然无法适用现行著作权法下的合理使用制度对其进行豁免。
(二)增设专门条款
由于我国《著作权法》已于2020年完成第三次修改,短时间内再次修改的概率不大,而《中华人民共和国著作权法实施条例》(以下简称“《著作权法实施条例》”)距离上次修订已过去十年,因此立法机关在《著作权法实施条例》中增设生成式AI合理使用的专门条款,以援引新《著作权法》增加的合理使用兜底条款显然更加恰当。
第一,对专门条款的行为条件而言,立法机关不能仅豁免预训练阶段的复制、改编、翻译等行为,还应将输出阶段涉及的网络传播行为一并纳入豁免范围之内。有学者认为,立法机关还应对传播行为进行一定限制,即相关主体在向公众开展传播活动时,传播内容应当不足以替代原作品[16]。然而,笔者认为,在专门条款中对传播行为进行如此限制并不必要,因为“不足以替代原作品”本就是“三步检验法”第三步的考虑因素之一,此种对传播行为的限制形成于美国的司法判例,但是美国并未对“三步检验法”作出规定,所以照搬此规定势必会造成专门条款的适用“水土不服”。综上,立法机关应当专注于制定关于预训练阶段和输出阶段中复制、改编、翻译行为的豁免规则,以确保相关规定的清晰和明确。
第二,对专门条款的主体要件而言,由于目前实践情况错综复杂,科研机构和公立大学等部分非营利机构会承接公司的各种盈利项目,而部分商业公司也会承接政府委托的公益项目[17],相比以往直接限制主体资格的立法倾向,立法机关应从行为目的角度出发,明确规定只有在以科学研究或其他合理目的进行数据挖掘和传播等行为时,相关行为才能获得豁免。这一规定的设立,旨在为专门条款提供足够的弹性,以促进生成式AI在多个领域和行业的适配与赋能。同时,立法机关可通过应用“三步检验法”的第二步和第三步,对其他合理目的进行必要的限缩,确保在保护创新的同时不会过度损害著作权人的合法权益。
四、结语
生成式AI在开发时所经历的预训练阶段和输出阶段均可能构成著作权侵权,如果无法被豁免,将会严重影响我国生成式AI领域的技术发展。在实践中,司法机关通常习惯对每个行为单独判定是否构成合理使用,忽略了行为之间的内在联系。因此,当某个行为已被判定为侵权时,再对后续行为进行单独判定便显得冗余且缺乏实际意义。基于此,司法机关可将视角转向整体考量,若多个行为在效果上相互关联、能够统一,则应将它们作为一个整体进行一体判定。特别是在对生成式AI适用合理使用时,司法机关更应聚焦与用户直接相关的输出阶段。2020年,我国在修订《著作权法》时为合理使用制度留下了一个“有限的开放空间”,仅允许法律及行政法规明确规定合理使用的具体情形。为了充分利用这一空间,立法机关可以通过修订《著作权法实施条例》来专门规定生成式AI的合理使用专门条款。不同于以往在具体情形中规定主体资格的模式,立法机关可通过规定科学研究目的及其他合理目的来为生成式AI之后的赋能提供空间,再由“三步检验法”的后两步对其进行合理限缩,能够促进我国生成式AI的健康高速发展。
[参考文献]
[1]张凌寒.生成式人工智能的法律定位与分层治理[J].现代法学,2023(04):126-141.
[2]郭春镇.生成式AI的融贯性法律治理:以生成式预训练模型(GPT)为例[J].现代法学,2023(03):88-107.
[3]陈永伟.超越ChatGPT:生成式AI的机遇、风险与挑战[J].山东大学学报(哲学社会科学版),2023(03):127-143.
[4]种晓明.AIGC赋能出版业背景下版权监管新路径研究[J].科技与出版,2023(08):96-104.
[5]吴汉东.著作权合理使用制度研究[M].4版.北京:中国人民大学出版社,2020.
[6]朱光辉,王喜文.ChatGPT的运行模式、关键技术及未来图景[J].新疆师范大学学报(哲学社会科学版),2023(04):113-122.
[7]王迁.“孤儿作品”制度设计简论[J].中国版权,2013(01):30-33.
[8]王迁.网络著作权专有权利研究[M].北京:中国人民大学出版社,2022.
[9]丛立先,李泳霖.聊天机器人生成内容的版权风险及其治理:以ChatGPT的应用场景为视角[J].中国出版,2023(05):16-21.
[10]熊琦.著作权合理使用司法认定标准释疑[J].法学,2018(01):182-192.
[11]中华人民共和国著作权法[EB/OL].[2024-05-25].https://www.gov.cn/guoqing/2021-10/29/content_5647633.htm.
[12]张金平,人工智能作品合理使用困境及其解决[J].环球法律评论,2019(03):120-132.
[13]李明德,管育鹰,唐广良.著作权法:专家建议稿说明[M].北京:法律出版社,2012.
[14]蒋舸.论著作权法的“宽进宽出”结构[J].中外法学,2021(02):327-345.
[15]蒋珂.论合理使用中的“行为”:兼评谷歌图书案[J].法学评论,2015(06):185-193.
[16]吴高,黄晓斌.人工智能时代文本与数据挖掘合理使用规则设计研究[J].图书情报工作,2021(22):3-13.
[17]万勇.人工智能时代著作权法合理使用制度的困境与出路[J].社会科学辑刊,2021(05):93-102.