AIGC服务提供者版权侵权责任研究
2024-01-01朱开鑫
摘" "要: 生成式人工智能的兴起引发了网络版权领域新的侵权纠纷类型与平台责任关注。在版权直接侵权层面,AIGC服务提供者并不必然构成演绎权侵权,但发生“模型记忆”时受信息网络传播权规制;在版权间接侵权层面,AIGC服务提供者版权替代责任的认定依赖于用户直接侵权的成立。内容呈现模式的封闭性决定了AIGC版权侵权判定的特殊性,但内容输出量级的放大效应客观增加了社会整体的版权侵权风险。为此,需要聚焦AIGC服务提供者注意义务的具体情形,设定科学的事前、事中与事后版权保护措施体系。
关键词: AIGC;版权;信息网络传播权;演绎权;直接侵权;间接侵权;注意义务
中图分类号:TP18;D9" "文献标识码:A 文章编号:1004-8634(2024)06-0039-(11)
DOI:10.13852/J.CNKI.JSHNU.2024.06.004
生成式人工智能(AIGC)的快速崛起和广泛应用,使得对网络服务提供者版权侵权责任的关注由传统的内容传播领域转向全新的内容生成领域。此前,网络服务提供者版权侵权责任的归责与否,在于是否帮助了侵权内容的传播。AIGC作为全新的网络服务类型,涉及的则是侵权内容的生成。由此,AIGC模式下存在哪些版权侵权类型,对应的AIGC服务提供者责任应当如何判定,是AIGC时代版权领域亟待解决的全新议题。
一、国内外AIGC服务领域版权侵权纠纷凸显
1.国外AIGC领域版权侵权诉讼大量涌现
2022年11月30日,美国人工智能公司Open AI发布ChatGPT,短短2个月,用户量便超过1亿,成为互联网历史上增长最快的应用,本轮生成式人工智能的变革由此兴起,美国也成为AIGC版权侵权纠纷出现最早也最为突出的国家。据不完全统计,自2022年11月至2023年12月,共发生12起AIGC服务提供者被诉案件,1 其中最具代表性且诉讼进程最快的当数2023年1月13日在加州北区法院受理的Andersen等三位艺术家起诉Stable Diffusion、Midjourney、DreamUp等AIGC平台的版权侵权集体诉讼(以下简称“Stable Diffusion版权案”)。2
梳理该案件可以看到,在AIGC内容输出阶段,版权人的诉请主要有三:由于AIGC输出的内容完全依赖于对语料库中被训练版权作品的学习,所以每次输出的图像均构成演绎权侵权(对应我国版权法上的改编权侵权);用户使用版权人姓名作为提示词,生成与版权人作品高度相似的内容并加以传播,构成版权直接侵权;AIGC服务提供者在产品研发时,要么知道、要么放任自身的服务具备可以被用户用来生成侵权内容的功能,所以构成版权间接侵权。
2023年10月30日,加州法院针对被告提起的“驳回原告起诉动议”做出裁定,认定原告的上述三类侵权指控均不成立。1 首先,法庭认为构成演绎作品应当与在先作品存在表达层面的实质性相似,而原告却强调AIGC的输出内容不管以何种方式“参考”在先作品,都应被认定为演绎权侵权。其次,法庭认为原告未能举证用户利用AIGC服务生成的图像与自身作品存在实质性相似部分。再次,法庭认为版权间接侵权的成立必须以直接侵权为前提,但基于上述两项原因原告未能满足这一前置条件。
2.国内AIGC平台版权侵权责任首案获判
2024年2月8日,广州互联网法院就国内“大模型服务商版权侵权责任第一案”适用简易程序做出判决。2 原告上海新创华公司享有奥特曼美术作品的国内版权授权,被告Tab平台则向公众提供AI文生图服务。原告经测试发现,被告平台可以输出和自身作品相同或相似的奥特曼图片,故向广州互联网法院提起版权侵权诉讼。3 原告主张被告构成复制权、改编权与信网权侵权。在责任承担方面,法院认定被告负有停止侵权与损害赔偿两类义务:对于停止侵权,鉴于被告仅为AIGC服务提供者而非模型训练者,因而无法承担删除训练数据集中涉案作品的义务,但要求被告需要进一步采取“关键词过滤”等措施,防止后续生成与涉案作品实质性相似的内容;对于损害赔偿,鉴于被告未能履行AIGC服务提供者应具备的“建立投诉举报机制的义务”“提示用户侵权风险的义务”“对生成物进行显著标识的义务”等合理的注意义务,法院认定被告具有过错,故应当承担损害赔偿责任。
2024年6月20日,北京互联网法院在线开庭审理了四起插画师起诉AI绘画软件开发运营者的版权侵权案件。原告提出的主张是,被告抓取原告作品输入AI模型的行为,侵犯了原告的复制权;涉案AI绘画软件提供原告作品与其他图片杂糅、混合产生新图的技术服务,侵犯了原告的改编权,等等。截至2024年11月,该案仍在审理中。4
3.AIGC服务提供者版权侵权责任的聚焦
需要说明的是,本文对AIGC服务提供者版权侵权责任的探讨,聚焦于“内容生成阶段”,即用户使用AIGC服务生成版权侵权内容的情形下,AIGC服务提供者对此应如何承担责任的问题。至于“模型训练阶段”,AIGC模型开发者未获授权利用他人作品进行模型训练优化应当承担何种版权责任的问题,并非本文讨论的范围。5
在“内容生成阶段”,围绕AIGC服务提供者需要探讨的版权侵权情形,主要有两大方面:一是涉及版权直接侵权领域,这主要出现在AIGC服务提供者在生成内容时,尽管使用者并无侵权的主观意图,但服务提供者仍可能面临版权侵权责任的问题。二是涉及版权间接侵权领域,这指的是当使用者故意利用AIGC服务生成侵权内容时,AIGC服务提供者所应承担的侵权责任问题。本文将聚焦上述两类具体侵权责任类型展开论述,并从AIGC服务提供者合理的注意义务着眼,建构科学可行的AIGC服务提供者版权保护措施体系。
二、版权直接侵权语境下AIGC服务提供者责任论证
所谓“版权直接侵权”,是指行为人直接从事版权法专有权利规制范畴的行为。6 从国内外司法实践来看,目前AIGC服务提供者版权直接侵权主要集中于两类情形:一是大模型每次输出的内容是否均构成演绎权侵权,这是基于大模型训练高度依赖对在先作品的学习而引发的质疑;二是“模型记忆”情形下,大模型可能会直接输出和被训练作品相同或相似的内容,进而落入信息网络传播权1 规制的范畴。
1.AIGC输出内容并非绝对构成演绎权侵权
从美国相关司法实践来看,以作家和画家为代表的版权人针对AIGC服务提供者提起的系列版权侵权诉讼中,第一个主张便是AIGC输出的所有内容均构成演绎权侵权。在前述“Stable Diffusion版权案”中,原告认为Stable Diffusion模型唯一做的事情就是通过内容处理技术将语料库中的他人作品图像(latent image)“拼合”(interpolate)为混合图像(hybrid image)。作为“一个21世纪的拼贴工具”(a 21st-century collage tool),Stable Diffusion系统生成的任何一张输出图像,都是从被训练的版权人作品中演绎而来,其自身没有内容创作贡献。
在美国,对于演绎作品(derivative work)的规定最早始于《1909年版权法》,是指“根据一部或一部以上的已有作品创作完成的作品”。2 因此,一个新内容要被视为演绎作品,就必须与原作品存在内容上的相关性,并以某种方式“复制”原作品的独创性表达。《著作权法》对应存在改编权的规定,即“改变作品,创作出具有独创性的新作品的权利”。改编权强调在已有作品的基础上经过创造性劳动而派生出来新的作品。因此,构成改编作品需要与原作品在表达层面具备实质相似,或者说改编作品需要利用原作品的独创性表达。3
在“Stable Diffusion版权案”中,原告的诉请存在明显的成立障碍。因为原告强调“不管以何种方式参考(reference)在先作品,新作品都应被认定为演绎作品”,但未能举证被告产品输出的内容和自身作品在表达层面存在相似性。从判例法角度看,美国法院长久以来一直坚持新作品必须包含原作品的实质性部分,才能被视为演绎作品。4 由此,加州北区法院在2023年10月30日的裁定中,驳回了原告此项演绎权侵权主张,认为原告未能提供初步证据表明被告产品输出的任一内容和自身作品存在相同或相似。
2.AIGC原则上不会输出与语料作品相同的内容
长久以来,各界关于大模型内容生成机制最常见的误解之一便是,用作模型训练的作品内容会被“复制存储”在模型参数之中,进而会被根据用户的提示词触发原样输出。例如,在美国特拉华州法院2023年2月3日受理的“Getty Images诉Stable Diffusion版权侵权案”中,原告便主张“Stable Diffusion模型会直接复制并时常生成输出与Getty自身图片高度相同的内容”。但在2023年7月12日美国国会“人工智能与版权问题听证会”上,Stability AI则针锋相对地表示,“Stable Diffusion模型不会拼贴(collage)或缝合(stitch)被训练作品的具体内容,也并非作为现有作品的‘搜索引擎’而直接输出复制内容”。5
从AIGC技术原理来看,虽然AIGC模型建立在对海量语料内容的训练基础之上,但正常状态下并不会复制输出任何字面意义上的语料内容。在模型训练阶段,大模型会分解语料库中被训练的作品内容,将其转换为模型参数,类似于人类大脑中神经网络的组成部分。对于“文生图模型”来讲,其训练学习的是在先图像中的基础视觉结构,如形状、纹理,还有图案;对于“文生文模型”而言,其训练学习的是人类语言系统的基本结构,像不同语境下词语、句子、段落、文章在被创作组合过程中体现的复杂样式。在内容生成阶段,AIGC大模型可以通过将使用者输入的提示词分解为加权标记,在统计学中的自回归等原理下,调取模型参数,进一步生成全新的内容表达。6
2023年12月27日,备受国内外AIGC行业关注的“《纽约时报》诉OpenAI与微软案”在美国纽约南区法院受理。原告在起诉状中便主张,ChatGPT会直接输出和自身文章高度相似的内容,包括逐字逐句的复制。1 但紧随其后,被告OpenAI于2024年1月8日通过官网回应并质疑道:“看起来他们(《纽约时报》)故意操纵提示词,包括大量的文章长篇摘录,诱导我们模型输出重复内容。但即使在这样的提示词下,我们的模型通常也不会像《纽约时报》暗示的那样行为,这表明他们要么指示模型重复,要么从多次尝试中挑选他们希望故意得到的内容。”2 2024年2月8日,在广州互联网法院判决的国内“大模型服务商版权侵权责任第一案”中,原告也是采取了和《纽约时报》类似的侵权发现手段,通过输入“和自身作品相关的提示词”,主动监测被告平台能否输出侵权内容,并最终成功举证被告构成复制权与改编权侵权。然而根据OpenAI针对《纽约时报》起诉的抗辩,如果大模型产品输出和版权人相同或相似的内容是原告刻意制造的,而非广大使用者正常生成的,那么该行为是否缺乏实际损害或即便构成损害也程度极为有限同样值得关注。
3.AIGC“模型记忆”时构成信息网络传播权侵权
只有在非正常状况下,AIGC模型才会输出和被训练语料作品一致的内容。计算机科学领域称之为“模型记忆”(memorization)。这被认为是AIGC模型的一个需要修复的“bug”,而非正常的功能状态。当发生“模型记忆”时,AIGC平台会输出和被训练语料相同或高度相似的内容,即使用户输入的是无侵权诱导风险的提示词。此时,AIGC平台在版权法上的身份是直接的内容提供者(Internet Content Provider,缩写ICP)而非被动的技术服务者(Internet Service Provider,缩写ISP)。若未获得相应的授权,便会构成复制权、改编权以及信息网络传播权侵权等。
对于复制权与改编权的侵权评价标准,理论和实务界并不存在过多争议,因此本部分主要聚焦于信息网络传播权侵权判断标准的讨论。值得关注的是,在广州互联网法院审理的国内“大模型服务商版权侵权责任第一案”中,法院最终也仅是判定前两类侵权成立,并没有对被告信息网络传播权侵权做出具体认定。根据我国《著作权法》规定,“信息网络传播权即以有线或者无线方式向公众提供,使公众可以在其选定的时间和地点获得作品的权利”,但理论界和实务界对于信息网络传播权侵权的判定一直存在较为激烈的探讨,并出现了“用户感知标准”“实质性替代标准”“服务器标准”等多个判定标准。从司法实践来看,“服务器标准”目前的认可度较高,它需要满足两项条件:一是将特定作品上传到服务器之中;二是使不特定的用户可以在自己选定的时间和地点获取上述作品。3
“模型记忆”情形下,AIGC平台输出被训练语料作品的行为之所以落入信息网络传播权的规制范畴,是因为:一方面,由于输出的内容和训练语料中的作品相同或高度相似,所以AIGC服务提供者相当于“将相关的作品内容提前存储于自身服务器之中”;另一方面,虽然AIGC服务提供者和用户是通过“一对一”的封闭模式进行内容交互,但实际存在向不特定用户输出同一“记忆”内容的现实可能,相当于“使得不特定主体可以通过交互方式获得特定作品”。
“模型记忆”问题应当说是在大模型技术发展过程中,一个正在通过技术逐渐完善而被努力克服的问题。Open AI在针对《纽约时报》版权侵权起诉的回应中表示,“内容复制是大模型致力于彻底消除的错误,但当特定内容在训练数据中出现不止一次时,这种情况就会出现”。国外相关研究表明,“模型记忆”发生的原因有三:第一,模型语料库中存在大量重复的作品内容;第二,与特定文本描述相关联的语料内容过于单一;第三,相较于模型参数的规模,训练语料规模明显不足。例如,当与特定图像模式描述相匹配的内容语料过于单一,或众多语料内容之间仅有细微差别时,Stable Diffusion等文生图模型便很容易输出和被训练语料高度近似的内容。4
三、版权间接侵权语境下AIGC服务提供者责任探讨
整体来看,AIGC平台符合“技术中立性”的要求,提供的仅是一种被动的技术服务,用户如何利用其服务进行内容生成,决定了版权侵权的发生与否。由此,对于AIGC服务提供者版权责任的探讨,需要首先思考版权直接侵权下,用户利用AIGC服务生成侵权内容的情形,进而判断版权间接侵权下,AIGC服务提供者对于用户直接侵权行为需要承担何种程度的替代责任问题。
1.AIGC内容生成机制符合“技术中立性”要求
谈到“技术中立性”原则,不得不提及美国版权法上具有里程碑意义的“索尼案”。1 该案确立了版权领域“间接侵权责任”判定的基础:对于任何一项技术的价值,都可以在“工具性”和“目的性”两个维度上理解,索尼的意图原本不过是发明一种中立的录像工具,技术如何被使用最终在于人的目的。换句话说,作为价值的善或恶,被中立论者从技术身上剥离下来,“赤裸”的技术本身仍然可以是纯粹的、无偏见的。2 “技术中立原则”对于信息技术产业的发展进步尤为重要,并被称为“电子时代的自由大宪章”。
生成式人工智能的基本原理和技术特点,使得其与传统网络传播领域的服务提供者在侵权责任判定上存在本质区别。从内容生成角度来看,一方面,AIGC平台本身不会主动输出任何内容。AIGC平台输出的内容都是由使用者通过“提示词”触发,调取经过预训练后形成的模型参数“DIY”(Do It Yourself)而成;另一方面,AIGC平台不会事前存储后续将要输出的内容,因为大模型内部存储的模型参数,不是训练语料库中的作品内容本身,而是学习相关作品内容后获得的语言表达、图像表达的内在趋势、模式和相关性等。从内容传播角度来看,一方面,AIGC平台生成的内容不会向不特定第三方主体展示,AIGC平台输出的内容都是通过“一对一”问答的形式存在于封闭的用户交互界面中,除非使用者主动进行后续的传播、扩散,否则第三人无法直接获取相关内容;另一方面,AIGC平台也不会主动公开传播使用者生成的内容,对于生成内容是否进行公开传播以及采用何种方式进行传播,是由使用者而非AIGC服务提供者享有最终的决定控制权。
从上述模型机制来看,AIGC平台对外提供的是一种通用型的内容生成服务,符合“技术中立性”原则。在广州互联网法院审理的国内“大模型服务商版权侵权责任第一案”中,判决明确表示:“生成式人工智能具有一定的工具性,既可以用于合法目的,也可以用于非法目的……赔偿损失责任的承担需要考虑被告的过错问题。”因而,在技术中立视角下,不应将单纯的技术服务与责任承担直接挂钩,需要论证服务提供者的具体过错情形。作为内容生成领域的一项通用技术服务,即使用户存在利用AIGC服务实施侵权行为的可能性,也不应直接推定AIGC服务提供者存在过错并因此承担侵权损害赔偿责任。
2.用户使用方式决定生成内容版权侵权与否
从实践来看,使用者利用AIGC服务生成版权侵权内容主要存在两类情形:一类是使用者向AIGC平台输入了具有“侵权诱导属性”的提示词,进而导致版权侵权内容的生成。例如,用户可能出于获取与特定版权人或特定作品相关的内容目的,向AIGC平台输入某位作家、画家或某部作品的名称以及类似“仿照”“参照”“改编”等侵权诱导提示词。在此情形下,使用者经由AIGC平台生成的内容存在对在先作品复制权、改编权等的侵害风险。但此时还需要注意,若使用者只是利用AIGC服务生成与在先版权人“风格”相同的内容,则未必构成版权侵权。3 另一类是使用者向AIGC平台输入未经授权的作品,并指示其在此基础上进行加工或再创作。此时,使用者经由AIGC平台生成的内容可能构成对他人作品复制权或改编权的侵害。实践中最为常见的便是“图生图”的情形,即使用者向AIGC平台输入特定的美术作品,并要求大模型在此基础上加以调整、修改以形成新的图像内容。若用户未获得该美术作品的相应授权,且生成的新内容仍可以体现出原作品的独创性表达,此时新的演绎作品便存在版权侵权的现实风险。
值得注意的是,大模型之所以容易被使用者诱导进行侵权内容的生成,和模型内容生成机制固有的“奉承”(sycophantic)特征密切相关。Google、DeepMind、Anthropic等大模型厂商的最新研究表明,“奉承”是AIGC模型的共性问题。因为在模型训练阶段,AIGC行业目前普遍采用基于“人类反馈的强化学习”方法,涉及的价值对齐、模型微调等具体过程均是以人类反馈评分作为奖励机制。在与人类的内容交互中,大模型往往被训练为倾向于服从人类的指令。1 由此对于大模型而言,顺应人类指令的重要性在一定程度上会超过对内容本身正确与否、风险有无的关注,这便导致使用者存在通过诱导性提示词利用AIGC服务生成版权侵权内容的可能。
3.AIGC服务提供者“版权替代责任”的判定要件
对于使用者利用AIGC服务从事的版权直接侵权行为,AIGC服务提供者也可能面临版权法上“间接侵权责任”的承担风险。在美国判例法体系下,“替代侵权”和“帮助侵权”“教唆侵权”共同构成了版权间接侵权的完整体系。2间接侵权与直接侵权相对,指侵权人虽然没有直接从事版权法上专有权利规制的行为,但为之提供了一定的助成条件。3在我国,最高人民法院于2012年颁布的《关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》第7条对于“版权帮助侵权、教唆侵权”加以规定;4对于“版权替代责任”则散见于上述规定第9条和11条中。5
目前来看,在国外发生的大模型版权侵权案件中,版权人均主张AIGC服务提供者需要承担版权替代侵权责任。例如,在美国加州北区法院2023年6月28日受理的“ChatGPT版权第一案”中,两名作家的主张是:Open AI有权利和能力控制用户利用ChatGPT生成侵权内容,并从中获得了经济利益,因而构成版权替代侵权。又如,在前述“Stable Diffusion版权案”中,三位艺术家也主张被告对个人用户的版权直接侵权负有替代侵权责任:用户使用被告的AIGC服务生成图像时,在提示词中使用了版权人的名字,并将生成的内容作为版权人的作品加以传播利用;被告明知其产品设计易于被用于制作上述“赝品”,但罔顾这一事实并直接或间接获利,所以应承担版权替代侵权责任。
依据版权法理论,构成版权替代侵权责任的行为人需要满足两项基本要求,即“具有监督版权侵权行为的权力和能力”且“从这些行为中获取了直接经济利益”,但更为重要的是,版权替代侵权责任的成立必须以版权直接侵权为前提条件。62023年10月30日,在加州北区法院针对“Stable Diffusion版权案”的裁定中,已经驳回了三位艺术家的版权替代侵权主张。法院依据的理由是:原告未能举证说明被告产品输出的内容与其具体的版权作品存在内容层面的实质性相似,即认定本案中作为替代侵权责任成立前提的版权直接侵权指控缺乏基本证据。1
四、AIGC服务提供者版权保护注意义务分析
对于AIGC服务提供者版权注意义务的探讨,一方面需要思考,基于AIGC模式下内容交互呈现的封闭性,版权侵权行为的判定存在天然的特殊性;另一方面需要注意,AIGC模式下内容输出规模的指数级扩张对于社会整体版权侵权风险的影响。由此,应当从前述AIGC服务提供者版权直接侵权与间接侵权的具体场景出发,对其版权保护注意义务进行类型化分析。
1.AIGC内容呈现的封闭性决定了侵权判定的特殊性
值得注意的是,生成式人工智能内容输出模式的固有特征,决定了在其版权侵权与否的判定上存在天然的特殊性。我们首先需要思考用户利用AIGC服务生成内容的行为,究竟是一种版权法规制的“公开传播”行为,还是一种不受版权规制的“私人使用”行为?目前来看,无论是“文生文”还是“文生图”领域的AIGC产品,生成的内容都是以对话形式存在于封闭的用户交互界面之中,因此原则上可以被认定为是一种非公开的个人使用行为。22023年9月25日,美国特拉华州地方法院就“汤森路透诉Ross人工智能版权侵权案”3做出裁定:“如果对于作品的利用未‘向公众公开’,从既有联邦法院判决来看,即使是逐字逐句的‘全文复制’也一直被认为是‘合理使用’。”4在我国,根据《著作权法》中关于“合理使用”具体情形的规定,第一条便是对于作品“个人使用”行为的侵权责任豁免。实际上,在前文论述1984年的“索尼案”中也存在相似情形。美国联邦最高法院在最终判决中表示,用户的录制行为具有个人娱乐性质,不构成版权侵权而属于合理使用的豁免范畴。5
在实践中,只有使用者将利用AIGC平台生成的内容,通过第三方内容传播平台等其他途径进一步公开利用,才会落入版权法的规制范畴。否则,即使生成内容存在版权法上的侵权风险,也只会停留在用户自身账号的交互界面内。版权人实际上无从发现侵权行为,也就不涉及后续的维权和进一步的侵权责任承担问题。整体来看,AIGC模式下用户直接生成内容的行为,是否落入版权法规制的直接侵权范畴仍存在较高程度的疑问,由此,AIGC服务提供者是否需要就此承担侵权替代责任更有待论证。
2.AIGC输出规模的放大效应提升了整体版权侵权风险
一方面,生成式人工智能未来或将成为通用的内容生产工具,进而颠覆整个版权行业的创作生态。在传统版权领域,内容生成、知识创作是手工生产模式,高度依赖于专业技能与经验传承。生成式人工智能的发展正在使知识与人快速解耦,并推动整个版权创作形态的转变,即从依赖“大脑构思+手工操作”向“人类构思、筛选+机器生成”转变。自2022年起,生成式人工智能技术逐步发展成熟,并被广泛运用于文字撰稿、语音处理、美术制图、视频剪辑、虚拟主播等各个内容的创作领域,形成产业化。6
另一方面,生成式人工智能带来了全新的认知革命,“人类创作”正日益被“AI生成”所赶超和替代。在生成式人工智能技术的兴起之前,创作一直被视为人类专属领域,作为作品制度基石的“独创性智力表达”只能由人完成,别无替代。生成式人工智能凭借“涌现能力”重塑创作逻辑,基于大规模语料和深度学习算法,可以用远超人类的创作效率,不间断地输出高质量的文章、图片、音乐、影视动画等多模态内容。
研究发现,ChatGPT在2023年1月的内容输出能力为3.1亿单词每分钟;谷歌公司此前统计过,自1440年古登堡印刷机发明以来,人类社会总共出版约1.298亿本书,每本书估算5万单词,总共约有6.5万亿单词。因而,按照ChatGPT在2023年初的内容生产能力,每14天便可以输出相当于人类历史上全部印刷作品的内容总量。1 因此,在可以预见的未来,即使AIGC平台具备“技术中立性”特征,即便AIGC模式下侵权行为的发生是一个小概率事件,但在输出规模的放大效应后,客观上还是存在提升社会整体版权侵权风险的可能。
3.AIGC服务提供者直接与间接侵权下的注意义务
注意义务作为侵权责任的判定依据,需要我们分析特定行为在客观上引起或增加了何种程度的版权侵权风险,以及从理性人角度判断,若希望避免侵权责任的承担,则需要采取何种程度的应对义务和措施。2在英美法系国家,注意义务源于英国“蜗牛案”(“多诺休诉斯蒂文案”),3该案奠定了侵权责任判定中的“近邻性原则”,即“人们在行为时负有义务不能损害那些预见会受到其行为影响的、同其有密切关系的人”。在大陆法系国家,注意义务源于德国三起典型案件——“枯树案”“兽医案”和“撒盐案”,着眼于对“交往安全义务”的分析,强调侵权责任的认定需要分析行为人对“危险控制和防免的可能性”以及受害人对“行为人的信赖期待”。4
网络空间与现实空间最大的不同之处就在于其是依靠网络信息技术架构出的虚拟存在。网络服务提供者是网络平台的架构者、控制者与经营者,当用户利用网络服务提供者的技术产品或服务从事版权侵权行为时,若没能尽到技术上可行、经济上合理的注意义务,其就应当承担此种不作为侵权带来的替代责任。5 从我国司法实践看,对于网络服务提供者注意义务的判定,可以落脚于“侵权预见性”和“侵权控制力”两项基本标准。6 对于AIGC服务提供者版权注意义务的论证探讨,还是应当落脚到前述版权直接侵权与间接侵权情形的具体分析。
第一,版权直接侵权情形下AIGC服务提供者注意义务的判断。通过前文分析可以得出,当AIGC平台出现“模型记忆”时,其内容生成行为落入版权法“信息网络传播权”的规制范畴。在此情形,一旦输出未经授权的版权内容,AIGC服务提供者便需要承担直接侵权责任。可以说,在直接侵权下,AIGC服务提供者原则上承担的是一种较高的版权保护注意义务,除非享有法定的免责事由,否则便需要在事前采取措施避免侵权内容的输出。但值得注意的是,在当下产业发展阶段,若强行要求AIGC服务提供者承担事前避免输出版权侵权内容的义务,则可能使其背负技术上难以承受之重。7 一方面,“模型记忆”并非AIGC服务提供者故意为之的一类行为,并且是一种小概率的意外事件,8 所以很难在事前加以预见;另一方面,鉴于训练数据中的作品海量、模型参数海量以及内容生成机制固有的随机性等内在技术原因,AIGC服务提供者很难完全予以事前避免。这类似于此前网络服务提供者不可能对海量的传播内容侵权与否加以事前审查;AIGC服务提供者也不可能完全对海量的生成内容版权侵权与否进行事前的过滤。
第二,版权间接侵权情形下,AIGC服务提供者注意义务的判断。当用户利用自身服务生成侵权内容并加以后续传播时,AIGC服务提供者承担的仅是对应的间接侵权责任。前文已论证,原则上AIGC平台因为并不涉及生成内容的公开传播,除非用户将侵权内容在第三方传播平台加以分发、利用,否则并不存在版权法规制的侵权行为。只是基于AIGC服务提供者自身强大的内容生成输出能力,有可能提升社会整体版权侵权风险,我们才认为从价值衡量角度要求其采取相应的版权保护措施。在此情形下,相较于直接侵权用户甚至后续的第三方传播平台,AIGC服务提供者承担的版权注意义务程度较低。从可预见性角度来讲,AIGC服务提供者对于用户如何利用自身服务进行内容生成不存在准确的预期,仅能通过平台使用规则等手段提示用户避免从事侵权行为;从侵权控制力角度来看,AIGC服务提供者对于侵权内容是否传播以及如何传播的控制力十分有限。此外,AIGC服务提供者由于不拥有版权作品素材比对库,因而对于用户输入的文字、图片等内容以及在此基础上改编输出的衍生内容是否存在侵权,也难以进行实质性的事前审核判断。
五、AIGC服务提供者版权保护措施的体系建构
生成式人工智能技术发展带来的一个总体趋势,使得对于网络服务提供者版权责任的关注,从“内容传播”领域转向“内容生成”领域。需要基于技术变革、产业发展以及版权保护等多重维度,立足AIGC服务提供者版权注意义务的具体实际,搭建科学的版权保护措施体系。
1.AIGC服务提供者版权保护措施设定的价值考量
回溯1998年“避风港制度”的诞生背景,互联网的迅猛发展赋予作品此前难以想象的传播效率与规模,但网络服务商群体面对新技术引发的侵权不确定性却“踟蹰不前”。为了把握发展先机,美国颁布《数字千年版权法》并率先创设“避风港制度”,通过给予内容传播服务提供者一定条件下的版权侵权责任豁免,明确了行业整体的行为预期。更重要的是,通过“通知—删除”等具体规则在版权人和网络服务提供者之间搭建起应对在线版权侵权的有效合作机制。1
可以说,正是“避风港制度”对于内容传播领域网络服务提供者灵活宽松的侵权责任设置,才孕育了美国当下在全球信息服务行业的领先地位。时至今日,面对生成式人工智能带来的新一轮技术变革,版权法似乎又遇到了当年创设“避风港制度”时同样的问题境遇,只是从“内容传播领域”转向了“内容生成领域”。内容传播领域网络服务提供者的版权责任规则较为传统,而内容生成领域网络服务提供者的版权责任判定则是一个全新的议题。2 长久以来,网络服务提供者版权保护措施的设定,除立足于通过保护权利以激励创作之外,更需要服从于技术进步、产业发展以及全社会知识内容的传播分享等更高维度的价值。究其原因在于,版权作为法律上人为创设的权利体系,不同于物权等自然权利,天然遵从于人类社会的价值判断。生成式人工智能被称为百年不遇、堪比工业革命一般的新技术浪潮。有学者直言,“与各种风险相比,AIGC最大的风险是技术落后的风险”。3 因此,对于AIGC服务提供者版权保护措施的设定,也应侧重于鼓励技术与产业创新的价值取向,而非强化对于行业主体的制裁惩戒。
2.AIGC服务提供者版权保护措施的可行性论证
AIGC服务提供者应当采取何种程度的版权侵权应对举措,成为当下理论界和实务界高度关注的新兴议题。4 落实到前述AIGC服务提供者版权直接侵权与间接侵权情形下注意义务的具体裁量,需要聚焦以下三个层面的问题探讨:
一是技术层面,AIGC服务提供者能否通过“调整模型参数”和“删除语料库中被训练素材”来避免版权侵权?从AIGC技术原理来看,在完成模型参数训练后,不论是版权人要求AIGC服务提供者避免输出该特定作品,还是不许对其特定作品加以训练,借助于“调整模型参数的路径”都不再可行。因为AIGC模型训练的基本机制决定了其无法将特定作品内容对应的特定模型参数加以单独删除或改变,除非用剔除侵权作品后的新语料数据集对该模型加以再次整体训练,但从产业实际和技术成本角度出发,因个别版权人的特定作品便加以模型大规模的重练,并不符合社会整体的成本考量。1 在实践中,版权人可以通知并要求AIGC服务提供者删除其语料库中的特定被训练作品,2 然而从技术效果来看该行为已经丧失了实际意义。因为事后的语料内容删除行为,不会对已经训练好了的模型参数和模型后续可能输出的内容产生任何影响,但可以在训练新模型或优化既有模型之前,根据版权人的通知避免对特定作品内容加以训练,这一问题实际落入各界关注的一个焦点问题,即大模型训练前是否以及如何为版权人提供“模型训练退出机制”的问题。3
二是规则层面,AIGC服务提供者能否借鉴“避风港制度”下既有的义务机制来应对版权侵权?一方面,AIGC服务提供者难以履行此前“避风港制度”下的“通知—删除”义务。AIGC服务提供者即使收到版权人发出的侵权通知,也无法直接删除特定用户账号中的侵权内容,因为该侵权内容存储在用户本地设备而非AIGC平台的服务器之中。4 在之前的内容传播领域,网络服务提供者之所以可以对用户侵权内容采取删除、屏蔽等直接应对措施,原因在于其提供的服务中包括内容存储。实践中,用户首先会将特定内容上传到平台服务器中,因而平台服务提供者有权利和有能力移除涉嫌的版权侵权内容。另一方面,AIGC服务提供者仍可以采取与其实际能力相匹配的版权保护必要措施。 当版权人根据特定的侵权内容溯源到特定的AIGC平台后,服务提供者可以通知涉嫌侵权的用户自行删除或不再传播该侵权内容。AIGC服务提供者也可以根据用户侵权行为的具体情况,采取必要的处置措施,如以类似“三振出局”的方式,对于故意侵权用户按照侵权程度、次数和主观恶性加以使用限权、暂停服务和关闭账户等惩戒手段。
三是预防层面,AIGC服务提供者能否通过搭建和版权人之间的合作机制来克服版权侵权?一方面,需要思考能否通过搭建“输出内容过滤机制”来预防AIGC版权侵权,这类似于建立像目前AIGC行业针对“黄恐暴内容”采取的过滤机制,通过内嵌技术插件或模型,把版权人的作品内容转换成一定的技术过滤规则代码,进而预防可能的版权侵权行为发生。从实操角度来看,该举措主要涉及技术上过滤比例的问题。举例来讲,过滤掉80%相同作品内容的技术或许可以达到,但要求过滤掉100%相同内容的技术机制可能难以实现。此外,版权侵权过滤机制的建立还需要AIGC服务提供者能够建立输出内容侵权比对库,这便需要版权人事前向其提供自身版权作品作为比对素材。另一方面,需要评估能否通过建立“输入提示词过滤机制”来避免AIGC版权侵权。与“输出内容过滤机制”相类似,该路径需要解决的问题也是与版权人合作建立科学的提示词比对库。目前AIGC产品针对知名IP,也会自动识别用户提示词中的敏感关键词,并拒绝输出对应的可能侵权内容。但值得注意的是,提示词过滤举措本身存在较大的“误伤”概率风险,即可能会在非侵权情形下,影响用户对AIGC产品服务的正常使用。
3.AIGC领域事前、事中与事后的版权保护措施
事前,AIGC服务提供者应当履行版权侵权提示、搭建投诉机制以及内容输出标记三项义务。首先,AIGC服务提供者需要通过“用户协议”等方式要求使用者尊重他人知识产权:一是避免输入容易诱发版权侵权的提示词指令;二是避免上传版权侵权素材进行二次创作;三是在对生成内容进行后续公开传播利用前,加以必要的侵权风险把关。其次,AIGC服务提供者需要建立侵权投诉举报机制,只有如此版权人在发现侵权行为后,才能启动后续的“通知—必要措施”等流程。目前来看,国内外主流AIGC平台基本已经建立了这类机制。最后,AIGC服务提供者还需要对大模型生成的内容进行必要的打标处理,以方便版权人发现侵权行为后,能够通过该标识溯源通知AIGC服务提供者,进而采取必要的侵权应对举措。上述三项要求,在广州互联网法院判决的国内“大模型服务商版权侵权责任第一案”中也被认定为AIGC服务提供者应尽到的合理注意义务。
事中,AIGC服务提供者收到版权人侵权通知后,应当采取可行的版权保护必要措施。当版权人通过侵权内容中包含的标识溯源到特定的AIGC平台后,AIGC服务提供者虽然无法对用户生成的原始侵权内容加以直接删除,但可以要求侵权用户自行删除侵权内容并不再进一步扩散,同时可以依据自身知识产权保护规则,分析侵权用户的具体情形,采取警告、限制特定功能权限、一段时间暂停服务或者永久关闭账号等处罚举措。
事后,应鼓励AIGC服务提供者采取技术和成本上可行的措施,避免再次生成相同的侵权内容。基于前述分析,目前AIGC领域的侵权屏蔽举措仍存在较大的技术和实操困难。因此,AIGC服务提供者对应的版权保护义务,一方面只能是倡议性的而非强制性的,另一方面只能是行为导向性的而非结果导向性的。我国2023年8月15日生效的《生成式人工智能服务管理暂行办法》对于更为严格的公法内容安全领域,尚未要求AIGC服务提供者采取面向未来的过滤屏蔽举措的强制要求。1 因此,应鼓励AIGC服务提供者在技术可行的范围,根据版权人提供的版权作品内容,采取文本、图像相似性比对,以及重点提示词过滤拒答等技术和机制,预防后续可能的版权侵权行为,并需要思考如何豁免AIGC服务提供者由此可能产生的“误伤”责任。
Research on Copyright Infringement Liability of AIGC Service Provider
ZHU Kaixin
Abstract: The rise of generative artificial intelligence has triggered new types of copyright infringement disputes and concerns about platform liability in the field of online copyright. In terms of direct copyright infringement, AIGC service providers do not necessarily constitute an infringement of derivative right, however, when “model memory” occurs, it is regulated by the right to network information dissemination. In terms of indirect copyright infringement, the determination of" copyright vicarious liability for AIGC service providers depends on the establishment of direct infringement by the user. The closed nature of content presentation patterns determines the particularity of copyright infringement determination in AIGC, but the amplification effect of content output volume objectively increases the overall risk of copyright infringement in society. Therefore, it is necessary to focus on the specific circumstances of the duty of care for AIGC service providers and establish a scientific system of copyright protection measures in advance, during, and after the provision of services.
Key words: AIGC; copyright; right to network information dissemination; derivative right; direct infringement; indirect infringement; duty of care
(责任编辑:苏建军)
作者简介:朱开鑫,腾讯研究院高级研究员,国家版权局网络版权产业研究基地研究员(北京 100101)。
1 梳理来看,在这些AIGC服务提供者版权侵权案件中,原告涉及软件代码工程师、画家、作家、商业图片库商(Getty Images)、记者、音乐出版商等版权人,被告则涉及GitHub、Stability AI、Midjourney、Deviant、Open AI、Meta、Alphabet、Anthropic等AIGC领域的研发、服务厂商。
2 在三位原告提起诉讼后,2023年4月18日,三位被告分别针对原告的指控提交了驳回原告诉讼的动议;2023年10月30日,加州北区法院就被告动议作出裁决,仅保留原告针对Stable Diffusion模型训练直接侵权的起诉,其他主张被驳回但给予30天修正再提交的机会。2023年11月29日原告提交修订版起诉状。See Andersen v. Stability AI Ltd. (3:23-cv-00201) District Court, N.D. California.
1 虽然加州北区法庭在裁定中支持了被告的驳回起诉动议,但允许原告补充相关证据材料后重新提起诉讼。
2 (2024)粤0192民初113号。
3 本案判决,将大模型相关的“模型训练”(模型训练商版权责任)以及“生成内容可版权性”两项核心法律争议略过,聚焦内容输出阶段、AIGC服务提供者版权侵权责任的认定。
4 《北京互联网法院开庭审理全国首例涉及AI绘画大模型训练著作权侵权案》,https://mp.weixin.qq.com/s/cyskAz1cASBaNIYQpGpGsA,最后访问日期 2024 年 11月 8日。
5 现实产业实践中,AIGC服务提供者与AIGC模型研发者存在多种关系:既可能存在身份上的重合关系,例如Open AI既作为GPT大模型的研发者,也是ChatGPT、GPT4等平台的服务提供者;也可分属不同的法律主体,例如微软是通过API接口,调用Open AI旗下GPT模型的方式作为AIGC服务提供者;又如Midjourney是在Stability AI研发的Stable Diffusion模型的基础上进一步训练、调整后向公众提供AIGC服务。
6 王迁:《知识产权法教程》,中国人民大学出版社2021年版,第14页。
1 我国《著作权法》上的“信息网络传播权”大致对应美国版权法上发行、展示及表演等权利,源于《伯尔尼公约》中的“向公众传播权”(communication to the public)。
2 《美国版权法》第101条“定义”规定:“演绎作品”指根据一部或一部以上的已有作品创作完成的作品,如译文、乐曲整理、改编成的戏剧、改变成的小说、改编成的电影、录音作品、艺术复制品、节本以及缩写本,或者依此改写、改变或改编作品的任何其他形式。由编辑修订、注释、详解或其他修改作为整体构成独创作品的,视为“演绎作品”。
3 吴汉东:《知识产权法》,法律出版社2021年版,第210页。
4 美国第九巡回法院在“Litchfield v. Spielberg 案”中驳回了原告的类似主张,强调前后内容之间需要“实质性相似”才构成演绎侵权;“Vault Corp v. Quaid Software Ltd 案”判决也认为,构成衍生侵权作品必须以某种形式包含受版权保护作品的一部分,必须在实质上与受版权保护的作品相似。
5 See “Artificial Intelligence and Intellectual Property-Part II:Copyright”Subcommittee Hearing,https://www.judiciary.senate.gov/artificial-intelligence-and-intellectual-property_part-ii-copyright,最后访问时间2024年3月4日。
6 以ChatGPT为例,其大模型通过海量文本的学习,建立一个统计模型,用来估计文本序列中每个词语或字符出现的概率,生成的是具有相似统计特征的新文本而非对训练语料内容的复制重现。
1 See The New York Times Company v. Microsoft Corporation, 1:23-cv-11195, (S.D.N.Y.).
2 参见OpenAI回应《纽约时报》版权侵权起诉的声明,https://openai.com/blog/openai-and-journalism,最后访问时间2024年3月4日。
3 《最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》第3条规定:“……人民法院应当认定其构成侵害信息网络传播权行为……通过上传到网络服务器、设置共享文件或者利用文件分享软件等方式,将作品、表演、录音录像制品置于信息网络中,使公众能够在个人选定的时间和地点以下载、浏览或者其他方式获得的,人民法院应当认定其实施了前款规定的提供行为。”
4 2023年5月4日,美国埃默里大学Matthew Sag研究团队发表“Copyright Safety for Generative AI”论文,对模型记忆的产生原因做了详细说明,本文在此仅做初步摘录引用,具体参见SSRN: https://ssrn.com/abstract=4438593,最后访问时间2024年3月4日。
1 1975年,索尼发明了能够让用户随时录制或播放电视节目的Betamax录像机。该录像机在美国销售之后,美国环球电影公司和迪士尼公司将索尼告上了法庭,认为其提供Betamax录像机给消费者使用、录制享有版权电影的行为,侵犯了他们的版权。“索尼案”的审理前后历时八年,并上诉至美国联邦最高法院。
2 参见刘博涵:《“技术中立”消亡史》,https://www.guokr.com/article/456743/,最后访问日期2024年3月4日。
3 长久以来的基本共识是,版权法并不保护艺术风格,因为根据“思想表达二分法”,其属于思想范畴,除非生成的内容在风格之外,仍然与在先作品在具体表达层面存在实质性的相同或相似。例如2023年8月北京知识产权法院在“比利时画家Christian与某国内画家版权侵权案”一审判决中指出,“美术作品的主题、风格和素材的选择本身只是美术作品中的思想,并不受著作权法的保护”。参见(2019)京73民初1376号判决书。
1 参见Anthropic发表的企业论文“Towards Understanding Sycophancy in Language Models”,https://www.anthropic.com/news/towards-understanding-sycophancy-in-language-models,最后访问时间2024年3月4日。
2 经过立法和司法实践的长期发展完善,美国法上版权间接侵权责任的类型划分和概念内涵至今已趋于成熟和定型,通过对比分析《数字千年版权法》出台前后的相关判例便可得出上述结论。举例来说,加州地方法院在1995年审理的“RTC v. Netcom案”中以及第九巡回法庭在2001年审理的“A&M v. Napster 案”中都将著作权间接侵权责任明确划分为帮助侵权 (Contributory Infringement)、教唆侵权 (Inducement Infringement)以及替代责任 (Vicarious Liability) 三大类,并对上述三种著作权间接侵权责任的内涵做出了一致的认定。即上述两判决都将帮助侵权责任归纳为由“知道要件”和“帮助要件”组成,将教唆侵权责任的成立归结为被告存在可归责的侵权目的,将替代责任归纳为由“控制力要件”和“直接获益要件”组成。
3 按照版权法上“直接侵权、间接侵权二分理论”,内容提供和技术服务的区分同版权直接侵权和间接侵权的区分相对应,但只有前者才属于版权法定的内容提供行为,也只有前者的行为才会受到版权直接侵权的规制。对于技术服务行为,只有当网络服务提供者未履行必要注意义务且存在过错时,才会就其助成行为承担损害赔偿责任,理论界将其称为版权间接侵权。
4 《最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》第7条规定: “网络服务提供者以言语、推介技术支持、奖励积分等方式诱导、鼓励网络用户实施侵害信息网络传播权行为的,人民法院应当认定其构成教唆侵权行为; 网络服务提供者明知或者应知网络用户利用网络服务侵害信息网络传播权,未采取删除、屏蔽、断开链接等必要措施,或者提供技术支持等帮助行为的,人民法院应当认定其构成帮助侵权行为。”
5 《最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》第9条规定:“人民法院应当根据网络用户侵害信息网络传播权的具体事实是否明显,综合考虑以下因素,认定网络服务提供者是否构成应知:(一)基于网络服务提供者提供服务的性质、方式及其引发侵权的可能性大小,应当具备的管理信息的能力……”第11条规定:“网络服务提供者从网络用户提供的作品、表演、录音录像制品中直接获得经济利益的,人民法院应当认定其对该网络用户侵害信息网络传播权的行为负有较高的注意义务……”。
6 李明德:《美国知识产权法》,法律出版社2019年版,第392页。
1 此外,三位原告也未就被告有权利和能力监督个体用户的侵权行为,并从该等侵权活动中获得直接经济利益做任何实质性举证。
2 当然在例外情形下,即发生“模型记忆”问题时,AIGC平台输出的内容虽然仍是通过“一对一”的封闭交互模式进行,但因为存在向不特定用户输出同一“记忆内容”的现实可能,因此构成版权法规制的“公开传播”行为,前文在AIGC服务提供者直接侵权部分已做分析。
3 Thomson Reuters Enterprise Center GMBH and West Publishing Corp., v. Ross Intelligence Inc., Memorandum Opinion, Sep. 25, 2023, Case No. 1:20-cv-613-SB.
4 Authors Guild, 804 F.3d at 221; see also A.V.ex rel. Vanderhye v.iParadigms, LLC, 562 F.3d 630, 638-640, 642 (4th Cir. 2009).
5 因为用户利用Betamax录像机录制的电视节目,最终目的是在家庭范围内供自身及家庭成员观看,并不涉及相关作品内容的公开传播利用行为。
6 朱开鑫:《生成式人工智能对版权体系影响的思考——技术、产业和制度三个面向》,《版权理论与实务》2024年第1期。
1 《[ChatGPT]GPT-3.5+ChatGPT :图解概述》,https://architect.pub/gpt-35-chatgpt-illustrated-overview,最后访问日期2024年3月4日。
2 环建芬:《人工智能工作物致人损害民事责任探析》,《上海师范大学学报(哲学社会科学版)》2019年第2期。
3 See Donoghue v Stevenson, [1932] AC 562.
4 张民安:《侵权法报告》(第1卷),中信出版社2005年版,第 87 页。
5 朱开鑫:《网络版权间接侵权研究》,《法学家》2019年第6期。
6 较为经典的案例为 2015 年到 2016 年间最高人民法院集中审理的“苹果 APP store 网络著作权侵权”系列案件。最高人民法院在案件审理的过程,根据苹果公司的在线服务特征以及被侵害信息的基本特征,认为苹果公司负有较高程度注意义务。具体来讲,苹果公司不仅能够对于涉案APP的研发和运营进行控制,而且长久以来从涉案APP中获得了直接的经济收益。最高人民法院认为,根据苹果公司 APP store 的运营模式,其对于涉案 APP 的侵权行为具有高度的可预见性和高度的控制力。
7 王若冰:《论生成式人工智能侵权中服务提供者过错的认定——以“现有技术水平”为标准》,《比较法研究》2023第5期。
8 2023年3月,在一项以Stable Diffusion等AIGC扩散生成模型为研究对象的实验中,马里兰大学和纽约大学的联合研究团队指出:利用Stable Diffusion模型生成的内容与数据集作品相似度超过50%的可能性达到了1.88%。
1 从版权人保护角度而言,相较于传统的版权侵权诉讼,“避风港制度”为版权人提供了高效、及时、便捷的维权途径。版权人发现侵权内容,平台则迅速响应侵权通知,采取删除屏蔽断开链接等必要措施。
2 司晓:《奇点来临:ChatGPT时代的著作权法走向何处——兼回应相关论点》,《探索与争鸣》2023第5期。
3 王利明:《生成式人工智能侵权的法律应对》,《中国应用法学》2023年第5期。
4 邵红红:《生成式人工智能版权侵权治理研究》,《出版发行研究》2023年第6期。
1 AIGC模型训练成本非常高昂,最主要的成本在于硬件和人力资源:训练一个大模型除需要使用超级计算机和大量的GPU资源,还需要由数据科学家、软件工程师和NLP专家组成的团队来进行模型调试和优化。根据OneFlow估算,GPT-3训练一次的成本约为139.8万美元;对于一些更大的LLM模型(如拥有2800亿参数的Gopher和拥有5400亿参数的PaLM)采用同样的计算公式。可以得出,训练成本介于200万美元至1200万美元之间。参见《ChatGPT算力需求是如何扩张的》,https://mp.weixin.qq.com/s/7oy1cvLSfByOFbrT79Ykqg,最后访问日期2024年3月4日。
2 此时,需要AIGC服务提供者沟通上游的AIGC模型研发者来实现版权人的该项诉求。
3 研究发现对于模型训练,国内外厂商均强调适用“合理使用制度”,但域外大模型厂商已经探索给予版权人事前“选择退出”的渠道:OpenAI在 AI 行业中率先提供了一个简单基于“robots协议”的退出机制;Adobe开发了一种名为“Content Credentials”的功能,它使艺术家能够附加一个“do-not-train”标签防止自身作品被训练,该标签将随着内容的传播而传递。
4 这类似于社交类APP的用户聊天记录和历史信息,因为存在于用户自身的手机或电脑等设备终端,所以运营平台本身实际无法保存、导出和控制上述记录和信息。
1 该《暂行办法》第14条规定:AIGC服务提供者发现违法内容(大致对标模型“记忆”引发的版权直接侵权情形),需要采取模型优化训练等措施进行整改,但未强调效果层面的具体要求;AIGC服务提供者发现使用者利用生成式人工智能服务从事违法活动(大致对标用户不当使用引发的版权间接侵权),更是仅要求采取警示、限制功能、暂停或者终止向其提供服务等处置措施,未涉及面向未来的侵权屏蔽要求。