人工智能服务提供者的版权侵权责任研究
2024-12-08袁锋
[摘 要] 对于以语言模型为代表的生成式人工智能系统而言,在认定其服务提供者版权侵权责任时,首先,应综合考虑人工智能的技术特征、行业监管等因素,将人工智能服务提供者作为新型网络服务提供者进行规制。其次,应基于全周期思路,从事前、事中、事后的内容生产全过程审视人工智能服务提供者的注意义务。从训练数据的透明度义务来看,人工智能服务提供者必须确保所使用的数据来源合法、透明,避免因数据侵权而引发版权纠纷。同时,生成过程的内容审核义务意味着服务提供者需要对生成的内容进行必要的审核,确保其不侵犯他人的版权。若最终生成侵权内容,服务提供者还需履行相应的必要措施,以规避侵权内容的扩大传播和再次生成。
[关键词] 生成式人工智能;服务提供者;版权侵权;注意义务
[中图分类号] D923.4 [文献标识码] A [文章编号] 1008-1763(2024)06-0149-09
Research on Copyright Infringement Liability
of Artificial Intelligence Service Providers
YUAN Feng
(School of Journalism and Communication,East China University of Political Science and Law,Shanghai 201600,China)
Abstract:For the generative artificial intelligence system represented by language models,when determining the copyright infringement liability of its service providers,firstly,the technical characteristics of artificial intelligence,industry regulation and other factors should be synthesized,and the artificial intelligence service providers should be regulated as a new type of network service providers. Secondly,the duty of care of AI service providers should be scrutinized based on the full-cycle thinking in the whole process of content production before,during and after the event. From the perspective of the obligation of transparency of training data,AI service providers must ensure that the source of the data used is legal and transparent,so as to avoid copyright disputes caused by data infringement. At the same time,the content audit obligation of the generation process implies that the service provider needs to carry out the necessary audit of the generated content to ensure that it does not infringe the copyright of others. If infringing content is eventually generated,the service provider also needs to fulfill the necessary measures to avoid the expansion of infringing content and its re-generation.
Key words: generative artificial intelligence;service providers;copyright infringement;the duty of care
一 问题的提出
2022年底,OpenAI公司宣布聊天机器人程序ChatGPT正式上线; 2024年,OpenAI又推出了文生视频模型Sora,人工智能技术迎来重大突破,极大地提高了人类进行内容生产的效率。但从侵权预防的角度看,如何使人工智能真正实施有价值的“创作”,而非成为文字垃圾的制造工具,是人们需要迫切思考的问题[1]。人工智能生成内容大致分为三类:一类是与先前作品完全不同的新作品,此情形下生成内容不构成侵犯著作权;一类是与先前作品存在相似性内容的新作品,此情形下若生成内容与先前作品构成“实质性相似”,则应认定其侵犯复制权;最后一类是在保留先前作品内容基础上形成的具备独创性的作品,此情形下人工智能生成内容明显侵犯先前作品的改编权[2]。此外,人工智能为了进行数据挖掘或机器学习,或者为了实现研究结果的可验证性,需要将数据或文本通过互联网进行传输,还可能侵犯向公众传播权[3]。事实上,近年已发生多起人工智能生成内容侵权案件。2023年12月,《纽约时报》对OpenAI公司和微软公司提起诉讼,指控这两家公司未经授权使用该媒体多篇文章训练ChatGPT等人工智能聊天机器人[4]。2024年2月,我国广州互联网法院一起关于生成式AI服务侵权判决生效,该案中被告通过Tab(化名)工具有偿提供人工智能图片生成服务,原告将“奥特曼”及相关关键词作为指示词输入,通过被告Tab可以生成和奥特曼实质相似的图片。法院最终判决认定被告侵害复制权、改编权,要求被告及时“停止侵害”,尽到合理注意义务。广州互联网法院(2024)粤0192民初113号民事判决书。因此,为切实保护版权人的合法权益,推动技术创新和产业的健康发展,对人工智能生成内容进行合理且有效地规制显得尤为必要。
针对人工智能服务提供者版权侵权责任,学界目前的核心争议集中于以下两方面:一是人工智能服务提供者的法律地位问题。由于人工智能服务提供者的内容服务能力与以往的网络服务提供者不同,其法律地位并不明晰,有学者否认二者的绝对共性,认为“人工智能服务提供者应被作为一类新型网络服务提供者来对待”[5];也有相反的观点认为人工智能服务提供者仍然属于传统网络平台[6]。二是人工智能服务提供者的注意义务问题。相较于传统网络服务,人工智能展现出更为卓越的创作能力和高度的自主性,其服务提供者应承担何种程度的注意义务,仍有待深入探讨。有学者指出,人工智能服务提供者需要承担内容管理义务[7];在数据输出阶段,负有及时采取处置措施以消除侵权信息的影响,并防止系统再次生成侵权信息的义务[8]。还有学者提出人工智能服务提供者在规避版权侵权设计和用户诱导侵权治理等方面的更为具体的注意义务[9]。实践上,当前对人工智能的规制是全球的重要战略和趋势,例如:2024年3月,联合国大会通过首个有关人工智能的决议草案,希望确保人工智能技术“安全、可靠和值得信赖”;同月,欧盟正式通过《人工智能法案》,以加强对人工智能的监管;我国也于去年开始实施《生成式人工智能服务管理暂行办法》(下文简称《暂行办法》),从行政管理的角度规定了人工智能服务提供者的内容提供者地位和部分义务。据此,基于人工智能服务提供者版权侵权责任研究的重要性和迫切性,本文旨在探讨人工智能服务提供者的法律定性,以及人工智能服务提供者的注意义务问题,进而提出化解人工智能版权侵权风险的因应之策。
二 人工智能服务提供者的法律地位
互联网的技术革新促进了新型网络服务的产生,这也意味着出现了新的法律调整对象。生成式人工智能服务提供者深度参与内容的生成过程,其生成的内容存在自主、不可预测性等特点,是传统网络服务提供者的进阶、优化版。鉴于我国现行法并未明确人工智能服务提供者的法律地位,下文将通过现有网络服务提供者和人工智能服务提供者的差异对比,对人工智能服务提供者的法律地位展开分析。
(一)网络服务提供者的分类标准
1.技术特征层面
我国法律对网络服务提供者的规定主要由《信息网络传播权保护条例》(下文简称《条例》)和《民法典》1194至1197条集中体现,其中,《条例》作为特别法,借鉴了美国DMCA的划分方式。DMCA以服务提供者技术上和功能上的差异性为依据对网络服务提供者进行分类,将其分为四种类型:承担传输“通道”功能的网络服务、承担系统缓存功能的网络服务、履行信息搜索功能的网络服务和履行存储功能的网络服务Digital Millennium Copyright Act,section 512.。不同类型网络服务提供者技术特征的差异性主要表现在以下三个方面:
其一,技术服务的用户或场景特定性。接入、自动传输及缓存的服务类型都是基础网络服务和技术实现方案,对非特定用户或场景提供无差别技术服务[10]。一般情况下,承担传输“通道”功能和系统缓存功能的网络服务提供者仅是为了帮助用户接入网络、传输数据或提高信息访问效率,其服务对象具有“普遍性”,个人和互联网之间建立了基本的联系,用户可以下载和上传任何内容[11]。而存储空间服务和信息定位服务提供者更侧重于服务特定的用户群体和具体的应用场景,例如视频分享网站可以采用多种编码方案进行视频转码,并根据用户的请求将视频内容缓存并播放,同时还可将内容聚合至第三方平台,这些服务的核心对象均为视频观看者,业务场景主要围绕视频的在线传播与分享U.S. Copyright Office,section 512 of title 17:a report of the register of copyrights (May 21,2020).。信息定位服务则根据用户的要求,利用超文本链接为用户提供搜索信息的在线位置[12],其服务范围也更显针对性和局限性。
其二,信息内容的干预程度。网络接入、自动传输服务的提供者为用户选定的信息提供网上传输、引导或链接服务,并不改变发出或接收的信息内容;缓存服务提供者同样只涉及内容的临时存储[13],但其能够自动创建材料的临时副本,以便提高后续服务的效率和响应速度。相反,信息存储空间服务和信息定位服务提供者对信息内容进行管控处理。当用户发布的信息通过信息存储平台向公众传播时,可能会引发版权纠纷。以新浪微博为例,平台会根据法律规定对违规内容进行屏蔽、下架,展现出对内容在一定程度上的识别和控制能力。而信息定位服务中,通过链接本身的文字描述或其概要,用户可以大致了解被链接对象的内容,服务提供者也可以打开并接触到被链接的内容[14]。
其三,审核、干预信息内容的能力和条件。DMCA关于其512条的立法评估报告指出,网络服务提供者控制侵权内容的能力特征,是确立各类服务提供者在网络侵权中所承担责任的重要基础。接入或自动传输、缓存这类基础性网络服务提供者只能实现整个服务的全有或全无,对侵权内容的判断识别能力较弱,无法准确地删除侵权内容或者切断与侵权内容有关的网络服务《条例》第二十条、二十一条的规定。。信息存储空间服务提供者和信息定位服务提供者能够选择、改变以及控制信息内容,一旦确认侵权行为成立,平台能够迅速对被诉信息进行删除处理,以遏制侵权后果的进一步扩大。因此,“避风港”规则适用于信息存储空间服务提供者和信息定位服务提供者《条例》第二十二条、二十三条的规定。。
2.行业监管层面
在行业监管层面,可以按照主管部门对电信行业的准入和监管分类标准,辅助判断各类网络服务提供者的区别。以我国司法实践中的“阿里云案”为例,法院对其法律地位的判断即参考了工业和信息化部公布的《电信业务分类目录》。在“阿里云案”中,法院认定阿里云公司提供的云服务器租赁服务属于《电信业务分类目录》第一类增值电信业务中的“互联网数据中心业务(B11)”,另外,部分自动接入、自动传输服务(如QQ与微信提供的文件传输功能)及部分自动缓存服务(如网页浏览器及视频播放器中的缓存加速服务等)被认定为属于第二类增值电信业务中的“信息服务业务(B25)”北京知识产权法院(2017)京73民终1194号民事判决书。。此外,根据工业和信息化部的许可证公开查询信息,中国移动这类网络接入和传输服务,其提供的“网络接入设施服务业务”属于A类“基础电信业务”在工业和信息化部电信业务市场综合管理信息系统中输入“中国移动通信集团有限公司”进行许可业务信息的查询,结果显示其获得的是A类业务许可。;以新浪微博为代表的信息存储空间服务,“提供相对开放的网络平台,许可用户自行上传信息并对外发布”,属于第二类增值电信业务中的“信息服务业务(B25)”在工业和信息化部电信业务市场综合管理信息系统中输入新浪微博所属公司“北京微梦创科网络技术有限公司”进行许可业务信息的查询,结果显示其获得的是B2类信息服务业务许可。;百度搜索引擎作为网络信息定位服务提供者的典型代表,根据其不同服务种类分别取得“互联网数据中心业务”“内容分发网络业务”等B类增值电信业务经营许可,其中百度“为用户提供网页信息、文本、图片、音视频等信息检索查询”的服务和新浪微博等的信息存储服务一样同属于“信息服务业务(B25)”的范围在工业和信息化部电信业务市场综合管理信息系统中输入“北京百度网讯科技有限公司”进行许可业务信息的查询,结果显示其获得的是B1、B2类业务许可。。
各类网络服务提供者根据其具体的业务形态取得不同的行业许可,并根据对应的行业监管规定承担义务,例如,云计算服务作为“互联网数据中心业务”,需根据《信息安全技术云计算服务安全指南》承担确保用户数据和业务系统的保密性、完整性和可用性等义务;而新浪微博、百度等“信息服务业务”提供者,由于涉及的服务内容范围较广泛、多样,因此其具体义务应视特定平台而定,如新浪微博这类信息存储空间服务提供者只要进行了身份明示、未改变作品、不知且不应知作品侵权、未从侵权作品中直接获利,并在接到权利人通知后及时删除侵权内容,就无需承担侵权责任[15]。
3.获益水平层面
判断网络服务提供者的类型,另一重要判断标准是服务提供者的获益水平。不同类型的网络服务提供者,其商业模式或经营方法是否会带来额外的侵权风险,其中最重要的判断标准就是网络服务提供者是否从用户的侵权行为中获得直接的经济(财产)利益[16]。在有权利和能力控制侵权活动的前提下而未从侵权行为中“直接获利”,是美国模式中信息存储空间和信息定位工具两类网络服务提供者免除替代责任的条件[17]。从我国现行法律规定来看,根据《条例》第二十二条,信息存储空间服务提供者进入“避风港”的条件之一是未从服务对象提供的作品、表演、录音录像制品中直接获得经济利益。《最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》第十一条则从正面规定:“网络服务提供者从网络用户提供的作品、表演、录音录像制品中直接获得经济利益的,人民法院应当认定其对该网络用户侵害信息网络传播权的行为负有较高的注意义务。”至于接入、自动传输及缓存服务提供者,由于在服务过程中并未介入用户传输的内容,因此这两类服务提供者一般不存在从用户行为中获利的情况。
(二)人工智能服务提供者和传统服务提供者的比较分析
在审视人工智能服务提供者的法律地位时,一种有效的途径是将其与当前法律体系内所界定的四类传统服务类型进行类比分析。以我国“NFT著作权第一案”为例,法院在处理此案时便采取了这种策略:鉴于NFT交易平台并不直接对应于现行《条例》中明确列出的服务类型,在综合考量该平台和传统服务提供者之间营利模式、技术特征、控制能力等方面的差异之后,法院最终将其归类为新型网络服务商杭州互联网法院(2022)浙01民终5272号民事判决书。。因此,在判断人工智能服务提供者的法律地位时,也可借鉴此种类比方法,从而更准确地界定其法律属性。
相比于网络接入或自动传输服务提供者、缓存服务提供者,首先,从技术特征来看,人工智能服务提供者具备审核、干预信息内容的能力和条件,注重与用户的交互对话,使用训练数据中的信息来构建其认为最能响应用户查询的答案[18];而网络接入或自动传输、缓存这两种服务类型并不针对具体的内容,且对内容没有控制能力。其次,在行业监管规则下,若人工智能服务提供者仅进行软件技术开发,而不涉及其他更具互动性的线上服务形态,则可能不需要取得前文所述的增值电信业务经营许可证。而当其提供生成式服务功能时,即允许用户发布信息,进行互动,如提供聊天室、即时通信等功能,则可能需要取得“信息服务业务(B25)”的增值电信业务经营许可证。因此,根据人工智能服务提供者的具体服务和业务形态,可能需要取得相应类型的经营许可。大部分网络自动接入或传输服务属于“互联网接入服务(B14)”,另有部分网络缓存服务则属于第二类增值电信业务中的“信息服务业务(B25)”。最后,从获益水平层面来看,目前生成式人工智能通过向用户提供写作、绘画等服务,并收取相应的平台服务费以盈利。一般用户还可通过付费订阅使用人工智能创作工具,以获取更多高级功能和更好的创作成果,如付费使用文心一言等。可见,人工智能服务提供者深度介入了用户行为,从用户的侵权行为中获得直接经济利益的可能性远大于传统的网络接入或自动传输服务提供者、缓存服务提供者。综上,人工智能服务提供者与网络接入或自动传输服务提供者、缓存服务提供者在技术特征、行业监管要求和获益水平等方面均存在显著差异,不宜将其归为同一类服务提供者。
相比于信息存储空间服务和信息定位服务提供者,首先从技术特征来看,人工智能服务从其接收的输入信息中生成“可影响物理或虚拟环境的输出,如预测、内容、建议或决定”,展现出超越常人的强智能Artificial Intelligence Act,Article 3.。信息存储空间服务只为用户提供数据的存储、备份、共享和管理服务;而信息定位服务按照用户搜索的关键词在网络中抓取相关内容,并以链接列表的形式将最终搜索结果展示给用户,与其他技术服务比具有较强的信息筛选、识别和呈现能力,其服务特征与人工智能更具相似性。以百度和ChatGPT为例,二者均根据用户输入的需求,为其提供相应的信息,但二者的信息呈现方式有所不同:在百度网站中搜索某一内容,百度提供相关资料链接,用户需要再次点击方能跳转到第三方网站获取内容;而ChatGPT会直接为用户提供相关信息。此外,人工智能服务提供者与信息定位服务提供者的生成内容参与度存在本质不同。以百度为例,信息定位服务提供者实际上是为用户提供搜索结果的链接,由第三方网站为用户提供信息内容,百度本身并不参与内容生产;即使第三方网站出现侵权内容,百度也无权下架网站内容,至多在搜索页面中下架该网站链接。而人工智能服务提供者直接决定用户能够获取的内容,针对用户的搜索问题,其并非罗列多种答案,而是直接生成特定内容供用户查阅,并且不同用户针对同一问题获得的答案可能会存在语序、内容的差异。在行业监管标准下,人工智能服务中的用户互动、即时通信等功能需要取得“信息服务业务(B25)”的增值电信业务经营许可,这与信息存储空间服务和信息定位服务所需取得的许可类别相同。此外,根据前文,人工智能服务提供者主要通过向用户收取相应的平台服务费、订阅费盈利,这与网络存储空间服务和信息定位服务通过提供视频、文字素材等内容以收取费用的盈利模式相似。综上,人工智能服务提供者与网络存储空间、信息定位服务提供者在行业监管、获益水平等方面存在一定的相似性,但其在技术特征这一主要对比因素上并不完全相同,因此也不宜将其归为同一类服务提供者。
总而言之,起源于美国DMCA的四类服务提供者类型无法有效指向以ChatGPT、文心一言等为代表的生成式人工智能服务提供者。美国DMCA于 1998 年通过,其时互联网的发展还处在Web 1.0时代,网络服务提供者的角色仍以被动性(内容的传输与变动由网络用户发起)、工具性(服务提供者仅提供技术和通道支持)和中立性(服务提供者不改变标准技术,不干涉权利保护措施)为特征[19]286。而在Web 2.0时代,互联网发展呈现出交互性、社会性的突出特点,有别于以往网络服务提供者单纯提供技术支持的情况,如今网络服务提供者之间的界限逐渐模糊,如各类视频聚合平台即兼具技术服务和内容服务。而生成式人工智能的出现,更是突破了技术和内容服务的界限,表现为二者功能的深度融合,因此,应将人工智能服务提供者作为一类新型网络服务提供者。
三 全周期思路下人工智能服务
提供者注意义务的认定
根据前文,人工智能服务提供者应被认定为新型网络服务提供者。由于生成式人工智能已具有类人化的自主意识和辨认控制能力,其与传统的网络服务提供者在技术介入和内容控制力上存在根本不同。因此,应认真审视人工智能服务提供者在版权侵权中的注意义务问题,并构建合理的侵权风险治理模式予以应对。
(一)全周期思路引入的必要性
人工智能的版权侵权风险并非孤立存在,而是深深植根于其技术设计、数据训练、内容生成等多个阶段之中,侵权风险相互交织、层层叠加,其中任何一个环节的疏忽都可能导致生成内容侵犯版权。自生成式人工智能进入应用市场,已发生多起版权侵权案件,多数涉及作品的非法使用以及服务者责任承担问题。在此情形下,将人工智能内容生成的各阶段纳入考量的全周期思路是未来治理方案的可能方向。
首先,根据控制力理论,离危险源越近的主体对风险的控制能力越强[20]。人工智能服务提供者作为技术的控制者,可通过训练数据的选择和内容生成模型的设计影响内容的创作与发布,在一定程度上影响着最终生成内容的合法性。因此,要求人工智能服务提供者这一“危险源开启与控制”的主体承担排除生成内容版权侵权风险的注意义务,在周期源头进行把控,能够有效提高版权保护的效率。其次,网络服务提供者在经营过程中获取相应的利益,即应承担利益所带来的风险[21]102。人工智能服务提供者因用户的使用行为获得巨大的数字红利及数字权力,通过订阅付费、用户收益分成、投放广告等方式盈利,但由于其在数据挖掘、处理等方面缺乏明确的规范与准则,容易出现版权侵权问题。依据收益与风险并存理论,人工智能服务提供者对正在发生的侵权有义务排除,并对未来的妨害负有审查控制义务。最后,纵观全球人工智能侵权风险治理情况,多国立法不约而同地采取全周期思路,对人工智能服务提供者设定义务。以欧盟为例,其于2020年2月发布的《人工智能白皮书》就明确提出建立涵盖事前、事中、事后多个环节的全面监管机制;而后在2024年3月,欧洲议会正式通过了《人工智能法案》,作为全球首部针对人工智能领域的立法,该法案提出的风险管理措施覆盖了人工智能系统的全生命周期。我国同样重视人工智能的侵权风险治理,2023年10月,我国发布《全球人工智能治理倡议》,为人工智能的全生命周期治理提供了关键指导。该倡议强调在部署和应用阶段要坚持和落实“智能向善”的宗旨,确保人工智能技术的发展始终符合社会伦理和法律法规的要求,避免侵犯他人的版权等合法权益。
综合考虑,基于全周期思路审视人工智能服务提供者的注意义务,有助于更好地保护创作者的权益,促进人工智能技术的健康发展。无论是从保护权利人利益的角度,还是根据技术水平和国内外关于人工智能服务规范的规定来看,从事前、事中、事后的内容生产全过程对生成式人工智能服务提供者课以相应义务都具备正当性。
(二)事前:透明度义务
当人工智能响应用户提示时,它实际上是在综合多个抽象层级的潜在表示,从而做出一个充分的预测,判断问题的回答应该是什么[22]。随着生成式人工智能帮助人类做出更多更重要的决策,人类愈来愈无法理解现代人工智能决策的过程,“算法黑箱”问题愈发显著。在人工智能发展初期,经过人工测试算法后,能够精确定位一个不可预测的、危及生命的故障[23]。例如1991年,卡内基·梅隆大学的Pomerleau在其自动驾驶实验中,通过编程计算机改装悍马军车,尝试让其自动驾驶;测试中计算机出现误判,但在Pomerleau的及时干预下避免了事故发生。而在当今复杂的人工智能环境中,人类已无法以这种费时费力的方式测试每个关键决策链。如果人工智能模型的生成内容类似于受版权保护的训练数据,尤其是在涉及市场影响的情境中,那么这些内容可能不再适用合理使用制度[24]。基于此,将“透明度义务”赋予人工智能服务提供者,实际上是在人类尚未能监测人工智能生成过程的现状下要求服务提供者从源头规避侵权风险,减少甚至完全规避对在前版权作品的依赖,倒逼其采取技术或者人工方式对输入数据进行审核,以合理控制人工智能服务的算法运行和生成结果。
目前,人工智能服务提供者的透明度义务已在国内外多项立法中有所规定。《暂行办法》规定,人工智能服务提供者必要时负有“按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明”的义务。欧盟治理方面,透明度义务也一直是其在开发、部署和使用人工智能系统方面所倡导的社会主义核心价值观之一。早在2018年,欧盟即公布施行《通用数据保护条例》(General Data Protection Regulation,GDPR),要求数据控制者或处理者必须从数据所有者那里获得明确的授权,并清楚地披露任何数据收集和处理的相关信息。2019年4月,欧盟人工智能高级别专家组制定《值得信赖的人工智能伦理准则》,2020年2月,欧盟委员会发布《人工智能白皮书》,均将透明度纳入其各自建议的道德或法律框架中。而欧洲议会于2024年3月13日批准通过的《人工智能法案》仍然沿袭最初草案的规定,明确通用人工智能系统的透明度义务:“生成式人工智能,如ChatGPT,必须遵守披露内容是由 AI 生成的,设计模型以防止其生成非法内容,发布用于培训的受版权保护的数据摘要。”[25]
欧盟《人工智能法案》关于透明度义务的规定中,与人工智能版权侵权有关的条款主要指第13条,要求服务提供者主动披露用于训练的受版权保护的数据摘要Artificial Intelligence Act,Article 13.。关于人工智能服务提供者透明度义务的具体实施标准,主要包括以下两方面:
一方面,在透明度义务设计中,当服务提供者处理受版权保护的训练数据时,应允许版权人访问数据集并赋予他们选择主动退出的权利;同时,在“选择退出”机制的基础上辅以对权利人的合理补偿机制,有效补偿权利人的利益损失[26]。目前已有部分人工智能产品在人工智能训练中采用“选择退出”机制,版权人可以采取措施声明不允许利用自己的版权作品。如OpenAI在其用户协议中明确表示如果用户不希望使用其内容来训练模型,可按步骤选择退出;Stability AI推出的Stable Diffusion 3.0产品也表示其训练数据集允许权利人退出训练数据集。建立“选择退出”机制的原因在于,目前要求人工智能提供者详尽地列出其训练数据集中所包含的全部或大部分受版权保护的材料,并逐一向其权利人寻得使用同意,在实践中面临极大障碍。这不仅仅是因为技术或资源的限制,更在于版权法本身的复杂性。首先,版权的地域性割裂是一个重要的阻碍因素。不同国家和地区的版权法规定存在差异,这导致同一作品在不同地区的版权保护情况也可能不同。而人工智能服务提供者需要考虑到全球范围内的版权法律规定,这无疑增加了其训练数据合规的难度。其次,权利归属元数据的状态也增加了侵权风险[27]。元数据是指描述和标识作品的关键信息,包括作者、创作时间、版权归属等。然而实践中很多作品的元数据并不完整甚至缺失,使得生成性人工智能提供者难以确定其训练数据集中材料的版权归属和授权情况,更遑论取得权利人同意。最后,人工智能服务提供者为了减少开发成本而擅自使用他人版权作品,这种有意侵权的现象客观存在。因此,采用“选择退出”机制对训练数据“透明度”的实现具有深远意义。
另一方面,除了建立权利人“选择退出”机制外,透明度义务的履行还应达到“可追溯性”的标准。由于人工智能生成过程的隐蔽性、“算法黑箱”的客观存在等因素,普通人难以理解人工智能技术的复杂性和高度专业性。而且人工智能原始训练数据往往处于服务提供者的控制之下,权利人难以获得完整的数据集,在侵权诉讼中举证难度大。此外,还可能存在因数据缺失或篡改而导致无法有效地证明其主张的情况。因此,要求人工智能服务提供者保留训练数据,保证生成内容的可追溯性,这有利于未来进一步审查人工智能系统的开发方式,确保侵权诉讼中举证的顺利进行[28]。《人工智能法案》虽未明确人工智能服务提供者透明度义务的具体标准,但回顾欧盟关于人工智能的众多立法举措和会议内容,尚能发现关于透明度义务中可追溯性标准的论述。欧盟发布的《值得信赖的人工智能的伦理准则》已将可追溯性作为透明度义务的要素之一European Commission, AI-HLEG Ethics Guidelines for Trustworthy AI,2018.;而《人工智能白皮书》同样规定了透明度的要素之一是保存记录、文档和数据European Commission,White Paper on Artificial Intelligence:a European Approach to Excellence and Trust,2020.;2020年10月,欧洲议会在《人工智能、机器人和相关技术伦理方面的框架》报告中也指出,“人工智能需以透明和可追溯的方式,使其数据、过程按照适用标准记录在册”European Commission,European Framework on Ethical Aspects of Artificial Intelligence,Robotics and Related Technologies, 2020.。由此可见,将可追溯性作为透明度义务的要素之一具备可行性。
(三)事中:内容审核义务
早期的网络服务提供者仅扮演“通道”角色,具有被动、工具和中立性质,处理侵权内容依赖于人工通知和人工审查[29]。但随着Web 2.0时代的到来,平台集聚了资金和技术优势,此时再坚持将其视为“知识产权保护的被动响应者”已不合时宜[30]。一方面,网络服务提供者从用户行为中直接获得经济利益的,应负较高的注意义务;人工智能服务提供者通过生成内容获取巨大的直接经济利益,而其获取经济利益的同时,也面临着更大的责任挑战。根据传统民事责任的“收益与风险一致”报偿正义法理,人工智能服务提供者必须就使用过程中所导致的风险承担相应的责任,只有建立严格的内容审核机制,对生成的内容进行实时监控和过滤,防止侵权内容的生成与传播,如此方可实现报偿正义[31]453。另一方面,平台私权力的崛起,意味着必须建立与其权责相一致的法律问责机制。平台不应将因算法应用而产生的侵犯版权的风险转嫁给版权人,也不应借“平台对侵权内容不具有具体认知”这一说法逃避算法追责,一旦平台对侵权内容有概括性的知情,就应该承担起对侵权内容的注意义务[32]。而人工智能服务提供者融合了技术平台和提供内容的特征,在内容生产过程中起到一定的作用,因此更应当积极承担内容管理的义务。《暂行办法》第四条、第九条均提及人工智能提供内容应“尊重知识产权”,人工智能服务提供者应承担“网络信息安全义务”。在人工智能发展初期,技术尚不成熟,容易出现人工智能生成侵权信息的现象。部分算法只是针对既有作品执行同义词或语序替换,如果人工智能生成内容与原作品完全相同,则可以被视为侵权复制品。OpenAI公司在其用户协议中表示“输出可能并不总是准确的”,“服务可能会提供不完整、不正确或令人反感的输出”,这从一定程度上说明现阶段人工智能服务提供者也预见到生成内容可能造成侵权。在人工智能生成内容版权侵权中,无论是人工智能独立地产生侵犯版权的内容,还是用户通过详细描述他人作品特征或直接输入版权作品的情形,虽然人工智能服务提供者对内容的贡献程度不同,且无法完全控制具体内容,但不能据此否认其内容生产能力,其对侵权内容具有概括性的知情。综合来看,人工智能服务提供者因其为用户提供的自动生成服务而获得巨大的经济利益,却屡屡出现生成内容侵犯版权的情况,对其采取过于宽松的规则,实际上不利于人工智能技术的可持续发展。
人工智能服务提供者在具体履行内容审核义务时,具体履行一定程度上可以参考网络服务提供者内容过滤的要求。在传统的“通知-删除”模式下,版权人通过人工或者借助技术措施监督目标网络服务商,发现侵权内容,准备和发送侵权通知,跟踪网络服务商的处理进度;网络服务商再人工接收并审查侵权通知,人工删除侵权内容或断开侵权链接[33]。事实上,版权人无法做到实时监控侵权内容并准备通知,而网络服务提供者处理侵权通知同样耗费时间和成本。在人工智能时代,生成内容的效率得到了极大的提升,人工智能服务提供者能够快速、准确地完成信息的筛选、整理和加工,并根据用户的需求生成高质量的内容,大幅缩短了内容生产的周期。但随着技术发展,版权内容过滤技术逐步被应用于识别和预防网络盗版,网络服务提供者利用成熟的内容识别技术预防盗版,大大提高了打击盗版的效率。因此,人工智能提供者在内容生产全过程中采取技术措施进行内容审查具有可行性[34]。目前关于文字作品的分析及对比技术已经较为成熟,在版权作品特征信息库所集成的过滤系统中,任何用户上传的包含该作品实质性内容的文字都能被精确且迅速地识别;图片、音频的识别技术虽略显复杂,但也在稳步发展,如美国Audible Magic公司宣称Content Identification系统在处理数以亿计的图片、视频和音频信息时,其过滤准确性超过99%,且只需要5秒的片段就可以精确识别。OpenAI在其介绍页面提及“为了确保GPT符合相关政策规定,我们现已在产品中内置安全措施。除此之外,我们还建立了新的审查系统,审查过程包括人工审核和机器审核”。
综上,对人工智能服务提供者设置内容审核义务,是对侵权行为发生后应采取的必要措施的有效补充,能够形成对生成内容全过程的严密监管。通过加强内容审核,可进一步使生成的内容符合版权法规,从而更好地维护创作者的合法权益,同时也为人工智能产业的健康发展提供有力保障。
(四)事后:必要措施
我国《暂行办法》第十四条明确规定:“提供者发现违法内容的,应当及时采取停止生成、停止传输、消除等处置措施,采取模型优化训练等措施进行整改,并向有关主管部门报告。”相较于付出巨额成本全面监测人工智能侵权内容生成,必要措施要求侵权内容生成后,服务提供者及时反应和纠正,包括但不限于移除侵权内容,还应对模型进行优化、整改,避免侵权范围的进一步扩大,合力形成全流程的审查监管体系。
根据我国《民法典》关于网络侵权的规定,传统的“避风港”规则主要适用于网络服务提供者因其用户实施侵权行为而承担的责任,具体而言,权利人向网络服务提供者发出通知,再由网络服务提供者移除通知中指称侵权的内容或断开相关链接,这实质上是针对“通知”进行“移除”后的法律效果[35]251。在以往“避风港”规则的适用中,网络服务提供者因其内容生产的第三方地位,并未直接上传侵权内容。而人工智能生成内容并非来源于第三方,人工智能服务提供者直接参与内容的生成与上传过程,有观点据此认为无论是基于训练数据生成的内容,还是根据用户输入生成的内容,其本质上都是人工智能系统主动输出的结果,而非“网络用户利用网络服务实施侵权行为”,因此ChatGPT等生成式人工智能服务提供者无法适用“避风港”规则予以免责。然而,现阶段生成式人工智能产业尚处于发展阶段,相关技术仍在不断改进,若在侵权行为发生后,即要求人工智能服务提供者承担过重责任,可能会使中小企业面临巨大的法律风险,抑制人工智能技术的发展[36]。因此,允许人工智能服务提供者在传统网络侵权规则的原理指导下,发展形成新的适用义务,使其在侵权事实发生后采取必要措施弥补过错,一定程度上视其履行情况减轻其侵权责任,对于人工智能产业发展来说,不失为一种有益的路径探索。
针对人工智能服务提供者在侵权行为发生后的事后必要措施,其具体履行内容主要包括两方面:一方面,数字时代信息内容传播速度极快,当人工智能系统产生的内容侵犯版权时,人工智能服务提供者需要及时移除或屏蔽相关侵权内容,以防止侵权行为的进一步扩散和影响[37]。相较于传统的网络接入、传输服务及缓存服务,人工智能服务提供者对侵权内容具备单独识别和删除的能力,与信息定位服务相似,其直接定位侵权内容并及时移除的成本较低。目前,百度、OpenAI等公司的技术已经能够支撑其履行事后移除义务。百度公司开发的语言模型系统文心一言在会员服务协议中承诺,如果百度发现或收到他人举报用户有违反用户协议行为的,百度有权“根据相应规则立即删除、屏蔽或断开相关的信息”;同样地,ChatGPT的开发者OpenAI公司承诺会删除或断开涉嫌侵权的内容,并会终止重复侵权者的账户[38]。
因此,要求服务提供者承担移除责任,这充分考虑了技术发展的现状,对服务提供者较为宽容,既有利于激励创新,也能在一定程度上督促服务提供者尽到足够的注意义务[39]。另一方面,根据我国《暂行办法》的规定,在违法内容生成后,人工智能服务提供者不仅需要移除侵权内容,还应当采取其他优化、整改措施。
本文开篇提到的广州互联网法院的侵权判决,是全球首例生成式人工智能平台侵权责任判决,要求人工智能服务提供者停止侵权行为,并保证不再生成相关内容且要尽到建立投诉举报机制、提示潜在风险以及采取显著标识等注意义务。综合来看,该案法院要求人工智能服务提供者建立投诉举报机制、提示潜在风险以及采取显著标识等注意义务的做法尚有可取之处。首先,对服务提供者课以避免侵权内容再次生成的义务,这在技术上具备一定可行性。人工智能服务者虽无法预见具体的生成内容,但能够采取措施限制某些违法内容的生成,如ChatGPT已开始对知名IP适用“避让原则”,限制用户的生成指令,例如用户对其发出生成知名动画形象“唐老鸭”的指令,只能得到“无法生成受版权保护的人物形象”的回复。其次,服务提供者应否负有事后避免侵权内容再次生成的义务,还需充分考虑行业的普遍技术水平。目前,像OpenAI公司这种行业头部企业虽然已拥有较高的技术水平,然而还应当整体评估行业的技术水平和义务成本,通过这种全面、均衡的考虑,才能更好地平衡版权保护和技术创新之间的关系。最后,建立投诉机制有利于版权人及时阻止侵权行为,服务提供者也可依据用户举报迅速采取必要措施以避免侵权范围扩大;提示潜在风险有利于引导用户明确版权侵权风险,可以起到教育警示作用,从源头减少侵权行为;而采取显著标识能够进一步保护公众知情权,《暂行办法》同样强调了服务提供者有义务对生成内容进行标识。
四 结 论
生成式人工智能的出现在提高内容生产效率、降低内容生产门槛的同时,也带来更多版权侵权风险。由于现有技术尚未达到完全规避侵权内容生成的水平,因此,如何分配人工智能造成的版权侵权损害风险及认定相关主体的注意义务,是法律层面亟待解决的问题。我国可以在借鉴欧盟、美国等立法实践的基础上,结合我国国情和立法体系对我国《信息网络传播权保护条例》进行完善。一方面,人工智能服务提供者的技术特征、所遵从的行业监管规定和获益水平与传统的网络服务提供者均存在不同程度的差异,因此应当将其作为新型网络服务提供者看待,并在此基础上衡量确定相应义务。另一方面,需对人工智能服务提供者的具体注意义务进行法律层面的确认,换言之,当人工智能生成内容构成版权侵权时,如果人工智能服务提供者采取了合理措施,出于人工智能技术创新的考虑,不宜要求其承担侵权责任[40]。考虑到行业发展水平和对相关权利人的救济,在全周期思路下以透明度义务、内容审核义务以及必要措施为基础,检视服务提供者的注意义务,有利于维持其与权利人之间的利益平衡,实现法律与技术的良性互动。
[参 考 文 献]
[1] 初萌.人工智能对版权侵权责任制度的挑战及应对[J].北方法学,2021(1):138-150.
[2] 焦和平.人工智能创作中数据获取与利用的著作权风险及化解路径[J].当代法学,2022(4):128-140.
[3] 万勇.人工智能时代著作权法合理使用制度的困境与出路[J].社会科学辑刊,2021(5):93-102.
[4] Grynbaum M M,Mac R. The Times sues OpenAI and Microsoft over A.I. use of copyrighted work [EB/OL].(2023-12-27)[2024-07-02]. https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html.
[5] 徐伟.论生成式人工智能服务提供者的法律地位及其责任——以ChatGPT为例[J].法律科学(西北政法大学学报),2023(4):69-80.
[6] MIERS J. Yes,section 230 should protect ChatGPT and other generative AI tools[EB/OL].(2023-03-17)[2024-07-02]. https://www.techdirt.com/yes-section-230-should-protect-chatgpt-and others-generative-ai-tools/.
[7] 韩旭至.生成式人工智能治理的逻辑更新与路径优化——以人机关系为视角[J].行政法学研究,2023(6):30-42.
[8] 周学峰.生成式人工智能侵权责任探析[J].比较法研究,2023(4):117-131.
[9] 刁佳星.生成式人工智能服务提供者版权侵权注意义务研究[J].中国出版,2024(1):25-30.
[10]吴汉东,陈骞.基础性网络服务提供者内容管理义务的反思与重构[J].数字法治,2023(5):38-52.
[11]Bayer J. Liability of internet service providers for third party content[J]. Victoria University of Wellington Working Paper Series,2008(1):1-110.
[12]Harris D P. Time to Reboot?:DMCA 2.0[J]. Arizona State Law Journal,2015(3):801-856.
[13]Sag M. Internet safe harbors and the transformation of copyright law[J]. Notre Dame Law Review,2017(2):499-564.
[14]司晓.网络服务提供者知识产权注意义务的设定[J].法律科学(西北政法大学学报),2018(1):78-88.
[15]兰晓为.网络著作权侵权主体——“网络服务提供者”之解读[J].大连海事大学学报(社会科学版),2009(4):48-51+95.
[16]袁锋.元宇宙时代NFT数字藏品交易的版权困境与应对研究[J].湖北社会科学,2023(6):128-136.
[17]姚震.网络直播平台著作权侵权制度研究[D].北京:中国政法大学,2021.
[18]Haney B S. AI patents:a data driven approach[J]. Chicago-Kent Journal of Intellectual Property,2020(3):407-484.
[19]LaFrance M. Copyright law in a nutshell[M]. St. Paul,MN: West Academic Publishing,2017.
[20]吴汉东.关于知识产权基本制度的经济学思考[J].法学,2000(4):33-41+46.
[21]杨立新.侵权法论[M].北京:人民法院出版社,2004.
[22]Sag M. Copyright safety for generative AI[J]. Houston Law Review, 2023(2):295-348.
[23]Castelvecchi D. Can we open the black box of AI?[J]. Nature,2016(538):20-23.
[24]Henderson P,Li X C,Dan Jurafsky,et al. Foundation models and fair use[J]. Journal of Machine Learning Research,2023(24):1-79.
[25]European Parliament. Artificial Intelligence Act:MEPs adopt landmark law [EB/OL].(2024-03-08)[2024-07-02].https://www.europarl.europa.eu/news/en/press-room/20240308IPR19015/artificial-intelligence-act-meps-adopt-landmark-law.
[26]梁九业.数字平台版权集中的体系化治理研究[J].南大法学,2023(2):68-86.
[27]Senftleben M,Margoni T,Antal D,et al. Ensuring the visibility and accessibility of European creative content on the world market:the need for copyright data improvement in the light of new technologies and the opportunity arising from article 17 of the CDSM Directive[J]. Journal of Intellectual Property,Information Technology and Electronic Commerce Law,2022(1):67-86.
[28]Yanisky-Ravid S,Hallisey S K.“Equality and privacy by design”:a new model of artificial intelligence data transparency via auditing,certification,and safe harbor regimes[J]. Fordham Urban Law Journal,2019(2):428-486.
[29]万勇.人工智能时代的版权法通知—移除制度[J].中外法学,2019(5):1254-1269.
[30]邵红红.生成式人工智能版权侵权治理研究[J].出版发行研究,2023(6):29-38.
[31]朱岩.侵权责任法通论·总论:上册:责任成立法[M].北京:法律出版社,2011.
[32]崔国斌.网络服务商共同侵权制度之重塑[J].法学研究,2013(4):138-159.
[33]崔国斌.论网络服务商版权内容过滤义务[J].中国法学,2017(2):215-237.
[34]高阳.通用人工智能提供者内容审查注意义务的证成[J].东方法学,2024(1):189-200.
[35]王迁.网络环境中的著作权保护研究[M].北京:法律出版社,2011.
[36]Bathaee Y. The artificial intelligence black box and the failure of intent and causation[J]. Harvard Journal of Law & Technology,2018(2):889-938.
[37]张恩典.数字时代版权的算法实施:类型、困境及法律规制[J].暨南学报(哲学社会科学版),2023(5):35-49.
[38]和军,杨慧.ChatGPT类生成式人工智能监管的国际比较与借鉴[J].湖南科技大学学报(社会科学版),2023(6):119-128.
[39]王利明.生成式人工智能侵权的法律应对[J].中国应用法学,2023(5):27-38.
[40]王若冰.论生成式人工智能侵权中服务提供者过错的认定——以“现有技术水平”为标准[J].比较法研究,2023(5):20-33.