论人工智能生成数据法律保护的多元分层模式
——兼评“菲林案”与“Dreamwriter案”
2021-12-04刁胜先秦兴翰
刁胜先,秦兴翰
(重庆邮电大学 网络空间安全与信息法学院,重庆 400065)
一、人工智能及其生成数据的界定
人工智能的认识和定义是讨论人工智能生成结果法律问题的前提,所以有必要先对其进行界定,以统一尺度,利于其他问题得以讨论。
(一)人工智能的界定
人工智能(artificial intelligence,AI)又被称为计算机智能或机器智能,这类“智能”是以人为方式来制造、区别于人类智能的自然智能。与普通计算机系统相比,具备自主学习能力是人工智能的一大标志,即“智能”的体现。
1.符号主义、联结主义与行为主义
目前学界尚未对人工智能的定义达成共识,权威书籍中也出现多种界定[1],主流观点有三种,即符号主义、联结主义与行为主义。这三大主流观点不管是在人工智能理论上还是在人工智能方法上,都进行了激烈的探讨。
符号主义认为,人与计算机都是一个物理符号系统。而人工智能的核心问题是知识表示、知识推理、知识运用,这是一个符号操作过程。所以,人工智能的研究方法为功能模拟方法,即通过计算机的符号以及对符号的操作来模拟人对知识表示、知识推理、知识运用的过程,实现人工智能。
联结主义则有不同的看法,它认为人脑不同于计算机,人的思维基元是神经元,而不是物理符号。人工智能源于仿生学,其研究方法应为结构模拟方法,即模拟人的神经网络结构。结构与功能、智能行为是有紧密关系的,不同的结构可以展示出不同的功能和智能行为。2006年,多层神经网络模型的提出,标志着机器学习进入深度学习的阶段,与其他算法合力推动人工智能热潮发展到今天的水平[2]。
行为主义却从另一角度看待这个问题,它认为人工智能的智能行为应是一种从感知到动作的模式,即根据感知到的情报,做出下一步动作。所以,该观点在研究方法上倾向于行为模拟方法,不去纠结于人类的智能行为是否是一种符号,同时也认同功能、结构和智能行为是不可分割的。但人工智能行为主义观点的缺陷也很明显,虽然可以与人类智能一样发展、进化,却又更像是一种在计算机内设置好了条件,接着就做出相应动作的程序而已。
2.人工智能的分类
以智能范围与程度为标准,可将AI分成弱人工智能、强人工智能和超人工智能[3]。所谓弱人工智能,是指各种模拟人或动物智能解决各种问题的技术[4]。“强人工智能”一词由约翰·希尔勒(John Searle)首创,他认为计算机不仅仅是用来研究人的思维的一种工具,相反,只要运行适当的程序,计算机本身就是有思维的[5]。这也成了研究者对强人工智能定义的准则,即强人工智能拥有自主意识,能做出自主行为。超级人工智能(ASI) ,指远远超过人类智慧的人工智能,是强人工智能充分发展的下一个阶段,其技术特征表现为具备强大的自我学习、自我净化、自我循环和自我修复的能力,可能完全摆脱人类的影子[6]。综上,弱人工智能相较于其他两种人工智能适用范围更窄,而超人工智能对比强人工智能的智能程度更高。弱人工智能建立在算法基础上,但算法本身不能建立强人工智能[7]。强人工智能所需求的自主意识并不会从算法中产生,以至于现今并无任何强人工智能的实例出现。所谓“强”,指超越工具型智能而达到第一人称主体世界内容的涌现,还包括意向性、命题态度,乃至自由意志的发生[8],并不仅仅局限于智能程度的强弱之分。
目前,人工智能正以惊人的速度向“合成智能”与“人造劳动者”两大领域推进[9]。但新一代人工智能的发展速度并没有我们想象的那么快,人工智能技术的实现,需要硬件、软件和数据的三足鼎立[10]。而现今计算机的计算能力与图灵时代相比并无本质上的进步,人工智能的训练也面临着数据筛选、数据标签等难题。也许机器永远不会具有人类智能,因此,在可预见的未来不会出现超越或控制人类的机器[11]。
3.人工智能的法律解释
《今日简史》中尤瓦尔·赫拉利曾断言:“到21世纪,数据的重要性又会超过土地和机器,等到太多数据集中到少数人手中,人类会分裂成不同的主体。”[12]59显然,人工智能的广泛运用正在验证着该判断,相关法律问题也随之涌现。但对于人工智能界定上的争论,使得何为人工智能在计算机领域仍是一个未知问题,更有一些研究者认为人工智能自身就是一个伪命题。从法律意义上看,笔者认为用行为主义观点来解释人工智能较为合适,理由如下。
首先,符号主义和联结主义的矛盾点不仅仅是计算机领域的难题,还是生物领域的难题。在生物学界解开智能行为是否是一种符号或者符号操作的问题前,这将是一个永远的谜。绕开这个问题,从其他角度分析与定义什么是人工智能才是应对当下问题的方法。
其次,由联结主义理论为基础所诞生的人工神经网络算法有着举足轻重的地位,但是并非不可被其他算法所替代。弱人工智能时代,人工智能仅能在某一个领域得到实现。在不同领域实现人工智能,不同的算法有着自身的优劣,人工神经网络算法相对于其他算法并非绝对的选择。即使2006年提出的多层神经网络模型为人工智能的发展有着巨大的贡献,也不可忽视由其他理论衍生出的算法在人工智能应用中所起的作用,因此,使用联结主义的观点来定义人工智能并不全面。
最后,法学研究应依附于现有技术环境,即当下为弱人工智能技术,行为主义符合现实表现。有学者将现在的人工智能称作是弱人工智能,以区分如不二雄笔下的猫型机器人哆啦A梦那样拥有感情和自主意识的强人工智能[4]。现在的人工智能领域还没有出现关于强人工智能的应用,同时该领域极可能长期处于弱人工智能阶段(1)从计算机发展过程看,现在计算机的计算能力和图灵时代的计算机并无本质区别,计算能力差距不大。即使到了今天,看似万能的计算机也无法产生一个大素数或是产生一个随机数。。所以,着眼当下,采取行为主义来定义人工智能是合理的。
法学学者在研究何为人工智能时,不仅要关注其本质,更要注意其应用的社会环境,特别是在其概念还存在巨大争议时。在Alpha Go接连战胜柯洁、李世石这样的围棋大师时,人们会因为Alpha Go根据感知到的棋面局势而做出了高明的布局,将其称为人工智能,却不会关心其智能行为是通过符号模拟或是计算机仿生神经网络结构来实现的;在微软小冰写出一首优美的现代诗时[13],人们会因为小冰感知到了外部的画面而写出相关诗句将其叫作人工智能,却不会在意人与计算机是否都是一个物理符号系统。在这样的社会环境下,被称作“人工智能”的事物,往往都属于先感知再动作的模式,以行为主义来定义当下社会认为的人工智能较为合适。社会决定法律,由社会上对人工智能的理解来影响其在法学中的概念,是比较合理的。
综上,本文所称人工智能,更倾向于行为主义观点,是指自身通过感知外部,进而做出相应智能行为并能不断自我学习、自我改进的计算机程序。
(二)人工智能生成数据的概念与特点
1.对人工智能生成结果的不同称谓
对于人工智能生成的结果,目前学界的称谓主要有:生成物、生成内容、生成作品、生成成果和人工智能智力成果。
“生成物”是比照民法“有体物”这一物权客体的类比性说法,一方面,较为形象和熟悉地显示出人工智能生成结果在法律上与“物”相似的客体地位;另一方面,可以引导大家参照“物权”等既有制度的思维去探寻其保护规则。因此,该种说法较为亲切,易于理解,但其缺陷在于对人工智能生成结果不同于民法上“物”的“非物质性”的关注不足,未落脚在二者的差异性上,不利于区分二者进而揭示各自的本质内涵与独有特点。
“生成内容”避免了“生成物”的不足,但在著作权保护的“思想与表达相区分”的二元划分中,“内容”这一表述容易与“思想”混淆,同时,人工智能生成结果的法律保护未必都限于内容层面,其形式也值得法律保护。
“生成作品”的表述已事先承认人工智能生成结果构成作品,主观立场非常明确,虽然避开了生成结果是否可以构成作品的争论,但是一方面对不构成作品的生成结果无法涵盖,另一方面欠缺中立、客观的态度。
“生成成果”的表述带有知识产权法“智力成果”说法的烙痕,避开了“物”与“非物质”范畴的对立,但何为“成果”,对此进行静态界定与动态认定又具有主观性,致使该表述不能涵盖人工智能生成的所有结果。
“人工智能智力成果”的观点认为,人工智能的智力成果已经发展到与人类创作的作品无异,不能因为产生作品的主体具有特殊性而否决作品本质,以“孤儿作品”制度、“视为作者”原则安排人工智能作品的著作权的归属是不错的选择[14]。该称谓将人工智能生成结果完全纳入人类的智力成果范畴,忽略“智能”与“智力”的区别,未区分人工智能与人类智力在著作权法的不同意义,故有待商榷。
上述表述与称谓的产生,与目前学术界主要在著作权范围探讨人工智能生成结果的保护有关。事实上,人工智能生成的结果,从客观中立的角度看,可以称为“数据”,我们完全可以跳出“著作权”的窠臼,从整个法律体系中寻求其保护模式。为求客观,本文对人工智能生成的结果叫作“人工智能生成数据”,以下简称“生成数据”(援引的相关资料中的原有称谓在原语境下予以保留和沿用)。
2.人工智能生成数据的内涵
人工智能生成数据是由计算机通过人工智能技术生成的记录知识在内的各种信息的非物质形式的数据。其特点有:(1)非物质性。这是生成数据不同于传统民法中“物”的特点,它是一种数据形式的、对于信息的记录,可以表现为符号、代码、文字、图形等,但不属于物理实在的世界,而属于思维认知的抽象范畴。(2)内容载体复合性。对于信息和知识而言,数据是一种载体,是对知识与信息等内容的一种记录。但同时,数据本身也是一种内容,可以直接成为保护客体,尤其是当用以记录信息的是文字、图形等可被人类直接认知和理解的形式时,数据就是信息本身。(3)可复制传播性或可再现传播性。数据属于非物质的信息记录,可再现于不同的其他载体上,包括纸张等有形载体与网络等无形载体。数据本身一旦确定,在“质”上就只是同一客体,不会因为再现而变成多个。但是,数据可因其载体的复制而不断再现,从而被传播开去。因此,其可复制传播性不是指其本身被复制为多个不同的“质”,而是指其载体具有可复制性,使其得以再现而具有传播性,这是不为物权的“物”所具备的特点。(4)生成过程的智能性。知识产权保护的客体——知识财产,同时具备生成数据的前三个特点,但在生成过程中,属于人类心智产生的“智力成果”,不是机器或计算机程序的“智能成果”。而在人工智能生成数据的过程中,对被“投喂”的基础数据的感知与解析必不可少,这正是人工智能生成中智能行为的体现。没有感知和解析的计算机或计算机软件,人工智能就不具备面对不同场景、做出不同行为的能力,其生成结果就只是机械化产物,和人工智能无关。由于生成数据来源于人工智能的智能化生成过程,因而具有“智能性”,但不是“智力性”,更谈不上人类生成中源于思想伦理的“理性”“感性”与“灵性”。
二、人工智能生成数据法律保护的观点与判例评析
从上述特点看,生成数据与“物”截然不同,而与知识财产的分野首先在于是具有“智力性”还是“智能性”。这决定其法律保护不能简单套用既有的物权与知识产权保护模式。但是,目前对于人工智能生成数据法律保护的探讨,学术界与司法判例都主要围绕著作权保护展开。对此进行梳理分析,有利于探寻新的模式。
(一)学术观点评述
对人工智能生成数据的法律保护,学界的研究讨论主要集中在著作权保护领域。有学者认为其研究脉络分为两个阶段[15]28:第一阶段主要讨论强人工智能技术背景下人工智能生成数据是否构成作品及相应的权利保护模式选择[16],具体有特殊作品制度保护模式(2)即参照适用法人作品、职务作品、雇佣作品等制度保护人工智能生成物,并由人工智能相关权益主体享有著作权。(参见吴汉东:《人工智能时代的制度安排与法律规制》,《法律科学》(西北政法大学学报)2017年第5期,第128-136页)、一般作品制度保护模式(3)将人工智能的所有权人、使用者等主体拟制为作者,并根据著作权法作品的一般规则进行保护。(参见孙山:《人工智能生成内容的著作权法规制——基于对核心概念分析的证成》,《浙江学刊》2018年第2期,第113-120页)、邻接权保护模式(4)否定人工智能生成物的作品属性并主张采用邻接权制度提供保护。(参见陶乾:《论著作权法对人工智能生成成果的保护——作为邻接权的数据处理者权之证立》,《法学》2018年第4期,第3-15页;许明月、谭玲:《论人工智能创作物的邻接权保护——理论证成与制度安排》,《比较法研究》2018年第6期,第42-54页;何培育、蒋启蒙:《人工智能生成物的著作权保护路径探析——兼评人工智能生成物著作权第一案》,《重庆邮电大学学报(社会科学版)》2020年第4期,第33页)、特殊著作权制度保护模式(5)比较研究欧盟数据库保护制度、英国计算机生成作品制度以对人工智能生成物保护问题提供借鉴与启示。(参见李俊:《论人工智能生成内容的著作权法保护》,《甘肃政法学院学报》2019年第4期,第77-85页)、民法孳息保护模式(6)该说认为现行著作权法难以保护人工智能生成物,主张回归民法孳息理论认定生成物归属问题。(参见黄玉烨、司马航:《孳息视角下人工智能生成作品的权利归属》,《河南师范大学学报(哲学社会科学版)》2018年第4期,第23-29页;林秀芹、游凯杰:《版权制度应对人工智能创作物的路径选择——以民法孳息理论为视角》,《电子知识产权》2018年第6期,第13-19页)和不正当竞争法保护
模式(7)该学说认为,在人工智能生成物已投入市场经营、其相关权益主体与侵权人具有竞争关系时,可适用《反不正当竞争法》一般条款进行救济;对于非竞争关系的使用行为,人工智能生成物仍应当进入公有领域并成为社会的共同财富。(参见何培育、蒋启蒙:《人工智能生成物的著作权保护路径探析——兼评人工智能生成物著作权第一案》,《重庆邮电大学学报(社会科学版)》2020年第4期,第33-34页)六种。在人工智能生成数据著作权研究的第二阶段,学界开始对以强人工智能乃至超人工智能为技术背景而展开的法学研究现象提出了质疑,认为对以超前技术所假想的法学问题进行研究并无现实意义,人工智能的法学研究应当回归理性[15]29。代表学者有刘艳红[17]、李琛[18]、王迁[19]等。不正当竞争法保护模式则为兜底保护方式,在上述模式不能救济时,涉及竞争利益损害的可予以兜底保护,其余保护方式均存在一定的合理性,但也有尚值斟酌之处。
1.著作权保护模式的合理性与不足
著作权保护模式认为,人工智能生成数据构成特殊作品或一般作品而取得著作权,对其采取特殊著作权制度保护。该部分学者虽然在作品的性质特点上存在认识分歧,但其学术共识是“人工智能生成数据可以构成作品,具备作品‘独创性’和‘可复制性’的要件”,其前提是对著作权法上作品的构成要件采取客观要件说,这对于尊重人工智能相关主体的法律权益、保护人工智能产业发展,具有积极的促进效果,特别符合英美“版权”法律体系下注重经济利益的实用工具主义价值理念与追求。
但是,该种观点忽略了作品要件中的主观因素,对于“人的智力性”未加考量,并将其与人工智能的“智能性”等同而忽略其区别,因而遭到“作者权”或“著作权”体系学者的强烈反对,尤其在我国的这种现实立法体系下无法得到司法适用。人的智力性包含了人特有的思想性、情感性、灵性和思维等内涵,是人工智能无法替代的“人性”,因而,对于大陆法系国家“作者权”理念指导下的作品构成要件,是离不开主体要素的。如果对二者不加区别、一同纳入作品范畴,那么,人工智能快速、简易、规模化生成的大数据将极大地挤占人类作品的地位,从而在功利极大化的追求中,人类也将被机器所挤占。该点分歧,导致人工智能生成数据是否构成作品的赞成派与否定派形成水火不容的对立状态。
2.孳息保护模式的合理性与不足
人工智能生成数据的孳息保护模式属于传统民法物权保护范畴。该种观点将人工智能视作传统物的延伸或扩张,人工智能被其所有者主体“投喂”数据养料后产出的结果,类似于传统民法中麦苗结出的麦穗、母猪生下的小猪等孳息,进而可确定其归属。该种保护模式抛开“作品”的构成要件,跳出著作权的争议范畴,着眼于人工智能生成数据的财产价值,关注其权利归属,进而起到定分止争、促进秩序的作用。客观上讲,传统民法孳息与人工智能生成数据的产生过程具有较大的相似性,适用其规则确定其权利主体具有合理性和可操作性。但是,该种办法只是权宜之计,难以长远存在。因为该种观点忽略了人工智能生成数据与民法孳息中“原物”及其“孳息”在客体属性上的本质区别。传统孳息属于物权客体的实物财产范畴,不具有可复制性、可传播性、可共享性等特点,而生成数据具有不可独占、可复制传播分享利用、不发生物理损耗等特点,这使二者在定性、权益分配和保护上不适宜生搬硬套。同时,归属主体上,孳息归属于原物所有者,法律关系简单。但是,人工智能生成数据法律关系涉及设计者、投资者、所有者、使用者等不同主体,这些主体可以为同一主体,更多情形下却各不相同,这就不能简单适用孳息权利规则来解决其权利归属。
3.邻接权保护模式的合理性与不足
有学者认为,“人工智能创作物具有可版权性,可称为智能作品”,但主张其上所载的权利是“一种广义的邻接权,因为这项权利应该是为了保护投资利益而存在的,因此,权利属于人工智能的所有者或者使用者”[20]。还有学者主张,“人工智能生成成果既包括满足独创性标准的内容,也包括不具有独创性的内容。对人工智能生成成果统一予以邻接权保护,乃基于其是否有财产价值,而非基于其是否有独创性”[21]。另有学者主张,“邻接权保护则有助于缓解人工智能创作物保护与著作权原理的冲突,同时能合理配置人工智能创作的利益关系。投资、组织、控制人工智能创作的主体应为权利人”[22]。
邻接权制度与人工智能生成数据的法律保护在价值上存在契合。但是,邻接权是与著作权相邻接的权利,其存在需以相关的著作权为前提,适用邻接权制度对具有可版权性的作品进行保护明显与著作权法理相悖。如果针对有独创性的生成数据设立邻接权,那么,该“独创性”应该到达何种程度?而“独创性”的要求是否与邻接权本质相符?一方面,既然承认人工智能生成数据具有可版权性、构成智能作品,就应当对其设立著作权,而不是邻接权,否则就不应当承认其构成作品。正如我国现有邻接权保护的表演者的表演结果、音像制作者的制作结果、广播组织的广播信号和出版者的版式设计结果只是作品传播结果,不构成作品。另一方面,如果对不具有独创性的数据也设立邻接权,那和独创性结果的邻接权有何区别呢?对此,该学说中不甚明了。
邻接权思路下,人工智能应被归入作品,其上存在人工智能著作权,同时,人工智能被“投喂”的基础数据也可能有著作权,人工智能生成数据如果是邻接权客体,应该是与这些著作权相关联的邻接权。这样,生成数据的邻接权人就是对人工智能和“投喂”的基础数据作品的传播者,而不应当是人工智能所有者。如果人工智能与基础数据不构成作品,那么运用该两者生成的结果,还构成“与作品或著作权相关的结果”吗?如果不构成,邻接权又如何谈起呢?可见,“广义邻接权”的观点存在自相矛盾之处,突破了著作权与邻接权的基本界限,消解了著作权客体与邻接权客体的应有区别,不能完全解释生成数据面临的理论问题。
(二)我国有关人工智能生成数据的司法判例评析
1.案情简介
2018年9月9日,北京菲林律师事务所(以下简称菲林律所)通过微信公众号发表了一篇涉及人工智能程序生成的文章。次日,北京百度网讯科技有限公司(以下简称百度公司)在其经营的百家号平台里转载该文,该公司提供的被诉侵权文章“删除了原告为整个系列作品创作的引言、检索概况,电影行业案件数量年度趋势图和结尾的‘注’部分”(8)参见北京互联网法院民事判决书(2018)京0491民初239号。,其他内容与原告涉案文章相同。菲林律所一纸诉状将百度公司告上法庭,认为百度公司侵犯其著作权。百度公司则以涉案文章为统计数据分析软件生成,不属于《著作权法》保护范围为由进行抗辩[23]。此案在2019年5月一审宣判,法院判决认为涉案文章中文字内容属于原告主持创作的法人文字作品,也对其中由人工智能技术自动生成的图形等内容做出“不属于图形作品”的认定。至此,近年来在国内外已经引发数次争议的人工智能生成数据著作权保护问题又一次成为话题。该案被称为国内人工智能生成结果著作权纠纷的第一案(以下简称“菲林案”)。
随后,2019年12月判决的腾讯公司诉上海盈讯科技有限公司抄袭其所有的利用Dreamwriter软件撰写文章一案,被媒体认为是“全国首例认定人工智能生成的文章构成作品”案件[24](以下简称“Dreamwriter案”)(9)参见广东省深圳市南山区人民法院民事判决书(2019)粤0305民初14010号。。但是从专业角度看,该媒体的表达会引起重大误会和混乱。原告腾讯公司主张Dreamwriter计算机软件系由原告关联企业腾讯科技(北京)有限公司自主开发的一套基于数据和算法的智能写作辅助系统。涉案文章系由原告主持,创作团队代表原告意志创作,并由原告承担责任的作品,其作者应为原告,其著作权归原告。法院从涉案文章的外在表现形式与生成过程进行分析,认定Dreamwriter只是原告的写作“助手”,认定该文章由Dreamwriter软件在技术上“生成”的创作过程满足《著作权法》对文字作品的保护条件,涉案文章属于我国《著作权法》所保护的文字作品。因为涉案文章的特定表现形式源于创作者个性化的选择与安排,是原告主持下,由包含编辑团队、产品团队、技术开发团队在内的主创团队运用Dreamwriter软件完成,系原告主持创作的法人作品②。
2.判决分析
(1)“软件自动生成不构成创作”的验证方法
菲林案中,原告涉案文章内容包含图形与文字内容,图形部分属于威科先行库自动生成的大数据分析报告的一部分,是原告基于收集的数据,利用威科先行库软件自动生成,虽然会因数据变化呈现出不同的形状,但该不同是基于数据差异,而非创作产生。法院判决该图形不符合图形作品的独创性要求,其验证方法与理由是:相同的基础数据+不同使用者+相同软件=相同图形;常规图形类别展示的数据+不同使用者+不同软件=相同表达。
对于涉案文章的文字部分,法院认为并非威科先行库“可视化”功能自动生成,因而具有独创性,是原告独立创作完成,构成文字作品。法院验证方法与理由是:组织双方当事人对威科先行库“可视化”功能进行勘验,由被告提供相应搜索关键词,依次自动生成大数据报告1、2,然后同涉案文章进行比对,发现二者文字内容及表达完全不同。
(2)“写作助手”的认定因素:时间过程+独创性融入(个性化选择与安排)
Dreamwriter案中,法院从涉案文章的外在表现形式与生成过程来分析,认定Dreamwriter只是原告的写作“助手”,认定该文章由Dreamwriter软件在技术上“生成”的创作过程满足《著作权法》对文字作品的保护条件,涉案文章属于我国《著作权法》所保护的文字作品。因为涉案文章的特定表现形式源于创作者个性化的选择与安排,是原告主持下,由包含编辑团队、产品团队、技术开发团队在内的主创团队运用Dreamwriter软件完成,系原告主持创作的法人作品(10)参见广东省深圳市南山区人民法院民事判决书(2019)粤0305民初14010号。。由此得出法院逻辑:涉案文章不是完全由人工智能生成的文章,人工智能只是原告的工具助手,该文章的真正作者不是人工智能而是原告,因此,在满足独创性等条件下,该文章可以构成作品。但是,媒体用语《首例!法院认定人工智能生成的文章构成作品》[24]会对该案造成两个专业误解:一是人工智能Dreamwriter可以独立创作,生成文章;二是Dreamwriter独立生成的文章可以构成作品,进而人工智能可以成为作者。这两点在既有的主流学术理论和现行实施的法律框架中都不成立。
AI自动生成(撰写)与自然人创作是否是一回事,成为两个案例判决认定的关键前提。菲林案中,在对涉案文章是否属于作品进行认定之前,法院对由威科先行库自动生成的分析报告的性质与权益归属等问题进行了分析判断,认为该报告系威科先行库利用输入的关键词与算法、规则和模板结合形成,即使报告具有独创性,但因其不是自然人创作完成,所以,仍不是著作权法意义上的作品,依然不能认定威科先行库是作者并享有《著作权法》规定的相关权利。该认定明确了以下几点:第一,主体上,作品的作者只能是自然人,不能是没有自然人介入的纯粹的人工智能;第二,行为上,“利用输入的关键词与算法、规则和模板结合形成”的生成过程不属于自然人的创作行为,对其结果谈不上作品范畴;第三,结果上,如果“利用输入的关键词与算法、规则和模板结合形成”的生成过程是指人工智能完全的自动生成过程,其生成数据在客观上就可以表现出“独创性”。
受菲林律所案的影响,Dreamwriter案中,原告腾讯公司即使在涉案文章末尾注明“本文由腾讯机器人Dreamwriter自动撰写”,但在诉讼中极力主张Dreamwriter软件为智能写作辅助系统,以避免得到涉案文章不属于作品的判决结果,避免法院仅将Dreamwriter软件自动运行的过程视为创作过程,从而因计算机软件不能成为作者而否定涉案文章的作品属性。本案中,原告主创团队在数据输入、触发条件设定、模板和语料风格的取舍上的安排与选择属于与涉案文章的特定表现形式之间具有直接联系的智力活动。此处,该案法官超越菲林案仅限于“利用输入的关键词与算法、规则和模板结合形成”的表象认定,从“自动生成”的几分钟时间,进一步深入溯源到“数据输入、触发条件设定、模板和语料风格的取舍上的安排与选择”的全过程,去探求自然人的“独创性融入”。
从整个生成过程来看,Dreamwriter软件自动生成涉案文章的、确实没有人参与的这两分钟时间,是否构成创作过程?法院认为,这仅仅是计算机软件运行既定的规则、算法和模板的结果,且Dreamwriter软件的自动运行并非无缘无故或具有自我意识,其自动运行的方式体现了原告的选择,也是由Dreamwriter软件这一技术本身的特性所决定(11)参见广东省深圳市南山区人民法院民事判决书(2019)粤0305民初14010号。。判决明确表明:软件不是创作主体,只是创作工具;软件自动生成的时间不是创作的全部时间,而只是最后时间,创作更多在于团队人员的选择、编辑等过程。可见,该案判决逻辑依然是原有逻辑,将利用机器人、运行机器人完成的作品,认定为传统创作范畴,只是形式上加入了机器人的参加,这样避开了“机器人完全自动创作的作品”这个话题带来的争议。
(3)菲林案判决中悬而未决的问题:不构成作品但仍有权益
可以认为,菲林案与Dreamwriter案的判决逻辑完全相同,但是对“自动生成”的“创作性”与过程中自然人“独创性融入”的事实分析差别较大,将后者的判决分析运用到菲林案,似乎仍有变数。尽管如此,菲林案中,明确的“不构成作品的部分作为人工智能生成数据”仍受到法律保护的结论存在非常现实的启发意义。
关于菲林案,法院指出,不构成作品部分的人工智能生成数据,虽然不受著作权保护,但这不意味着该分析报告进入公有领域而可以被公众自由使用。因为分析报告的产生凝结了软件研发者(所有者)和软件使用者的投入,具备传播价值,应赋予投入者一定的权益保护,以促进其传播和发挥效益。法官进一步认为,为激励软件使用者的使用和传播行为,应将分析报告的相关权益赋予其享有,同时,软件使用者不能以作者身份在分析报告上署名,但是,可以采用合理方式表明其享有相关权益,并从保护公众知情权、维护社会诚实信用和有利于文化传播的角度出发,在分析报告中添加生成软件的标识以标明系软件自动生成。
一方面,菲林案法官认定完全由人工智能生成的数据不构成作品,不受著作权保护;另一方面认为该生成数据凝结有劳动价值,相关权益应受法律保护。但是,判决中并没有明确该权益的称谓,笔者将其叫作数据权益,特指与个人信息不相关的、不具有人类创造性但凝聚有劳动价值的数据所具有的、应受法律保护的权益,属于我国《侵权责任法》第2条规定的“财产权益”和《民法典》第3条规定的“其他合法权益”(12)《侵权责任法》第2条规定:侵害民事权益,应当依照本法承担侵权责任。本法所称民事权益,包括生命权、健康权、姓名权、名誉权、荣誉权、肖像权、隐私权、婚姻自主权、监护权、所有权、用益物权、担保物权、著作权、专利权、商标专用权、发现权、股权、继承权等人身、财产权益。《民法典》对该条有所改动,其第3条规定:民事主体的人身权利、财产权利以及其他合法权益受法律保护,任何组织或者个人不得侵犯。。对该权益,菲林案法官论述其价值在于传播,指出其权益主体是“投入者”,包括软件研发者(所有者)和软件使用者,且权益主体不具有“作者署名权”,但可添加“软件自动生成标识”。这里,与其说添加“软件自动生成标识”是数据权益主体的权利,不如说是其义务,因为其目的是保护公众知情权、维护社会诚实信用和有利于文化传播。而对投入者如何以合理方式表明其享有的相关权益,法官除了反面排除其“作者署名权”之外,并没有正面指出具体方式,不利于数据传播中对权益主体的识别和尊重。因此,笔者认为,对于这些数据,权益主体不能自诩为作者,但可以有“权益主体署名权”,比如标明“本数据由人工智能某某自动生成,权益主体是某某某”等。
3.小 结
上述两案是近年来我国人工智能生成数据著作权保护争议的代表案例,在人工智能观念已被普及的年代受到了极大关注。两案判决都坚守主客观统一的作品构成要件和以自然人为创作主体的红线。但在数据生成过程中,如何区分人类的介入与完全的自动生成,两案的不同分析成为其判决的不同基础。菲林案中论述的软件自动生成是否构成创作的验证方法与Dreamwriter案以“时间过程+独创性融入(个性化选择与安排)”来考量人工智能是否属于“写作助手”的思路,在理论与现实层面都具有极强的启示价值,二者的结合运用,对于认定人工智能生成行为的“创作性”将具有更强的说服力。
菲林案中,法官根据我国现行法律对案件中的人工智能生成数据做出不属于作品的认定,又对分析报告不可被公众自由使用、软件使用者可以采用合理的方式表明其享有的相关权益等进行了细致的分析(13)参见北京互联网法院民事判决书(2018)京0491民初239号。。但是遗憾的是,由于诉求的限制,对于被告仅对涉案文章中自动生成、不构成作品的分析报告进行转载的行为,判决中没有进一步明确其性质和法律后果,其中原告的权益性质与内容也不甚清晰。当然,法院在认定人工智能生成的该分析报告不成为作品后,对其应受到的保护论述并不是必须进行论述,这段分析更像是法院在面对有价值之物、认为应受到保护却又无法可依时,做的一次积极大胆的尝试。
就目前的弱人工智能阶段,学者探讨中所谓的人工智能自动生成,主要指完全没有人介入或不应归功于人的行为的生成过程。Dreamwriter案将人工智能“生成时间”从其算法单纯运算出结果的短时间上溯到“数据输入、触发条件设定、模板和语料风格的取舍上的安排与选择”的先行过程,并强调该过程中人类的创意融入,最后契合现有法律规定而得出判决。按这种分析与解释方法,目前弱人工智能阶段出现的所谓“自动生成”都可以纳入人类创作的辅助或工具行为,也就没有太多讨论价值与悬念所在。
两案对“自动生成”行为的不同分析与认识并不会对两案的判决结果造成不同影响,法院依然运用现有的法律依据进行了判决。目前,这样的操作方式可以自圆其说、解决个案中的问题。但是,除了菲林案中明确人工智能自动生成的分析报告具有价值、应受保护、但不属于作者框架下的“作品”之外,学界探讨的其他问题并没有得到司法回应,人工智能完全自动的“独创生成”与人工智能仅作为工具辅助作者生成之间的界限和区别不仅没有被强化和合理突出,仍处于含糊状态,而且“自动生成”的使用语境不统一、含义较模糊。此外, AI生成数据的分类还需进一步明确,客观上不具“独创性”数据的权益属性与保护需要探索。所以,目前就人工智能生成数据的著作权法保护问题,该判例只是当下无法可依时的权宜之计,而非长久的根本之计。
(三)人工智能生成数据法律保护的困境与原因
综上,对于人工智能完全自动生成或人为介入极少情况下生成的数据,学界基本达成的共识是:具有财产价值,应当提供法律保护。但是在保护路径上,认识极不统一,甚至存在对立观点,表现出保护不畅的困境,其原因如下。
1.对人工智能生成数据的认识与研究不足
既有的讨论中,人工智能生成数据被局限于客观上具有独创性的一小部分外延,进而纠缠于人类作者主体要不要被人工智能突破的理论与立法上,而对生成数据中不具有独创性但依然具有人格或财产价值的其他数据鲜有关注。事实上,在客观形式上与既有作品比对,人工智能生成数据既可能有独创性,也可能没有独创性,但都凝聚着相关劳动,具有财产价值。如果涉及个人信息,该生成数据则还承载着人格价值;如果涉及国家与社会利益,则还事关国家主权、国家安全与社会公共利益等价值。如果不跳出“作品”与“作者”的范畴而站在更高层面看待,则该生成数据的法律保护将是极其狭窄和偏颇的。
2.数据财产的立法保护过于滞后
人工智能生成数据中,涉及个人信息的,需要遵守个人信息法律规定。本文关注的是与个人信息无关、具有财产价值、意在传播利用以发挥效用的数据。人工智能不论是自动生成,还是被作为工具与人结合生成的结果数据,在客观上可简单分为有独创性与无独创性两类。从两判例来看,通过分析解释可知,对有独创性的数据,目前不存在真正的“自动生成”,而是人类的创作行为,因而均可纳入人工智能开发者或使用者的著作权范畴加以保护。对不具有独创性的数据,比如菲林案中的分析报告,应正视其财产价值而纳入数据财产范畴,并确立其新型的财产客体地位。至于对该财产如何保护,是赋予绝对权还是用益权等,对此,目前我国立法过于滞后,《民法典》第127条规范了数据和网络虚拟财产的名称,但对于应否保护和如何保护未置可否,而是链接到其他法律规定,并表态尊重其规定(14)该条内容为:“法律对数据、网络虚拟财产的保护有规定的,依照其规定。”。 对此,学术、立法和司法三界尚需深入细致加以研讨。
3.人工智能产业发展的价值取向与生成数据法律保护的宗旨尚需契合
人工智能生成数据的法律保护涉及产业发展利益与个人利益的冲突与平衡。因此,生成数据法律保护的宗旨应当是促进二者平衡,而不是牺牲一方成全另一方。人工智能产业发展的价值取向,除了社会与个人的经济效益以外,还应考虑社会责任与社会效益,是否有利于人类社会的公正秩序与善良风俗等。从私主体权益角度,对生成数据要加以保护,确保投资方和劳动方获得应有回报与收益;从产业发展角度,数据成为市场要素,对人工智能产业来说更是基础的基础。因此,为了让更多数据能被社会公众自由获取以推动产业发展,对生成数据私权益的保护应有所限制。目前,在数据自由和权益保护之间,尚未找到较好的平衡路径。
三、人工智能生成数据法律保护的多元分层模式之构建
根据生成过程中人的介入程度,笔者将人工智能生成数据分为辅助生成数据和自动生成数据。辅助生成数据是指人工智能作为工具,辅助人类创作生成的数据,如菲林案生成报告中构成作品的文字部分与Dreamwriter案中的涉案文章,该类数据归入人类作品,由著作权加以保护。自动生成数据特指人类没有介入或介入极少且无实质性影响而由人工智能自动生成的数据,菲林案生成报告中不具有创造性的图形部分即是此种数据。但现实中,该类自动生成数据在客观表现形式上还可能具有创造性,该部分数据的保护在前述两个判例中没有得到讨论和分析。
(一)“独创性”自动生成数据:“数据生成者权”的新型邻接权保护
有独创性、但非人类创作的人工智能自动生成数据,在思想、情感、灵性等方面区别于作品,为尊重和维护人类在创作中的独有地位、维持现有著作权主体体系,故不宜把该类数据纳入作品范畴。在人工智能成为知识产权客体的前提下,人工智能的生成数据成为与该知识财产相关的权益,类似于作品的表演结果、音像制作结果、广播信号或版式设计等,可把该类数据纳入邻接权保护,理由如下。
第一,邻接权保护符合人工智能生成数据保护的宗旨。一方面,邻接权保护能够体现和尊重生成数据的这种“创造性”。人工智能生成数据的过程,本质上是一种数据信息的传播过程,只是相对于非智能的机械传播,具有能动性,这与邻接权保护的表演行为、广播行为、音像制作行为、版式设计行为等非常相似,是具有一定创造性的能动传播行为。另一方面,邻接权主要是保护传播过程中的利益,这与保护人工智能生成数据意在促进数据信息的传播利用而非强调其归属的宗旨相符。
第二,人工智能生成数据权利主体难以确定,与邻接权产生的原因吻合。人工智能的开发者、所有者、操作者和人工智能生成中所使用的基础数据权利人,都可能卷入生成数据权利归属的争夺中。邻接权解决了知识财产传播中权利主体难确定、投资者利益需保护的问题。
第三,邻接权保护所要求的创造性较低、保护期限一般比较短,契合人工智能生成数据的批量性、规模性、快速生成又快速更新等现实需求,有利于促进人工智能产业的发展。
但是,“数据生成者权”与邻接权也有所不同,应属于原有邻接权标准下出现的新型邻接权。首先,认识上,将自动生成行为归入智能性传播行为,这相当于传统邻接权中能动的表演、音像制作、广播和版式设计等作品传播行为,虽达不到作品创作的独创性要求,但又具有一定的创造性。同时,自动生成行为的智能性不是简单的“再现传播”,与传统传播行为有较大区别,即传播前后信息内容的差异,远大于表演、音像制作、广播和出版等传播行为的前后比对。但是,不能因此种区别而将其上升为与人类创作并肩而立的“独创行为”,这有利于维护人工智能生成数据与人类智力作品的基本分野,在确保人类主体地位不动摇的基本前提下,可以兼顾人工智能生成数据得到法律保护。其次,将人工智能看做由智能系统软件作品、基础数据和作为硬件的实物财产三者集成的人工智能知识产品,利用该产品生成数据成果的过程,属于新型的智能化传播行为,该过程的控制者作为传播者,具有独创性生成数据的邻接权,意在保护该传播中的投资利益与传播行为,激励和促进对人工智能系统和基础数据价值的利用和传播。该邻接权可叫作数据生成者权,这里用“生成”而不用“处理”或“传播”,以限制权利客体仅为“生成数据”,突出其智能独创性,避免扩大到一般的处理或传播中的非智能、非独创的结果,以维护邻接权的应有之义。最后,智能化传播过程的控制者作为该邻接权的权利主体,可以是人工智能投资者、所有者、使用者或其他依法律关系确定的控制者。该权利归属由当事人约定优先,没有约定或约定不明确的,就推定为智能化传播(自动生成)行为的实际控制者所有。
(二)不具“独创性”的辅助与自动生成数据:数据财产权保护
在人工智能生成的正循环链条中,数据喂养和数据产出成为基本的环节和预期,新的生成数据越多,自身可学习的数据量也就越多,后续相应的生成数据也会更多更好。但是,这一切都有赖于对数据控制权的法律设计,这对将来的社会决策和法律制度建设有着重要影响。
正如“菲林案”所认定的分析报告中的图形部分,人工智能生成的不具有“独创性”的数据,凝结有劳动,具有财产价值,应当予以保护。“在新技术和新兴商业模式的加持下,数据得以被纳入资本运作,具备了作为数据产业的基本生产要素,也因此具备了成为权利对象的潜质。数据在这一过程中发挥的作用与知识作为资本要素构建知识产权制度的轨迹如此相似,在法律对调整社会资源的各种制度措施中,财产权仍是最为有效的激励方式之一。”[12]48因为“客体价值增加,社会趋向于在相关客体上界定财产权,将利用客体的成本与收益内部化,激励权利人发挥权利客体的最大效用”[25]。“没有被精确界定的财产权会增加法律上的不确定性,进而增加交易成本,阻碍创新。”[26]“明晰的财产权配置在某种程度上被认为是使交易有效率的唯一条件。”[27]事实上,人工智能生成数据因为具有经济价值,已成为事实上可交易的财产权客体,这是符合各方利益的商业化的自然选择。
人工智能运用下,辅助生成和自动生成的不具有“独创性”的数据,都可以适用于数据财产权保护。但是,该类数据由于可替代性较强,就像普通农产品或批量加工所得动产一样,不用担心其被垄断而阻碍市场发展,因此,可比照物权对其设立绝对的数据财产权,不设期限限制,在市场中实现优胜劣汰,自然会促进产业竞争和发展。由于该客体属于新的财产形态,具有易复制、无损耗、变动不稳、快速集成、规模化、更新快、时效短、价值多元、不同阶段保护需求不同等特殊性,数据财产权利人可借技术措施实现控制和支配,采取数据产品与数据服务等多种方式行使权利、获取收益。对数据财产权的权能与行使,以绝对权或债权定位,或混合存在,可以借鉴但不能照搬知识产权、物权与一般债权内容,需要进行不同的探寻和设计。
(三)兜底保护:反不正当竞争法保护
有学者认为,“就目前的社会条件而言,设定排他财产权的经济、社会与技术条件似乎都尚未具备,在情况尚未明朗之前,保持谦抑立法态度不失为一种明智之选。赋权的目的是激励生产,激励的方式却不限于财产化模式”[12]57。大数据与人工智能时代,权益保护的制度设计不应局限于单项选择,在承认数据财产属性的前提下,权益的财产化保护和劳动财产观固然不可忽视,但是多元的数据财产分配模式与保护模式更值得探索,因为其新的属性特点和诉求已经不能依靠原有制度下的削足适履加以解决。
“在数据保护领域,欧盟和美国分别是财产模式和竞争法模式的典型代表。”[12]57对此,我国都有所借鉴。在知识产权保护中,尤其是在我国知识产权立法不断完善的过程中,反不正当竞争法一直起着非常重要且不可缺失的兜底作用。同理,在数据财产权利化法律保护规范尚付阙如的阶段,对人工智能生成数据的保护,反不正当竞争法的保护模式也将不可替代地发挥其作用。“竞争法模式在调控一些特殊客体,尤其是调整一些尚未上升为权利的法益时,也有其独特的益处。在权利与利益二分的视角下,数据财产究竟可以构成权利抑或仅为法益,也成了为其选取不同制度的重要依据。”(15)有学者指出,目前研究中未区分个人数据或企业数据是权利还是受法律保护的利益,直接将数据定性为权利的做法并不可取。(参见李晓宇:《权利与利益区分视点下数据权益的类型化保护》,《知识产权》2019年第3期,第51页)竞争法保护模式中,不用去纠结数据财产上成立的是权利还是利益,只要其有财产价值,在竞争领域就可以得到反不正当竞争法的保护。通过判断具体商业竞争行为的性质和程度,聚焦当事人资本投入中所获得的合理收益及其具体商业竞争行为的影响,使经营者和消费者的合法权益得以保护,从而维护正当的商业竞争秩序,促进产业的发展。