数据资源的类型化赋权

2023-09-26黄武双邱思宇

吉首大学学报（社会科学版） 2023年5期

黄武双,邱思宇

(华东政法大学知识产权学院,上海 200042)

一、问题的提出

在20世纪末,计算机、互联网的诞生和普及大大提升了人类对于“信息”“数据”的控制和利用能力,成为人类社会从工业化时代向信息化时代转变的重要节点。21世纪来临后,在人类的生产生活中,信息和数据起到了更加重要的作用。在工业领域,信息化和数字化进一步提高了工业的生产效率,数字机床和自动化程序控制使得工业生产不再受限于熟练工人的经验操作。在文化领域,信息化和数字化则大大提升了文化作品的传播范围和交流方式,网站博客、自媒体平台和短视频的传播效率和内容丰富度,一方面远高于传统的印刷出版和电视广播,另一方面也为读者提供更强的交互性,实现了用户在平台上的实时交流。由于信息化和数字化可以提升生产效率,其带来的好处显而易见,各方主体也对其积极拥簇,这进一步加快了其发展进程。在信息化时代,大量的信息以数据的形式被收集、整理、利用,产生了远超工业时代的海量数据。数据成为了这个时代最重要的战略资源,具有重要的生产价值。“谁掌握了数据,谁就掌握了信息化时代的财富密码”,甚至有学者早在2017年就预言“数据将会是新时代的‘石油’”[1]。

国家决策层早已意识到了信息化时代中数据资源的重要程度。数字化转型早已成为国家战略层面的要求,数字化转型工作已经在国家层面开始布局。“十四五”规划就提出“加快数字化发展、建设数字中国”[2],并明确了“以数字化转型整体驱动生产方式、生活方式和治理方式变革”的工作目标[2]。2020年5月,中共中央、国务院《关于新时代加快完善社会主义市场经济体制的意见》颁布实施。该文件进一步提出要完善数据权属界定、开放数据共享、数据交易流通等标准和措施,发挥数据资源价值[3]。2021年1月31日,在国务院公报第5号文件中,中共中央办公厅和国务院办公厅印发的《建设高标准市场体系行动方案》中提出,要“加快培育数据要素市场,建立数据资源产权、交易流通、跨境传输和安全等基础制度和标准规范,推动数据资源开发利用”[4]。2022年12月19日,中共中央、国务院《关于构建数据基础制度更好发挥数据要素作用的意见》(学界简称“数据二十条”)更是提出要探索构建“数据产权结构性分置制度……界定数据生产、流通、使用过程中参与方享有的合法权利”[5],推动对数据资源“共同使用、共享收益”[5]的新模式。在这一系列国家战略背景下,法律规则应该积极回应数字经济的需求和动力,顺应数字经济发展的客观规律,通过构建完善合理的数据权属规则,构造激励数据资源有序流通的健康市场,充分释放数据资源的潜在动能[6]。

实际上,是否将数据资源进行财产化赋权并非一个全新的议题。早在1999年,美国学者劳伦斯·莱斯格(Lawrence Lessig) 就在其著作《代码和网络中的其他法律》(Code and other Laws in Cyberspace)中对数据权利的具体内容进行了系统的论述[7]。莱斯格认为,数据具有成为财产的基础,出于功利主义目的,赋予数据以财产权可以提高数据的经济驱动力,以此扭转在传统法律思维下数据流通无法获得收益而导致出现妨碍、限制数据流通的僵化局面[8]。换言之,基于数据资源通过流通利用能带来更大效益这一特性,可通过赋予相关主体一定的数据权益,提升其收集、开发、利用数据资源的积极性,激活市场在数据资源流通中的作用,并最终提升数据资源的利用效率。但直到如今,对数据资源赋权的进展仍然非常缓慢,是否应该对数据赋权仍是一个激烈争论的问题。相当数量的反对者不同意将数据资源进行财产化权利设置。主要的反对观点并非没有道理:数据资源由于其天然的非排他性和共享性特征,其通常存在多个利用主体,同时由于不同个体的利益出发点往往存在差异,在同一个数据标的上存在不同的利益诉求是一种常态[9]。因此,若将数据资源进行财产化赋权,其权利赋予其中任何一个主体,都必然会导致这一主体获得相关数据资源的专有垄断地位,一方面导致妨碍其他主体对数据资源的正当性自由利用,另一方面也难以平衡不同数据主体之间的利益需求。因此,若简单设置数据资源所有权,无论赋予任何一方主体(企业、个人、政府),都与数据资源的共享性和非排他特性产生根本性矛盾,这种独享权利的模式将最终阻碍技术创新和社会进步[10]。

目前世界上大多数国家关于数据权属的法律规定均处在相对空白的状态。数据资源作为信息时代提高社会生产效率的重要元素,在具有重要经济价值的同时,其权属却处在一个混沌模糊的状态,这必然导致出现对数据资源的无序争夺现象[11],从而对数据资源的合理有效利用构成了严重阻碍[12]850。首先,从效率层面看,各方主体对数据资源的无序争夺导致整个数据市场呈现出一个弱肉强食的“丛林社会”状态,严重阻碍了数据资源的自由、有序流动,从而无法发挥市场的调配作用将数据资源转移到能最高效利用它的主体手中。由于缺乏清晰的权属规定,一方面,“拥有大量数据的公司持续不断地在数据领域进行‘圈地运动’”[13],将大量的数据资源收入囊中却又无力将其进行完全的开发利用;另一方面,有能力开发利用相应数据的小创公司即使愿意支付相应对价,却难以以合理的价位获取到相应数据资源,这进一步导致了“数据孤岛”现象,严重降低了数据资源的利用效率[14]。其次,从公平层面看,由于数据资源没有相应的权属规定,平台或软件服务提供商通常利用定立格式合同的方式,让用户将其在使用平台或软件服务时产生的相关数据权益让渡给他们,或者关闭应用程序接口(API)或修改数据兼容格式,使得用户无法将其相关数据带离同类的平台或服务软件,甚至通过事实占有的方式私自存储用户使用平台或软件服务产生数据的复制件,即使用户在退出服务或删除账号后也无法消除相关数据。平台或软件服务提供商通过各类方式收集并控制大量用户产生的相关数据,并借此进一步扩大平台或软件的竞争优势,在数据平台越做越大的同时,却不愿意让个体用户分享其贡献的数据所带来的收益[15],甚至通过形成数据垄断,消除同类型软件公平竞争的机会[16],这明显有失公平。这一系列的问题严重阻碍了数据资源的高效开发和公平利用,是数据资源市场良好运作亟待解决的必要前提[17]。

实现数据资源的高效利用和合理流通的前提是界定清楚不同层级数据资源的权属,而界定不同层级数据资源的前提又在于依托数据资源的物理特性对其进行合理分类,并以此分类为基础,分别授予相应主体不同的数据权益,从而构成一个相对完善合理的“结构性分置的数据权属体系”。这样实现对各类数据主体享有的与数据资源相关的合法权益的合理保护,促进数据资源有序流通,并满足数据资源在不同场景下的高效使用,进而真正实现数据资源在流通的过程中持续创造价值,破除数据资源流通利用和占有收益的表面矛盾,方可建设一个有序健康的数据要素市场。

二、数据资源的类型化

(一)数据资源类型化标准的选择

实际上,数据赋权迟迟未能推进的根本原因在于对于数据资源一直没有一个符合其利用模式的合理分类标准。由于受到传统实物物品分类的影响,传统数据资源归类标准过于关注其信息内容而非形式。但是,若依据数据资源所包含的信息内容进行划分,必然会导致信息内容相同但处在不同利用阶段的数据资源被视为相同的“数据”,从而导致不同利用阶段的数据主体被迫为争取其权益保障而对“同一项数据资源”发起争夺。因此,基于数据资源蕴涵的信息内容进行分类的传统标准无法保障数据资源不同利用阶段的参与者的利益诉求得到基本满足[18],并且容易引发数据资源上下游利用阶段的主体对数据资源权属争夺的无意义内耗。这对于数据资源的有效流通与利用具有消极意义。

对于数据资源类型化及其赋权困境,可以试举一例以说明。通常情况下,数据资源的利用往往会经历三个步骤,分别为数据收集,数据整合和数据分析。假设A作为数据平台收集到了部分用户的某些基础数据,而企业B将一系列A企业收集到的基础数据进行打包组合成数据集合,企业C在依托于这些企业B产生的数据集合或企业A产生的基础数据进行数据分析,并产生与其相关的衍生数据。在这一数据利用过程之中,数据主体A、B、C都投入了对应的劳动,并期待获得相应的收益保障。此时,若依据数据资源的内容进行分类,由于这三项数据必然存在信息内容重合交叉的部分(例如都有用户的部分基础信息内容),无法将其进行分类划分,而只能将其归于一类形成一个单项数据资源。在此情况下,由于处在三个不同利用阶段的数据资源被归为一类而形成单项数据资源,导致了一个单项数据资源上出现了多个数据主体。此时,无论是将数据权利给予企业A、B或C,都不是一个完善的解决方案。赋权于任何一个主体都会导致这一主体相较另外两个主体有更大的支配性地位,从而打破数据流通利用过程中上下游领域的合作关系,而转向于依附于这一权利主体的垄断性关系,进而必然降低其余未被赋权主体对数据资源的流通、利用意愿,不利于提升整体的数据资源流通利用率。若单独赋权于A会影响在B、C阶段的流通与利用,赋权于B、C也同理。这一问题源头并不在于数据权利形式,而在于数据资源的分类标准。

所以,目前法律对于数据的赋权困境的源头在于对权利客体即数据资源的分类不清。只有充分了解数据资源产生、汇集、利用的全过程,以此为基础构建合理的数据资源分类架构,厘清不同类型数据资源在形式上的转化、利用关系,才能打破数据权利客体的混沌状态,解决数据赋权的理论难题。上述分析已表明:对数据资源分类的依据应该是其外在表现形式,而非数据所包含实际内容。这一分类基础需要明晰数据所包含内容的本质是信息,即“数据是对客观信息内容的符号化体现”。因此,在合理讨论数据资源分类问题之前,务必厘清的是数据与信息的关系,若将二者混为一谈则必然会落入到重数据内容而轻数据形式的赋权困境之中。信息是客观的物质属性和事物运行规则,而数据则是人类为了解释、传播、存储信息的内容而创设的一套可读性符号表现形式[19]。人类主体通过对客观事物、客观规律的观察识别,了解到相关信息的内容并利用自主创设的符号性语言进行记录,就形成了数据[20]80。因此,数据只是人类发明的一种可读性符号,其核心作用在于将信息的内容更为方便直观地进行传播、交流、存储,其自身并不等同于实际的信息内容,而只是信息内容的一种表现形式。换言之,数据只是一种表现形式,其所代表的信息才是实际内容。

因此,在对数据资源进行分类时,应更换思路,尊重数据的形式性特征,抛开数据所蕴含的信息内容,依托数据价值实现的全过程,区分不同表现形式的数据资源,建立合适的数据资源类型化标准。如此,便能将不同形式的数据资源与其相应的数据主体进行对应,打破数据资源基于所涵盖信息内容的单一划分标准,清除数据赋权问题的核心障碍。

(二)数据资源类型化的具体表现

目前对于数据资源实现价值的利用过程通常会经历生产、汇集、加工三个步骤。这一价值实现过程可以理解为在数据资源转化过程中存在原始数据生产(原始信息数据化)、集合数据生产(数据汇集性处理)和数据分析(数据分析性加工)三种行为[21]5-19。因而可以此将数据资源进行三个层阶分类,分别为数据生产者产出的原始数据资源、数据收集整理者对原始数据资源进行汇集、整合形成的集合数据资源以及对于基于以上两种数据进行数据分析产生的创造性衍生数据(图1)。在此基础上,对三种不同层阶的数据资源赋予适当的数据权益于其合适的权利主体。

图1 数据资源类型转化示意图

1.原始数据资源

前文提到,数据是对客观事物、客观规律等信息内容的符号化表达,因此数据资源的最基础生产方式就是对客观信息的数据化记录。基于此,我们将信息数据化形成的这种数据称之为原始数据资源。用于信息数据化的信息来源主要有两种,一种是以自然事物、规律为内容的自然信息,另一种是以人的行为、特征为内容的个人信息。因此,原始数据资源主要表现为自然信息生产的原始数据资源和个人信息生产的原始数据资源。

原始数据的生产过程与传统实物产品的生产过程在物理本质上存在不同。传统实物产品的生产过程在于利用“物”产生“物”,是将现有材料、物品等进行重新组合、整合形成新物品,用于生产的材料、物品转化成为了新物品的组成部分。而原始数据资源的生产过程则在于利用“信息”产生“符号”,是人类主体通过对客观事物、规律的观察识别,将客观存在的但是难以直接理解的信息内容(事物的客观属性与规律),通过设立的标准可读符号对信息内容进行记录,并形成最基础的原始数据[20]8。例如,将位于某处的树木拍下,可以形成与树木的形状、材质或者所在位置相关的数据,这一数据记录的内容是树木自身属性和所在位置的自然状况。记录人的特征或其行为轨迹,可以产生与个人特性或实施行为相关的数据,例如记录网络用户登记的个人相关信息或其线上操作行为。这些物、人以及其相关的各种行为本身所代表的信息内容是一种自然界的客观现实存在,但这些记录产生的数据则是对这些自然现象/行为的数字化呈现或者描述,是明显在人的主观意识指导下的意向性行为的产物[21]12。因此,将客观存在的信息内容通过符号性记录的方式形成数据是产生数据资源的第一步[22]。这种对于自然信息进行数据化记录产生的数据资源我们可以将其称为原始数据资源。

在客观世界中“挖取”到的数据中,有很大一部分是与人的相关信息有关的数据。因为人类自身也属于自然世界的一部分,人自身的特征和一些行为活动也属于一种客观的现实存在,有相应的信息基础,存在被数据化的空间。对于这类与人相关信息的数据化,看似与现有法律对于个人信息的保护存在冲突,但实际上个人信息保护法并非数据化进程的绊脚石,因为法律对于个人信息的保护是为了防止数据无序化采集、利用而侵害人的人格尊严,目的在于帮助个人主体保护自己相关的个人信息不在未经允许的情况下被随意利用[23]。基于个人相关信息产生的数据主要有两类:静态的个人属性数据和动态的个人行为数据。静态的个人属性数据通常代表的是个人的一些相对稳定的基本状态信息内容[24],例如个人真实姓名、民族、身体数据(身高、身体健康数据等)、个人喜好偏好等和个人自身属性相关的是相对不容易改变的信息内容。我国对于个人信息范围的界定借鉴了欧盟《通用数据条例》(GDPR)的相关经验,将可以识别出个人身份的信息内容划归到个人信息保护的范围之中[25]。这些与个人自身稳定的基本状态相关的静态个人属性数据,与个人身份存在密切关联,存在一定量情况下可以识别出个人身份(1)根据相关司法条例解读:可直接识别特定自然人的数据包括个人的姓名、身份证号、指纹、基因、社会保险号以及肖像等数据;结合其他数据间接识别出特定自然的数据有性别、年龄、职业、教育、婚姻、兴趣、爱好、性生活、习惯以及财物状况等数据。。因此静态的个人属性数据,本质上是对个人信息保护法指代的个人信息内容的数据化产物(2)《中华人民共和国个人保护信息法》第四条:个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。。对于个人信息的数据化,是需要受到个人信息保护法“知情—同意规则”的限制的,即是否将这些个人信息转化成为数据形式并固定,是需要告知对应的私人个体并获得其同意[26]。因此这类数据在赋权时需要考虑到个人信息保护,需要和自然信息产生的数据进行区分对待。而对于动态个人行为数据,代表的是个人行为相关信息产生的数据。对于动态的个人行为数据,其行为内容不具有特殊性,例如张三可以进行的行为,李四也可实施。动态个体行为数据在不与静态个人属性数据结合的情况下,通常是不具备单独识别出个人身份能力的。在此情况下将个人行为信息内容赋予个人控制是不合理的,会产生不利的垄断效应,因而目前的个人信息保护法对于保护单纯的个人行为信息还持观望态度。所以,个人行为信息内容若无法识别个人身份时,不应该归在特殊的个人信息之中,而应该归入自然信息之中,对其信息内容的数据化属于数据生产。

综上所述,对于信息数据化所产生的原始数据应该分为两类,即依据自然信息产生的原始数据资源和依据个人信息产生的原始数据资源。前者涵盖对于客观事物、规律以及人的行为等自然信息内容进行数据化产生的数据,后者则包含与个人的特性、属性相关的,具备识别个人身份的个人信息内容进行数据化产生的数据。

2.集合数据资源

在完成了将信息内容数据化形成原始数据资源后,对数据资源的进一步利用就在于将原始数据通过收集、分类、汇集、整理等方式加工处理成为集合数据,也就是生产“大数据”[27]。经过信息内容数据化而形成的原始数据资源,其表现形式是单个的零散性数据,仅仅对应着部分的、有限的信息内容,缺乏结构化、体系化的组织排列。这种数据资源由于缺乏相互之间的连通性,通常难以对人类的生产和生活活动直接起到指导性作用,只具备十分有限的使用价值。因此,为了提升数据利用效率和利用产出,数据汇集者通常会对现有的原始数据采取分类、汇集,整理等手段,将碎片化的原始数据组成不同的集合数据,再通过规模效应产生“数聚”过程使得数据价值发生质变,大量碎片化单一数据汇聚成集合数据后其经济价值将显著提升[28],从而打破单个数据的孤立性,实现碎片化数据的互联互通,在提升数据资源的使用价值的同时便于数据资源的进一步高效利用。根据目前法律规范对于集合数据的保护,存在保护空白的主要为公开的非独创集合数据。

3.衍生数据资源

马克思哲学指出,世界上不存在孤立的事物,万事万物都存在联系,指代客观事物和规律的信息内容,其相互之间自然也存在联系。同时由于数据是信息内容的形式化体现,数据与信息之间存在对应关系,信息内容之间存在的联系也可推导为对应数据之间存在的联系。相较于仅通过观察记录的方式直接从信息内容中记录数据,通过数据分析的方式利用现有数据资源和确定的数据之间的关系,总结出并未直接通过信息记录获得的数据,是一种更为高效的方法[29],也是多年以来人类社会的进化成果。

因此,在有了原始数据和数据集合作为基础后,就可以以这些现有数据为分析材料,进行数据分析而产生进一步的衍生数据。衍生数据是数据分析者通过投入智力劳动,运用算法或分析模型将大量原始数据或数据集合进行深度加工、分析与提炼生成的数据,以此揭示未曾被发现的事物之间的关联关系或相关性,并用于预测和指导决策的数据资源[30]106。换言之,数据分析通过对现有数据以及它们之间的关系的推断、演算和分析,可以计算出客观存在但并不为人所知的新数据。这段文字略显绕口,试举一例来说明数据分析的基础运算逻辑:“最为基础的数学计算就是典型的数据分析,例如一个数学等式,1+2=3,在这一等式之中,有3个数字和2个计算符号,只要知道其中两个数字,以及+号、=号所代表的计算功能,就能得出剩下一个数字,( )+2=5 或3+2=( )。完整的数学等式,指代的就是客观存在的信息内容或数据以及它们之间的关系。在此情况下,只要获得了足够量的数据,就可以绕开暂时未知的信息内容而直接计算出与其对应的数据。这也说明了数学对于人类发展的重要性。人类在掌握了数学之后,第一次获得了系统化获取间接经验的能力,大大扩展了人类对信息内容/数据的获取和掌控能力。可以说,这是人类的第二次认知性革命(第一次是语言的发明)。信息时代由于掌握了更高效的计算工具,这一能力又获得了进一步的强化。”[31]

由此可知,数据分析本质上就是通过“已知”求“未知”。虽然它早在信息化时代来临之前就已经在人类生产生活中扮演了重要角色,但是由于之前唯一具备计算能力的只有人且计算能力相对有限,导致数据分析的巨大潜力并未显现,绝大部分数据的产生都来源于数据生产而非数据分析。在信息化时代来临之后,伴随着可以辅助进行数据分析的电子计算机的出现和升级,人类进行数据分析的能力得到了巨大提升[32]。基于数据分析产生海量的衍生数据,庞大的衍生数据又可以作为新的分析素材,进一步优化数据分析的计算能力。数据分析和衍生数据形成的这个正反馈循环,构成了信息化乃至智能化的直接推动力。

三、不同类型数据资源的赋权保护选择

不同形式的数据资源具有其固有特征,需要设置合理的权利类型和权利范围至合理的权利主体,因此不同类型的数据资源需要进行不同的赋权保护。同时,部分现行法律(例如知识产权法)已经对一部分数据资源进行了合理的权利保护,在对相关联的数据资源进行赋权保护时需要结合现有法律的保护规则,设置合理的权属保护模式进行对应的衔接,从而实现构建完善合理的“结构性分置的数据权属体系”的数据权属保护建设目标。

(一)原始数据资源的国家所有权和个人信息权益

原始数据的生产是数据资源产生的基础。没有原始数据的产生,一切对于数据资源的进一步利用、分配都无从谈起。因此,构建合理的数据权利体系的第一步就在于保障原始数据的生产者能够分享数据资源在开发利用中获得的收益,从而激励数据生产者持续地生产数据,在源头上能够保证数据资源的不断“开采”和“挖掘”。但同时,由于原始数据在数据利用流程中的基础性作用,加之其具有一定的“公共性特征”,为防止数据垄断,也不能完全将其私有化。此外,原始数据的两大来源自然信息和个人信息,其内涵有所不同,相应的赋权模式也要进行区别化考虑。

1.自然信息原始数据应赋权于国家所有权+生产者用益权

首先,相较于实物产品生产过程,对自然信息内容进行数据化产生原始数据资源的这一过程其实更类似于对自然资源的挖掘过程。自然信息内容对应的原始数据的生产是将客观存在的信息内容,通过数据化的形式提取成为可被人类识别利用的数据资源。这很大程度上更加类似于开采“石油”“煤”“矿石”等自然资源,即将早已存在的自然资源物质从原有状态提取出来,变成可以供人类生产生活使用的原材料。许多自然资源具有很明显的公共性特点。早在公元前,罗马人就出于经验直觉认识到某些物所具有的“公用”属性,将部分具有公共性特点的自然资源归为“公用物”,“公共物”归于国家统一管理,排除私人对其独立占有[33]。到了近代,对于具有“公共性特征”的自然资源,英美两国采用的是全民所有制,并引入了公共信托理论,让其由政府代为管理。而绝大多数大陆法系国家,例如法国、德国、苏联和中国都将具有“公共性特征”的自然资源权属划归国有,采用的是国家公有制[34]。将个人从这类具有“公共性特征”的自然资源的权属主体中排除,具有明显的现实性原因。这类自然资源其天生具有垄断性特征,若其权属落入私人手中,个人的逐利性特征必然带来权利控制的无序扩张,从而对其他依赖于此类自然资源的主体产生明显不利。因此,对于这类具有“公共性特征”的自然资源的权属规定和利用模式,我国采用的权能分离模式很好地平衡了资源权属的公共性和资源收益的私人性。在所有权归属于国家的同时,将资源的使用权、经营权等收益性权力赋予协助开采自然资源的私人,通过激励理论的效应赋予自然资源开采者合理收益,在增强自然资源利用效率的同时保障了“公共性自然资源”不会被私人垄断[35]。

其次,在信息时代,原始数据资源中蕴涵极强的“公共性特征”。这种公共性特征并非指数据来源形式的公共性,而是指原始数据资源产生其功能效果的方式[12]854-855。自然信息内容对应的原始数据资源,其作用在于方便人们识别、存储、利用一些源自自然界的信息内容。这些原始数据资源是一切后续数据利用活动的基础。自然信息内容虽然是客观存在的,但是观察并记录客观信息内容的机会却并非随时存在,很多时候记录自然信息内容的机会转瞬即逝。因此,在当前的科技条件下,原始数据资源天然存在着稀缺性特征。如果这类数据落入私人主体控制,很可能会被人为放大这种稀缺性,从而导致市场秩序失灵,形成数据垄断或者“公地悲剧”等不利现象,对数据资源的后续利用、传播形成不当阻碍。将此类数据资源划归国有,通过国家整体意志对之进行调节是解决将数据资源使用和分配问题的最佳解决方案。相对于个体的“私利局限性”和企业组织的“资本利益追求性”,国家可以站在更加宏观的视角去完善原始数据资源的高效合理的利用方式,这也更能适应原始数据资源的“公共性特征”[36]。但是需要注意的是,为了推动数据资源的市场化流通,国家不能作为数据资源的所有权人来直接参与数据资源的市场经营活动,否则会导致国家作为强大的数据资源经营者而抑制正常的市场竞争。因此,在数据资源权属争议上,原始数据资源的“国家所有”更多体现为一种“所有者”优势而非市场经营优势。数据资源的市场经营权应该交还市场,例如通过赋予对原始数据资源生产者一定的收益性权益来保障其对原始数据资源进行生产开发的积极性。

2.个人信息原始数据应赋权于个人财产权益

2021年,我国正式通过了《个人信息保护法》。《个人信息保护法》的施行,在《民法典》对个人信息权利作出原则性规定的基础上,正式地确立了个人对其个人信息享有权利,不能随意被他人未经许可而使用。个人信息保护法对于个人信息的保护更偏向于认为是一种人格权。例如《个人信息保护法》第28条第1款提到了通过非法使用或者泄露个人信息敏感数据的行为,存在侵害个人的人格尊严的可能性而应当受到规制[37]。此外,在民法典中专门规定的“隐私权和个人信息保护”,也是放在人格权编,更加说明了个人信息保护的人格权内涵。

但基于个人信息产生的原始数据,虽然代表了个人信息的内容,但表现形式却存在差异。基于个人信息产生的原始数据,既可以读取、修改,也可以进行进一步的深度利用,相较于个人信息而言,其更具有财产属性。通过赋予基于个人信息产生的原始数据以财产权,在不影响个人信息保护的情况下,给予个体对于个人信息内容一定的灵活利用性,可将个人信息可以产生经济利益的一面剥离出来。在结合“知情—同意规则”的情况下,企业可以在法理上获得合理利用个人信息数据的个人许可,从而实现个人信息内容对应数据的合理流转和高效利用。不过,为了保证权利系统的完备性,个人信息产生的数据的相关财产权虽应赋予个人信息相关主体,但相关财产权的利用边界应相应小于个人信息保护法规定的个人信息人格权。

(二)公开非独创集合数据资源的有限排他权保护

目前,存在一部分的集合数据可以通过知识产权法进行保护,例如非公开的集合数据可以通过商业秘密进行保护,公开但具备独创性的集合数据可以通过著作权法作为汇编作品进行保护。唯一的保护空白在于公开的非独创集合数据,而这一类型的数据正是数据资源流通环节不可或缺的一部分,对其进行适当的权属保护有助于数据资源的流通利用。因此,可以设定一定程度的有限排他权对其进行保护。

1.集合数据资源的保护困惑

集合数据的价值很早就被人类所认识。古巴比伦、古埃及就设置了专门的数据统计官员,通过收集并整合各地区的相关数据来指导农业生产活动[38]。中世纪和近代以来,数据统计工作的需求也促进了数学的发展。世界上最早一台机械计算机的出现就是发明者帕斯卡为了帮助作为税收官员的父亲统计税收。但早年的集合数据大多数是出于公用目的,统计出来的集合数据或者作为公开数据公布给民众,或者作为保密数据存在档案馆之中,并没有强烈需要进行私权保护,所以历史上对于集合数据的法律保护一直是一项空白。直到近代知识产权保护的出现,出于保护智力成果的目的,才出现了对于集合数据的私权保护规则。

然而,目前知识产权法对于集合数据的保护是不周延的,处于公开状态的非独创性集合数据由于缺乏独创性而被排除在知识产权法的保护之外[39]。1991年的美国费斯特(Fesist)案否定了“额头流汗”的作品认定原则后,单纯对于数据的收集整理产生的集合数据已经被排除到了版权法的保护客体范围之外,只有对作品或数据的整理编排具有独创性的集合数据,才可能被视为汇编作品而受到版权法保护(3)Feist Publications,Inc.,v.Rural Telephone Service Co.,499 U.S.340(1991)。。除版权法外,另一种保护集合数据方式就是通过将集合数据进行保密的方式,将集合数据视为商业秘密而获得反不正当竞争法的保护[40]。因此,目前对于集合数据的保护空白主要是处于公开状态的非独创性大规模集合数据[41]4:一方面,其由于缺乏独创性无法成为汇编作品受到版权法保护;另一方面,其由于缺乏秘密性无法被认定为商业秘密获得反不正当竞争法的保护。这样一种现行法律的保护空白,会导致部分原本可以进行公开获得更多收益的大规模集合数据,由于公开无法获得保护,只能通过保密方式进行商业秘密保护。这降低了集合数据资源的流通和利用效率,导致很多集合数据根本无法为他人所知,更谈不上进一步的利用。此外,这一保护空白也会导致另一部分客观上处在公开状态的大规模集合数据,因为无法受到相对明晰的法律保护而只能在发生纠纷时借助反不正当竞争法第二条的原则性条款(4)参见北京市海淀区人民法院(2015)海民(知)初字第12602号民事判决书。进行处置。这大大增加了集合数据资源利用过程中的商业不确定性,导致几何级的数据资源无法成为合适的市场要素在自由市场中流通。

2.集合数据资源保护空缺部分的有限排他权选择

对于集合数据资源,欧盟较早设立了数据库财产权的方式进行保护,对于不能成为汇编作品的非独创数据库提供财产权保护[42]。欧盟此举旨在保护数据库制作者在对数据内容收集、核准、呈现等方面的实质性投入,实践中常被欧盟企业用来保护集合数据,被视作对企业集合数据保护的尝试[43]。欧盟进行数据库保护的主要原因是消除因欧盟成员国之间没有协调统一的版权法而导致的在数据库保护层面的贸易差异,且权利内容是限制他人获取或者二次使用该数据库 (含其中的数据) 的权利[44]。但这种绝对性排他的权利的设置很容易阻碍第三方主体对于集合数据资源或其包含的原始数据资源的进一步合理利用,对于数据的传播利用存在显著的消极影响。

因此,对于目前处在保护空白区且处于公开状态的非独创性大规模集合数据,有学者认为应该对之提供有限排他权保护,即阻止他人未经许可向公众传播汇集者付出实质性投入汇集的具有一定实质数量的集合数据的权利。由于保护集合数据主要是保护进行数据汇集、整理的劳动而非独创性劳动,在权能设计上权利范围小于具有独创性的作品也符合法理逻辑。通过将非独创的数据集合与属于传统作品的汇编作品区分开来,同时赋予其相对著作权较窄的权利内容,既不与现行的著作权法体系冲突,也能有效保护非独创且公开的集合数据[41]23。通过赋予集合数据有限排他权利,集合数据的权利人可以阻止他人未经许可传播复制集合数据的行为。但此项权利应该仅限于集合数据这一整体而不及于集合数据的内容(原始数据)。若他人同样在相同原始数据资源的基础上自行汇总整理,产生了内容类似的集合数据,则原集合数据权利主体所享有的有限排他权并不能控制此项行为以及其产物的后续利用。而在他人不愿意进行自主汇总整理而直接使用权利人已经汇总整理好的集合数据资源的情况下,集合数据资源权利人则可以对其收取相关的费用或控诉其行为侵权。如此,可以保证在赋予集合数据资源的权利人享有一定的权益的同时并不会导致其对上下游其他数据资源的利用产生排他性干预,符合数据资源的合理流通和高效利用目的。

(三)衍生数据资源的著作权或邻接权保护

相对于原始数据或集合数据,通过数据分析所产生的衍生数据不再是识别特定信息内容的数据资源,而是能跳过信息观察记录步骤,直接依托现有数据来发现新知识、新规律并产生新的数据。可以说,衍生数据资源的经济价值甚至高于原始数据资源和集合数据资源。目前,理论界和司法界均承认衍生数据具有应该获得保护的财产性利益,但是对于衍生数据的法律属性、保护方式和权利内涵却并未达成共识[30]107。虽然在淘宝诉美景案中,法院认定淘宝公司对其通过对原始用户数据进行分析生成的衍生数据(用于辅助商业判断)享有竞争性财产利益,并最终援引了《反不正当竞争法》的第二条予以保护(5)参见浙江省杭州市中级人民法院(2018)浙01民终7312号民事判决书。。但是依靠反不正当竞争法的行为主义模式进行保护,保护的并非明确的数据财产权益,而是良好的市场竞争秩序,因而并不能给予衍生数据资源一个合理的市场要素地位。换言之,若仅使用《反不正当竞争法》对衍生数据资源的侵害行为进行行为模式规制,则只能在衍生数据受到特定行为侵害时才可能获得法律上的救济。这对于促进衍生数据资源这一客体本身的合理流转和高效利用只存在有限的助益。

在司法实践中,对于衍生数据的权属界定通常认为,企业通过对原始数据或者集合数据进行数据分析产生的新数据产品应该由传统著作权法进行保护,分别将个案中的衍生数据认定为汇编作品和图形作品(6)如“ JCR 期刊引证报告”案中,法院认为由 JCR 期刊引证报告中衍生数据集合构成汇编作品。而在“ 四维图新导航电子地图”案中,二审法院认为导航电子地图作为地图数据产品,每个图层都需要图形化表达,满足独创性时可构成图形作品。参见上海知识产权法院(2020)沪73民终531号民事判决书和北京知识产权法院(2019)京73民终1270号民事判决书。。但是对于外延范围极广的衍生数据,全部通过客体范围较小的著作权进行保护存在一个核心问题:现行著作权法只保护具有独创性的表达,衍生数据虽然由原始数据或集合数据为基础而来,但是具有独创性的衍生数据往往只占广大衍生数据中的极小一部分,对于大量不具有独创性的衍生数据而言,想要获得著作权保护是十分困难的。因此,仅仅通过著作权对衍生数据进行周延保护是不现实的。

但是,在信息作品生产与传播技术的发展过程中,传统著作权法也在不断完善其保护规则,许多新型的知识信息产品,在不具备独创性的情况下被纳入了邻接权的保护范围。19世纪初20世纪末,在技术的革新推动下各国签订了《罗马公约》,该文件在著作权保护的基础上设立了邻接权,对没有独创性或者独创性较低却付出了一定投入的知识信息产品进行保护[45]。“非创作性投入”是对特定利益进行邻接权保护的正当性基础。邻接权客体虽然不具有独创性或者独创性程度较低,但其形成过程也并非简单的对某一信息数据的一对一完全复制,而是需要具有一定资本投入、智力活动以及技术性投入才有可能产生的。特定主体为了生产邻接权客体而付出的这种“非创作性投入”是具有主张一定的经济利益回报的正当性的,应该给予其相较于著作权权利效力、范围更弱一些的邻接权,对其进行保护[46]。因此,对于具有一定智力、技术和资本性投入产生的不具有独创性的知识信息产品通常可以通过纳入到邻接权的范围中进行保护的方式来保护这种“非创作性投入”。

综上所述,以衍生数据为保护客体来分析,对于原始数据和集合数据进行数据分析的这种智力性劳动是值得受到保护的。对于具有独创性的衍生数据,如果可以构成作品则可以获得著作权进行保护;而对于没有独创性的衍生数据,其“非创作性投入”也具有一定的经济回报正当性,可以通过将其纳入到邻接权的客体之中对其进行邻接权保护。如此,便能在不打破著作权法权利体系完整性的前提下,对衍生数据进行相对周延的保护,在不影响数据合理流通和高效利用的情况下,保障数据分析者的合理权益。

四、结语

信息数字化时代的到来,社会对于数据资源及其产生的相关利益的合理分配需求,让法律必须直面数据权属这一难题。构建合理的数据权属体系,实现数据资源的有效开发,有助于数据资源的合理流通和高效利用,更是推进社会全面数字化,构建秩序良好的数据要素流通市场的重要前提。数据赋权的核心前提是构建合理的数据资源类型。放弃依托数据内容进行的传统分类标准,可以有效解决不同数据形式与信息内容不分所导致的数据分类混乱,而通过明晰数据资源价值实现过程,并依据实现过程的三个关键行为对数据资源进行合理性分类,可以清除数据赋权的理论障碍,构建基于外在形式的合理数据资源类型。根据数据资源价值实现过程中三种不同的信息数据化行为、数据汇集处理行为和数据分析加工行为的外在数据转化行为,可将数据资源分为对应的原始数据资源、集合数据资源和衍生数据资源。原始数据资源是最基础的数据资源,在利用过程中应当在严格防止原始数据资源垄断的同时提升其利用效率。因此,基于自然信息产生的原始数据资源应该归属于国家,并同时给予数据生产者一定的收益权,以鼓励其生产动力;而基于个人信息产生的原始数据出于保障个人信息的安全,应该将财产权赋予个人信息相关的个人主体,但是其权利内容需要适当限缩。在集合数据资源中,具有独创性的集合数据属于著作权法保护下的汇编作品,未公开的集合数据可以通过商业秘密法进行保护,而非独创的公开集合数据可以设置有限排他权,赋予数据汇集者一定权益的同时不影响数据资源的合理流通。衍生数据资源是原始数据资源或集合数据资源的深度加工产物,融合了数据分析者的智力劳动。对于有独创性的衍生数据,可以构成作品获得著作权法的相关保护,对于没有独创性的衍生数据,可以考虑将其纳入邻接权的客体范围中,对其进行弱于作品的保护。基于此种分类而构建的体系化数据权属,可以在合理促进数据资源流通的前提下,满足数据在不同场合下高效使用,从而真正实现数据在不同主体之间流通利用过程中持续地创造价值。