科学数据的法律属性与知识产权管理
2020-01-07麻思蓓郑彦宁
许 燕,麻思蓓,郑彦宁,李 秾
(中国科学技术信息研究所,北京 100038)
大数据时代,数据密集型科研兴起,科学数据已经成为不可或缺的信息资源。随着数据采集、开放共享、挖掘分析、知识分析等数据应用服务的兴起,科学数据的安全问题越来越受到重视,研究分析科学数据的法律属性及知识产权问题可以明确科学数据权益划分,避免科学数据知识产权风险和纠纷,提高科学数据应用与服务水平。
1 研究综述
1.1 科学数据内涵和外延
为了更全面地分析科学数据法律属性,本文将科学数据定义为:在人类科学研究领域,通过观测监测、考察调查、检验检测、试验/实验等方式获取的支撑科学研究的数据,以及在科学研究过程中产生的具有创造价值的各类数据;其外延包括采集、获取的原始数据,通过加工、分析等方式产生的衍生数据,以及数据集、数据库和各类数据产品。
1.2 相关研究
本文通过梳理发现,关于科学数据法律、知识产权的研究主要集中于共享服务与知识产权保护、科学数据出版、科学数据法律规范等领域,如王舒等[5]研究了科学数据知识产权保护机制与开放数据授权机制;朱雪忠等[6]、徐先东等[7]从知识产权专有性与科学数据共享角度分析了科学数据与知识产权保护的冲突与协调问题;吴立宗等[8]研究了科学数据出版中的数据授权问题;谷秀洁等[9]以Panton 原则为切入点,研究了科学数据的法律属性和开放利用机制。关于科学数据知识产权归属及权利行使方式,学界做了一些研究,但是观点并不一致,如杨友清等[10]认为原始数据的开发和获取需要开发人员付出精力、时间、金钱等,拥有知识产权;民法牛[11]从数据性质和功能角度分析认为,原始数据是不能再生的数据,不能直接使用,因此能够建立知识产权的数据只能是衍生数据;王广震[12]认为大数据的本质是信息,知识产权的客体是反映客观事物的认知信息,因此知识产权保护的客体是基于信息的财产权。
以上研究从特定领域和角度对科学数据进行了分析,在当下科学数据资源井喷式增长、科学数据共享应用需要空前扩大的情形下,有必要基于不同科学数据类型从微观角度全面分析其法律属性,研究科学数据的权利性质与归属、权利边界与权益划分,探讨科学数据应用中的知识产权规范措施。
2 我国科学数据知识产权现状分析
2.1 法律属性和知识产权归属不确定影响科学数据共享使用
当今科学数据以井喷式速度增长,数量大、类型多,不仅包括科学研究中产生的数据,还包括用于科学研究数据;不仅包括通过检查、观测、监测等技术手段获得的原始数据,还包括经过加工、处理的衍生数据。此外,在数据不断被集成、共享、再生产的过程中,会产生大量数据集、数据库。这些数据类型来源不同、呈现方式不同,其法律属性难以统一定性,导致知识产权性质、权利归属等问题更为复杂。实践中,特别是在科学数据的开放使用过程中,出现对科学数据共享使用等服务需求迫切与数据产生方和管理方担心知识产权纠纷而不敢利用数据服务的矛盾局面。如果科学数据的权属问题不能尽快解决,将影响科学数据开放使用程度,进而影响科学数据支撑国家科技创新和经济发展的战略目标。
2.2 大数据背景下科学数据共享使用的知识产权风险升级
当前社会处于空前的数据爆炸时代,科学数据所面临的知识产权安全风险也在升级。(1)侵权成本变低,导致数据侵权问题频发。当下以共享、挖掘、应用为主要目的,科学数据面临不断被集成、共享、再生产、再共享的过程,导致侵权者成本变低,仅需网络技术便可以迅速、大量地实施数据复制、抓取等侵权行为。(2)知识产权侵权行为传播快、范围广。不同于以往各个数据的孤立状态,当下网络传播途径和平台均大大增加,一旦出现侵权行为,在非常短的时间内就可以达到传播数量巨大、范围极其广泛的后果。(3)知识产权侵权具有隐蔽性。当下复制、抓取、数据分析与挖掘等手段普遍运用,由于这些技术手段具有无形、隐蔽的特点,可以在短时间内对大量数据进行复制、提取,一旦知识产权被侵犯,权利人往往毫无察觉。(4)知识产权维权难。因侵权行为的无形、隐蔽性,导致举证困难,即使发现被侵权,往往很难举证,造成维权难,受侵害人的合法利益很难得到有效维护和赔偿。
3 科学数据法律属性及知识产权分析
3.1 科学数据的经济价值
随着计算机和互联网等信息技术的发展,社会经济运行方式发生了变革,数据本身代表了信息的价值,而信息本身则是一种独立的产品或者服务。科学数据作为一种非常重要的数据资源,由专门资金支持,并由科技人员投入大量智慧和劳动产生,包含大量技术、工艺、方法等信息,因此科学数据的技术信息价值不言而喻;另一方面,对海量科学数据进行数据挖掘和数据分析,可以发现隐藏在数据中的潜在规律,可将规律转化成有用的信息和知识,并将这些信息和知识用于各种应用,包括科学研究、市场分析、生产控制等。因此,以信息为重要竞争元素的环境促进了各国政府以及各机构、个人对科学数据的重视,更促进了科学数据的获取、收集、存储、利用以及交易行为。
3.2 科学数据不具有工商业标记类知识产权属性
工商业标记类知识产权是指商标、商号、装潢、地理标记等各类标记,该标记依附其稳定、有形特点,成为某种商品和服务信誉的载体,进而维系了商号、商标的信誉价值。而科学数据的产生和功能主要为支撑科学研究活动,其价值来源于数据作为信息载体所带来的知识信息,其所承载的是信息要素,而信息要素的内容根据研究不同是随时变换,并不具有稳定、有形的特点;同时就其价值目标而言,获取科学数据的终极价值为实现科技创新,而非维系某种信誉。因此,科学数据不具有工商标记类知识产权的属性,不属于商标、商誉类工商标记知识产权类型。
3.3 科学数据具有技术秘密类知识产权属性
科学研究本身是一个创造、创新的过程,会产生包含某项工艺、技术、程序、配方等技术信息,而科学数据则是这些技术信息的承载主体之一。在知识产权领域,未公开的技术信息可以作为技术秘密进行知识产权保护,如世界《知识产权协定》将商业秘密界定为“未公开的信息”;美国《统一商业秘密法》和《反不正当竞争法》规定,那些具有秘密性(不为公众所知悉)、拥有商业价值和市场价值的信息,包括配方、式样、汇编、工艺、方法、技术、程序等,可以基于技术(商业)秘密进行知识产权保护[13];我国则通过《反不正当竞争法》《合同法》对商业秘密进行保护。因此,如果科学数据拥有者/支配者将包含有工艺、技术、程序、配方等技术信息的科学数据选择不公开,这些数据可以作为技术秘密受知识产权法保护。
1.2 抽样原则 黔东南州共有10个县(市)种植烤烟,根据其烤烟种植面积和合同户数确定每个县(市)抽样的抽样数量,具体抽样烟农的分布情况见表1。其中,镇远种植面积最大,为2 840 hm2,合同户数1 538,抽样量108个。
3.4 不同类型科学数据著作权分析
在科学数据管理及共享应用中,涉及最多、最与之相关的知识产权为著作权(亦称版权copyright)。科学研究中的论文、专著、设计图、计算机软件等,均由著作权进行保护,但科学数据类型复杂、形成机理不同,其著作权亦具复杂性,很难进行概况论述。下文将根据科学数据特点分类进行著作权分析。
3.4.1 著作权的独创性标准
国际上,独创性被认为是判断某一作品是否拥有著作权的根本标准。美国最高法院认为:“版权保护的绝对必要条件是独创性”[14]。独创性是指独立完成的创造性智力活动。其包含两层含义:一是独立性,由某一个或一些作者独立(并非抄袭)完成;二是创造性,指完成过程不仅仅付出了劳动和努力,而且包含了创造性智力活动。独立性比较容易判断,只要不是抄袭他人,一般均可判定具有独立性。创造性判断则需要区分完成过程是否包含创造性智力活动:如果完成过程包含作者的创造性智力活动,其成果则为智力劳动成果,拥有著作权;相反,如果不包含创造性智力活动,其成果则为一般劳动成果,不拥有著作权。例如某单位的通讯录,如果只是按照常规的姓名字母顺序进行记录,该通讯录只是记录了员工信息的普通劳动产品,没有创造性智力活动,不拥有著作权;但如果某人将该通讯录进行特定设计和编排,形成了更加有利于查阅、分类、管理的通讯录,则因该编排、设计活动投入了创造性智力劳动,因此该通讯录就可以成为受著作权保护的作品。
3.4.2 各类科学数据著作权分析
科学数据种类颇多,其存在形式、产生途径等因素均会影响其著作权属性,例如经设备、仪器采集的原始数据同经过加工、分析的二手数据的著作权属性不同,以单条数据存在的个体数据同数据集、数据库的著作权属性亦不相同。
(1)原始数据。原始数据是通过设备、仪器等采集,或直接从用户、调查对象获取的,没有经过分析汇总的数据。原始数据的产生一般经机器设备进行自动化采集,或由特定人员进行程序化采集,数据产生过程为自动化、程序化活动,并不包含创造性智力活动。依据独创性标准,虽然原始数据的采集过程包含采集人员的大量劳动和努力,但该劳动并非创造性的智力活动,因此原始数据不具有著作权。但是,不受著作权法保护并不意味着原始数据不受法律保护,原始数据采集会投入人力、物力、财力等,因此原始数据拥有除著作权以外的其他权利,其所有者对该数据拥有占有、使用、支配和收益等一系列权利。
(2)衍生数据。衍生数据是对原始数据采取加工、萃取、分析、聚合等数据处理手段后形成的,具有结构化、可读性和信息价值的数据。在海量数据背景下,相比原始数据分散化、片段化的特点,衍生数据的产生经过了数据处理人员清洗、加工、萃取、分析、整合等一系列数据处理工作,而数据处理工作并非简单的自动化、重复性劳动,是包含了智力活动的创造性劳动,清洗、萃取、分析、整合等一系列工作需要数据处理人员的专业知识和业务水平,并非对原始数据的简单整理、分类和储存,是在原始数据基础上的创造过程,包含了智力活动,因此衍生数据拥有著作权。
(3)数据库。数据库是大的数据集,是将大量数据进行清理、加工、转换为特定存储格式,并按照一定的主题聚合在一起的数据集合。国际上对数据库的保护有两种方式,一种是著作权保护,另一种是著作权以外的数据库特殊保护。前者基于著作权法中的汇编作品进行保护,因为数据库与汇编作品形成过程相似,均是根据一定规则选择一特定作品或作品片段,并重新进行编排形成新的作品,数据库形成过程包含了数据筛选、编排等一系列智力创造活动。《世界知识产权组织版权条约》第5 条规定:数据或其他资料的汇编,无论采用任何形式,只要由于其内容的选择或编排构成智力创作,其本身即受到保护;这种保护不延及数据或资料本身。因此,不论被汇编的数据个体本身能否受版权法保护,只要对数据库本身的编排模式具有独创性,则该数据库个性化的组织结构就受到著作权法保护。另一种方式是著作权法以外的保护,例如欧盟的数据库特殊权利(suigeneris right)保护,此项保护针对不受著作权法保护的数据库,数据库建设只要付出了实质性努力(人力、物力、财力等),同样给予保护。
4 科学数据知识产权归属
科学数据收集、加工、共享、应用中涉及科研机构、科研人员、数据管理机构、政府、出资机构、用户等各类主体,明确各类主体权益划分,厘清各主体在科学数据管理应用中的权利、义务、职责,有利于规范科学数据管理行为,促进科学数据共享应用、提高科技创新水平。
4.1 国家出资项目的科学数据
国际上,关于政府投资科研项目成果的知识产权归属经历了由政府所有向项目承担单位所有这一转变。最初认为政府代表公共利益,因此政府出资取得的成果的知识产权理所应当归政府所有,但由于政府往往不具备知识产权开发利用条件,从而导致大量知识“库存”,难以实现知识转化利用。为了扭转这一局面,各国开始“放权让利”,将知识产权转移给具备开发利用的项目承担单位。这一转变大大提高了科技成果转化利用率。借鉴国外经验,我国《科学技术进步法》《关于加强国家科技计划知识产权管理工作的规定》等法律、法规亦作出规定,除涉及国家安全、国家利益和重大社会公共利益之外,科研项目研究成果形成的知识产权,国家授予项目承担单位。据此,在数据共享应用大环境下,科学数据作为科研项目成果之一,亦可借鉴以上规定,明确科学数据的知识产权归属于项目承担单位,授权项目承担单位对科学数据进行收集、整理、保存、利用;同时为了平衡公共利益,政府拥有对这些数据的免费使用权以及许可第三方使用这些数据的权利。对于涉及国家安全、国家利益和重大社会公共利益的数据,国家仍然保留所有权。
4.2 社会出资项目科学数据
社会机构自己出资、自己完成的科研项目产生的科学数据,其知识产权等权利皆归属于出资机构自己。社会机构出资委托其他机构完成的科研项目的科学数据,其知识产权等权利归属秉承约定优先原则,在订立委托研究合同时需在合同中注明科研成果及其知识产权归属情况;合同未作明确约定的,原则上属于受托人。例如我国《著作权法》第17 条即对委托作品的版权归属作出规定:受委托创作的作品,著作权的归属由委托人和受托人通过合同约定;合同未作明确约定或者没有订立合同的,著作权属于受托人。
4.3 合作完成项目的科学数据
合作完成科研项目产生的科学数据的知识产权归属同样适用约定优先原则,当事人在签订研发合同时需在合同中约定科学数据等科研产品的权利归属及其使用情况,同时约定当事人所占份额比例,无法按照份额比例划分的,按照共同所有计算;如果合同没有事先约定的,则归受委托方所有,受委托方为两人以上,由受托方共同所有。其中,共同所有人仅包括实际参与研究的人员,没有参与的不能成为合作拥有者。对于合作完成的科研数据可以分割使用的,由各研究方单独拥有各自所得的科学数据,不能侵犯合作科研数据的整体权利,不能侵犯其他研究者拥有的权利;如果不能分割使用的,则属于研究方共同所有。
4.4 加工完成的科学数据
很多科学数据是在原始数据或者衍生数据上经过二次甚至三次加工形成的数据,这些加工数据和被加工数据的产权归属不同,其权利主体和权利边界不同。原始数据虽不具有知识产权属性,但是在采集过程中付出了人力、物力、财力,属于劳动成果,受法律保护,除非另有约定,其权利属于数据采集方。当加工数据主体与被加工数据主体不相同时,按照独创性标准,知识产权属于创造性智力劳动付出者,因此加工数据的知识产权属于数据加工者;同时,加工者需合法获取被加工数据,如果被加工数据拥有知识产权,其权利并不因加工行为而转移,加工者应取得原数据权利人授权许可方可加工,否则将对原权利人造成侵权。实践中,数据集、数据库以及及其他科学数据产品均属于加工数据产品,除非法律和合同另有约定,这些加工数据产品的权利主体为加工者。
5 科学数据应用的知识产权管理策略
知识产权问题是关系科学数据应用的重要问题,有效解决数据应用中的知识产权问题可以消除权利人顾虑,提高呈交科学数据的积极性,扩大科学数据应用范围。
5.1 科学数据应用分级分类控制
数据共享、应用水平关系科学数据的价值实现和科技创新水平,因此必须构建基于不同数据类型、应用方式和权利内容的科学数据分类控制机制,实现科学数据应用中的全方位知识产权管理。根据密级划分,可以将科学数据分为两类:保密数据和非保密数据。前者因数据内容涉及国家安全、重大公共利益等因素成为保密数据,此类数据应用范围、程序、对象等有严格控制,非特定人员没有应用资格;非保密数据则应顺应开放共享要求,以尊重知识产权为前提实行“开放为常态,不开放为例外”原则。依据法律关于使用权许可的相关规定,使用人合法获得数据应用权的方式应包括以下几类:(1)合理使用。合理使用是对原作者权利的限制,各国版权法一般都会规定特定情形,使用人可以不经著作权人许可,不向其支付报酬而使用作品,但应当指明作者姓名、作品名称,因此对已经公开发表、拥有版权的科学数据,使用人可以基于个人学习、研究或者欣赏等情形免费使用该数据,而无需征得原作者同意,但应当注明作者姓名、作品名称以及来源。(2)法定许可。使用人可以不经著作权人许可而付费使用某些公开发表的科学数据,并注明作者姓名、作品名称以及来源(但是著作权权人明确表示不能使用的除外),例如,报刊转载、编写出版教科书等。(3)授权许可。除了以上情形,使用人应当获得权利人授权许可方可进行复制、发行、汇编、网络信息传播等使用行为。
5.2 数据挖掘/分析的著作权例外
对科学数据进行挖掘/分析是科学数据应用的重要形式。根据数据挖掘/分析的技术要求,挖掘分析一般需要对数据采取复制、抓取以及转换等行为,而根据著作权法,未经授权的复制、抓取将侵犯所保护数据或数据库的著作权。实践中,为了顺应数据开放、应用的主旋律,平衡著作权人利益和公共利益,英国、美国、欧盟、法国、日本等国家和地区纷纷修订著作权法,增加了“数据挖掘/分析例外条例”以促进科学研究。该条款认为基于非商业目的,对合法获取的数据进行计算机挖掘/分析的行为不受著作权限制。2019 年欧盟扩大了例外条款的内容,将基于商业目,在挖掘分析中的计算机临时复制行为纳入例外条款[15]。目前我国法律法规没有对数据挖掘/分析行为作出规定,在一定程度上影响了科学数据的应用情况,因此需要完善相关法律法规,增加数据挖掘/分析例外条款。同时为了保障科学数据权利人利益,依据数据挖掘/分析例外条款实施挖掘/分析行为应满足特定条件:(1)来源为通过合法手段访问、获取数据;(2)目的为基于非营利目的;(3)主体为研究机构、公共机构、个人;4)措施为挖掘/分析不得破坏科学数据本身的完整性、安全性。而基于营利目的的数据挖掘/分析行为因为不符合以上条件,因此不能适用于著作权例外条款,其解决办法为向数据著作权利人获得授权,取得授权许可后方可进行数据挖掘/分析。
5.3 科学数据使用标注
科学数据引用是一种知识产权保护方式,其通过一定的标识技术和规范机制,对所使用的科学数据作者、名称、来源等信息进行描述。规范的科学数据引用是尊重知识产权,促进科学数据共享、交流、传播的重要方式。知识产权保护与信息共享、交流、应用并非冲突矛盾,而是互相促进关系,建立规范的数据引用机制,一方面保护了知识产权,同时能加强数据之间的关联,在更大程度上促进交流与传播。我国《著作权法》第22 条、23 条关于合理使用和法定许可条款明确规定,使用他人作品时应当指明作者姓名、作品名称。在网络环境下,一些免费数据资源平台亦会发表类似声明,例如美国农业部[16]网站的数据权利与版权声明,称该网站大多数信息都被视为公共领域信息,因此可以自由分发或复制,但需要标注明署名。因此,无论在发表论文时参考引用他人科学数据,亦或在挖掘分析、数据加工等数据应用中使用他人科学数据,基于知识产权保护的需要,使用人均应注明所使用科学数据的相关信息。科学数据使用标注一般至少包括以下几个要素:科学数据名称、作者、来源(来源于受资助项目的亦应注明项目名称);如果参考引用他人的科学数据,应当遵循科学数据引用标准进行规范引用标注。依据我国《信息技术科学数据引用》(GB/T 35294—2017),科学数据引用元素包括作者、名称、创建机构、创建时间、传播机构、传播时间、唯一标识符、解析地址、版本。
6 结论
本文根据知识产权客体属性特征对科学数据法律属性进行了分析,科学数据具有独立经济价值,不具有工商业标记类知识产权属性,拥有技术秘密的知识产权属性。根据著作权独创性标准,原始数据形成过程不包含创造性智力活动,因此不具有著作权属性;衍生数据和数据库的形成则包含了清洗、萃取、分析、整合、汇编等一系列创造性智力活动,因此拥有著作权。根据科学数据出资方式、完成方式和形成过程可以判定其知识产权归属,一般而言,有合同约定的从其约定,没有约定的按一般法律规则办理,即国家出资项目形成的科学数据由国家授权项目承担单位拥有,但是国家基于公共利益可免费使用或授权第三方使用,社会出资项目形成的科学数据归出资方所有;合作完成的科研数据可以分割使用的,由各研究方单独拥有各自所得的科学数据,不能分割使用的,则属于研究方共同所有;加工数据的知识产权一般归加工者所有。在科学数据应用中,需要通过建立科学数据应用分级分类控制机制、完善科学数据相关法律法规、确立科学数据使用规范等方式解决应用中的知识产权问题,达到平衡公共利益与知识产权保护,提高科学数据应用水平以及科技创新能力的目的。