研究数据及其出版中的知识产权初探
2020-06-12吴莹莹王英
吴莹莹 王英
摘 要 为了厘清什么样的研究数据受知识产权保护以促进研究数据的出版和再利用,本文利用文献法首先剖析了研究数据的知识产权(包括版权、商业秘密权、特殊权利、专利权、反不正当竞争权)属性和研究数据的权利归属。然后,以此为基础分析了研究数据出版中的知识产权问题,最后,提出了四项建议以推动研究数据出版,期望为合法出版研究数据提供理论指导,促进研究数据的再利用。
关键词 研究数据 数据出版 数据引用 知识产权 协议
AbstractTo clarify what research data is protected by intellectual property rights and to facilitate publication and reuse of research data, this paper first analyzes intellectual property (including copyright, trade secret right, special right, patent right, anti-unfair competition right) of research data and the right ownership of research data using documents method. Then, the problem of intellectual property in research data publication is analyzed. Finally, four suggestions are put forward to promote the publication of research data. It is expected to provide theoretical guidance for the legitimate publication of research data and promote the reuse of research data.
Keywords Research data. Data publication. Data citation. Intellectual property. Contract.
0 引言
目前,學术界对“研究数据”定义并未形成一致的观点,主要原因在于其定义因学科和研究资助者的不同而有所变化。与其他类型信息不同,研究数据是为了生产研究结果而收集、观察或创造的[1]。因数据产生目的和收集过程的不同,研究数据可以被分为:(1)观测数据:以实时、通常不可替代的方式捕获的数据,如传感器数据、调查数据;(2)实验数据:来自实验室设备的数据,通常是可重复的,如基因序列、色谱图;(3)模拟数据:测试模型产生的数据,如气候模型、经济模型;(4)衍生或汇编数据:数据是可重复的但昂贵的,如文本和数据挖掘、汇编数据库;(5)参考或标准数据:(经过同行评议的)小数据集中的一个(静态或有机的) 集合,最有可能出版,如基因序列数据库、空间数据门户[2]。提到“研究数据”,不得不说一下与其较为接近的术语“科学数据”。2018年我国通过的《科学数据管理办法》将科学数据定义为“包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据”。另外,刘霞在《高校科学数据管理与实证研究》 一书中对科学数据和研究(科研)数据的概念进行了梳理,其中包括陈传夫、王学勤、美国自然科学基金、澳大利亚国立大学、经济合作与发展组织、美国国立卫生研究院等研究成果中的定义[3]。无论从法律定义还是各研究机构和专家学者的学理定义来看,二者没有本质区别。因此,本文没有专门区分“研究数据”“科学数据”和“科研数据”,将继续使用“研究数据”这一概念。研究数据既是科技活动的产物,又是支撑科学研究及科技创新的基本资源,同时也是政府部门制定政策、进行科学决策的重要依据[4]。研究数据出版已成为各国重要战略目标,引起了国际组织、政府部门、研究机构乃至资助机构的高度重视,因为研究数据出版有利于再现或验证研究,使公共资助的研究结果展现在公众眼前,使他人能够就现存数据提出质疑,并且推动研究和创新活动[5]。大部分研究数据创作生产凝结了研究者的智力劳动,包括观测仪器布置、数据模拟方法和数据处理方法等[6],因此,很多人主张这部分研究数据理应成为知识产权保护的对象,比如,湘北威尔曼制药有限公司主张药品说明书中最能体现独创性的药物试验数据部分构成作品。但是,事实却非如此。那么,什么样的研究数据才能受知识产权保护呢?
学者关于研究数据知识产权的研究主要分为两个派别:一是一致性地肯定研究数据具有著作权,并且把研究焦点集中在研究数据授权、数据出版、科学数据二次利用(包括许可使用协议)、数据引用(包括数字对象唯一标识符)等的著作权,比如司莉等的《科学数据著作权保护问题与对策研究》、吴立宗等的《科学数据出版现状及其体系框架》,刘润达等的《科学数据共享中数据授权问题初探》、吴立宗等的《浅谈科学数据出版中的数字对象唯一标识符》、孙燕华的硕士论文《科学数据共享中的知识产权保护与数据使用许可》等;二是未直接断定研究数据具有著作权属性,而是主张利用反不正当竞争法来保护,研究焦点依然是科学数据共享与知识产权保护的冲突,比如,朱雪忠等的《浅析我国科学数据共享与知识产权保护的冲突与协调》等。这里有一个争议没有很好地解决,即研究数据的知识产权属性,究竟哪些研究数据受版权、特殊权利、商业秘密权、专利权或反不正当竞争权的保护?因此,本文将首先分析研究数据的知识产权属性,然后剖析研究数据的权利归属、研究数据出版中的知识产权问题,最后提出相应建议,以期为合法出版研究数据提供理论指导,促进研究数据的再利用。
2 研究数据的权利归属
研究数据的产生通常伴有合同或協议的约束,而它们可能与知识产权交叉,甚至会改变受知识产权保护的研究数据的法定权利人。因此,下文将区分有无合同或协议约束的研究数据的权利归属。
2.1 无合同或协议约束的研究数据权利归属
2.1.1 研究数据的生产者是自由学术研究者
第一,受版权保护的研究数据,其生产者可能是自由学术研究者。这样的研究数据主要包括整个数据集、数据结构和元数据。根据著作权自动产生原则,一旦文学艺术作品创作完成,作者依法成为著作权人。因此,组织、安排、注解和可视化研究数据的人是著作权人,而非收集研究数据的人。第二,受专利权保护的研究数据,其生产者亦可能是学术研究者。作为自由学术研究者,如果其提起的专利申请被授权,其创作产生的研究数据的权利人就是其自己。
2.1.2 研究数据的生产者是雇员
第一,受版权保护的研究数据,其生产者最有可能是雇员。首先要考虑它是否为职务作品。根据我国《著作权法》第十六条,公民为完成法人或者其他组织工作任务所创作的作品是职务作品,著作权由作者享有;而对于主要是利用法人或者其他组织的物质技术条件创作,并由法人或者其他组织承担责任的工程设计图、产品设计图、地图、计算机软件等职务作品和法律、行政法规规定或者合同约定著作权由法人或者其他组织享有的职务作品,作者享有署名权,著作权的其他权利由法人或者其他组织享有。
第二,受商业秘密保护的研究数据,其唯一生产者是雇员。这是因为商业秘密产生于企业生产、销售和服务活动之中[12],主要涉及企业的内部信息[13]。凡《反不正当竞争法》上的法律主体都可以成为商业秘密的主体,也即经营者是商业秘密的权利人[13]。这个规则同样适用于商业机构中的雇员产生或收集的研究数据。但是,如果商业机构和研究者没有订立适用于商业秘密的协议或政策,那么研究者拥有其研究数据相关的商业秘密权。
第三,受专利权保护的研究数据,其生产者经常是雇员。雇员通常仅享有署名权,其他权利都归雇主或赞助者所有,即便最初权利人是雇员,但是按常规其会把权利转让给雇主。这个规则同样适用于研究数据。研究数据的权利人通常是就研究数据提起专利申请的人,如果它被批准成为专利技术,那么当专利被转让或继承时,权利人则是受让人或继承人。
2.1.3 研究数据的生产者是政府机构
研究数据最多的是由政府产出的,生产者则是政府机构,因此,受版权保护的研究数据生产者可能是政府机构。就数据集整体、数据结构和元数据来说,政府会维持它产生的数据所有权[14]。
2.1.4 研究数据的生产者是私人调查和商业机构
受数据库权保护的研究数据,通常都是私人调查和商业机构生产的。就研究数据的数据库层面来说,权利人是对研究数据的数据库做出实质性投资的制作者。
2.2 受合同或协议约束而产生的研究数据权利归属
研究数据的直接生产者是学术研究者,而这些研究数据是研究项目完成过程中的必然产物,研究项目基本上都是受本地资金、公司或基金支持,或享有政府补贴的,是根据与资助者的合同或协议开展的。很多学术研究者与资助者或雇主订立的合同或协议,对学术研究者创作完成的作品所有权有明确的规定。那么,受知识产权保护的研究数据的权利人则根据合同或协议约定的权属关系而定。
3 研究数据出版中的知识产权问题
3.1 研究数据出版模式
数据出版是以出版的形式发布可供他人(再)利用的研究数据的行为[15]。数据出版是一种全新的数据共享机制,既可以解决数据知识产权保护问题,又可以推动数据的共享和再利用,通过数据出版能充分体现数据的署名权[16]。欧洲理事会通过引进“开放研究数据试点地平线2020”计划推动研究数据出版[17]。目前研究数据出版主要有四种模式:(1)研究数据论文出版模式。该模式以研究数据为内容,以研究数据论文为载体,以文本性的方式在期刊上出版描述性的论著。其典型代表是Earth System Science Data, Scientific Data, Open Health Data等国际期刊[18]。(2)研究数据独立出版模式,即研究数据被保存在具有独立出版规章、政策及一系列合规评价标准的数据中心之内,比如英联邦气象数据中心、中国人民大学社会调查开放数据库(http://www.cssod.org)。(3)研究数据合作出版模式。该模式是期刊、出版社等出版机构与指定的网络数据存储中心合作,在数据论文出版发行之前将其拥有的研究数据优化、整合,最终以数据论文的形式完成研究数据的出版与发行[19]。(4)期刊自行出版模式,是指数据被包含在文章中,即数据出现在文章正文中,以表格、图片等形式出版,或者数据以补充材料的形式附加在期刊后面共同出版,比如几乎所有的同行评议学术期刊、Elsevier旗下的图书情报学期刊[20]。
3.2 出版中的知识产权问题
3.2.1 研究数据出版不足
据不完全统计,我国科研经费中,约有30%乃至更高的比例用于获取科学数据,但海量的科学数据资源没有发挥应有的作用[21]。大多数研究数据仍然保留在科研人员或资助者的手中,并未以公开的方式出版。为什么会出现研究数据出版不足的问题?首先,没有法律要求权利人出版研究数据,法律应该规定科研人员在享受国家机构资助,或从事关乎国家重大利益领域的研究等情况下,必须要履行出版研究数据的义务;其次,欠缺相应的激励机制促使科研人员有出版研究数据的意愿,毕竟研究数据出版对于科研人员来说,是在原有的科研工作中新增的数据准备工作,必须予以激励才能做得更好;第三,科研人员不知道如何将研究数据处理成可供出版的形式,也没有可参考的指南或模板来指导研究数据的出版,即便出版单位要求其出版研究数据,也是无所适从;第四,在科研人员创作完成以研究数据为基础的作品后,一般没有精力再为出版而专门处理研究数据;第五,科研人员可能并不擅长处理研究数据出版及后续的再利用涉及的知识产权问题,比如授权许可、出版协议;第六,一些学科如心理学、医学、生物学等领域的科学数据在获取、收集的过程中可能涉及被调查者的个人隐私,科研人员由于担心曝露别人的隐私而不愿出版研究数据。
3.2.2 研究数据的知识产权状态不清
无论以何种模式出版研究數据,科研人员或数据出版单位首先都要判断研究数据的知识产权属性,即研究数据是否能够成为知识产权的标的物。确定研究数据的知识产权状态,才能在法律许可的范畴内开展研究数据出版及再利用,不会引起知识产权纠纷。然而,确定研究数据知识产权状态不是一件容易的事情,需要专业人员来协助完成这个繁琐而复杂的工作。如果研究数据是受知识产权保护的,那么,研究数据的再利用行为可能会涉及到源数据权利人的改编权等演绎权,如果权利人没有放弃这些权利,再利用者必须确定研究数据的权利归属,以便取得授权,进而在无知识产权风险的情况下创作演绎作品。
3.2.3 数据引用中的知识产权问题
数据引用是为数据集提供精确的、可持续的和标准化的参考[18],是数据出版和再利用的一个必然结果[22]。数据引用有助于提高学术信誉和规范性,亦是对数据贡献者的尊重。数据署名权是知识产权中的一项基本权利[16]。数据引用需要注意以下两个问题。第一,传统数据出版日期有着真实的和不可改变的意义。然而,网络出版情形下,一个标识符可能指向已经变化(甚至已经消失)的资源。出版过程中数据引用的短暂性问题,即不能通过增补数据或替代数据而更新的问题[23],必须要认真对待。数字对象标识符是一个不错的解决方法,它可以精确地显示哪个特定的数据集被使用,并追踪其原始渊源[24]。第二,应注意数据引用规范不标准问题。Patris供美国国家医学图书馆用的引用规范很可能是网络数据库最完整的引用方法,它解决了三种不同情境下的数据引用问题:引用整个数据库或检索系统、引用这些系统的部分,以及引用来稿[23]。除此之外,在制定引用规范时还要考虑数据版本、数据粒度、数据验证等基本问题[25]。
3.2.4 数据出版协议的内容问题
对于研究数据的出版,其目的在于它能够被广大的科研人员、政策制定者等主体对其再利用。研究数据出版协议中有些问题是需要明确的:(1)当再利用者可能出现打印、下载以及以电子形式存储研究数据等复制行为时,这些复制行为应如何界定,才能防止出现篡改研究数据、系统性复制、以研究数据权利人的身份网络传播研究数据而破坏权利人名誉、获利等问题。(2)当研究数据被再次利用创作形成以研究数据为基础的演绎作品后,如何认定其权利归属?是源研究数据的权利人还是演绎作品的权利人?如果是源研究数据权利人且未放弃这些演绎权利,那么是否要进一步取得授权?(3)如果研究数据本身不受知识产权保护,那么数据出版许可协议的合同条款是否限制了本属于公共领域的研究数据再利用?这些问题需要在数据出版协议中得到明确的规定方可厘清权属。
4 促进研究数据出版的建议
4.1 制定政策法律引导研究数据出版
根据冲突模型分析结果,在没有任何外部约束的条件下,理性的知识产权权利人是不会共享自有知识产权的,最终导致研究数据共享困难[26]。确保研究数据能被更多研究者再利用的最佳方式,是制定政策法律引导数据出版。我国于2002年开始实施“科学数据共享政策法规体系框架的研究”项目,并形成了《科学数据共享条例(建议稿)》[27];2018年国务院办公厅又发布了《科学数据管理办法》,其第二十二条规定“主管部门和法人单位应积极推动科学数据出版和传播工作,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据”[28]。但是这些规章立法层次不够,没有强制要求全体学术研究者在研究项目之初就开展研究数据出版的准备工作,也没有要求科研人员在项目完成之后就必须出版研究数据,没有可参考的指南或模板来规范研究数据的呈现形式。因此,我们应该进一步完善研究数据出版的政策法律体系。首先,提升《科学数据管理办法》的立法层次,可以强制某些项目或某些领域的研究数据必须要在项目完成之后立即出版;其次,设置激励机制,使科研人员愿意出版研究数据,并积极地为出版高质量的研究数据而努力;第三,规定含有隐私或敏感信息的数据在出版时应该注意保护隐私,可选择匿名出版,或者将敏感信息与试验数据分开存储[29];第四,提供可参考的指南或模板来规范研究数据的呈现形式,帮助各科研机构和科研人员形成研究数据出版的理念,引导研究数据出版。
4.2 厘清研究数据的知识产权状态
数据出版要以研究数据清晰的知识产权状态为基础。研究数据是否是知识产权保护的对象,要看它是否满足知识产权保护的条件,比如,独创性表达的研究数据受版权保护、未被公众所知兼具价值的研究数据受商业秘密权保护、实质投资的非独创性数据库受特殊权利保护、宽泛定义的研究数据受专利权保护。若想做好此项工作,需要专业人员辅助,否则单凭科研人员的专业知识和精力很难弄清研究数据的知识产权状态。对于受知识产权保护的研究数据,再利用者一定要关注署名权、发布权/再分发权和再编译权等权利内容,尤其是数据权利人的分发权和再编译权一定程度上会妨碍数据共享和再利用[29]。如果权利人保留了这些演绎权,那么再利用者则要进一步判定权利归属,以便确定向谁取得授权许可。
4.3 提高学术研究者的知识产权素养
《科学数据管理办法》要求“科学数据使用者应遵守知识产权相关规定,在论文发表、专利申请、专著出版等工作中注明所使用和参考引用的科学数据”[28]。为做好数据引用,学术研究者首先要注意数据引用的短暂性问题,因为网络文献在研究数据中的出现频率很高,但网络文献难以在网络上永久保存,很容易失效;其次,注意数据引用规范要标准。这些都需要学术研究者具备良好的知识产权素养。知识产权素养是指了解知识产权制度,具备知识产权意识,具备运用知识产权解决问题的能力[30]。如果缺乏知识产权素养,学术研究者就很难保证数据引用的规范性和标准性、稳定性。因此,必须通过各种方式提高学术研究者的知识产权素养,比如加强知识产权基础教育、创新知识产权教学方法、加强师资队伍建设、积极运用《文后参考文献著录规则》等,推动研究数据出版、再利用的伦理化。
4.4 选取适当的数据出版协议
促进研究数据的再利用,关键是让公众知道数据库和数据内容的使用条款。幸运的是,开放数据共用协议组织(Open Data Commons)已经在开发具有法律约束力的工具来支配数据集的使用。综合使用版权和合同标准,他们已经创造了三个标准协议,分别是PDDL(公共领域的贡献和许可证)、ODC-By(开放数据共享署名许可)、ODC-ODbL(开放数据许可),可以应用于数据项目[31]。其中,ODbL是一种允许用户无偿共享、修改和使用数据的许可协议,要求对于修改后的数据以相同的方式共享并且署名;ODC-By是一种数据库的特定许可协议,需要署名数据库,ODC-By的大部分内容和ODbL相同,不同之处在于它明确提出了对于数据库和数据的署名问题[32]。
无论选取什么样的数据出版协议,必须要做到:(1)界定研究数据再利用中容许的复制行为,以防出现篡改研究数据、系统性复制、以研究数据所有人的身份传播研究数据而破坏权利人名誉、获利等问题;(2)明确研究数据再利用形成的演绎作品的权利归属,以免引起纠纷;(3)研究数据权利人必须要在协议中表明其是否放弃改编权、翻译权、汇编权等演绎权,因为研究数据最重要的价值在于二次利用,权利人对演绎权的声明,会影响公众以研究数据为基础进行再创作的后继行为;(4)数据出版协议要明确其与知识产权的关系,如果研究数据本身是不受知识产权保护的,那么数据出版协议不应通过合同条款限制本属于公共领域的研究数据再利用。
开放协议管理组织应开发相应的网络工具帮助科研人员根据授权对象、授权范围、授权条款选择最符合自己需要的个性化数据出版协议。不同的协议组织应协调合作,为相似的开放协议增加兼容授权条款,允许细节不同但是结构相似的许可协议相互兼容使用,避免协议间的兼容性纠纷。同时,政府机构、资助机构、学术研究者所在的科研院所应树立简单、开放、标准化的授权理念,大力推广开放数据协议的授权模式,减少研究数据授权的技术成本和时间成本,推动研究数据的传播和再利用[33]。