APP下载

基于区块链理念的科学数据溯源研究

2022-01-06赵丽梅

科技管理研究 2021年23期
关键词:二次开发区块主体

赵丽梅

(黑龙江大学信息管理学院;黑龙江大学信息资源管理研究中心,黑龙江哈尔滨 150080)

科学数据是大数据时代重要的学术资源,不仅是科学研究的基础,而且是国家创新系统以及科学研究过程中最重要的因素之一,在科学研究和知识创新中具有重要的战略驱动作用,需要通过具体的开发利用才能彰显出其价值。由于蕴藏多种科学理论的科学数据零零散散地分布存档于各种学术情境中,不仅需要将其公开存取,更需要进行深度解读和整合利用,践行科学大数据和科学深度数据时代所要求的研究理念[1]。但是由于科学数据行业体系发展不够成熟、监管体系以及管理服务不够完善等原因,科学数据质量参差不齐,科研人员在对科学数据进行利用时所面临的风险和不确定性越来越高,对于即将使用的数据无法完全信任科学数据的质量,影响最终的科学研究效率,导致多种科研资源的浪费。而科学数据质量是科学研究的重要基础保障之一,但是面对看似十分规整的科学数据产品,如果不通过精细的溯源、专业的深度解读,很难甄别其真伪或者评判其质量高低,因此科学数据溯源作为科学数据质量与安全管理的重要手段,将为科学数据管理行业提供基本保障,并能够降低科学数据利用中的风险,提高数据驱动创新研究的效率[2]。

区块链的核心理念在于集成存档数据,实行分布式存取以及节点之间无障碍传输与共享,降低参与主体之间信息非对称的共识机制和多体协同治理的激励约束机制,利用加密算法实现安全保障的创新举措[3]。对于科学数据溯源而言,具有很强的应用契合度。本文将科学数据溯源置于区块链的系统框架中,探讨区块链视域下的科学数据溯源议题,旨在寻求高效适合的科学数据溯源方案,促进科学数据管理与利用的顺利开展。

1 科学数据溯源的内涵与体系

科学数据作为重要的科学研究战略资料,其真实性和可靠性能够强化科研人员对其利用的信念以及降低研究的风险。科学数据溯源是管控其真实性和可靠性的重要渠道之一,因此成为业界人员的重要研究对象和实践议题。

科学数据溯源是大数据时代科学研究活动的“辩章学术、考镜源流”,即实现对科学数据的源头与发展过程进行仔细考证的宗旨。根据王芳等[4]的梳理分析,目前有关科学数据溯源的研究多是技术维度的分析,更确切地说是通过技术来践行科学数据管理思想的研究范式,诸如融合大数据理念和相关技术(包括区块链技术)进行科学数据平台和共享管理系统的开发,是科学数据溯源体系基础设施架构和内容建设,从主体间际关系的视角对科学数据溯源活动的探讨相对较少。本文拟以区块链信息对称理念为思想框架,融合溯源内容和流动链条以及主体间际关系优化的视角来探讨科学数据溯源问题,意图完善现有的理论范畴。

根据科学数据的流动链条,科学数据溯源是将科学数据生产、利用、流转与再生产等多个控制环节进行信息记录并赋予潜在用户存取权限,对科学数据进行多方向(正向、逆向和不定向)、多维度(整体共享、部分利用)的追踪管理,实现科学数据来源可查询、去向可追踪以及数据质量可保障的目标,即科学数据溯源是对科学数据对象本身以及基于科学数据的生产、利用、流转与再生产(二次开发)等过程所产生数据的一切溯源活动[5],见图1。

图1 科学数据溯源中的数据流

从图1 可以看出,科学数据溯源不仅包括对科学数据本身的溯源,而且也包括对科学数据作用主体信息及其通过科学数据而产生的各类关系信息的溯源,这些主体信息以及关系信息也是追踪科学数据流向的重要内容。一方面可以保障基于科学数据的科学研究的有效性,通过科学数据平台实现科学数据质量监管和问题数据的有效召回,潜在的数据用户可以通过查看溯源信息掌握数据质量的控制环节,保障自身数据利用的安全可靠,降低科学研究中的不确定性,保障科学数据用户的权益。另一方面也可以维护科学数据生产主体的利益,特别是科学数据经过多次利用流转之后形成新的再生科学数据产品时,不仅应该保障科学数据二次开发主体的利益,而且也应该维护科学数据原初生产主体对再生科学数据产品利用与流转等环节的追踪和知情权利。因此以科学数据为介体而形成的主体间际关系是科学数据溯源的重要途径。

从微观层面来讲,科学数据溯源体系能够为科学数据用户提供相对稳妥的科学数据集合和科学数据获取渠道,节省科学数据用户的存取成本,对于科学数据生产者而言,完善的科学数据溯源体系能够为其管控科学数据后续的流通渠道提供便利措施。从宏观层面来讲,科学数据溯源是科学数据协同治理的关键环节,不仅能够保障科学数据共享活动中利益相关者的权利,而且能够规范其所承担的责任[6]。

2 基于区块链的科学数据溯源的必要性与可行性

2.1 基于区块链的科学数据溯源的必要性

随着《国家科学数据管理办法》的颁布,科学数据的开放和共享已经是大势所趋,未来的科学数据管理不仅仅是鼓励更多的科研主体共享数据,而是需要对共享或开放的数据进行质量管理,降低科学数据流动过程中的不确定性。

科学数据的不确定性贯穿于科学数据生产、流转、应用以及二次开发等各个阶段[7]。由于目前共享或开放的科学数据质量控制管理权限仍然集中在建设方或服务方,二者作为科学数据流动链条上的重要利益相关者以及科学数据质量控制管理主体,出于自身利益的考虑,存在着随意篡改科学数据的可能性,这样无法从源头上把握科学数据的质量[8]。另外,如果科学数据质量控制管理权限仅仅集中在一种利益相关者手中,一旦所处平台受到攻击而数据被篡改,则将出现科学数据的真实性难以辨别的负面境况,加大科学数据利用的不确定性和风险[9]。

从源头上把握科学数据的质量,不仅能够做到对科学数据的供应予以监管,提升科学数据供应市场的信誉,而且从长远来讲,还能最大化保证科学数据用户的权益。而为了保证科学数据原始生产主体的权益以及为了维持科学数据开发利用的可持续性,必须让科学数据生产主体有权利而且能够追踪科学数据利用、流转以及科学数据二次开发的整个进程,以防止科学数据在被利用、流转以及再生的过程中,其他数据管理或利用主体存在数据利用不端或被误导利用的境况,实现科学数据溯源的双向监督。但是这种监督存在信息不对称、监管不及时的现象,当科学数据出现质量问题时,这些参与主体虽然能够彼此验证,但是往往无法快速地在有效的时间内确认具体的责任主体,为了防止问题科学数据继续流转,只能从总体上声明科学数据的问题,损害的是真正遵守规则的参与主体。

因此科学数据溯源不仅仅应该涉及数据初始生产环节中数据采集或者建设情境、数据处理的过程以及相应的实施主体,还需要延伸到科学数据的利用、流转以及二次开发过程。基于区块链的科学数据溯源可以保证整个科学数据流动链条上的信息相对开放,各个环节的运营系统协同运行,有助于建立多方共同信任体系和隐私保护体系,消除科学数据生产、流转、利用以及二次开发链条中的信息孤岛现象,提升已然共享的科学数据的真实性和公信力,发挥科学数据溯源体系的价值,实现科学数据溯源的真正目的[10]。

2.2 基于区块链的科学数据溯源的可行性

采用区块链的方式进行科学数据溯源,主要源于区块链能够保证所溯源科学数据及其利用与再生信息的完整性、真实性、连续性[11]。区块链作为公共记录手段的分布式账本系统,能够对参与主体的操作权限,进而能够保证科学数据、所涉及的主体信息以及主体关系信息的原始性、完整性和真实性[12]。

区块链有助于优化乃至打破多科学数据主体之间的信息非对称态势,降低主体信息交互的成本,优化主体之间的信任关系。在科学数据供应、流转、利用以及二次开发的过程中,涉及到的是多元化的科学数据主体,其瓶颈是面向多主体的信息协同以及科学数据供应和流转的科学数据追溯,需要对科学数据进行跨主体的流转与互操作。对于科学数据生产主体、科学数据二次开发主体以及科学数据利用主体之间的数据独立存储体系,彼此之间无法建立可强制执行的信任,形成数据孤岛,导致科学数据产品的溯源信息无法交互与共享。区块链通过建立科学数据溯源多主体之间的信息实时传输系统,能够优化改善乃至打破科学数据供应和流转以及利用过程中各个主体之间的信息非对称态势。通过自身分布式的架构体系,科学数据的所有溯源信息存储在每一个参与主体节点上,相应的共识协议、激励机制使参与主体节点之间形成一个彼此验证的网络,做到多主体信息对称和多主体彼此监督并实时访问的溯源数据共享体系[13]。区块链对于主体信息以及主体关系信息的共享,将科学数据主体之间复杂的信息交互问题,转化为科学数据流动链条上的管理问题,实现科学数据全生命周期的信息存取,有效解决主体信息之间的信息非对称问题,降低主体信息交互的成本和信任建立的难度以及主体关系建构过程中的不确定性[14]。

基于区块链的科学数据溯源有利于认定科研主体的学术优先权,以维护科研主体的学术权利[15]。科学数据是科研主体为了实现相应的科研目标,对所属科研领域的相关科研成果的研发进程进行规划、设计、实施与分析总结而获取的数据集合,科研主体对于科学数据的生产与维护往往投入了大量的智力劳动,因此科学数据是主体科研成果及其知识产权体系的基础构成要素之一,是科研主体维护其学术权利的重要依据。有关此方面我国已经开启了相应的实践行动,2021 年1 月27 日正式发布的开放数据联盟链ODC(Open Data Chain)解决的核心问题就是科研真实性和成果归属的认定与评判。传统意义上的科研领域学术优先权往往是通过被同行认可的公开发表的最终科研成果予以确认;对于基于区块链的科学数据溯源活动而言,其共识机制能够令学术共同体快速认知科学数据的生产主体,并能够有效率地认定科学数据对于最终科研成果的决定性,可为科学研究提供相应的证据链条。因此基于区块链的科学数据溯源一方面可从基础数据资料层面上确定科研成果的学术优先权的归属,有利于弥补科研成果发表迟滞所带来的认定时差,另一方面可为学术纠纷中责任主体的认定提供基础依据,更有利于激励科研人员没有后顾之忧地从事科研活动[16]。

3 基于区块链的科学数据溯源实施方案

3.1 确定基于区块链的科学数据溯源的内容

基于区块链的科学数据溯源是以科学数据对象为基础节点对数据进行全息式的溯源和追踪。从内容存储角度看,溯源内容包括基础数据对象和再生数据对象:其中基础数据对象包括科学数据对象本身和描述科学数据对象的数据,即科学数据元数据(基于数据对象属性来确定科学数据溯源的描述框架);再生数据对象包括科学数据生产、利用和流转以及二次开发过程所产生的过程数据、溯源结果数据以及溯源过程中所观测到的主体数据及其关系数据,这些数据作为科学数据对象本身的再生数据和溯源进程监控数据也是科学数据溯源内容的重要组成部分[5]。其中科学数据对象及其元数据是溯源活动的基础内容,溯源过程数据是溯源最终数据流向的依据,结果数据是对科学数据溯源活动的存档记录,可以为未来的科学数据溯源活动提供可借鉴的经验蓝本,主体数据和主体关系数据是科学数据确权以及维护主体权益的证据信息,基于区块链的科学数据溯源内容结构如图2 所示。

图2 基于区块链的科学数据溯源内容结构

3.2 构建基于区块链的科学数据溯源平台

根据科学数据溯源的内容,基于区块链的科学数据溯源平台以科学数据对象为核心,以数据生产、数据利用和流转、数据二次开发等过程为依据,通过对其生产主体、利用主体、流转主体(如数据供应商)、二次开发主体等信息进行前向溯源和后续追踪存储,将每一次溯源记录与所对应的科学数据对象绑定在一起,形成复杂多元化的溯源数据集合,作为科学数据管理及其质量保障的基础依据。因此基于区块链的科学数据溯源活动是汇聚多主体资源及其共同智慧的平台系统,数据的真实性和统一性是平台运行的基本前提,以满足科学研究活动的刚性需求和科学数据溯源活动的有效性,避免用户利益的损失和平台公信力的下降[17]。

基于区块链的科学数据溯源活动,其整个运行体系是开放的,不限于特定的主体或者特定的科研项目,有相关科学数据需求的其他主体都可以参与,共建基于区块链的可信科学数据生态系统。但是该溯源系统平台不是主体匿名随意进出的数据场域,而是要核验主体的身份与数据使用意图,即对参与方的身份真实性和意图合理性进行验证。用户主体的隐私信息以及数据利用痕迹可以记录在区块链中,但是只有科学数据供应主体有权利掌握科学数据用户的利用痕迹信息,其他主体无权获取科学数据用户主体的相关信息,即只有在利用他人所生产的科学数据的情况下,数据用户主体有责任和义务呈报自身的数据利用痕迹,但是只允许对科学数据用户主体的总体情况信息进行存取,即知道有人利用数据,但是没有权利获取利用主体以及如何利用等相关信息,只有在发生纠纷才能从系统中调用详细的利用信息;对于科学数据的二次开发主体而言,需要通过区块链向用户主体提供数据初始生产主体的信息[18]。

3.3 实施融合私有链和联盟链的科学数据溯源运行模式

区块链的运行模式包括三种:公有链、私有链和联盟链。公有链不对访问权限予以要求,整个链内的信息是公开透明的,参与主体的任何信息访问和存取行为都是有迹可循的,主体之间形成没有信任机制的信任关系,其代价是牺牲了主体的信息隐私权利;私有链对主体的访问权限予以严格控制,根据情境所需有选择性地予以开放,因此适合于一定范畴、并能够对信息进行修改和控制其开放规则的系统环境;联盟链采用多个主体共同参与管理的运行模式,在该运行模式中,各个参与主体对于节点的控制具有严格的分工,任何节点都有其特定的管理主体,以规范数据在特定主体之间进行读写和存取,主体需要经过授权才能参与网络的管理行为[19]。

在科学数据溯源活动的实施过程中,只有参与主体之间存在一定的信任前提和利益约束,才能保证科学数据溯源活动的可持续性。本部分基于联盟链和私有链的运行特征,提出融合私有链和联盟链来实施科学数据溯源活动的运行模式。该运行模式首先是基于联盟链的科学数据溯源运行模式,科学数据的生产主体、利用主体、流转主体以及二次开发主体需要系统内部的授权才能加入或退出网络,在网络内部不仅科学数据的存在信息、供应信息、利用信息、二次开发信息都是公开的,而且科学数据供需双方基于数据发生的一切联系信息也是对称的,需要成员主体共同协商维护,即科学数据流动的整个链条信息都是可以溯源的,对于科学数据流动链条的每个环节的用户特别是最终用户而言,能够通过网络内部的公开信息和对称信息来溯源预利用的科学数据的来源和流向,从而强化其对科学数据质量的正向信念,因此参与主体之间的信任前提得以满足[20]。其次该联盟链内部也需要配置私有链的运行模式,因为私有链的开放范畴有限,需要对科学数据溯源活动的参与主体权限进行认证与限制,在融合两种链的科学数据溯源运行模式中,科学数据原初生产主体可以对任何科学数据溯源记录或相应的参与主体采用私有链的认证方式和管理模式,即使其在联盟链中已经得以确认,但是作为联盟成员的独立个体也有权利拒绝为其提供数据或者采取不合作的方式,这一切取决于科学数据需求主体的信用等级是否符合数据供应主体的预期[21]。

之所以在联盟链中进一步采用私有链的方式对科学数据的利用、流转以及二次开发进行权限认证,就是为了赋予科学数据原初生产主体对科学数据的后续作用进程的控制权限。否则如果科学数据的原初生产者对科学数据的后续使用进程没有任何控制权限,不仅无法保证科学数据后续利用和开发的安全性,也无法对科学数据生产者获取后续进程所带来的剩余盈余提供保障,这样会对科学数据生产者的积极性带来负面影响,导致科学数据生产者延迟发布科学数据以最大限度地获取科学数据的价值。因此科学数据溯源平台应该采用私有链和联盟链融合的方式进行科学数据溯源及相应的管理活动,保障主体权利的同时促进长效激励机制的产生,以满足参与主体之间的利益约束。

4 结语

科学数据溯源作为科学数据质量与安全管理的重要手段,不仅能为科学数据管理行业提供基本保障,而且能够降低科学数据利用中的风险,提升科学数据驱动创新研究的效率。为了避免溯源手段存在信息非对称、监管不及时的现象,保证科学数据溯源参与主体的权益,以区块链为视角对科学数据溯源的运行理念进行探讨,能够将科学数据主体之间的信息非对称降到最低:一方面区块链作为一种共识机制,能够实现高效的科学数据溯源活动,提升已然共享的科学数据的真实性和公信力,发挥科学数据溯源的价值,实现科学数据溯源的真正目的——促进科学数据管理与利用的顺利开展,另一方面作为协同治理的激励约束机制,通过融合私有链和联盟链的科学数据溯源运行模式,能够保障科学数据溯源参与主体信任关系的建立与利益约束的实现,从而从长远战略上维护科学数据溯源参与主体的权益,以实现科学数据管理与共享的可持续性。

猜你喜欢

二次开发区块主体
论碳审计主体
论自然人破产法的适用主体
何谓“主体间性”
《红楼梦》的数字化述评——兼及区块链的启示
区块链助跑财资管理
浅谈Mastercam后处理器的二次开发
一场区块链引发的全民狂欢
区块链助力企业创新
略论意象间的主体构架
例谈课本习题的“二次开发”