论5G环境下的数据出版
2019-12-27张莉婧张新新
张莉婧?张新新
【摘要】 数据出版是促进数据共享的有效措施之一。随着大数据科学范式的兴起、数字出版数据化发展的推动以及5G技术的落地,科学数据呈现爆发式增长,数据共享逐渐成为科学研究领域的热点话题,数据出版为数据共享开辟新路径。从数据出版实践经验来看,现阶段,我国数据出版仍处于发展阶段。不同背景下学者对数据出版的定义理解不同,但已初步形成数据出版流程和数据出版模式。5G环境下,数据出版面临的数据存储、数据共享以及数据引用等问题将得到有效解决,数据出版将发生翻天覆地的变化。
【关 键 词】数据出版;科学数据;5G;数据共享;云数据库;VR出版
【作者单位】张莉婧,中地数媒(北京)科技文化有限责任公司;张新新,武汉大学信息管理学院,地质出版社。
【中图分类号】G230 【文献标识码】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2019.23.001
随着5G时代的来临、大数据以及出版业数字化转型升级的迅猛发展,数据共享变得尤为重要,数据出版将成为出版界和科学研究领域日益关注的热点问题。科学数据是信息时代开发利用潜力最大的战略性、基础性科技资源,已成为解决复杂科学问题的关键要素,以及驱动科学发现和决策支持的新型基础设施[1]。在此背景下,2019年11月8日,國际科学理事会数据委员会(CODATA)正式发布《科研数据北京宣言》。宣言依据公共科研数据开展多边合作的广泛社会意义提出十条原则。其中一条原则指出,“全球数据同盟与开放数据的FAIR(可发现、可获取、可互操作、可重用)原则”,FAIR原则作为一套国际化方法,旨在提高科学数据管理、监管和出版,以此顺应我国开放科研数据趋势,而数据共享是开放科研数据的一种形式。数据共享可以将研究成果再现及验证,让公众应用现有的数据提出新的科学问题,从而不断提升科学研究和创新水平。数据出版是推动数据开放、数据共享的重要手段和激励机制。
一、研究背景
数据作为对事实观察的结果,贯穿于整个科学领域,在科研学术活动中扮演着不可或缺的角色。数据不再仅仅是科学研究的结果,正在慢慢转变为科学研究的基础性材料,科学研究将围绕数据进行。数据因具有可重复利用的特性决定了其共享的价值大大超过了其本身所拥有的科研价值。随着互联网的快速发展,大数据时代新科学范式的兴起,受到数字出版的数据化发展的推动,科学数据的采集成本正在逐渐降低,各种数据的容量正在呈指数级增长,数据的共享与复用逐渐成为科学研究领域的热点话题。
1.大数据时代新科学范式的兴起
2013年被誉为大数据元年,随着浙江人民出版社《大数据时代》一书的出版,大数据领域掀起了一股出版热潮,此后,大数据一直作为热门话题渗透各行各业。“如何将大数据的数据采集、数据清洗、数据标引、数据计算、数据建模、数据应用、数据服务等产业链,与出版业的编辑、校对、印制、发行等流程进行无缝衔接,是考究数字出版智库水准的重要标尺之一。”[2]人类科学研究范式经历了以科学实验为主的第一范式——经验科学,以理论总结和理性概括为主的第二范式——理论科学,以仿真和模拟为主的第三范式——计算科学,现在发展到以科学数据为主的第四范式,即大数据时代的新科学范式——数据密集型科学。数据密集型科学的出现,意味着数据不仅是科学研究的对象,还是科学研究的工具;计算机不仅能做模拟仿真,还能进行分析归纳,得出理论。数据密集型科学转变了科学研究方法,研究人员可通过大量的已知数据计算得出之前未知的理论。
大数据时代,新科学范式的兴起导致科学数据在容量上呈爆发式增长,在结构上更多趋于呈现非结构化和半结构化的复杂形态,并形成以科学数据为核心的科研过程[3]。数据密集型科学研究已经成为科学研究领域的主导方式,其数据量之大、发展速度之快已经超出人们预想,社会各界会越来越重视数据的价值。数据共享是数据密集型科学研究的必经之路,数据出版为完善我国科学数据共享机制开拓新途径。
2.数字出版的数据化发展
数字出版经过多年的发展,主要经历了数字化、碎片化以及数据化发展三个阶段,目前正在经历智能化发展阶段。不同的阶段催生出不同的数字出版新业态,同时产生典型的数字出版产品,不同阶段之间也存在着交叉发展。如今,数字出版是智能化与数据化共同发展阶段,数据化发展推动智能化发展的出现。
2013年至今,是数字出版的数据化发展阶段。从数字出版产业链的角度分析,这一阶段的主要特征有以下方面:围绕知识体系逻辑,以图书资源为基础,以移动互联网、云计算、大数据、语义分析等高新技术为支撑,以为用户提供个性化、定制化、交互式的知识服务为新的产品形态,呈现数据化出版和智能化出版态势。
数字出版的数据化发展阶段,催生了数据出版的新业态。数据出版是指以数据作为生产要素,将文字、图片、音视频、游戏、动漫等都当作数据的表现形式,其围绕着数据挖掘、采集、标引、存储、计算开展出版工作,通过数据模型的构建,最终上升到数据应用和数据服务的层面[4]。
3.5G技术的落地
2019年6月6日,工信部颁发了首张5G牌照,5G开始正式进入规模化商用阶段。5G通信技术凭借高速率、泛在网、低功耗、低延时、高可靠和大容量等特点,将加速整个社会的智能化发展,开启万物互联的智能媒体时代。毋庸置疑,数据出版领域也将发生巨大变革。5G时代,计算机的性能将更加强大,借助计算机对海量数据进行计算和挖掘已成为必然,帮助科研人员发现隐藏在纷繁数据之中的重要关联关系,成为第四范式数据密集型科学研究的核心问题,而数据出版成为解决科学问题的关键。
随着5G技术的落地,一方面,5G技术将驱动数据共享,在科学研究领域,只要开展科学研究活动,都将没有选择地被卷入到科学数据的主体队伍中。在此背景下,有效调动作为产生科学数据、应用科学数据的科研人员的主动性、积极性,成为科学数据共享的关键。另一方面,5G技术将赋能数据出版,给数据共享带来便利,优化数据出版流程,使数据存储、用户引用更方便。
二、数据出版的主要流程和模式
数据出版与数据共享是相辅相成的关系,数据出版是促进数据共享的重要手段,数据共享是驱动数据出版的重要因素。对数据出版的研究最早始于2005年国外学者对数据共享和出版制度的关注,早期对数据出版的研究主要聚焦于数据出版的价值分析和实践经验的介绍。在互联网技术的推动下,数据出版实践逐渐开展。不同实践背景下,学者对数据出版的定义有所不同,在实践过程中也总结了一套完整的数据出版流程和数据出版模式。此外,出版过程中的各种问题也随之暴露,如数据的存储问题、服务问题和引用问题等。
1.数据出版的定义
正如吉姆·格雷(Jim Gray)所说:“所有科学文献都上网,所有科学数据都上网,而且它们之间具备可互操作性。”[5](如图1)数据出版业也需要将数据上传到互联网,但并不是简单地将数据上传,而是需要学术出版的流程规范。虽然数据出版的研究已经相对比较成熟,但不同研究背景的学者对数据出版的定义有着不同的理解。在学术界,学者的共识是数据出版就是与科学研究产生的数据有关的出版活动,但是针对该出版与科研论文出版是否一致,不同的学者有不同的观点。刘闯等学者认为,该出版过程与科研论文发表过程相同,需要经过同行专家评审方可正式出版,出版之后才能对科学数据成果引用与评价[6]。张小强等学者认为,数据出版是学术界新的出版形式,其出版与科研论文的出版不能完全等同,因为数据出版的过程中包括对科研数据及有关的信息进行评议和编辑[7]。还有些学者认为,数据出版与论文出版完全不同,是指将科研数据通过任何形式上传到互联网并允许其他使用的行为,其出版过程没有科研论文出版那么正式。数据出版的不同定义在国内外都有一定的代表性,这从侧面反映了学界对数据出版概念存在争议。
笔者认为,数据出版与科研论文出版既有相同之处也有不同之处。数据出版与科研论文的出版过程一样严格,为了避免出现学术不端的行为,保障科学研究成果的知识产权,激励更多的科学家参与数据出版,二者均需要经过严格的审批才可出版。而数据出版区别于科研论文出版主要在于出版模式,数据出版模式相对多样化,笔者将在下文阐述。
2.数据出版的主要流程
简单来说,数据出版是指学者将科学研究生产的科学数据,按照数据出版机构格式要求提交,专家从科学研究角度对所提交的数据进行审议,学者依据审议结果修改之后再次提交数据,没有问题之后,出版机构创建标准和永久的数据引用信息对数据进行存储、发布,供其他学者引用。根据国内外的数据出版实践经验,数据出版主要流程归结为以下五个基本环节:数据生产、数据提交、数据审核、数据发布及数据引用,流程图见图2。
详细流程说明如下:
(1)数据生产。在5G时代背景下,任何领域的科学研究均会产生大量的科研数据,所以科学研究的过程就是数据生产的过程。数据生产的主力军是科学研究者,辅以数据生产工具和平台。
(2)数据提交,即学者将原始数据和科研过程产生的数据,按数据出版机构格式要求以数据论文或解释说明的形式上传。例如,《中国科学数据》期刊要求学者在提交数据时提交数据用途、元数据、数据文件,要求学者在提交元数据时提交数据集标题、数据集作者、数据集关键词、数据集摘要等基本信息。数据文件可以任何文件格式上传,但只有200MB以内的数据可直接上传,否则需要使用FTP上传。
(3)数据审核,又称同行审议,是数据出版的关键步骤。避免出现数据造假和学术不端的行为是数据出版的重要目标,但数据质量评估一直是难以解决的复杂问题。数据质量并不是通过专家简单浏览就能确定的,需要通过实验的检验和应用,所以数据审核对专家的知识储备和投入时间成本要求相对较高。
(4)数据发布。数据审核通过后,数据出版机构需要给数据赋予永久性的唯一标识符,包括DOI、URL等,并将数据公布出版平台,同时对数据进行永久性存储,最大限度地为其他学者对数据的引用提供可能。
(5)数据引用。数据出版的目的是数据共享,方便其他研究者对数据的复用,数据引用是数据出版的核心目标。更多的专著、论文、报告等形式研究成果以引用的方式引用已发布的数据,需要数据出版机构、评审专家以及作者密切合作。
3.数据出版的模式
依据不同的划分维度,数据出版的模式各有不同。本文从数据出版机构出发,将数据出版模式主要划分为两种(见图3):第一种是数据中心出版模式,将科学数据直接提交到数据中心;第二种是出版商出版模式,将科学数据以数据附属于论文或论文附属于数据的形式提交到期刊单位。
(1)数据中心出版模式。该模式下的数据中心是指具有数据存储、数据发布功能的科研机构、大学或专门的数据存储机构。数据中心的数据出版将数据和数据的描述信息存储在同一服务器上,学者引用时数据与数据的描述信息将同步出现,方便学者获取数据。这种出版模式对数据规范性、数据质量、数据格式、数据稳定性及数据独立性要求相对较高,但各数据中心的互操作性较差。比较典型的数据中心出版模式是全球变化科学研究数据出版系統,该系统于2017年荣获“联合国世界信息峰会奖”,从2014年6月创办至今,已有995位作者参与出版,共出版数据集656个、数据量258GB。数据出版中心出版模式是大部分学者的选择。
(2)出版商出版模式,又可称为期刊出版。该出版模式与传统论文出版模式类似,主要由期刊出版单位负责数据质量和学术质量的把控。依据出版成果可分为数据附属于论文、论文附属于数据两种形式。这种出版模式对数据规范性、数据质量、数据格式、数据稳定性及数据独立性要求相对较弱,对上传的数据容量有一定的限制。典型的期刊单位是《全球变化数据学报》,该学报是在全球变化科学研究数据出版系统的基础上于2017年创办的季刊,截至目前已发布数据论文245篇。出版商出版模式是少部分学者的选择。
三、 5G对数据出版的新推动
5G构建了超宽带、低延迟、高密度、高可靠、高可信的泛在计算与通信基础设施,形成人、机、物三元融合的万物互联空間;5G为VR/AR、人工智能等技术的加速发展创造了条件,将人们对互联网的体验推向制高点,5G的问世和发展在互联网信息时代是一座重要的里程碑。5G时代,互联网体验会更加丰富,海量数据存储和智能化处理会更加便捷。具体到数据出版,5G技术将分别从数据库存储、数据共享及数据引用三方面产生新推动。
1.云数据库助力数据存储
1G时代依靠关系型数据库满足基本需求,2G时代开源数据库产品初露锋芒,3G时代非关系型数据库应对数据暴增,4G时代“分布式+关系型”数据库应对视频存储。5G时代,数据洪流随即涌现,人们对数据存储和分析计算的需求将不断提高,随着云计算技术的不断成熟,大部分应用将要部署到云上,云数据库开始崛起。数据库上云是必然趋势,即云数据库将成为5G时代数据存储的关键。
据Gartner预测,5G时代,云数据库将主导数据存储市场,到2022年将会有75%的数据库被部署或迁移到云平台,只有5%的数据库会继续部署在内部环境中。据相关数据统计,国内领先的云服务厂商——阿里云目前已将40万个数据库成功迁移至云端。在数据出版中,从数据生产、存储到引用的各个环节,数据库都至关重要。而5G环境下,云数据库的重要性更是不言而喻,它将助力数据存储,推动数据出版进一步发展。
当前,从事数据出版服务的数据中心或期刊出版单位大部分是通过自建数据库的方式存储数据,根据存储需求自行搭建数据库、购买服务器、备份数据、修复安全漏洞及维护数据库,需要耗费大量的人力和物力成本,但资源利用率依然很低,当多个用户同时访问同一数据库时会出现阻塞现象。此外,缺乏统一的自建数据库标准给各数据中心和期刊出版单位的数据共享带来极大不便,对数据出版有一定的阻碍作用。5G时代,云数据库存储将解决自建数据库遭遇的问题,在大量减少成本的同时,加强资源利用率,数据中心或期刊出版单位依据企业需求购置专业数据库支持服务,可实现轻松部署,保障数据的高可靠性。同时,云数据库存储可为众多数据仓储库建立链接提供便捷,实现以关联数据的发布方式提高数据的可发现性[8],加强数据共享,助力数据存储,提高数据出版商的出版积极性,为数据出版发展持续提供动力。
2.超高速驱动数据共享
相比4G,5G将以全新的网络架构,提供至少十倍于4G的峰值速率、毫秒级的传输时延和千亿级的连接能力,打开了一条更宽的移动通信之路。5G的目标是在所有地点提供无处不在的高数据速率连接——无论移动还是静止,5G将允许用户组访问特定的数据。这意味着今后数据库将有覆盖广泛多样的传输系统、高速度的移动数据访问能力。
据调查,相比欧美国家,现阶段我国数据共享模式处于发展阶段,作为科学数据的生产者、使用者和管理者——科研人员数据共享意愿相对低下。影响科研人员数据共享意愿的因素诸多,如个人背景、国家政策、共享成本、技术支撑及数据质量等,其中,共享成本是关键因素之一。对科研数据进行共享需要占据科研人员原本就不充裕的时间,因此,有效解决数据共享成本是提高科研人员数据共享积极性的有效手段。
目前,不同数据出版商的数据上传和下载方式不同,但对所上传的数据容量都有一定限制。当数据量较大时,受网络带宽限制,上传速度会相对较慢。数据上传和下载实质上是对数据库的访问,而影响数据库访问速度的因素有很多,其中,网络速度是客观因素之一,这可通过提高移动数据访问的能力来优化数据库性能,进而节省数据上传和下载所需的时间成本。5G技术的超高速移动数据访问能力有效地解决了这一问题。超高速为数据上传与下载节省成本,有效地提高了科研人员数据共享意愿,进而驱动数据共享,直接影响数据出版的发展。
3.VR出版加强数据引用
2016年被业界称为“VR元年”,2019年被业界称为“5G元年”,5G与VR强强联合,必将重塑各个行业。VR出版通过将虚拟现实技术与传统出版物相结合的方式实现出版,带给读者一种接触式的阅读体验。VR出版物可以为人们提供全景式阅读,带来跨时空的阅读体验,让读者与作者、自然“对话”。5G技术的出现将给VR出版带来革新。
VR技术应用数据出版的场景包括科学研究领域的数据建模、数据仿真等场景。科学研究是一项既复杂又困难的工作,其产生的科研数据相对比较抽象,需要一定的研究理论做支撑,这也是数据出版商要求提交数据描述的重要原因。科学研究者如果想复用已出版的数据,需要花费大量时间反复通读数据描述、应用数据、推敲理论,但依然会出现数据误用。VR出版可还原科研数据产生的整个过程以及数据产生的实验效果,数据引用者通过浏览就能理解数据的真谛,节省大量成本。可见,VR出版可以加强数据引用,实现数据出版目标。
四、结语
数据出版作为一种数据共享机制,可推动数据共享、复用、挖掘增值服务,保障数据知识产权,影响社会科学创新。由于数据库存储困难、数据共享成本较大、数据引用复杂等因素,我国的数据出版仍处于发展阶段,亟须加快数据出版的步伐。5G技术的落地,云数据库助力数据存储,超高速驱动数据共享,VR出版加强数据引用,有效解决了数据出版当前面临的严峻问题,从根本上推动科学研究者参与数据共享的积极性,促进我国数据出版的快速发展。
|参考文献|
[1]国际数据委员会2019年学术大会在京召开[EB/OL].(2019-11-22)[2019-11-25].http://www.scichi.cn/content.php?id=4443.
[2]张新新. 数字出版高端智库建构综述[J]. 科技与出版,2017(1):17-23
[3]黄鑫. 基于服务内容的科学数据服务用户满意度研究[D]. 武汉:武汉大学博士学位论文,2017.
[4]廖文峰,张新新. 数字出版发展三阶段论[J]. 科技与出版,2015(7):87-90.
[5]徐丽芳,丛挺. 数据密集、语义、可视化与互动出版:全球科技出版发展趋势研究[J]. 出版科学,2012(4):73-80.
[6]刘闯. 论全球变化科学研究数据出版[J]. 地理学报,2014(1):1-3.
[7]张小强,李欣. 数据出版理论与实践关键问题[J].中国科技期刊研究,2015(8):813-821.
[8]段青玉,王晓光.人文社科数据出版平台FAIR原则应用调查研究[J].科技与出版,2019(4):6-11.