APP下载

数据多样性:涌现、概念及应用探索

2022-06-11陆彩女顾立平聂华

图书情报知识 2022年2期

陆彩女 顾立平 聂华

(1.中国科学院上海药物研究所,上海,201203;2.中国科学院文献情报中心,北京,100190;3.中国科学院大学图书情报档案管理系,北京,101408;4.北京大学图书馆,北京,100871)

1 引言

数据多样性一直存在,但是未被发觉、发展和重视的原因,主要是在过去各个学科相对独立、较少交叉,数据主要作为科研工作的附属物存在。但是到了数据驱动科研的时代,数据的价值和地位不断得到挖掘和重视,数据的多样性问题也越发凸显。如果忽视数据多样性,将会对新的数据的生产和管理带来阻碍。从数据交换迈入到数据开放的时代,从上而下,需要按照政策指导和要求对科学数据进行统一的管理和汇缴,甚至开放共享,这也出现了一系列的矛盾和问题。这些矛盾和问题,进一步增强了数据多样性特征的凸显和发挥。数据安全以及数据交易的社会制度和相关政策的制定和变化,尤其在我国,也促进了数据多样性的发展。这最后一个原因尤其重要,因为美国和欧洲至今还未清楚认识到数据多样性,而我国图书馆界却对此早有认识,但是一直未能形成明确的概念并给出定义。

2 数据多样性的涌现

开放数据、开放科研数据、大数据是21世纪以来推动社会、经济和科技高速发展的三驾“马车”。数据多样性因开放数据、开放科研数据和大数据的兴起而不断涌现。

开放数据是任何人出于任何目的(甚至是商业目的)可公开访问、可利用、可编辑和共享的数据[1]。开放数据目前主要聚焦于国家机构(政府公共部门)产生的公共数据,通常还伴随着开放政府的概念,以美国前总统奥巴马于2009年签署的《开放政府指令》[2]为节点,逐渐在全球范围内形成了一波开放数据运动。开放数据有两个要点:一是合法的开放;二是技术层面的开放[3]。合法开放要求数据必须置于公共领域或只用具有最小限制的自由使用条款来约束,技术层面的开放要求数据必须是机器可读且非专有的电子化格式[3]。

开放科研数据(即科研数据开放共享)最早可追溯至20世纪50年代,但是在最近十多年内才引起了人们的普遍关注和重视[4]。2003年柏林宣言将科研数据作为学术知识的一部分并要求开放获取[5]。此后全球范围的国家政府机构、科研机构、科研资助机构、学术出版商等利益相关者都先后制定了科研数据开放共享政策[4,6-11]。Elsevier公司在其2019年发布的《科研的未来:下一个十年的驱动因素与场景》报告中指出,以信息技术发展为基础的科研数据开放共享将成为下一个十年科研活动最显著的特征,有望引发科研组织模式与科研创新模式的重大变革[7]。实际上,开放科研数据因其政策要求以公共资金资助科学研究所产出的数据为主,所以有时候也会被视作开放数据的一部分。

大数据是指传统数据处理应用软件无法处理的庞大或复杂的数据集[12]。早在2001年,Gartner分析师Doug Laney就列出了大数据的3个“V”,即数量、速度和多样性[13]。尽管大数据的特征由3个“V”后来又演变为4个“V”(海量、高速、多样、价值)和5个“V”(体量大、多样化、时效快、高质量、高价值),但是多样性作为其主要特征之一,一直被保留在其中。当前人们谈论大数据,主要聚焦于各种行业应用,以企业为主。当然除了企业自己捕获的经营、交易、生产等数据外,开放数据等也是大数据的一个重要来源[14]。大数据的存储、集成、管理、处理、分析和应用需要相关法规条例保驾护航,也在不断催生技术的发展和升级。

在开放数据、开放科研数据、大数据时代,数据多样性特征愈发明显,数据来源、类型、格式、主体、应用场景或行业等几乎都在增加多样性或呈现更复杂的变异性。数据多样性原先只是具体科研工作或数据处理工作中需要面临的问题,但在开放科学和大数据环境下,由于数字化的数据很容易被合并(组合)、共享、交易,数据又被大规模被生产和监管,所以必须从道德层面评估各种可能的影响。此时,在我们需要制定相应的共享规范与原则或各种法律法规制度、政策与标准时,或是基于科研数据提供相应的信息服务或数据服务与知识服务时,就需要用一个各方同意(认同)的框架来考虑和看待数据,数据多样性的问题就必然呈现和凸显出来。

笔者在多年从事数据科学教学、科研统计管理与数据咨询服务、机构知识库等平台建设和科研数据共享政策、权益问题研究等经历基础上,通过观察开放科学环境下科研数据的管理、发布与共享实践,运用归纳法对数据多样性的表现进行凝练总结,得出数据多样性的基本规律,并用现象解释法解释数据多样性在开放科学和大数据环境下的应用表现。

3 数据多样性的概念内涵

在数字化时代,可以记录客观事件的数据被快速大量地生产并存储,这种现象被称为数据爆炸(data explosion),在此过程中,数据展现出了诸如不受控、未知、多样性、复杂性等多种自然属性,数据爆炸也就形成了数据自然界(data nature)或数据宇宙[15]。因此,数据多样性概念与生物多样性概念相呼应,是数据的一个固有属性。数据多样性,具有内外各三个表现。内在表现是数据作为一个对象或者物体与生俱来的特性,是静态的。外在表现,是在它与环境和用户交互之后发生的,所以是动态的。诚然,数据多样性的表现还有很多,如数据来源、数据载体、数据大小、共享范围、数据质量、数据价值等,本文阐述的数据多样性更侧重于数据本身所展示的多样性,其他表现就不一一展开论述了。

3.1 数据多样性内在表现

3.1.1数据类型多样性

数据本身就具有多样性的特征。就科研数据来说,在不同学科领域,数据集的形式不同,包括:社会科学经常使用具有变量和数值的试算表(sheet)数据、生命科学等经常描述组织结构的编码数据(codeddata)、物理科学运用计算机进行模拟的模型数据(modeling)和以观测记录方式为主的科学学科的数字图像(image and voice record)等[16]。例如图1中的环境领域实测数据、微生物测序数据、蛋白质序列数据、高动态范围图数据等相互之间对比来看都是各异的,这是数据所承载信息的差异性。随着信息技术的发展,数据的范围又扩展为数值、文献、文档、记录、网页、音视频、模拟信号、位置、实体等一切表现为数字化形态的存在(1)参考自“2021年第18届中国信息资源管理论坛”的大会报告。中国科学院文献情报中心主任刘细文作题为“创新开发科技信息资源,构建人工智能解决方案”的主题演讲,认为科技文献资源是人工智能时代的知识宝藏,应当充分挖掘隐含着丰富知识内容的科技文献资源,实现从“科技文献资源”到“科技知识引擎”的转变。他以“SciAIEngine 的研发和应用”为例,提出了对知识获取能力、科技文献资源及其转化的建议。[17]。包括网络世界中一切结构化、半结构化和非结构化的数据。此时,数据也就成了一种广义的、宽泛的含义,多样性也就随之凸显。

图1 不同学科领域采集的数据Fig. 1 Data Collected in Different Disciplines

3.1.2数据维度多样性

由于数据呈指数级增长,每条数据都需要被做标引以形成自己的元数据,来提高数据查找和使用效率,此时数据维度多样性也就呈现了。数据集大多数是一维数据,部分是二维或三维数据;数据描述通常是二维数据;元数据通常是二维数据,部分是三维数据。科研数据维度多样性的内在表现主要在于数据集、数据描述、元数据的三位一体/三维一体(如图2)。其中:(1)数据集又称数据实体(data entity),是用来重复科研结果的证据;(2)数据描述是说明数据集的采集仪器、方法、产生过程、资助者等的描述性文档;(3)元数据就是描述数据集的贡献者(或生产者)、所属机构、所属学科、日期、版本等属性的信息[16]。对于非科研数据而言,大多数据集也都会有自己的元数据或数据标签与数据描述。数据一旦被产生/生产/创建,其维度也就确定了,不会再发生改变。通常来说,数据维度越高,说明与其关联的低维数据被重用的次数和可能性就愈高。

3.1.3数据格式多样性

有些数据本身就具有多种格式。例如同一组蛋白质组数据可以用序列、字典、元组、列表等方式来表示和存储;同一个物质也可以使用二维或三维结构图、分子式、结构简式、电子式等表示与存储。现在被广泛使用的GPS数据,也有多种格式,如地图形式、城市名称、经纬度等。另外,除了数据实体(集)有多种格式表达外,元数据也可以有多种表达,如xml格式或json格式等。在数据编目领域,可以用RDA或都柏林核心集等多种编目方式来描述图书或其他实体,而同一个RDA也可以选择多种词表来描述[18]。这是数据格式上的多样性表现。

3.2 数据多样性外在表现

3.2.1数据生命周期加速数据多样性

数据在其生命周期(如图3)中或是在数据生产或重用(共享)时,会产生多个不同的版本,每个版本或多或少会并入新的数据(集)或是从中抽取子集,或是(全部或部分)与其他数据集重新组合/结合为新的数据集,这就是一种多样性。不同的数据集、不同的数据版本,这就是数据多样性的第一种外部特征。数据生命周期加速了数据多样性,尤其是数据版本上的多样性。

图3 数据治理生命周期模型图[19]Fig. 3 Figure of Data Governance Life Cycle Model

3.2.2科研生命周期、生产生活增强数据多样性

在科研生命周期(如图4)中,每个科研流程产生的数据也不一样,包括:仪器采集的原始数据(raw data),经过清理和规范处理后可用以分析、计算、实验的研究数据(research-ready data),经过处理、计算等得到的可分析数据(analyzable research data),直接支撑特定论文结论的数据(article supporting data),以及关于方法、流程、工具、研究材料等的描述数据(methodology/instrumentation data)[20]。不同时间段做出的实验可能会产生不同的数据;不同的人、不同的生产者、不同的实验对象或试剂、不同的环境等会产生不同的数据。另外,数据在被不同的实体(如人、团体或企业)从不同的角度、用法通过不同设备或应用程序使用时,也会呈现不同分析与解释内容及不同的结果。即,数据的内外部环境会产生多样的数据。

图4 科研生命周期图[21]Fig. 4 Figure of Research Life Cycle

生产、生活过程同科研过程一样,增强数据多样性。例如,企业生产产品从流水线到仓库、零售和消费者手中,这一过程会产生生产数据、库存数据、销售数据、财务数据、客户数据等多种数据。企业、商家、产品及消费者之间或内部之间的任何交互行为都会产生各式各样的数据,同时收集、处理、分析的人员在利用这些数据时,也会产生不同的见解和决策。

3.2.3数据型塑加强数据多样性

在数据科学、大数据、人工智能、数据建模、智能数据等具体应用领域,为了适应不同机器和应用程序/软件的要求,数据势必会发生变化,要被型塑、塑造(sharp),包括在存储格式或存储介质上面的这种变化,以适应不同的机器或软件,这一过程则凸显了数据的多样性。例如,数据从0、1二进制表示,到二维数据表,再到柱状图,就体现了数据形态不断变化的过程。

数据多样性内在表现和外在表现并不是孤立的两个方面,而是数据多样性的一体两面,两者相辅相成(如图5)。数据多样性内在表现形式越清晰、规范,那么其被应用的可能性就越大,即数据多样性的外在表现也就越明显;数据多样性的外在表现越丰富,那么数据生产的土壤和环境也会更加肥沃和健康,这在一定程度上驱使更多的数据集及其数据描述与元数据的产生,数据多样性的内在表现也会更丰富和完整。

综上,数据多样性是数据承载信息的丰富性与差异性和数据在类型、维度、格式、版本和形态等的复杂多变性。数据多样性是数据固有的本质属性之一,认识到数据多样性,有助于实现数据的高效治理与再利用。我们强调数据多样性的主要目的就是强调如何让数据能够不断生长和发展。

图5 数据多样性内外表现相互关系Fig. 5 Interrelationship Between Internal and External Manifestations of Data Diversity

4 数据多样性的应用表征

在数字化时代,我们可以从诸多学科领域和行业中发现数据多样性的应用体现。大数据、商业智能(Business Intelligence,简称BI)、数据分析、数据出版、战略规划(数据策略)、数据模型(或数据建模)、数据治理、开放科学等学科和实践领域都离不开数据多样性,且都在一定程度上加深了数据多样性。

4.1 开放科学环境中蕴藏的数据多样性

4.1.1科研数据开放共享与数据多样性

开放数据、开放科研数据加深了数据多样性。首先,数据多样性体现在从实验、分析、整理,到集成/整合、数据出版的科研数据开放共享全流程(如图6)中。以数据出版/发布为例,数据未出版时,可能是图表格式的数据;数据以论文形式出版后,其格式和维度就有了变化,多了PDF格式和数据描述文件;若再将数据存储至数据知识库中,多样性也进一步增强,如元数据也发生了变化,包括增加了数据集DOI及其关联数据论文或研究论文的DOI或链接,增加了共享范围、许可协议、存储时间、版本等多个属性数据,增加了可供下载的元数据文件等(以ScienceDB(2)Science Data Bank. https://www.scidb.cn/为例,可导出JSON-LD、Dublin Core等类型的元数据)。其次,开放科学、开放数据还通过提高数据获取和重用,进一步扩张了数据多样性。从来源上来说,数据来源包括一手数据和二手数据,即科研人员自己捕获的数据和别人共享的数据;从结果来看,数据复用会对数据进行型塑,数据形态多样性也得到了增强,同时还会产生大量的衍生数据;从标准来看,开放科学涉及广泛的学科范围,不同学科范围的数据类型、格式也都不一样,因此开放的元数据标准和格式也都是多样化的,其元数据也是多样化的。最后,对于数据知识库而言,它们不仅推动了数据开放共享,同时还提供了数据检索的索引数据以及查阅、下载等统计数据或日志等类似副产品的数据,甚至出现了对数据知识库提出的各种平台规范要求和标准数据及收录平台及其数据(如re3data.org)。这些都是开放科学、开放数据下数据多样性的缩影。

4.1.2其他开放科学内容与数据多样性

如前文所述,网络时代,一切形式的记录都是数据,开放科学加强了这些数据的可被查找、发现、获取和重用。UNESCO《开放科学建议书》中指出,开放科学知识不止是开放科研数据,还包括科学出版物、开放教育资源、开源软件和源代码、开放硬件[23]。当前的开放科学生态体系,已从第一代的文献知识库和数据知识库为用户存储、检索和使用,走到了第二代文献和数据之间的引用关联、元数据关联和第三方词表关联的数据产品阶段[16]。目前,数据领域以及文献领域所形成的超大元数据集成,正在朝向类似的数据产品的方向发展[16]。初代的数据产品原型有:数据、数据集、元数据、关联数据、语义数据、开放政府数据、研究数据、数据论文与数据出版等[16]。这些数据产品也都有多样的类型、格式、来源、结构,未来若进一步增强开放和关联及数据产品的重用,势必会生成更多样的数据产品和数据类型,如开放获取论文、开放获取数据、开源软件三者之间的相互关联、获取及重用等。

图6 数据生成/注册流程以及数据和论文发表之间的关系图[22]Fig. 6 Figure of Data Generation/Registration Flow and Relationship between Data and Paper Publication

4.2 数据多样性在行业的应用

各行各业的数据科学家、计算机科学家也在积极探索、开发和利用数据多样性和多样化的数据。数据多样性这一属性在许多其他应用场景中也都发挥了关键的作用,包括零售业、金融业、健康、旅游、房地产、选举等,来自媒体、期刊、零售商、调查、会议、政府等的多样化的数据会被收集、整理和分析,服务于各种决策者。例如,在电商零售和制造业,企业搭建“数据中台”汇聚企业运营、生产和销售数据等多类型、多形态、多渠道数据,重新进行数据治理和分析,服务企业多种应用场景,提高业务效率[24];在营销领域,广告商通过分析他们的产品如何、何时和何地被谈论、拍照和发布到社交媒体,以更好地了解客户;在农业方面,农民已经习惯使用卫星和气象数据来确定作物种植的最佳时间和位置[25]。这些都是数据类型和形态等多样性的体现和应用。

在人工智能领域,研究人员提出了基于数据多样性的算法,可应用于各种推荐场景,如图书或电影等推荐[26]。还可用于大规模学习中,包括基因网络子采样、文档提炼总结、视频摘要化、内容驱动搜索、推荐系统、传感器放置,及新闻标题或检索结果提示、影像或照片场景聚类、引文链研究方向识别、生物序列或多媒体数据聚类等[27]。在小数据领域,其中迁移学习、数据标记、人工数据生成、贝叶斯方法、强化学习等小数据方法[28],都需要进行数据标记/标签或描述,以训练规则,这是数据维度多样性的应用。另外,由于非结构化数据越来越多且数据类型越来越复杂多样,为了存储、处理和分析海量的非结构化数据,甚至还推动了存储技术、数据挖掘技术和自然语言处理技术等的快速发展。

5 数据多样性对数据管理的要求

对于数据管理/数据治理来说,数据多样性为数据管理/治理提供了多方面的考虑和理论支撑。为了实现数据多样性并利用多样化的数据,或是为了应对多样性的数据,数据管理时应尽可能考虑并做到以下几个方面。

5.1 主体多元化

如前文所述,数据管理生命周期加速了数据多样性。不同的数据管理阶段,实施管理的主体也是多元、多样化的(如图7所示)。在数据生产/产生阶段,主体可能是仪器设备(捕获的科学数据、生产和生活数据为主,还包括机器生成的统计与日志数据等)或人(从事科研观测或生成衍生科研数据的科研人员、人口普查的统计者、大数据的消费者或发布者等)。在网络世界,任何个体、任何终端都可以是数据生产主体。在数据处理、分析阶段,处理方法、工具或软件、分析方法、分析工具、分析人员等是多样的,分析主体可能是各种软件、也有可能是分析人员。在数据存储阶段,数据也是被存储在多样的系统中,例如开放数据平台、政府网站、公共数据知识库、机构知识库、集成数据平台(含企业数据平台等)、个人计算机等多个不同系统中,存储软件或文件系统等也是多元的。不同数据管理阶段的多元化主体也在一定程度上给数据管理/治理增加了难度。但是,主体多元化有些时候也是我们数据管理/治理的目的,多元化主体才有可能构建丰富、多样、有活力的数据生态体系。

图7 数据生命周期的主体多元化Fig. 7 Diversification of the Subjects in the Data Life Cycle

5.2 协同治理

依据前文所述数据多样性内外表现,数据治理的重要环节之一是要实现跨层级、跨部门、跨领域之间的协同,以尽可能赋予数据更大的能力和价值,用数据、数据产品和数据服务解决问题。数据生产者、存储者、拥有者、聚合者、开发者、发布者、使用者等之间的合作和协同主要需要考虑:数据生产流程、数据格式和数据标准、元数据和文献化;数据准备、清洗和消化流程;数据质量和质保措施;长期保存、备份和认证政策;软件和硬件;安全和数据保护;获取、许可、使用、复用、隐私和道德政策;所有权、版权和知识产权政策;行政安排、管理机构和治理机制;基础设施资金、设备及其管理等[29]。

以科研数据来讲,需要在科研机构/团体之间、科研机构/团体与出版机构之间、科研机构/团体与图书馆或馆员之间建立良性的互动协商机制,通过数据共享、服务构建、产品/平台建设等推动科研数据开放共享机制。具体来讲,可以有以下几种协同治理机制:(1)协商沟通机制。科研过程和数据生命周期都增强了数据多样性,对于科研数据共享增加了难度。不同部门之间需协商确定数据共享的版本、形态、格式等,还需协商决定如何共享、如何重用、共享范围、重用限制等一系列问题。(2)激励约束机制。科研人员倾向于独占科研数据,尽管部分科研资助机构、科研机构、出版机构等确立了数据共享的“硬规定”。但是多样化的数据表明,共享出来的数据只是极小部分的数据。目前来看,激励机制还不够多,激励程度也不大,约束机制也不够强硬。(3)组织学习机制。科研人员、编辑、馆员等都在独自领域学习数据管理/治理,但侧重点不一样,这可能会造成资源浪费,相对更好的办法是训练数据管理/治理专家,由专业人员统一学习各方的数据生产、存储和使用情况,再结合具体需求和目标做好数据治理。

5.3 共同规则的制定

开放数据、开放科研数据运动和大数据的兴起带来了数据格式、结构、标准、元数据和知识产权、许可和共享协议等的共同指南和政策,甚至是法律法规和条例。为了实现数据多样性,尤其是推动数据多样性内在表现的统一、完整,政府机构、企业、科学界、出版界、图书馆界等不同参与方之间应在相互协作的基础上,制定出共同的规则,推动数据的长效治理与高效利用。目前科研数据领域的相关实践包括国际上已经出台了与科研数据相关的一系列规则和标准。例如,在元数据标准方面,全球已有约65个科研数据元数据标准[30],其中常见的有:Dublin Core、数据文档计划DDI、生态元数据语言EML、地理空间领域的ISO 19115和FGDCCSDGM等;数据管理与共享方面,有全球众多的组织和机构认可的FAIR数据共享原则[31];在数据引用方面,数据出版和存储系统尽量为每条数据提供永久唯一标识符(Persistent Identifiers,简称PID)或唯一标识符(Digital Object Identifier,简称DOI),构建数据引用原则和标准等[32-36]。此外,研究数据联盟RDA和世界数据系统WDS共同设立了学术链接交换工作组,努力制定论文-研究数据之间的关联规则并提供服务[37]。

美国信息标准办公室(NISO)也宣布启动新项目来关联出版商与知识库之间的工作流,实现研究数据-论文之间的相互链接,针对元数据、术语、数据-论文关系的引用/链接类型等形成一系列标准或最佳实践[38]。上述协同治理各方之间的协同过程和共同目的就是促成共同规则的形成。

6 数据多样性与图书馆行业

6.1 开放科学环境中科研人员的痛点

科研人员是科研数据的主要生产者,如何保持和驱动数据多样性也离不开科研人员的参与。但在开放科学环境下,科研人员的痛点和难点也越来越多。例如:(1)科研人员和研究团队需要应对众多数据汇交任务,包括制定数据管理计划、开放数据、提交元数据、长期保存等,还要应对科研诚信、科研伦理和绩效考核等[39-43]。(2)笔者在前期研究工作中发现,科研团队及人员在面临数据披露时还需考虑外部资金、基础设施/技术、相关规范等[44]。他们需要有人能为其提供全流程的数据咨询服务[45]。而不是简单的指南或最佳实践。(3)数据重用难以实现。数据重用的理想状态或者说理想的数据重用生态体系是,科研人员在利用开放数据后能产生新的数据或数据库并开放给其他人共享。但经调研,部分科研人员在面对数据开放时会犹豫和迟疑,而对开放数据的质量和可靠性也持怀疑态度[44]。

6.2 开放科学环境中数据馆员面临的挑战

图书馆和馆员需要认识数据多样性,找到科研人员的数据痛点,帮助科研人员解决上述问题,当然也面临着一系列的挑战。例如:(1)数据管理能力不够,包括存储、管理、汇交、保存能力,不能完美适配科研流程前、中、后等各个不同阶段所需要的数据支持[46]。(2)数据伦理知识不足,对包括如著作权法、数据安全法、个人信息保护法、数据管理办法、出版管理条例、电子出版物出版管理规定等法律法规,以及知识产权强国建设纲要、学术期刊繁荣发展的意见、人才强国战略等宏观政策,及知识共享(CC)许可协议、自由软件许可、数据库使用协议等了解与理解可能不充分。(3)数据作为生产要素,数据馆员可能还需要了解数据增值的业务,包括交办、交换、交易、交涉,以及交易过程中需要明确的分类分级、数据产权等(如表1)。尽管目前数据交易集中在通信、电商领域[47]。但广泛的科研数据交易终将到来,科研数据确权问题也会随之出现。

表1 分类分级数据产权内容[47]Table 1 Different Rights of Data Property

6.3 与图书馆发展相关的资源系统建设与服务

图书馆作为信息资源的收藏、传阅、服务场所,在“万物皆是数据”的时代,跳出传统知识资源的界限已成为必然[48]。图书馆在描述资源、提供访问和建立馆藏以及为数字资源的长期管理提供支持方面有着悠久的传统[49],部分图书馆也已经开始参与数据开发、整合和利用的全生命周期,并在更广泛的使命和服务范畴内呈现和分析[50]。从数据治理的角度而言,社会直接映射数据,数据直接影响社会,而图书馆居于其中的角色,更多不是中介,而是驱动者、促进者,以及辅助者的角色,图书馆可以充分应用已有的文献领域的经验积累,从技术、法律、伦理等方面进行引导。从知识服务的图书馆学理论而言,结合实践经验论证理论以及需要理论指导实践等的角度,都需要数据多样性,作为数据服务的一个理论支撑,因为在文献服务、信息服务、情报服务之后,数据服务是知识服务的最后一块拼图。在数据-信息-情报-决策-评价的情报价值链中,数据应被作为情报工作的起点[51]。经过数据服务产生的衍生数据或者基于元数据和关联数据的数据集,应为阶段性终点。

图书馆作为资源集成体,在数据资源建设规划中,就应考虑数据多样性,包括数据类型、维度、格式、版本、形态等的数据多样性,以尽可能重用数据、提升数据的价值。对于已有的数据资源,也要考虑数据多样性,例如增加数据维度或形态等,提升数据可见性。重新定义图书馆学“五定律”,即每条数据都能被使用,每个用户都能找到所需的数据,数据知识库/数据资源/数据产品是一个生长着的有机体。如果在数据资源建设规划阶段没有考虑数据多样性,或者边建设边规划,那么一旦建好了之后,就会有其限制或无法被更好地使用。反之,如果在数据多样性原则的指导下建立数据资源,且能被用户使用并有利于科研,那么就能不断地开展数据资源开发与利用的良性循环。

作为馆员或数据馆员来说,应认识到数据多样性的重要性,努力提升数据采集、描述、整理、存储过程中的方法、政策、标准等的完备性。馆员还可以提供嵌入式数据支持服务,帮助科研人员制订数据计划、整理和处理数据、分析数据并可视化、保存数据等,为数据使用者和生产者提供无缝对接的配套服务和相关法律法规、政策与伦理等支持。同时,馆员在信息组织领域拥有丰富的经验,可以积极参与并努力做好数据描述、数据标记或数据编目,完善数据自身的多样性,为数据重用提供便利,为智能情报系统提供更好的数据产品和数据服务。

7 结语

多样性意义重大、影响深远。一切形式的文化多样性都是与经济繁荣息息相关的竞争差异化因素[52]。数据多样性,作为一种文化知识多样性,在数据时代只有被真正认识和努力实现,才能更好地适应新思想、新技术以应对新的社会和经济挑战。从图书馆和馆员角度来说,数据多样性是图书馆和馆员提供数据服务的基石,也是数据情报工作的起点,同时也是图书馆和馆员深入参与数据驱动科学发现的发展机遇。数据多样性应被保持和驱动,但是数据一旦处于无限制地扩展、繁殖中,就会变得不受控制且毫无意义。如何实现从数据到有价值的数据产品,也许是科学界、出版界、图书馆界等需要思考和探索的问题。

作者贡献说明

陆彩女:资料收集与编译,撰写论文;

顾立平:提出研究方向,设计研究框架;

聂华:修改论文。