畅想大数据时代的档案数据科学

2021-12-03刘婉欣雷晓蓉冯文博

档案管理 2021年6期

刘婉欣雷晓蓉冯文博

摘要：档案工作正在经历一个从接收保管纸质档案到接收保管电子档案，从管档案实体到管档案数据，从手工操作到信息化智能化操作，从档案资源分散利用到联网共享的变革过程。现在以数据管理的角度审视档案工作，在数据时代，档案的收集整理保管利用将如何发展。

关键词：大数据;档案;数据科学;档案管理;档案工作

Abstract： Archival work is going through a process of transformation from receiving and keeping paper archives to receiving and keeping electronic archives， from managing archive entities to managing archive data， from manual operation to informatization and intelligent operation， from decentralized utilization of archive resources to network sharing. Now reviewing the archives work from the perspective of data management， in the data age， how the collection， storage and utilization of archives will develop.

Keywords： Big data; Archives; Data science; Archives management; Archives work

隨着大数据的纵深发展，档案工作正逐步向数据档案工作方面转变。档案工作从传统档案管理向档案数据管理转换。

档案界面对大数据时代的到来，积极采取应对措施。首先是档案的载体发生变化：从纸质档案进行数字化，接收双套档案，到现在的接收电子档案。其次是管理上由手工记录、计算机单机版数据管理到档案管理信息系统管理。为与数据时代接轨，档案信息化系统应运而生，标准版、定制版出现在人们面前，档案信息化系统对档案的各项工作极尽详尽，充分展现出档案工作者的积极参与与智慧展示。

回顾档案界对大数据的应对，我们发现，所有工作都是从档案的角度，分析、研究、设想档案在今后社会发展过程中如何生存，如何在档案的收集整理、保管利用上保持优势，如何顺应时代的变化。但是如果我们换个位置，以数据管理的角度审视档案工作，在数据时代，档案的定义及收集保管利用将如何变化？

目前，大数据已受到各学科领域的高度关注，成为包括计算机科学和统计学在内的多个学科领域的新研究方向，使不同专业领域中的数据研究出现相互高度融合的趋势，由此产生一门新兴学科——数据科学。

数据科学兴起于1974年，著名计算机科学家、图灵奖获得者PeterNaur在其著作Concise Survey of Computer Methods的前言中首次明确提出了数据科学的概念：“数据科学是一门基于数据处理的科学。”[1]

从目前的研究现状来看，数据科学可以分为两类：专业数据科学与专业中的数据科学。专业数据科学聚集了不同专业中的数据科学中的共性理念、理论、方法、术语与工具;相对于专业中的数据科学，专业数据科学更具共性和可移植性，并为不同专业中的数据科学研究奠定了理论基础;专业中的数据科学代表的是不同专业中对数据科学的差异性认识和区别化应用，是将数据科学当作传统学科的新研究学科和思维模式来研究，强调的是数据科学的学科交叉性。[2]

大数据时代，数据科学为档案带来什么变化？

数据存储模式的变化：数据在先、模式在后或无模式的出现，改变了传统数据的管理。在大数据环境下，无法沿用“模式在先、数据在后”的建设模式，主要原因有两个：①数据模式可能不断变化或根本不存在;②按照预定模式进行数据的存储和处理时，容易出现信息丢失。因此，数据在先、模式在后或无模式成为数据产品设计的主要趋势，确保数据管理系统的敏捷性。这就使档案的数据保管无需建立系统，当然，模式在后或无模式也会带来新问题，如限制数据管理系统的处理能力及加大应用系统的开发难度。在“数据在先、模式在后或无模式”的兴起背后，是信息系统建设模式的历史性变革——从先行支付转向现收现付的建设模式。[3]

思维模式发生改变：在传统科学研究中，由于数据的获取、存储和计算能力所限，人们往往采取数据→知识→问题的过程，从数据尤其是样本数据中提炼出知识之后，用知识来解决现实问题。大数据时代的到来及数据科学的出现为人们提供了另一种研究思路，数据→问题，在尚未从数据中提炼出知识的前提下，用数据直接解决问题。强调的是在尚未将数据转换为知识的前提下，直接用数据解决现实世界中的问题。与传统认识中的“知识就是力量”类似，在大数据时代，数据也成为一种重要力量。

数据一致性及现实主义的回归：在传统数据管理中，对数据一致性的要求接近于完美主义——强一致性，即任何时候从任何地方读出的任何数据均为正确数据。但是，强一致性不符合大数据时代的数据管理要求——高扩展性、高性能、高容错性、高伸缩性和高经济性。因此，NoSQL等新兴数据管理技术从根本上改变了人们对数据一致性的传统认识，主要表现在提出CAP理论和BASE原则等新兴数据管理理念，引入弱一致性、最终一致性等概念，并提供了不同的解决方案，如更新一致性、读写一致性和会话一致性等。可见，在数据科学研究中，数据的一致性出现了多样化趋势，即根据不同应用场景，有针对性地选择具体的一致性及其实现方法。对数据一致性的多样化认识的转变反映了人们对数据管理目标的根本转折——从完美主义回归至现实主义。[4]

区块链技术及靠近数据原则的应用：传统关系数据库更加看重数据冗余的负面影响——冗余数据导致的数据一致性保障成本较高。与此不同的是，数据科学中更加重视冗余数据的积极作用，即冗余数据在负载均衡、灾难恢复和完整性检验中的积极作用。同时，还通过引入区块链技术和物化视图的方法丰富冗余数据的存在形式，缩短用户请求响应时间，确保良好的用户体验。

突出数据的主动属性：数据科学的一个重要贡献或价值就在于它改变了人们对数据的研究方向，即从被动属性转向主动属性。长期以来，人们习惯性地把数据当作被动或死的東西，关注的是“你能对数据做什么”，如模式定义、结构化处理和预处理，都试图将复杂数据转换成简单数据。但是，大数据时代更加关注数据的另一个属性——主动属性，强调的是“数据能给你带来什么”，如数据驱动型应用、以数据为中心的设计、让数据说话、数据洞见等，将复杂性认为是数据的自然属性，开始接受数据的复杂性。

数据准备与加工：数据预处理还是数据加工，在传统数据研究中，数据准备主要强调的是将复杂数据转换为简单数据，对脏数据进行清洗处理后得到干净数据，从而防止出现“垃圾进垃圾出”现象，主要涉及重复数据的过滤、错误数据的识别以及缺失数据的处理。可见，数据预处理主要关注的是数据的质量维度问题。但是，由于小数据到大数据之间存在质量涌现现象即个别小数据的质量问题（如缺失数据、错误数据或重复数据）不影响整个大数据的可用性，大数据处理中关注的并非是传统意义上的数据预处理，而转向另一个重要课题——数据加工。在数据科学中，数据加工是指数据的创造性增值过程，包括两种表现形式：数据打磨和数据改写。与数据预处理不同的是，数据加工更加强调如何将数据科学家的理论、实践和精神素质融入数据处理工作之中，从而达到数据增值的目的。因此，数据加工并不仅限于技术工作的范畴，而且还涉及艺术层面的创造，如需要采用数据柔术和整齐化处理的方法进行数据加工处理。与此同时，数据准备的关注点转向另一个重要问题，即如何发挥人的增值作用。

新兴的数据产品：数据产品不限于数据形态的产品，任何用数据来帮助目标用户实现其某一目的的产品都可以被视为数据产品。数据产品是指在数据科学项目中形成，能够被人、计算机以及其他软硬件系统消费、调用或使用，并满足某种需求的任何产品，包括数据集、文档、知识库、应用系统、硬件系统、服务、洞见、决策及它们的各种组合。

数据产品开发主要关注如何将数据科学的理论融入传统产品开发实践之中，进而实现产品的更新换代和用户体验的提升。未来，数据产品开发将嵌入传统产品的研发之中，二者的界限会越来越模糊。如何将数据科学家的创造性设计、批判性思考和好奇性提问的职业素质融入产品研发之中，从而实现传统产品的增值和核心竞争力的提升，是未来数据产品开发的难点所在。在此背景下，以数据为中心的设计思维将会成为数据产品开发的主要思维模式。同时，良好的用户体验将成为产品开发的主要评价指标之一。数据产品开发的兴起将推动数据科学的嵌入式应用。数据科学将作为传统产品的创新点、增值点和竞争力之源，成为产品开发的必要环节，数据科学与领域呈现出了高度融合的趋势。

数据科学具有与其他学科不同的新特征，例如思维模式的转变、对数据认识的变化、指导思想的变化、以数据产品开发为主要目的、专业数据科学与专业中的数据科学的差异性以及数据科学的三要素（理论和实践、精神素质）。因此，数据科学在某种程度上具有档案管理的属性，是档案管理的机遇，数据科学管理的成果可以称之为数据档案。

在大数据时代，无论是数据工程师还是数据科学家，他们都将是未来的档案工作者。传统科学领域中，与数据相关的人定位于数据工程师——从事数据的组织、管理、备份、恢复工作的人。数据科学的研究任务，需要一类全新的人才——数据科学家。二者的主要区别在于：数据工程师负责的是数据的管理，而数据科学家擅长的是基于数据的管理，如基于数据的决策、产品开发、业务定义等。未来，档案工作者即数据工程师，负责数据本身的管理，而档案的高级管理人员即数据科学家，主要职责是基于数据的管理，包括基于数据的分析、决策、流程定义与再造、产品设计和服务提供等。因此，今后的档案管理人员，将是有理论功底和实践经验，而且还要求有精神素质，即创造性设计、批判性思考和好奇性提问的能力的数据工程师和数据科学家。

参考文献：

[1]曹嘉君，王曰芬.基于数据科学的知识创新服务应用模式构建研究[J].情报学报，2018，37（10）：971-978.

[2]李志国，钟将.数据科学在国内管理学研究中的应用综述[J].计算机科学，2018，45（09）：38-45.

[3]朝乐门，邢春晓，张勇.数据科学研究的现状与趋势[J].计算机科学，2018，45（01）：1-13.

[4]方璐.大数据时代的科学研究方法[D].浙江工业大学，2014.

（作者单位：哈尔滨工业大学档案馆来稿日期：2021-08-20）