APP下载

档案数据:概念、分类及特点初探

2019-09-10刘庆悦杨安莲

档案与建设 2019年10期
关键词:数据档案管理

刘庆悦 杨安莲

摘要:针对档案数据概念不清、语意不明的现状,文章立足于实践观点和归纳演绎法,确定了适用于档案领域的“数据”概念以及“档案数据”的概念,辨析了档案数据与档案信息、数字档案资源、档案大数据的区别。最后,基于对档案数据概念的理解,进一步划分了档案数据的类型,归纳了档案数据的特点。

关键词:档案数据;档案管理;数据

分类号:G270.7

一直以来,档案数据都存在于档案工作之中。在20世纪90年代,得益于计算机和数据库技术的普及,档案数据很早就受到档案部门关注,成为档案研究、实践的主题之一。近年来,由于观念、方法和技术环境的巨大变革,档案数据开始从简单的处理对象转变为一种基础性资源,如何更好地管理和利用档案数据逐渐成为我国档案领域的焦点话题。但长期以来,档案数据概念不清、语意不明、混淆使用等问题较大地阻碍了档案数据研究和实践进程。因此,立足于归纳演绎法和实践观点,本文试图划定档案数据概念,探究档案数据的分类及特点,以期为档案数据研究筑牢根基。

1档案数据研究的兴起动因

追本求源,档案数据研究的兴起主要来自外部和内部两个方向的推动。从外部看,档案数据是社会发展的产物,探讨研究档案数据是历史的必然;从内部看,档案数据是档案信息化建设的基础,同数字档案资源的管理、开发具有密切联系。无论为顺应外部环境发展,还是为做好档案本职工作,档案数据研究都是无法回避的基础性课题。

1.1外部动因

(1)数据爆炸导致大量档案数据生成

计算机自诞生起就迅速成为社会实践的重要组成部分。作为计算机世界的基础,数据大量产生并存储在计算机系统中,记录着社会生活的各个方面。作为数据家族的一员,档案数据随数据总量的爆炸式增长而增长,逐渐形成巨大的规模。这些档案数据分布于各类信息管理系统中,利用程度各不相同,但整体上具有很高的价值。探讨研究档案数据,一方面有助于将其纳入统一管理,提升档案工作效率;另一方面也有利于开发利用档案信息的更多价值。

(2)技术进步推动档案数据价值挖掘

在我国信息化建设早期,传统技术无法满足档案部门对档案数据价值的开发需求,档案数据高价值量与低价值实现间的矛盾长期无法化解。随着时代的发展,云计算、大数据等技术逐渐成熟,有力地提高了档案部门的数据处理能力,为高效开发档案数据价值提供了可能。通过发掘档案数据价值,档案部门能够了解自身业务效率和业务质量,分析档案利用者的行为特征及需求,并从档案数据中提炼更多信息、发现更多知识,从而辅助决策,为社会发展提供动力。

(3)社会发展提出档案数据服务需求

在信息社会,电子政务改革如火如荼,无纸化办公推行愈发深入,数字人文研究日渐兴起,“让群众少跑腿,让数据多跑路”已成为社会的呼声。在档案“收管用”的上下游阶段及数字化程度越来越高的今天,档案数据服务能力已不能很好地满足政府办公、学术研究等方面的需求。档案学来源于实践也最终服务于实践。面对数字化浪潮席卷社会的现状,档案人不得不紧跟时代,研究、接收、管理档案数据,及时向社会提供档案数据服务,高效跟进政府、社会的改革与建设需求。

1.2内部动因

(1)数字档案资源建设亟须探索档案数据

近年来,面对档案事业“十三五”规划的目标要求,全国各级各类档案馆的数字化馆藏比例逐年提高,电子化归档试点范围逐渐扩大。有抽样调查结果显示,截至2018年,我国已有33.1%的国家综合档案馆数据存储量达到了1TB以上。但与此同时,档案数据内容不完整、格式不规范、标准不统一、运用思路不清晰等问题逐渐显现,制约了数字档案资源的管理与开发。面对日益庞大的档案数据规模,盘点数据资产、理清管理思路、提升数据质量便成为数字档案资源建设的重要需求之一。

(2)数字档案资源管理需从数据粒度展开

从传统档案资源到数字档案资源,档案管理的最小单位已从“件”细化至“数据”。对数字档案资源的管理最终会落实为对其内容数据、管理数据和利用数据等多类数据的管理。在电子化归档试点单位,浙江省衢州市档案局便用“接收了4万余条归档数据”描述其归档接收情况。随着我国档案工作“存量数字化,增量电子化”战略的展开与落实,数字档案资源进一步深入到档案实务,档案数据即将成为未来档案工作面对的主要对象。

(3)数字档案资源整合共享要求数据互联互通

我国一直实行档案集中统一管理的原则,这是基于历史实践的发展需要确定的。数字档案资源的整合共享是集中统一管理原则的体现,也是未来的发展趋势。要实现数字档案资源的整合共享,必须先实现数据层面的互联互通,解决各单位不清楚收集哪些数据的“数据不可知”,数据质量过低导致的“数据不可控”,用户无法便捷获取的“数据不可取”,以及数据与知识关联较弱的“数据不可联”等问题。只有数据层面贯通无阻,资源层面才能形成体系,顺利保障国家数字档案资源的整合共享。

2档案数据的概念

2.1档案数据概念的既有认知

在档案领域,“档案数据”不是一个新兴术语。近年来,“档案数据”一词频繁地出现在各类规划纲要、报告成果中。在文献调研基础上,笔者将既有的“档案数据”指代对象归纳如下:第一,指代数字档案资源;第二,指代数据库的管理数据或档案信息系统的业务流程数据;第三,指代各单位的统计数据;第四,指代网站、论坛、社交媒体等平台中采集得到的数据。总体而言,“档案数据”一词的指代对象范围广泛,在不同的语境中有不同的理解。

在学术界,檔案数据并无公认的概念,仅有于英香教授系统地梳理过“档案数据”的内涵与外延。她认为:从内涵看,“档案数据是具备档案属性的数据”;从外延看,基于档案业务,档案数据在时间角度包含传统档案数据和后来产生的新的实时数据,在空间角度包含档案及在档案业务活动中产生的数据,在状态角度包含文档、数据库、微博记录、微信推送以及产生这些数据的软硬件环境等。然而该研究没有具体说明应怎样理解“数据”和“档案属性”,这仍可能导致理解上的分歧。

2.2概念演绎:从数据到檔案数据

(1)数据概念的确定

作为档案数据的上位概念,数据本身具有极为丰富的含义。在词源上,数据一词来源于拉丁文dare,是使用测量、记录等方法,从现象中抽象出来的元素。在哲学界,有学者将数据定义为“两个符号之间一致性的缺失”;也有学者认为数据是一种人工物,即“数据是被构造的”;还有学者将数据理解为“实在世界的表征”,是描述客观事物的符号。在人类科技发展历程中,最后一种理解被广泛接受。计算机科学即基于这一认识,将数据定义为“所有能被输入计算机中,且能被计算机处理的符号集合”,它以字节(Byte)为单位,是数据原子、数据项、数据对象和数据集的统称。同样基于上述广为接受的哲学认识,信息管理领域的学者强调数据是信息的基础,是人类思想和社会活动客观映射的数字化、序列化、编码化和结构化。在信息管理领域,数据是“载荷或记录信息的,按一定规则排列组合的物理符号”。在笔者看来,研究档案数据的最终目的是将其高效地转化为信息和知识,实现更大的价值。因此,信息管理领域的数据定义更适于作为档案数据的基本解释。综合考虑档案研究和实践面对的对象后,档案领域应用的数据概念更多地反映为“一组按一定规则排列组合的,用于表达信息的物理符号”。

(2)档案数据的概念

实践的观点是马克思辩证唯物主义的基本观点,也是档案学研究的基本观点。实践是认识的目的和归宿,认识对实践具有反作用。在档案领域,档案数据概念的提出也必须来源于档案实践,并有效指导档案实践。

近年来,伴随“档案数据”一词的使用,人们对档案数据有广义或狭义的理解。在广义的理解中,档案数据可视为“与档案有关的数据”,包括与档案相关的视频、语音、程序软件、聊天记录等丰富的存在形式,甚至人脑记忆的与档案相关的数据也属于档案数据。这里“有关”的范围过于宽泛,难以确定并落实。在狭义的理解中,档案数据可视为“作为档案的数据”,即档案数据既是数据又是档案。这种理解略显狭隘,不仅与数字档案资源的内涵重合,还忽略了大量存在于档案工作中,可被管理和利用的元数据、统计数据、实时数据等数据。总体而言,这两种理解均不适用于指导档案实践。

从实践的角度,档案数据概念的确定应紧紧围绕档案利用需求和档案管理工作展开。笔者倾向于将档案数据理解为“承载档案信息的数据以及在档案信息管理利用活动中产生的数据”。由于无法进行大量且复杂的计算,传统环境中较少将档案数据用作独立术语。在当代,档案数据概念的应用更多地伴生于计算机技术的发展,指向数字环境。

(3)相关概念辨析

在前期检索和阅读以“档案数据”为主题的文献资料时,笔者发现在实际运用中档案数据常与档案信息、数字档案资源以及档案大数据等概念混淆。因此,在认清档案数据概念的基础上,有必要从理论上进一步梳理上述概念间的关系。

档案信息是依附于一定载体的人类活动原始信息的集合。由数据和信息的关系演绎得到,档案数据经解释可转化为档案信息,档案信息需经过数据化转变方能存储和传输。数字档案资源指“办公自动化条件下形成的,电子文件归档后形成的数字档案资源和档案馆(室)藏传统载体档案数字化后形成的数字档案资源。”它实际包含于档案数据的概念范畴中,是档案数据最重要的组成部分。档案大数据更多地指代一种现象:当档案数据的数据量、复杂程度以及数据处理要求超出传统数据的能力范畴时,我们称之为档案大数据现象。究其本质,档案大数据是档案数据的拓展和延伸。

3档案数据的分类及特点

根据档案数据的概念划定,可以进一步划分出档案数据的分类,并归纳出档案数据的特点。了解这些分类和特点,又能反过来帮助理解档案数据的概念,指导档案数据的管理和使用。

3.1档案数据的分类

档案数据的分类是对档案数据概念进行理解的结果,对档案数据研究及实践具有宏观指导意义。笔者结合实际,依据产生档案数据的活动类型将档案数据划分为档案内容数据、档案管理数据和档案利用数据三类。

档案内容数据承载了档案中蕴含的信息内容,是在档案形成单位各项活动中产生的数据。档案内容数据主要包括传统档案数字化后形成的档案数据、电子环境下形成的档案数据以及档案编研时形成的档案数据。它一般具有最高的真实完整性和较低的结构化程度,反映了档案形成单位各项活动的历史事实。现阶段,档案内容数据主要用作凭证或参考资料,此外还有大量潜在价值未得到开发。

档案管理数据是由档案管理及相关活动产生的,面向档案管理的数据。档案管理数据多指对档案信息数据进行收集、鉴定、整理、保管、统计时形成的数据以及档案行政管理工作时形成的数据。与其他类型档案数据相比,档案管理数据结构化程度较高,客观性较强,较易收集和分析。

档案利用数据主要由档案利用活动产生,是面向档案利用的数据。档案利用数据不仅包括档案部门收集的档案提供利用数据,例如档案利用者基本信息、档案借阅时间等,而且也包括档案利用者发布的利用数据,如档案利用评论、建议等。档案利用数据是了解档案数据需求的重要抓手,其分布较为零散,客观程度及结构化程度不一。总体而言,档案部门收集的提供利用数据客观性更强,结构化程度更高,用户发表的利用数据主观性更强,结构化程度较低。

3.2档案数据的特点

从数据到档案数据的演绎可以看出,档案数据首先是一种数据,拥有数据的某些共同特点,如物理性、信息性、共享性。同时,档案数据的形成环境又为档案数据赋予了某些特性,例如真实性、完整性、体系性、保密性和高价值性等。具体来看:

(1)真实性

作为社会生活真实可靠的原始记录,档案内容数据本身具有毋庸置疑的真实性。同时,档案管理数据和档案利用数据是依法依规形成且由组织认可的数据,也具有较高的真实性。因此,与真伪难辨的其他类型数据相比,档案数据整体上具有较高的真实性。

(2)完整性

档案内容数据是对社会活动的最全面的记载,档案管理和档案利用数据体现了档案业务活动全程,相对而言集中且完整。

(3)体系性

档案数据彼此间相互关联,小则体现了一个单位的业务活动状况,大则体现了一个时代的人民生产、生活状况。档案内容数据是这一体系的主体,时间顺序和全宗原则是这一体系的主要秩序。围绕按全宗分类的档案内容数据,其管理、利用数据按时间顺序依次排列。

(4)保密性

档案数据中涉密数据比重较大,密级较高,有较强的保密需求。这一点也有别于其他类型数据。

(5)高价值性

一方面,档案数据具有极高的凭证价值、情报价值和潜在价值,无论是用作查考纠纷时的凭证,还是为学术研究提供相关的参考,又或是根据档案数据分析结果提出预测或支持决策,档案数据能够满足社会生活的多种利用需求;另一方面,承载了档案信息的档案内容数据价值密度较高,且在档案数据中有较高的占比,这也使档案数据整体具有了较高的价值。

除上述特点外,档案数据还具有许多源自其数据本质或源自其形成环境的特点,此处不再逐一列举。

4结语

新环境、新问题意味着新机遇、新挑战。数据驱动型研究和实践已成为新技术环境下当代社会的发展趋势之一,若想通过数据赋能于档案工作,就必须深刻透彻地了解档案数据,高效地管理档案数据,并尽可能地挖掘其中价值。理清研究档案数据的必要性和基本概念是这项工作的第一步,有利于档案工作梳理出更明确的目标和思路,向实现以信息化为核心的档案管理现代化大步前进。

猜你喜欢

数据档案管理
关于企业档案管理体制改革的探讨
新形势下档案管理工作创新探析
新农村建设形势下卫生院档案管理工作探讨
事业单位档案管理创新与改革
提高档案管理科学化水平的对策
档案管理现代化中档案管理原理的运用分析
公路工程试验检测存在的问题及措施
一种借助数据处理构建的智能食堂管理系统
浅谈计量自动化系统实现预购电管理应用