APP下载

档案大数据研究的批判性考察

2017-11-09王晓春

山西档案 2017年4期
关键词:概念数字化档案管理

文 / 王晓春

档案大数据研究的批判性考察

文 / 王晓春

档案大数据与流行的“大数据”概念之间存在着不容忽视的差别。忽视或无视这些差别不仅会引起人们对档案大数据相关特性的误解,而且会使相应的研究陷入误区。鉴此,文章提出从档案大数据的学术规范建设、电子档案法规的完善以及档案数据化的技术提升等方面来消弭这些误解和误区。

档案数据;概念误解;研究误区

一、档案大数据的概念辨析

时下,与“互联网+”一样,“大数据”也成为了随处可见的时代流行语。档案行业也提出了“档案大数据”的概念及其发展方向。“档案大数据”这一概念由两个关键性子概念——“档案”与“大数据”组成。所谓“大数据”是指在数据样本足够大,即在数据量规模化与数据类型多样化的情况下开展的数据采集、处理与价值提取的技术架构与技术过程。[1]学界通常认为,“大数据”表现出“4V+1O”的特征,即“Volume(数据量大)、Variety(数据种类繁富)、Velocity(数据处理速度快捷)、Veracity(数据真实可靠)”[2]与Online(数据永久在线)。但是,不少学者提出异议,认为“大数据”特征是“11V”和“3S”等。可见,对于“大数据”的界定,学界认识并不统一。同样,对于“档案”的定义,学界也莫衷一是。根据《中华人民共和国档案法》的规定,档案的特征基本上可以由三个要素来描述,即“历史活动”、“存在价值”与“可用于记录的载体”。随着时代的发展,这三个要素也都发生了一定程度的变化。许多在传统社会中被视为“不存在价值”的活动在当今社会却是“有价值的”,如个人的消费活动。对于“载体”而言,其外延的变化更为显著,已经由传统的纸质载体转向电子化的文本,如电子文件、照片、录像、录音等。综而观之,由“档案”与“大数据”所组合的“档案大数据”旨在重点研究档案数据样本足够大的情况下,如何更有效更合理地分析和管理档案数据以及如何更为全面地利用关联复杂化样态下的档案数据。参照这一目标,我们将会发现目前关于档案大数据的研究是建立在一定误解的基础上,同时也陷入到一些误区之中。

二、关于档案大数据特性的几种误解

在“信息化”与“网络化”这类口号的裹挟下,档案的大数据化变成了档案信息化即传统档案文本电子化、数字化的代名词,从而窄化了档案大数据化的研究内容,偏离了档案大数据的本质内容。导致这种现象的原因是忽视或误解档案数据与现下流行的“大数据”特性之间的差别。这些差别通常表现为以下三个方面。

第一,数据属性的差别。现今流行的“大数据”要求数据的实时性和动态性,从而决定了“数据采集、处理都要求具有很强的时效性”[3]。另外,大数据概念中的“大”并不是简单意义上的“多”,而是指基于即时自动生成的数量之巨。同时,其数据的产生不受到外部的干预和控制,而是由设备和机器“自动地生成关于周围环境的数据”[4]。然而,不少研究恰恰从数量“多”的角度来理解档案大数据,认为只要档案数字资源量巨大,就可以称之为档案大数据。其实,这种档案大数据具有明显的滞后性、静止性、固定性。纯粹的数据量巨大,与“大数据”所要求的实时性、动态性与时效性相去甚远。

第二,数据功能的区别。现今流行的“大数据”的核心功能是在数据挖掘的基础上用于商业决策和预测。就目前的大数据运用领域而言,它主要集中在互联网、零售、金融等行业,其目标则“以服务自身企业数据挖掘需求为出发点”[5]。一些互联网企业如Google公司利用网民在线的行为数据——搜索记录来预测冬季流感的传播[6]。从企业的运用行为来看,大数据的预测体现出两个特点:一是实时由机器监控和自动生成的基础数据量巨大;二是大大提高了基于微观行为干预的个性化服务能力。然而这些功能在档案数字资源中难以体现出来。就目前而言,档案数据仅以提供证据、为公众解惑作为核心功能,与现今流行的“大数据”功能有区别。虽然现今已有人提出“知识管理与挖掘”的概念,但它所针对的仍然是历史性的数据库,而不是“大数据”所要求的实时数据。换言之,知识管理与挖掘的档案数据是人为干预和筛选之后的数据集,已经背离了大数据的“全数据”特征,不适合作为实时决策与预测的基础数据[7]。

第三,数据管理存在技术差异。目前,我国档案大数据的主要工作是对数字化的文件和文本的归档、管理与存储,传统档案的数据化以及电子档案备份中心及数字化档案库等方面的建设。这些工作的技术要求较低,均可以用招标和外包的方式来完成。更关键的问题在于,档案大数据所处理的数字资源绝大部分都是“非在线的冷数据”,与现今流行的“大数据”所要求的实时运算的“热数据”存在着较大差别。这就使档案大数据的研究总是集中在档案数据资源的总量扩张,却回避和忽视了大数据更关键的针对性技术特征。在技术利用方面,“非关系型数据库(NoSQL)”是现今流行的大数据技术,而档案大数据化过程中却可以根据自身特性来选择“关系型数据库(SQL)”,毕竟档案数据多属结构化数据,而SQL在处理结构化数据方面存在明显的效率优势。

综上所述,对档案大数据的概念及核心意涵的误解呈现出表层化、随意化及宽泛化特征。诚然,随着时代的发展、技术的进步以及运用的扩张,“大数据”概念也正在悄然变化,呈现出泛化的趋势。然而,这并不意味着“大数据”的核心特征可以随着前缀限定词的变化而任意改变,成为“万金油”,任人涂抹。

三、目前档案大数据研究的若干误区

基于上述的误解,目前我国学界对档案大数据研究也随之出现了一些误区。

(一)以档案数字化代替档案数据化

首先,“数字化”通常被理解为将模拟数据转换成二进制代码的技术概念,并由美国学者Nicholas Negroponte引申为一种虚拟的、数字化的生存方式。因此,档案数字化就是通过技术手段将纸质档案、音像档案等非数字化档案转换成数字形式的档案。一般来说,数字化转换涉及到两类工作:一是档案目录数字化;二是档案全内容数字化。但与“数字化”不同,“数据化”是一个全新的概念,就像维克托·迈尔-舍恩伯格“一切皆可量化”口号所标示的那样——它要将任何事件、现象转化为可分析的量化形式的数据化概念。相较而言,数字化只是基于图像扫描技术实现非数字化内容的储存、调读与利用,而数据化则需更进一步,将图像形式的数字内容实现识别、分类、著录、标引与检索等功能。

其次,就目前我国档案馆数字化(数据化)的工作现状来看,基于扫描的数字化工作较多,而数据化工作较少。即使有些档案馆已经建立了目录数据库,也只能实现简单的目录检索,而无法实现档案全内容的数据化功能,如在全文范围内或局部范围内的关键词和主题词的精确或模糊检索和利用。由此可见,目前我国档案大数据的研究以及实践均在很大程度受制于“数字化”的旧思维,未能及时更新到“数据化”的新思路中。当然,导致这种状况的原因与我国档案信息化坚持以档案数字化的考评机制有关,从而使得我国大部分档案馆盲目地追求档案数字化的数量,而忽视数字档案数据化的高阶工作,形成了以档案数字化代替档案数据化的现状 。

(二)陈旧的档案管理流程难以满足档案大数据的即时性需求

在数字化之前,档案管理基本上依靠人力来完成,其流程大致可以分为档案信息的产生、信息的收集、信息的鉴定、信息的整理、信息的管存、信息的利用与档案信息的销毁等,其图示如下:

图1 传统档案管理流程图

这套档案管理流程的特点是全过程的纯人工操作,表现出耗时长、时跨大、时效差等缺陷。无疑,这套管理流程源于纸质化档案管理时代,包括音像档案和电子档案的管理。但是,我们考察目前对于“在线”归档电子文件的研究后,不难发现,其所遵循的档案管理流程与此套管理流程几乎一致,仅仅是在辅助层面上利用了计算机、网络与数据库等技术。这些研究其实在很大程度上无法充分体现出大数据技术所带来的时效性。

就目前网络化、信息化的发展趋势而言,数字档案将“趋向于以数据流的方式产生、处理和归档”[8]。以医疗档案为例,在数字档案产生之前,传统的病历和医案都需要在治疗活动结束之后,经过相关人员收集、审定、制作等活动之后,才能得到完整的医疗档案。在大数据背景下,“最为明显的改变就是从传统的纸质档案管理模式转化为现今的电子档案管理模式”[9]。也就是说,自从医院全面数据化之后,就医过程中所有活动的信息均在医疗管理信息系统中即时生成和存储,包括挂号信息、处方、药品、化验报告、检查报告、手术等信息,并且可以根据权限来调用,为不同阶段的论断、治疗等活动提供详细的参考信息。这一套数据管理流程有别于传统的档案管理流程,表现出明显的触发性和即时性。因此,针对这种特性,档案大数据的处理需要注意以下几点:①数据产生与收集的动态性;②数据分析和鉴别的实时性;③数据储存的实时性和更新的动态性;④在规则库和知识库中数据挖掘的自动性;⑤补充数据挖掘成果的即时性。在此规则下,我们可以简单地勾画出档案大数据管理流程图如下:

图2 档案大数据管理流程图

四、改变现状的几点思考

无论是概念的误解,还是陷入误区的研究,都不是单一原因所造成的,而是由多因素复合而成。为了有效地改善现状,我们需要对档案大数据开展多方向、系统化的深入研究。笔者认为,今后档案大数据的研究可以从以下方面深化。

首先,为档案大数据概念系统建立起相对稳定的学术规范。简言之,在大数据时代背景下,档案学要如何重新审视自己的概念系统和研究范畴,如档案是什么?在大数据背景下的档案又是什么?如果数据流可以称为档案,那么它又具备什么样的档案特征?传统档案学中的文件生命周期理论在档案大数据概念中是否还有意义?云存储和云计算中的数据档案是否存在边界,其效能如何界定?……这些问题都预示着档案大数据概念系统需要产生相应的新的学术规范。

其次,完善电子档案的法规体系。现有的法规体系均以实体档案为对象,未能考虑到电子档案。与传统档案不同,电子档案有其特殊性。在档案不断数据化的趋势下,充分考虑电子档案特殊性的相关法规必须得到相应的完善。

再次,电子档案数据化过程相关技术的完善。档案数据化过程将涉及到相关的技术要素。在数据收集和鉴别阶段,传统档案的数据化涉及到文字信息的识别速度和精度的问题,以及版面分析和内容理解的问题。这些问题的解决和完善都有赖于传感器的研发、人工智能、模式识别、工作流管理、知识库建设等方面的技术提升。另外,电子档案信息的防伪问题和多系统之间的档案数据冗余问题也亟待解决。

[1]吴金红,张飞,鞠秀芳.大数据:企业竞争情报的机遇、挑战及对策研究[J].情报杂志,2013(1).

[2]王铁牛.大数据档案学国内研究现状及研究方向分析[J].山西档案,2015(3).

[3]厉剑,张绍雄,刘俊杰,等.大数据引发信息时代新变革[J].大众科学,2013(12).

[4]Bill Franks.驾驭大数据[M].黄海,车皓阳,王悦,译.北京:人民邮电出版社,2003.

[5]张涛.大数据带来的变革及应对策略[J].高科技与产业化,2013(5).

[6]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:3.

[7]于英香.档案大数据研究的热的冷思考[J].档案学通迅,2015(2).

[8]叶大凤,黄思棉,刘龙君.当前档案大数据研究的误区与重点研究领域思考[J].北京档案,2015(7).

[9]浦晓雯,夏开建,张军朝.基于大数据驱动的医院档案管理数据分析方法与应用决策[J].山西档案,2016(5).

G270.7

A

1005-9652(2017)04-0072-03

(责任编辑:虞志坚)

王晓春(1971-),女,山东潍坊人,潍坊学院档案馆馆员,研究方向:档案管理。

猜你喜欢

概念数字化档案管理
Birdie Cup Coffee丰盛里概念店
家纺业亟待数字化赋能
如何规范档案管理
幾樣概念店
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
学习集合概念『四步走』
档案管理与企业内部控制关系的思考
数字化制胜
深入概念,活学活用