APP下载

当前档案大数据研究的误区与重点研究领域思考

2015-05-30叶大凤黄思棉刘龙君

北京档案 2015年7期
关键词:数据流档案管理研究

叶大凤 黄思棉 刘龙君

摘要:本文从大数据的概念和档案发展规律入手,认为当前档案大数据的发展方向是基于数据流的实时信息处理、分析与归档,指出当前档案大数据研究上存在的误区,并由此提出了档案大数据领域亟需研究的重点领域。

关键词:大数据档案数据流

Abstract:From the concept and development of the law of large data archives, and thinks that the cur? rent direction of big data file is based on real-time in? formation processing data flow analysis and ar? chiving, pointed out the existence of a large data ar? chive study on the current misunderstanding and thereby made archive large data fields need research focus areas and issues.

Keywords:Big data; Files; Data stream

进入21世纪,大数据时代的到来已经成为信息化发展的基本趋势之一,在社会各个领域不断融入大数据思维和引入大数据技术,掀起了新变革的浪潮。同样,“大数据”为档案管理领域带来了新技术、新理念,以及新的机遇与挑战,档案大数据研究也成为近年来档案管理领域的热点。但也有专家认为当前档案大数据研究存在一些过度炒作与概念“透支”现象,认为大数据的实时动态性、决策预测性特征与档案信息的滞后静态性、证据解惑性特征相偏离,提出要让档案大数据概念理性回归。[1]

笔者认为,当前档案学领域确实存在对大数据概念过度解读的现象,进而形成了研究热潮,但在研究的理念、方式、方法上与大数据时代的要求相去甚远,缺乏深度、广度与前瞻性。本文对档案大数据研究中存在的误区进行分析,澄清某些认识的同时,提出档案大数据研究的重点领域,以期起到抛砖引玉的作用,为档案界大数据深入研究提供参考。

一、对档案大数据概念的理解

什么是“档案大数据”?要正确理解档案大数据,有必要对“大数据”与“档案”这两个概念进行深入剖析。

(一)对大数据概念的认识

“大数据”描述的是随着数据量和数据类型激增而逐渐衍生出来的一种现象,包括大规模的、多样化种类的数据集,以及对数据集进行采集、处理、提取价值的技术架构与技术过程。[2]普遍认为“大数据”具有“4V”特征,即“数据量大”、“速度快”、“类型多”以及“价值密度低”。抛开数据的海量化生产和存储这种表面现象,由数据量变带来的质变之一便体现在思维方式的转变上。大数据时代带给我们的是一种全新的、颠覆性的思维方式,这种思维方式体现在:(1)分析全面的数据;(2)重视数据的复杂性,弱化精确性;(3)关注数据的相关性。因此,档案领域大数据研究的重点应该放在如何分析和应用档案数据的全面性、复杂性、相关性等特点上。

(二)对档案概念的认识

目前国内外对档案的定义有数百种之多,其定义角度和具体表达各不相同。《中华人民共和国档案法》将档案定义为“过去和现在的国家机构、社会组织以及个人从事政治、经济、科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、图表、声像等不同形式的历史记录”。通过该定义可以看出,档案可简化为“以各种形式承载的有价值的历史活动”。其构成要素有三个,即“载体”、“价值”和“活动”。随着社会生产力及科技文化的发展,档案载体实现了从甲骨、金石、简牍缣帛、纸墨文书、磁带、光盘、硬盘、缩微胶片不断变化。所谓档案的“价值”则取决于利用者的目的、方式和方法,是一种受主客观因素影响的判断。“活动”的释义则是“为达到某种目的而采取的行动”,涉及时间、地点、事件等诸多因素,其表达方式也是不断变化发展的。由此可见,“档案”这个概念是一个不断发展变化的过程,我们研究档案不能局限于纸质载体或单个的电子文件,或文本、照片、录像、录音等呈现方式。

(三)对档案大数据概念的认识

大数据概念与档案概念相结合得到的档案大数据,是大数据的概念、理论、技术与方法在档案领域的应用与实践。参考其他领域针对大数据研究的成果,我们可以得出档案大数据在实质上是一种基于发展的、动态的、数据流的档案观;基于海量数据的实时技术处理和知识挖掘过程;是一种基于数据全面性、复杂性、相关性的思维分析方法;是一种颠覆传统的、全新的档案管理模式。

二、当前档案大数据研究的三个误区

有人认为,大数据时代仅仅是“信息时代”“网络时代”的一种新提法,而档案大数据就是档案信息化。在这种观念的影响下,当前档案大数据研究主要涉及现有管理体制下的档案信息化建设、档案工作机制转变、档案服务领域扩展等方面。笔者认为,这些研究以传统档案管理思维方式去理解和解析档案大数据,偏离了档案大数据的本质,存在如下误区:

(一)误区一:以纸质档案数字化为对象进行档案大数据的研究

当前对档案大数据的研究,普遍以纸质档案数字化为对象,围绕着纸质档案数字化生产、信息系统建设、服务领域扩展来开展研究。然而,纸质档案所承载的信息本身具有滞后、静止、稳定等特点,这并不是能通过扫描达到的数字化可以消除的。这种以纸质档案数字化为对象的研究方向忽略了大数据的“大”本质在于动态性、实时性以及其所带来的数据加速度增长。

从档案的发展历程看,档案记录的内容从文字、声音、图像到视频等,其表现形式越来越生动,信息容量越来越大、数据读取解析速度越来越快,这种数字档案迅猛发展的趋势完全符合大数据的“4V”特征。例如,在2014年3月8日马航MH370失联事件中,有关的运行控制数据、空管运行数据、通话记录、雷达监控数据以及将来可能发现的“黑匣子”数据等均可视为该事件的数字档案。这些海量的、类型繁多的数据是分析马航客机失联原因的重要依据。可以预见,未来的数字档案将以数据流的形式动态地生成、快速地甄别、实时地存储,数据的采集、处理将具有很强的时效性。尽管当前档案的呈现方式还是以纸介质载体为主,但从信息技术和档案载体的发展进程看,传统档案数字化的数据规模和利用效率将相对变小。因此,档案大数据的研究应以实时记录事件的各种数据流作为主要研究对象,这才符合大数据时代档案发展的客观规律。

(一)误区二:以传统档案管理流程为基础进行档案大数据的研究

传统的档案管理流程基本上是收集、整理、保管、鉴定、统计与利用,这是一个有着严格先后顺序的档案管理流程,各个环节的处理主要依靠手工或人工方式完成。其弊端是耗费时间长,时间跨度大,时效性弱。如图1所示。

这种管理流程当前不但广泛应用于纸质档案的管理,而且普遍应用于声像档案、电子文件与电子档案的管理。以这种流程模式收集、管理的档案信息具有稳定的、静止的、滞后的特点。近年来也有很多关于在线电子文件归档方面的研究,但所涉“在线”归档的电子文件内容是确定的,所遵循的处理环节也与传统档案管理流程基本一致,只不过借助网络传输、数据库技术以及计算机辅助方式进行处理。当前对档案大数据的研究,潜意识地沿用了这种流程模式,将档案的收集、整理、保管、鉴定、统计与利用这些环节按传统的处理顺序割裂开来,仅就某一环节进行研究,未体现出大数据处理的时效性特征。

笔者认为,随着电子政务的快速发展以及各类物理传感器的广泛应用,数字档案将越来越趋向于以数据流的方式产生、处理和归档。例如,医疗档案按原有的档案管理模式,需要等病人完全康复出院后,经过一段时间的收集整理才能形成完整的医疗档案;而医院使用医疗管理信息系统后,从病人挂号开始,在门诊、缴费、化验、取药、手术、住院、出院等各个环节,将即时得到电子病历、处方、化验报告、X透视图像、费用单等数据信息,所得的数据均能对下一阶段的治疗和管理起到参考作用。显然,这种基于治疗环节即时生成的医疗档案,完全具有甚至超过传统纸质档案承载的信息,但信息收集、归档与利用的环节又与纸质档案截然不同,具有典型事件触发生成数据流的特点。因此,对档案数据流的分析、处理与存储,将是档案大数据研究的重要内容。笔者认为,基于档案数据流的处理主要有如下特点:(1)数据的产生或采集是动态的或实时的;(2)数据分析与甄别(类似于纸质档案的鉴定)是实时的;(3)数据是实时存储和动态更新的;(4)数据分析和信息挖掘主要由计算机在各种规则库和知识库支撑下主动处理,可以包含少量的人工干预;(5)信息挖掘和利用过程中产生的新规则或知识将即时更新到规则库和知识库中。档案数据流的管理流程如图2所示。

(三)误区三:基于传统档案管理体制思维进行档案大数据的研究

档案馆作为专门管理档案的社会组织实体,一直是档案事业的主体,在档案管理中具有关键性作用。受传统档案管理体制思维的影响,当前档案大数据的研究主要是围绕档案馆这个组织实体,研究大数据时代如何进行档案数字化,如何建设档案馆库,如何转变工作机制,如何制定管理规则制度,如何拓展服务领域等等。在这种传统思维的主导下,档案大数据的研究主要围绕档案馆各方面的建设与发展展开。笔者认为,这是对大数据概念的一种误读。社会发展的变革往往是以新模式对旧模式的颠覆性变化来体现的。例如,传统商务是以固定不变的销售地点和固定不变的销售时间为特征的店铺式销售;而电子商务彻底颠覆了这两个特征,网店购物只需点击鼠标,不需当面交接货物,也没有时间限制,具有全新的时空优势。同样,对档案大数据而言,随着云存储和云计算技术的广泛应用,数据储存和计算服务的网络化使得提供存储和服务的实体变得不确定起来,承担着档案保管基地和档案史料中心角色的档案馆,也将相对弱化。数字档案将越来越趋于由该档案原始数据生产者进行动态管理与维护,并向其他社会组织或个人提供访问服务。因此,我们研究档案大数据,需要打破以档案馆为主体的传统档案管理思维的惯性和禁锢,取而代之的是树立以数据为主体的研究思路,围绕档案数据的运行流程,展开前瞻性、可行性的研究与论证。

三、档案大数据研究的重点领域

根据档案大数据的特点和发展方向,笔者认为需要在以下六个领域进行重点研究:

(一)档案学术归约的重建

作为一个学科必须对所研究的对象建立起范畴、概念系统的约定,这就是所谓的“归约”。电子文件的兴起已经改变了传统的文件处理和档案管理方法,对当今档案的概念、本质性、管理方法、理论学说等产生了强烈的冲击。数据流、数据库的出现,信息生成与存在形态上的变化,则进一步动摇和颠覆了现有档案学的概念系统和研究范畴。例如,数据库是一种电子档案吗?什么样的数据流才具有档案特征?文件生命周期理论在信息的实时采集、即时分析、动态更新的环境中还有意义吗?为数据流实时分析、模式识别、知识挖掘提供支持的知识库与规则库属于档案概念体系中的什么成分?基于“云”存储与“云”计算的数据档案存储与服务,其实体边界和效能如何界定?如果说大数据时代的档案学正在重建,那么这些问题都是必须谨慎思考、深入研究的。

(二)基于电子档案的法规体系研究

现有档案法规体系是以《中华人民共和国档案法》为核心,以档案局为行政执法主体,该法规体系建立的基础是实体档案及其管理模式,由此衍生的若干档案行政法规、规章均是以实体档案为管理对象。随着信息化进程的加快,电子文件和电子档案的管理也被纳入其中。需要注意的是,档案大数据以电子档案为基础,与传统档案有着本质区别。随着档案事业的发展,对电子档案管理和维护的组织实体将日益多样化,因此,必须考虑以大数据的思维来构建基于电子档案的管理利用法规体系,从数据的管理与利用出发,合理规范档案数据的生产、储存、利用,合理界定国家安全、隐私保护、数据权益等方面的边界。如何建立有利于档案大数据管理、利用与发展的档案法规体系,将是档案大数据研究的重要领域。

(三)档案内容元数据体系的研究

所谓元数据是关于数据的数据,是对信息资源的结构化的描述。元数据描述了信息资源或数据本身的特征和属性,规定了数字化信息的组织,揭示了数据之间的相关性和依赖性。大数据并非简单的数据量巨大、种类众多,大数据的知识挖掘与利用主要依赖于各类数据之间的相关性。建立、理顺各类档案数据的相关性将是档案领域大数据应用研究的重点。当前档案管理中存在的缺陷是档案承载信息的孤立性和冗余性。例如,在综合档案馆保管的多个全宗中,某个全宗形成的某些文件也保存在其他全宗中,出现重份甚至多份的现象,进而造成大量资料的重复。对于电子档案,通过网络可以解决数据共享的问题,但要确保档案信息准确、无冗余,还需对各类档案的数据项进行分析与归纳,形成可以相互参照的、有明确审核层级的内容元数据体系。当前,随着政府执政理念从管理到服务的转变,基于电子政务的联网办公、并联审批模式正逐步推广应用,对审批内容与提交材料的梳理、分类与提炼等工作正推动着档案内容元数据体系的建设。然而,受行政管理体制条块分割的影响,覆盖全国各层次、各领域的档案内容元数据体系尚未形成,难以适应大数据时代的发展要求。如何构建、实施和推广档案内容元数据体系,是一个需要各学科、各领域专家和管理层予以重视和深入研究的重要课题。

(四)电子档案信息真实性的研究

档案的真实性是档案的价值所在和利用前提。对电子文件的真实性、完整性和不可抵赖性可通过数字签名系统予以保障,防止其他人伪造、非法截取和更改文档,辨识及确认电子文件签署人身份、资格及文件真伪。尽管如此,当前电子签名系统的推广及应用仍存在较多困难。基于数据流的电子档案,其本身具有动态性,如何界定和维护数据真实性、完整性及不可抵赖性,将面临更多技术和法律难题。例如,某辖区某个时间节点的居民人数统计电子档案,其是通过辖区内居民数据库统计得到的;若后续工作中发现并更新了某个居民信息,那么原有统计得到的电子档案是否仍然有效呢?随着电子档案的快速发展与广泛应用,这类问题将越来越普遍。如何界定电子档案的真实有效,并在不影响数据处理和利用效率的前提下,对电子档案进行加密与防伪,是档案大数据研究需要解决的技术难题。

(五)在线数据收集与实时鉴别的研究

纸质档案必须经过鉴定才能决定其是否具有保管和利用的价值,电子文件在提交、汇总时也要经过鉴定和筛选,符合条件的文件才能成为电子档案。大数据时代下,档案发展的方向是基于数据流的电子档案,在线数据收集与实时鉴别将是其形成、归档的关键环节。例如,纸质档案转换成真实意义的电子档案也应具有数据流处理的特征,需要进行档案数字化扫描、文字信息识别、版面分析与内容理解这些环节。目前技术上已实现档案高速扫描和扫描自动化,但文字信息识别速度和准确性还有待提高,版面分析还不是很成熟,内容理解方面尚在起步阶段。由此可见,电子档案的在线数据收集与实时鉴别涉及传感器研发、人工智能、模式识别、工作流管理、知识库建设等诸多领域,这需要各领域科研工作者的密切合作,共同攻克难关。

(六)档案公共服务模式与领域的研究

当前,档案公共服务是以档案馆为主体,面向公共用户提供档案信息资源服务。例如,档案的利用在科研方面主要用于史料考证和地方志的编研上;在服务民生上,主要集中在查阅民生档案为维护自身权益寻找依据或凭证。有学者提出,公民档案信息权意识嬗变状况是特定社会场域中政治、经济、文化、历史等因素作用的产物,是国家公共权力与公民个人权利长期互动的结果。[3]随着信息与网络技术的发展和档案电子化进程的推进,公民档案信息权意识将进一步激发。随着档案大数据的实现,现有档案馆的服务将逐步以史料考证为主,而民生领域对档案信息的利用将从纸质档案逐步过渡为实时电子档案,档案信息挖掘将得到更广泛、更深入的应用。电子档案将不仅用于史料考证、维护自身权益,还将渗透到政府治理和社会生活的方方面面。电子档案的知识挖掘将对政府决策提供关键性数据支持,面对社会公众的个性化服务能力也将大幅提高。如何更好地获得档案决策支持,以何种途径和载体开展档案社会服务,如何充分实现档案公共服务均等化,如何估量服务效率和效益,将是档案大数据研究的重要内容。

变革与创新是社会发展的必然趋势,大数据时代的到来为档案领域的发展指明了方向。然而,要在档案领域真正实现大数据时代的发展要求,还有诸多的学术概念需要明确,大量的技术问题需要解决,深层次的管理体制需要理顺。我们必须尽快转变传统思维,创新大数据的新管理技术与服务模式。

注释及参考文献:

[1]于英香.档案大数据热的冷思考[J].档案学通讯, 2015(2):4-7.

[2]吴金红,张飞,鞠秀芳.大数据:企业竞争情报的机遇、挑战及对策研究[J].情报杂志,2013(1):5-9.

[3]张林华.论我国公民档案信息权意识的嬗变[J].档案学通讯,2014(6): 15 -19.

猜你喜欢

数据流档案管理研究
FMS与YBT相关性的实证研究
辽代千人邑研究述论
视错觉在平面设计中的应用与研究
EMA伺服控制系统研究
档案管理中的电子档案管理
一种提高TCP与UDP数据流公平性的拥塞控制机制
档案管理与企业内部控制关系的思考
基于数据流聚类的多目标跟踪算法
健康档案管理的“云”前景
北医三院 数据流疏通就诊量