APP下载

大数据时代背景下的档案工作

2017-12-26刘江永

环球市场信息导报 2017年34期
关键词:结构化档案馆档案管理

◎刘江永

大数据时代背景下的档案工作

◎刘江永

本文首先论述了大数据的概念,进而分析了档案工作引入大数据的必要性,然后分析了大数据时代给档案工作带来的种种挑战,最后提出了档案管理运用大数据的策略及需要注意的问题。

在大数据时代背景下,各行各业都面临着对庞大而复杂的数据进行有效管理的巨大挑战,人们越来越认识到对自身产生和拥有的大数据进行有效管理的重要性和紧迫性,档案行业也不例外。在大数据时代,社会每天产生的原始记录的量和种类与过去不可同日而语,加上各类型的档案馆(室)现有的档案数据,档案工作者已经明显感觉到任务的艰巨,而且很多时候面对汹涌而来的大数据,档案工作者已经不知道如何应对。因此,档案界很有必要探讨一下大数据时代背景下的档案工作。

何谓大数据

数据信息的新时代,科学家们称之为“大数据时代”。大数据描述的是随着数据量和数据类型激增而逐渐衍生出来的一种现象,不仅包括大规模的体量、多样化种类的数据集,还包括对这种数据集进行高速采集、处理与分析以提取价值的技术架构与技术过程。大数据具有以下三大主要特征(3V):数据量大(Volume),PB级甚至ZB级;数据类型多(Variety),网络日志,音频、视频、图片、地理位置等结构化和非结构化数据并存,数据类型层出不穷;时效速度快(Velocity),采集、处理数据的效率高。后来一些学者又概括添加了价值稀疏性(Value)和复杂性(Complexity)。

新时代背景下档案工作引入大数据技术的必要性

新时代背景下档案数据的存储与备份需要大数据技术。档案数据库的使用极大地提高了档案管理利用效率,但今年以来,在档案数据库的使用过程中,常常会碰到无法向数据库增加新的档案数据的情况,这种现象很类似于传统档案管理时的“涨库”,即由于库房容量有限导致新增加的档案无法正确地存储到库房中。随着档案信息化不断接近完成,随着大数据时代的到来,档案数据库面临的存储空间问题相当严峻。档案馆要想安全地存储巨量的档案数据,不可能一味地盖大楼盖机房。再之,档案数据还面临着需要大量存储空间备份的问题,这就逼迫我们必须优化存储、提高效率和节约成本。

档案工作从实体管理上升到知识管理需要大数据技术。现今档案用户已不满足于仅限于数据或文件的利用,更希望能够获得数据背后的信息以及信息蕴藏的知识,因此,档案利用服务也应由提供数据、信息转变为提供知识。技术引擎是档案馆知识服务的技术核心,新型知识服务引擎包括资源及学术搜索引擎、资源及服务推荐引擎、用户知识需求预测引擎、及多维度信息资源获取、组织、分析及决策引擎等,利用大数据技术可以构建档案馆的新型知识服务引擎。

档案馆加入政府2.0的建设需要大数据技术。政府2.0是政府在电子政务职能上的一个根本性转变,它与民众直接互动沟通,从条块分割、封闭的架构迈向一个开放、协同、合作、互动的架构,使政府真正成为服务型政府,政府2.0通过对电子政务信息系统的整合,可实现跨部门的政府信息资源共享和政务协同。档案馆作为科学文化事业机构,提供档案利用服务是档案的根本职能,建设政府2.0需要档案馆的参与,而现今各个档案馆使用的档案信息管理系统不尽相同,档案信息被分割在不同的档案部门内,档案部门和其他政府部门之间也存在着“鸿沟”,随着大数据技术发展,跨越系统、跨越平台、跨越数据结构的档案信息将可以在集政府各部门、企事业单位、社会团体、公民等主体的政府2.0平台上流动,提供高效的档案利用服务,满足各方需求。

处理非结构化电子文件需要大数据技术。大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,同时,由于数据显性或隐性的网络化存在,使得数据之间的复杂关联无所不在。一直以来,人们对数据的管理采用的是关系型的数据库,比较有代表性的就是IOE(I指IBM的服务器,O指Oracle的数据库,EMC的存储模式)模式。档案行业也如此,但是大数据时代,IOE模式已经不适合做大数据处理。大数据应用除了数据规模巨大之外,还意味着拥有庞大的文件数量,因此如何管理文件系统层累积的元数据是一个难题,处理不当会影响系统的扩展能力和性能。面对着快速增长的非结构化文件,档案工作者在进行电子文件管理时困难重重。现在基于大数据技术的数据库,如SOL已经既可以做关系数据,也可以做空间数据、图像、数据流等非机构化数据,而且基于对象的存储架构可以在一个系统中管理十亿级别的文件数量,还不会像传统存储一样遭遇元数据管理的困扰,大数据技术为档案工作者管理非结构化电子文件的问题提供了解决之道。

大数据时代给档案工作带来的挑战

档案管理理论的挑战。正如信息化时代挑战了纸质时代的来源原则、文件生命周期理论、档案价值鉴定理论,催生了基础理论的新变革,产生新来源观、文件连续体理论、宏观鉴定理论等等革新的理论。在大数据时代,新来源观、文件连续体理论、宏观鉴定理论都将受到不同程度的挑战,档案学基础理论将进一步发展。

档案信息资源管理的挑战。从纸质档案到档案信息化再到大数据时代,档案信息资源呈指数型增长。在大数据时代,档案信息泛滥,如何实现档案数据长期可读性、安全可靠性,并在海量数据中实现对档案信息的挖掘分析,从而提供有价值的信息,是档案管理面临的挑战。

档案业务环节的挑战。从档案的收集、管理、利用3个环节来看:在传统管理方式下,“收”是各部门移交;“管”是手工管理,手工查询;“用”是提供被动的查询服务。在计算机时代,“收”主要是部门移交与系统推送部分电子文件相结合,“管”主要是电脑代替手工劳动,“用”是利用现代信息技术进行制作、加工、传播、转换和二次开发。在大数据时代下,“收”将是数据实时的、自动归集;“管”将采用云平台存储、计算、分析;“用”则是分析、发现与预测,为社会、企业创造价值。

档案管理运用大数据的策略及需要注意的问题

对档案资源进行统一管理或统一备份。大数据技术支持庞大数据的存储和处理,使档案资源的统一管理或统一备份成为可能。国内有些地区已经开始建设大数据产业园区,例如陕西省西咸新区的大数据产业园。根据规划,大数据产业园将实现数据的规模化集中吞吐、深层次整合分析、多领域社会应用、高效益持续增值,成为国家政务资源后台处理与备份中心、国家级大数据处理中心以及国内最大的信息资源聚集服务区。如果全国的档案数据资源能集中起来,那么利用大数据进行档案资源的管理、开发和利用将指日可待。

和大数据开发公司合作,开发适合档案行业的大数据分析工具。大数据技术宽泛复杂,一个行业想引入大数据,就需要打破专业限制,寻求和专门的大数据开发公司合作,避免懂数据分析的没有数据,不懂数据分析的却拥有大量数据。比如一家电力公司,电力是它们的专长,而IBM研究院对数据分析很在行,IBM的科学家虽然有满腔热情,但是对电力行业也有一知半解的地方,最后请来一位清华大学的院士,他懂电力又了解未来发展的趋势,形成了三方合作的局面。假如没有一个开放、协同创新的思想,这样的结果很难实现。而且不同行业需要不同的大数据分析工具和开发环境,档案行业也如此,只有通过熟悉档案行业的档案工作者与专门进行大数据开发的专业公司或人才合作,才能开发出适合档案行业特点的大数据分析工具。

要有明确的目标和标准。档案管理在运用大数据时必须要弄清楚到底想从大数据中得到什么,否则就要花大量的时间来分析数据。档案资源太丰富,如果没有明确的目标,就算没有走入迷途至少也会觉得非常迷茫。因此,首先要定义使用大数据的目标和标准,之后再使用能够解决特定问题的大数据工具。

要注意潜在的风险。档案信息资源的开发和利用会涉及到档案信息的泄密、档案信息的丢失和篡改、隐私权的侵犯、知识产权的纠纷等等问题。因此,档案管理在运用大数据技术时需要注意这些潜在的风险,通过制定法规、明确权限、厘清责任关系等措施来控制和应对这些潜在风险的发生。

移动互联网、云计算、大数据的发展,对档案管理工作既是挑战,更是机遇。档案管理将朝着知识管理、信息服务的方向发展,档案管理在企业经营中的价值将进一步突显。在未来的档案管理中,档案人员要不断学习创新、开放的互联网思维,围绕企业的经营工作,重新思考和认识档案工作,充分运用新技术和新运用,在大数据时代推动档案管理工作创造更大的价值。

(作者单位:中国航发湖南动力机械研究所)

猜你喜欢

结构化档案馆档案管理
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
档案管理中的电子档案管理
档案管理与企业内部控制关系的思考
全省部分档案馆新馆掠影
基于图模型的通用半结构化数据检索
太仓市数字档案馆成为“全国示范数字档案馆”
健康档案管理的“云”前景
基于软信息的结构化转换
加强工程项目档案管理的有效途径