基于“数字中国”背景的档案大数据研究
2019-09-10林蔚
摘 要:在大数据时代来临及“数字中国”的背景下,档案管理工作受到了新的挑战,如何能够顺应时代,让传统档案管理工作与大数据、云計算等互联网技术相结合,从而实现大数据在档案管理工作中的应用变得更为迫切。就此,本文对“数字中国”背景下的档案大数据进行了讨论。
关键词:数字中国;电子档案;大数据
中图分类号:G270.7 文献标识码:A 文章编号:2096-4706(2019)18-0081-03
Abstract:With the advent of the era of big data and the background of “digital China”,archives management is facing new challenges. How to adapt to the era and integrate traditional archives management with internet technologies such as big data and cloud computing,so as to realize big data of archives management becomes more urgent. In this regard,this paper discusses the big data of archives under the background of “digital China”.
Keywords:digital China;electronic archives;big data
0 引 言
麦肯锡公司(McKinsey & Company)作为全球知名的咨询公司,最早提出了大数据时代的到来,并认为数据已经渗透到全球各行各业的业务职能领域,成为重要的生产因素[1]。2012年召开党的十八大以后,“数字中国”被提上新高度,作为新时代国家信息化发展的新战略,其覆盖面涉及经济、政治等多个领域,包括了大数据在内的多个内容。为促进“数字中国”的建设,国家互联网信息办公室、国家发展和改革委员会等部门主办的“数字中国建设峰会”已举办了第二届,为“数字中国”建设提供了良好的技术交流平台。由此可见,大数据在国家战略中的地位越来越高。“数字中国”这一背景也对档案管理工作提出了新要求,如何能够让档案管理工作顺应时代潮流、建设整合数字资源、提高数字档案建设水平、加强数字档案管理水平及挖掘数字档案潜在资源被提上议程。为此,本文将对“数字中国”背景下的档案大数据进行讨论。
1 档案大数据的概念及数据来源
1.1 档案大数据的概念
维克托·迈尔-舍恩伯格及肯尼斯·库克耶在2008年首先提出了“大数据(big data、mega data)”一词。一般认为,大数据指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。《中华人民共和国档案法》对档案的概念下了定义,是指过去和现在的国家机构、社会组织以及个人从事政治、军事、经济、科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、图表、声像等不同形式的历史记录。
2012年后,大数据一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新,档案大数据这一概念也就应运而生。所谓的档案大数据,一般认为是一个数据集,是在档案业务活动开展中形成和采集的,具有价值属性、难以在短时间内分析处理等特点,并与档案及档案活动密切相关。
1.2 档案大数据的来源
根据档案大数据的概念,其是在档案业务活动开展中形成和产生的,这也就确定了其数据的来源主要有以下几个方面[2]。
(1)档案自身。档案自身数据主要是指档案管理部门所收集的各种文字、图表、声像等多种形式的记录,诸如档案管理系统产生的数据、载体材料及规格等数据,同时也包括根据档案内容进行分类等所形成的目录、摘要及查询指南等。这部分数据是档案大数据中最主要的组成部分,也最具档案特色。
(2)在档案部门开展档案业务活动中形成的。这部分数据主要有两个源头,一个是档案部门自身产生的,另外一个是档案部门通过其他途径收集而来的,诸如档案部门自身的档案结构数据、部门概括及相关的档案管理政策、法律和档案管理行业数据等。
(3)档案用户后续产生的数据。诸如档案用户的个人情况更新、查询档案记录、个人需求偏好等用户个人相关数据的再次产生。
上述三个部分是档案大数据的主要来源,也就是说档案大数据的来源除此之外还有其他来源,但这些数据的产生并不代表其就会被纳入档案大数据范畴,只有经过筛选、整理后,具有价值的内容才会被纳入档案大数据。
2 档案大数据的特点
2.1 大数据
学术界一般认为大数据应该具有“4V+1O”的特点[3]:
(1)数据量大(Volume),即数据在采集、存储及计算过程中的量非常大,一般都至少以P(1000T)作为起始计量单位。
(2)类型繁多(Variety),即数据的种类及其来源繁多。包括可以使用关系型数据库表示和存储,表现为二维形式的结构化数据;不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层的半结构化数据;及文档、图片、视频/音频等非结构化数据。
(3)价值密度低(Value),即数据的价值密度不高。随着网络技术的不断进步,信息无处不在,但其中不乏许多无价值信息,造成信息价值密度低的问题。在这种情况下,如何通过逻辑算法等方式挖掘有价值的数据信息,是当前大数据时代最为迫切的问题。
(4)速度快时效高(Velocity),即数据增长和处理的速度快,同时也有着较高的时效性,这也是大数据区别于传统数据挖掘的显著特征。
(5)数据是在线的(Online),即数据永不掉线,可以随时被调取和使用,这一特点被认为是区别于传统数据最显著的特征。互联网技术的高速发展,为数据永不掉线提供了可能,并且更加充分地发挥了数据的价值。
2.2 档案大数据
档案大数据是在大数据基础上发展而来,因此,它既具有大数据的一些特征,也有着自己的特性[4、5]。
(1)数据量大。数十年的传统档案累计,形成了较大的待数字化存量,且伴随着互联网发展,业务系统产生的数据量也在剧增。2017年国家档案局局长李明华就曾在全国档案局长馆长会议上提及,我国馆藏档案在“十一五”末已达3.92亿余卷(件),形成了海量的档案数据。
(2)数据类型复杂。档案大数据也同样包括结构化、半结构化和非结构化数据,且伴随着各行各业业务工作同互联网的交叉,越来越多的半结构化和非结构化数据产生并占据了主流位置。
(3)价值密度高。相对于其他大数据,由于档案大数据普遍具有较高完整性、真实性和准确性,即便数据大规模发展后,价值密度也不会降低太多,这也是档案大数据特别之处。
(4)动态性和稳定性。档案数据需要通过动态生成并且收集,其后进行分析、整理、存储及调用,这样就赋予了档案大数据动态性。而档案的证据及凭证功能,则要求数据具有一定稳定性,在经过处理,转换成有效档案数据后,就应当锁定为不可更改数据,因此具有数据的稳定性。
(5)技术依赖性强。各行各业在电脑技术发展和普及前,使用的都是传统档案,这样就造成档案的存量数据很大。为实现存量档案的大数据化,就要求具有强大的信息技术,以最快的速度存储、甄别和调用存量档案数据。
(6)处理速度快。传统的档案管理,需要利用纸质材料,造成人工查阅、调取速度缓慢。大数据技术则要求数据的生成、分析、整理、存储和调取等各个环节都要在较短时间内完成,发展档案大数据化,也是为了实现这一目标。
3 实行档案大数据的必要性
3.1 大数据时代发展的需要
正如哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”美国政府于2012年发布《大数据的研究和发展计划》,将大数据处理上升到国家安全层次;日本也于2013年发布“创建最尖端IT国家宣言”,提出通过将大数据提升为国家战略,以此提高日本競争力;我国也于2014年首次将大数据写入政府工作报告,并于2015年发布《促进大数据发展行动纲要》[6]。我国档案管理工作正在经历着从纸质到电子、手工到智能化、分散管理到信息共享的转变,档案管理部门只有紧随时代发展潮流,推动档案大数据发展,才能确保我国档案管理事业不会落后。
3.2 “数字中国”建设的需要
在国家提出“互联网+”“宽带中国”等战略并深度参与国际数字经济合作后,“数字中国”于2017年党的十九大报告中首次被提出,进一步提升了国家信息化战略。“数字中国”的核心是数据,是数据与各行各业的深度融合,这就要求信息资源具有数据化、智能性和共享性等特点。
以我国绝大多数档案馆为例,虽都已在推进档案电子化,但还是有相当部分的档案为纸质档案,且电子化档案存在格式不一、分散保存及数据库建设标准不一等问题,很难形成联动、档案数据共享,容易造成信息孤岛现象。对于推进档案电子化,也仅仅是将纸质档案的图片化保存,缺乏数据化处理。档案管理部门作为服务经济社会发展的重要部门之一,只有实行档案大数据化,促进档案资源的整合和共享,深度挖掘大数据的经济价值,创造数字经济,服务民生,才能更好地服务“数字中国”建设。
3.3 档案管理部门自身发展的需要
(1)避免档案胀库的需要。如果没有实现档案数据化,各行各业的档案管理都会不可避免地产生一个问题,那就是档案数量急剧增加,最后造成档案胀库现象。传统的档案胀库指的是因纸质档案库房容量有限而档案数量剧增造成存放地不足的现象。新时代的胀库现象,可认为是各行各业档案管理部门虽然进行档案数字化,将纸质档案图片化,却只是实现单纯意义上的档案数字化,且未能构建全国性的档案信息化数据,形成信息孤岛,数据存在重叠,虽然相对于传统的纸质档案可以减缓胀库现象,但是最终也会不可避免地发生胀库。只有在数字化的基础上进一步数据化,在大数据基础上对档案进行有效的获取、存储、加工和利用,才能进一步缓解胀库现象[7]。
(2)促进档案管理部门工作转型的需要。随着互联网发展,尤其是移动互联网的发展,给传统的档案工作带来了巨大挑战。人民日益增长的信息需求、各行各业通过档案大数据挖掘信息价值的需求以及提供个性化服务的需求在不断提升,对档案信息的服务质量、服务效率和服务广度都提出了更高的要求。这样也就要求档案管理部门必须从大数据管理和云计算技术角度构建管理架构,建章立制,将管理的档案资料进行整合,加强档案信息资源建设,解决档案数据孤岛问题。
4 结 论
总之,通过变革和创新实现档案大数据才是档案管理部门在“大数据”时代的生存之道。档案管理部门如何在大数据快速发展中抓住契机,如何利用新技术和创新服务管理模式,给档案管理部门带来挑战和机遇,是当前档案管理部门需要面对和解决的问题。还应注意的是,档案管理部门在发展档案大数据时,应当根据档案大数据的特点和自身工作职能,在传统工作的基础上,寻找适合自身发展的大数据道路。
参考文献:
[1] 陈慧.大数据时代档案信息安全价值实现策略研究 [J].档案天地,2018(6):35-37.
[2] 康蠡,金慧.档案大数据定义与内涵解析 [J].档案管理,2017(1):24-26.
[3] 王平,安亚翔.大数据时代的档案信息平台建设 [J].档案与建设,2015(10):8-13.
[4] 陶水龙.大数据时代下数字档案馆面临的机遇与挑战 [J].中国档案,2013(10):66-68.
[5] 鲁德武.试述档案大数据的定义、特征及核心内容 [J].档案,2014(4):13-15.
[6] 向立文,李培杰.档案部门实施档案大数据战略的必要性与可行性研究 [J].浙江档案 2018(10):10-12.
[7] 李明娟.从“数字化”走向“数据化”——大数据下档案管理工作发展道路 [J].办公室业务,2016(12):171+145.
作者简介:林蔚(1978-),女,汉族,福建宁德人,小学高级教师,本科,研究方向:档案信息化、档案资源开发与利用。