探析大数据时代下档案的发展
2022-07-14韩向迈
韩向迈
(一)大数据的概念
从字义来看,大数据(big data)顾名思义,指 的是海量的资料,巨量的数据,这些资料数据来源于世 界各地,信息量庞大,常用的软件工具无法在有限的时 间范围内对这些海量数据资料进行获取、管理、分析和处 理,是一种新的思维方式。无论在生活、工作还是学习中 ,我们无时无刻不在进行着数据的收集、筛选、处理、分 析和应用等工作。
客观来讲,目前针对大数据的概念并没有准确 的界定,这是因为大数据商业特征显著,若其应用背景 不同.研究者的切入点不同,其概念也会存在显著的差异 。在实际应用中,大数据的概念因实际情况而有所不同。
(二)大数据的特点
大数据应用技术是一种非结构性的数据处理技 术,在处理规模较大的信息数据量时,应用数据化的思维 与先进的数据分析技术,提取关键、有价值的信息,并且 能够快速而高效地处理这些数据,进而推动工作进程。
数据信息大量化特点(Volume)。大数据用于搜 集、存储和运算数量复杂的信息,在云空间的背景下,数据 储存空间加大。而当前,档案信息数量也呈现出“几何式” 增长态势,数字信息数量庞大,数字化管理已成为必然趋 势。
数据的复杂多样化特点(Variety)。不同的数 据源,购物信息、影像资料、行程轨迹、地理位置等信息, 繁杂多样的类型数据要求数据的处理能力必须要提高。要 求能够将数据进行系统的整理、筛选、计算等操作,进而 转换为结构数据。大数据是处理海量数据的利器,更是为 处理不同来源、不同格式的多元化数据提供了可能。
数据价值密度低的特点(Value)。价值是大数 据的核心特征,数据信息采集具有时效性,若因为数据采 集得不够及时,数据不连续,数据样本不够全面,则数据 便会失去其真实性。而当数据符合收集条件,所需处理的 数据量也在允许范围内,那么运用大数据技术运算可以得 到更确切的反馈。对档案管理来讲,档案信息量庞大,大 数据技术能够对海量的档案信息数据进行运算,并合理地 分析利用,发挥数据最大化的价值效益。
数据信息高速运行特点(Velocity)。大数据背景下,档案管理工作要求能及时快速地响应突如其来的变化 ,要求数据分析要快速、准确,即便是异地档案信息也能 快速获得、阐发与处置。此外,若采用数据分析和分布式 处理模式,对储存的档案信息进行全面的检索、决策,则 能够从中可获取更高价值的信息。
档案学是以档案现象为研究对象,以揭示档案现象的本质和规律为目标,探讨档案信息资源的办理、开 创的理论、原则与方式的学科。档案学知识的利用有助于 深化档案管理工作和档案管理的科学程度,能够更有效地 开发利用档案信息资源,为人类社会的现代化发展服务。
在现代社会中,档案随处可见,与我们息息相关,档案以不同形式存在于我们的社会工作生活中,是人 类有意识地记实保留下来的书面标记,是个人、社会组织 和国家机构在社会活动中具备保留代价的笔墨、丹青、音 频、影像以及其他各种方式的歷史记录。档案在社会实践 中的基本作用为:凭证作用、参考作用和情感作用。
档案主要由4个基本要素组成:档案的构成者 ,分别为个人、社会组织和国家机构;档案具体内容,是 档案承载的常识信息及人类文明智慧结晶;档案形式,指 的是载体形式、信息记录和表达形式,档案的形式多种多 样;档案的本质,是直接的、原始的历史记录,是历史的 最真实的凭证。
档案开启了人类的文明时代,五千多年以来, 人类以文字为载体来记录重要的数据信息,档案由此形成 ,并随着人类文明的发展逐渐完善。远古时代,人类主要 是用肢体语言进行交流和传递信息,但这种传递方式不能 将信息完整地保存下来;到了原始社会后期人类尝试用结 绳、结珠、编贝和积石等原始实物来帮助记录时事;直至 后来出现纸质档案,再到近现代音频、图片、电子文件等 档案形式产生,它们记录了人类的每一步历史足迹,构成 了人类的档案信息财富。
从古至今,人类一直很重视对档案的保存和利 用,设置专门的馆室并选派专门的人员进行管理。在几千 年的日积月累中,档案信息的数据量翻倍增长。
(一)大数据与档案同为信息范畴
通过阅读丁海滨教授出版的档案学类图书,对 档案学有一个大致的了解。从古至今,人类一直都在用自 己的方法记录着重要的信息,以满足人们生产生活的需要 ,久而久之,档案这一概念油然而生。在如今的信息化时 代,纸张并不是记录档案信息的唯一载体,记录档案的载 体多种多样,记录形式也不尽相同。我们的生活发生了深 刻的变化,数字经济、数字化行程等大数据技术产物层出 不穷,尤其在新冠疫情防控期间,大数据技术在我国社会 生活的各领域发挥着极为重要的作用。在收集、存储档案 信息方面,大数据的运用有着深远的意义。
(二)大数据与档案同为人类文明瑰宝
大数据与档案共同承载着人类社会的智慧文明 ,同为人类的瑰宝。档案是人类活动的记录工具,新技术 环境下档案资源种类日益丰富。社会媒体、全媒体、融合 媒体等新技术平台产生的档案资源,如大量网页信息等, 对于这些档案资源的采集与长期保存,传统的档案开发与 保存的方法就显得无能为力。大数据收集信息数据量大, 与传统纸质实物档案不同的是,大数据是借助互联网在 线上获取信息,所存储的数据也是杂乱无章的。而这些杂 乱无章的数据是人类在日常生产生活无意识产生的,这样 看来档案学与大数据并无直接联系。但我国档案学基础理 论研究已经并将继续证明,任何科学的研究方法都不可能 独立于特定学科而孤立存在。档案学也是如此,近些年来 ,档案学相关工作自觉地参与集体记忆,存在于社会记 忆的一部分,而社会记忆是碎片化的,也就是人类生活产 生的碎片化数据信息。
(三)大数据与档案相辅相成
大数据与档案之间是密不可分的,具有共通性 。大数据加工并保存所得的信息一般存储在线上数据库中 ,可随时调动和查询利用。而档案信息一般以实物存储在 馆室中,在现实生活中,对于重要的档案信息,比如企 业管理合同,学生的学籍,家庭中的开支账簿等重要信 息文件,我们都会进行备份以备不时之需。在传统的档 案信息记录之中,大多是以纸质实物作为备份文件,以实 物形态存在,在信息安全方面具有一定优势,但传统的纸 质实物档案不易保存与利用。以数据形态存在于档案大家 族中,具有长久保存利用的优势,但也会存在数据信息泄 漏的风险。在现代信息化时代,档案信息的备份多以电子 版文件为主,携带方便,可以随时查询、获取有效信息。 大数据与档案都会涉及收集、管理、应用,两者取长补短 、相辅相成。
所谓数据化管理就是利用计算机网络等其他手 段,对有用的信息进行数字化处理,这种方式简易、效率 高,改变了繁冗复杂的传统档案管理模式。自人类社会进 入信息时代以来,以微机应用为核心的各项业务信息化与 自动化处理建设已提上日程,档案数字化建设也是如此。 依托当代新型档案信息管理系统,实现纸质档案的数字网 络化管理。档案作为社会信息资源的重要集合,其代表的 社会价值更是难以衡量,同时也为大数据发展提供了坚实 的信息基础。从目前的实际情况来看,档案数据化是档案 数字化的进一步拓展,既是档案数据的内容体现,也是 档案价值分析与挖掘的基础。传统的档案管理工作模式在 当今信息化发展的时代已不再适用。档案管理工作正在 逐渐实现数字化,实现数据的简化。
纸张等非数字化介质为载体的档案信息数据, 如保存备查的图纸、账本、图稿、合约等,长期以来存放 在各个档案馆室中,这样会给档案信息的存放、管理和使 用带来巨大的困难,致使档案工作进度缓慢,效率低。一 方面,随着信息量的爆发式增长,实物档案信息数量变得 更加庞大,存储这些实物档案需要耗费大量的人力物力; 另一方面,大数据时代背景下,要求信息具备时效性,而 这些实物档案限制了信息的流通性,致使这些信息不能得 到有效的利用,造成信息资源的浪费。而档案数字化管理 可以弥补实物储存档案信息的缺点,档案数字化管理能够 更加快速、精准地检索信息,且可以随时随地查阅档案信 息,若出现数据更新,数字化档案可以及时快速替换掉过 时数据,为档案价值最大化利用创造良好的环境条件。 在档案数字化管理过程中,大数据技术会将零散的、不同 的信息资源存储在数据库中,进行初步的运算分析,对数 据信息分门别类,便于连接网络以后能够进行有效的资源 共享。
(一)大数据时代下档案学学科发展情况
在大数据时代背景下,海量数据信息中有许多 信息是具有重要价值的,是促进我国社会进步重要数据资 源,因此,档案学学科的学习研究需要有一个全新的方 向。在学科教育上,增加学习研究内容,在实践中深化 档案学内容研究程度,紧跟时代的步伐,开辟一条适合 我国档案学发展之路。大数据时代下,丰富档案学研究 内容势在必行。
(二)大数据时代下档案工作发展态势
人类记忆和把握事物发展规律的关键在于档案 信息的记录,它记录着人类历千年来的智慧文明宝藏。档 案的存在对人类的发展和社会生活是必不可少的,档案 数字化管理为我国文明的传承带来了新的思维方式,例 如文化档案信息以数据化形式储存,大家可以随时随地 了解各地文化习俗,促进民族团结,满足社会需求,推 动社会现代化发展。
档案管理工作对于企业和单位而言至关重要, 档案工作就是用科学的原则和方法管理档案信息。就目 前而言,档案管理工作存在效率低、利用率低等问题, 传统的管理模式已不再适用。档案工作的信息化将是社 会发展的必然趋势,建立电子档案系统,将相关档案信 息资料通过大数据技术的处理保存于线上数据库中,必 要时可以对其信息文件设置密码,以防档案资料丢失。
在现代档案管理工作中,不仅要有先进技术的 应用,还要打造优质人才队伍,提高机关档案工作人员的 业务认知,统一信息的搜集标准,加强各方面工作监管 力度,以保障档案接收工作的完整性,准确性;建立 完善的网络档案管理系统,推进档案工作的顺利进行, 实现资源共享,降低试错成本,提高工作效率。
(一)有利于提升数据分析处理能力
大数据应用范围愈来愈大,数据分析形式更加 复杂化,数据分析是大数据技术的主要组成部分。为实 现档案信息数字化,需要改变传统档案管理的理念与思维 ,学习和深化档案信息化理念,真正意识到将大数据技术 融入档案管理工作当中的重要性,真正将档案管理工作与 单位的未来发展联系在一起,进行智能化管理和个性化服 务。将大数据技术应用到档案工作当中,能够有效提升 工作机关在档案信息数据的分析处理能力。在此背景下, 机关工作人员能够正确快速地在档案信息数据库中提取 出有用的信息,进而挖掘信息的潜在价值,充分有效地 利用档案信息资源,并及时更新数据信息,保证信息的 时效性与准确性。
(二)有利于加强数据检索质量
档案的存储是其管理工作中一个至关重要的步 骤,当前,档案资料信息数量和规模不断增加,结合实际 情况,实现档案信息资料的数据化存储是具有现实意义的 。在以往的档案存储中,大多以纸质档案为主,在进行数 据检索时,往往要耗费更多的精力,加大数据检索成本, 数据检索质量也得不到保障。将大数据技术应用到档案管 理工作中,管理人员需要转变档案管理理念和改进档案管 理工作方式,积极应用数据结构分析法、功能分类法等方 法对档案进行分类管理,同时利用Spark、Hive、Impala等计算机程序进行整合,便于对档案信息的查询分析;借助PowerBI、Qlikview等平台对档案信息数据进行可 视化分析,观察数据信息间的关联,有利于对档案资源进 行整合。从而精准数据检索信息,提高检索准确性和数据检 索质量,能够保障后续工作的顺利开展,起到事半功倍的效果。
(三)有利于加大信息存储量
利用大数据技术建立档案信息数据库,储存信息空间更大,能更好地满足数据存储的需要,这种储存方式,不仅可以提升空间存储量,且相较于传统的纸质档案 存储,将信息存储在数据库中更不易受外力因素的影响而 损坏,可以有效确保数据的安全性;随着数据库技术的提 高,对于无关紧要的数据,没有意义的数据会自动进行清 理,节省存储空间,且不必耗费更多的精力。
总之,大数据本身存在的价值很高,虽然大数据会存在个人隐私泄露的隐患,但其更多的是给我们的工 作生活带来了极大便利,对未来的科学技术与经济发展产 生了巨大影响。随着大数据与信息技术的快速发展,各领 域都充分地认识到此项技术在档案工作中发挥着举足轻重 的作用。档案工作应在夯实档案开放利用、数字化等工 作的基础上,充分运用大数据技术挖掘数据资源,追求既 有专业深度又有跨学科研究广度的发展趋势。从多方运用 其成果,加大对其的投入和运维,如此能推动档案工作 水平的提升和优化,提高我国信息资源开发利用能力。