APP下载

大数据技术在档案管理中的应用

2022-04-07刘建国

科技创新导报 2022年21期
关键词:档案管理数字化算法

刘建国

(北京经济管理职业学院 北京 102602)

无论对于国家还是企业而言档案都是一种重要的资源。作为一种原生性信息资源,档案既记录了事务的发展历程,又能够对未来的规划决策具有指导和借鉴意义。在大数据时代,档案数据量飞速增长,并且档案数据的种类不再仅限于文字档案,更多的是图片、音频、视频等数字化格式的资料,档案资料媒介格式的发展必然对档案管理模式和应用模式提出更高的要求。

1 大数据背景下档案管理中存在的问题

1.1 档案数据不一致问题

档案数据不一致主要是关联数据存在矛盾造成的,它形成的原因之一是档案数据形成的过程中,由于数据采集和登录过程中未按照要求登录或者数据要求不明确,造成档案数据不符合逻辑或者不完善甚至出现的档案之间相互矛盾。另外,关联档案数据没有同步更新,造成同一个数据在不同存储位置出现不一致(不排除人为因素)也是问题产生的诱因之一。高质量的档案需要具有严肃性和权威性,档案数据的不一致影响了档案在实际应用中的价值和意义。

1.2 档案数据存在重存储轻应用问题

档案存在的最终目的是应用,是为国家建设、企业发展和个人证明服务。但是,档案形成一般没有为档案的最终应用做好准备,而只是把档案安全存放[1]。不能及时提供部门或者个人需要的相关档案。另外,档案管理部门更加关注档案的存储,对于主动应用档案进行研究或者进行展示的工作有明显不足。

1.3 档案数据的孤岛问题

部分档案由于种种原因存储在不同单位或不同部门,存放位置上的档案分离属于物理性质的档案孤岛。另外,还存在逻辑性质的档案孤岛,档案数据虽然属于共享数据,但是不同部门对于同一档案数据的定义和理解存在差异,描述同一主题的数据被赋予了不同的含义[2]。两种性质的档案数据孤岛造成档案的凭据作用和参考依据作用明显降低。孤岛问题对职能部门开展业务工作也会产生消极影响,主要体现在应用过程中出现相悖的结论,降低档案应用依据的价值。

1.4 档案安全需要进一步提升

一般对于纸质等有形的档案拥有了比较完善的安全存储和保管的方法,但是随着数字技术得到广泛应用,电子档案和非电子档案成为档案的两种共存形式,并且电子档案逐渐取得了优势,这种情况所带来的是对档案安全的新要求。不同于有形档案的防霉变、防损坏等措施,对于电子档案要考虑存储介质、访问的安全性等问题。另外,电子档案的有效性需要进一步加强,对于有形档案在入档前已经经过审核,其有效性得到了认可,电子档案在这方面需要进行提升。

2 大数据技术对档案管理中应用分析

2.1 档案数字化是应用大数据技术的基础

随着数字技术的发展,档案数字化是一种必然趋势。一项重要的工作就是有形档案的数字化,其中文献档案的数字化包括文献档案的拍照保存及文字内容的提取等方面,通过数字技术与模式识别技术,这部分工作已经能够在电脑辅助下完成。图片、录音、胶片档案数字化也是一项紧迫的任务,由于这部分档案的介质存放有一定要求和年限,对这些档案的数字化能够最大限度地保存历史原貌,在数字化的过程中还需要对这些档案修复,即去除录音档案中的杂音,以及完成对胶片划痕的修复和声音的修复等工作[3]。有形档案的数字化是在大数据环境下应用这些档案的基础,也是对原始档案存储和应用的一种必然方式。

档案数字化必须建立相应的完善的标准体系,明确档案数据的采集、清洗、存储的标准,建立明确的档案从产生、存储、迁移、应用至废除的生存周期。由于用于数字档案存储的设备和载体不断更新,数据存储格式也不尽相同,档案容易出现在一种环境下应用出现不兼容的问题。标准体系建设不仅要包括档案本身的管理标准,也包括用于存储和应用的硬件和软件介质的管理标准,以及档案管理人员的操作档案设备、档案处理流程的相关标准。关键工作就是保证文档格式的一致性、档案管理规范的一致性,实现数字档案的高可靠性和高可用性。

2.2 大数据技术主要算法在档案管理的上的应用

大数据技术的重要意义在于由数据的有限抽样分析转变为对全部数据的分析,避免抽样过程中数据提取造成的偏差,从而提高分析的客观性[4]。

大数据算法中的聚类算法可以根据档案的相似性把档案归入同一个类别。根据分类设计可以把档案分为不同的几个类别,不同的计算方法可以得到不同的档案分类结果。一般情况下,聚类算法易于理解也易于实现,适合档案管理人员用来借助进行档案数据分类。应用聚类算法需要预先进行数据清洗,数据清洗不完善会造成分类结果不理想;在聚类过程中会剩余少量噪声数据或孤立点,这些偏离分类的数据需要进一步分析,探寻孤立点背后隐藏的信息。

借助关联算法可以通过档案进行预测性分析,主要应用于档案的不同数据集之间可能被忽略的相关的细节信息,发现规律性的关联模式。模式中的数据关系逻辑意义上的因果关系可能尚不明确,只是不同数据集之间有一定的依赖程度,发现的模式需要进一步分析和解释。当然,也可以根据对档案数据的设想进行关联挖掘,用挖掘结果证明设想是否成立。

档案的一项重要功能就是为决策提供依据,通过决策树算法可以应用档案数据为决策的分支提供定量和定性的分析支持。决策树算法实际上就是一种是或否的路径方案选择,在方案选择上选取最有利或权重最大的路径。决策树算法产生的决策基于数据的量化分析结果,更具有科学性和客观性。应用档案资源的决策树分析是提出的具有参考性的建设性方案。

应用大数据挖掘算法处理档案数据实际上是一种知识发现的过程,挖掘算法还包括趋势分析、文本挖掘等,作为档案管理者应该针对不同的需求应用不同的算法进行挖掘,挖掘结果要摒弃繁复细节,突出简洁高效,并适当对结果进行解释。

2.3 数据可视化为档案应用提供了更好的呈现方式

档案资源的可视化能够给用户带来更良好的体验。明确一个档案展示的主题,通过分析展示的对象、展示的内容、展示的讲述者等问题,让档案叙述的故事更直观和生动。档案数据的可视化是把档案数据的每一项数据作为单独的图形元素进行展示,多个数据项就是档案数据多维度的表示,帮助用户掌握直观信息、发现问题、探寻答案、作出决策。

数据可视化的工作重点是明确数据集和选择图表。根据主题确定的数据集是可视化的基础,必须选取有代表性的数据并进一步提炼。数据之间的不同关系决定采用不同的图表。折线图展示一类数据随另一类数据改变而相应变化的趋势;柱状图应用于离散的档案数据,用于说明不同类别之间的比较;散点图适合表示档案的两种数据的相关性及两个数据变量可能的函数关系;饼状图适合表示一组数据在整个数据和中的占比等。档案数据的可视化以设计理念为先导,选取最合适的形式表现数据的内涵信息。数据可视化的目的是帮助理解数据,在图表、颜色搭配等应选择对数据分析、应用最直观和最有效的方式。

2.4 做好档案的大数据平台建设

档案数据具有共享性和分散性两个特征,分散性的特征影响了档案共享性,档案使用者不能及时获得完整的档案信息[5]。为增加档案数据的可用性,以大数据技术为基础的平台是必然的选择。建立交互式的档案信息服务平台,实现分散信息的有效整合,对档案数据深入挖掘,及时提供时事热点的背景档案信息。数字化平台兼具档案查询、档案展示、文化传播的多重功能。以大数据技术为基础的数字化平台需要及时维护和更新,保持平台的吸引力和新鲜度。大数据平台的架构以数据库为后台,以网页为前台,属于动态网站访问模式。通过统一的平台界面,不同的用户根据平台注册信息拥有自己不同的访问界面,可以通过自己独立的平台界面查询档案信息,并且在平台得到查询的反馈结果。根据权限用户获得浏览、下载、打印等服务功能。平台的建设必须做到界面友好,方便用户的访问,同时注意保护用户的信息。大数据平台是档案信息的一个窗口,也是提高档案服务性的必要手段。需要建立规范的管理流程,以更好地发挥服务作用。平台建设完成不是档案管理的终点,而是档案管理的新起点,需要专门的负责人进行维护和完善[6]。

2.5 制定保障档案数据安全的规范化管理制度

档案安全是档案管理最重要的工作,档案管理应用大数据技术,安全工作需要进一步加强。首先档案的数字化信息在访问、迁移、使用中必须保持其权威性、可靠性和可信任性[7]。所有的访问必须经过授权和认证,防止接触档案过程中泄露和篡改信息;做好档案的分级管理,不同级别访问的权限也不相同,保证只有最高权限用户访问核心的档案信息。在数字档案迁移中做好数字加密工作,保护隐秘信息不被泄露,保证应用过程中的真实性。同时,可以应用时间戳记录档案从起点到终点的迁移轨迹,保证档案迁移每一个环节的可追溯。其次,做好存储载体的安全,根据载体的使用期限、兼容性及存取特性,开展合理的档案数据载体的管理和更新。再次,非数字化档案现在已经基本实现了条码管理,通过条码可以对非数字化档案的基本信息做到数字化管理。在管理过程中,应该实现档案基本信息提取的内容和格式的标准化、规范化,保证非数字档案信息完整、准确地反映在数字化存储中。非数字化档案的更新需要及时地更新数字化档案内容,这是人工参与的过程与数字化信息自动处理的过程相结合,往往由于人工的疏忽没有对数字化存储的基本信息进行同步更新,造成档案查找及应用的困难。因此,必须坚持规范操作,避免信息不一致的发生,建立完备的档案数据管理的规范制度,保证管理制度的贯彻和执行。

3 应用大数据技术管理档案应注意的问题

3.1 注重档案数据管理的大数据人才的培养

数据档案的大数据人才属于复合型人才,既具备档案数据管理的理论和技能,又具备大数据技术的应用能力。根据一般档案管理经验,应该是加强数据档案管理人员的大数据技术技能,管理人员更熟悉档案数据的管理流程和应用领域,但是缺乏应用大数据技术管理档案的技能。培训管理人员使用大数据工具管理档案更具有针对性、时效性,能够带着档案管理中的问题去学习,在学习中提升工作效率,改善工作效果。当然,也需要大数据专业人才深入档案管理一线服务。掌握大数据技术的档案管理人员容易与大数据专业人才进行有效的沟通,大数据专业人才有效地理解档案管理的具体需求和困难,专业知识才会在档案管理中发挥作用。

3.2 在大数据时代依然要注重非数字化档案数据的管理

档案数字化发展不意味着非数字化档案的消失。纸质档案、视频胶片、声音磁带等有形档案有一项数字档案不可比拟的优势就是它们的历史性和原始性,是可以触摸的历史,在研究和考证历史方面具有重要意义。发展数字档案不是摒弃非数字的传统档案,而是应用现代的科技手段实现传统档案的数字化应用和展示,让传统档案在新时代继续发挥作用。数字档案和传统档案的共存可以相互印证和相互促进,合理利用两种档案并进行有效地管理,才能实现档案工作的合理展开。

3.3 兼顾便捷性与安全性的统一

档案管理的数字化及大数据的应用带来了用户访问和应用档案的便利,尤其是大数据技术具有的数据挖掘分析功能,为揭示档案数据尚未发现的信息提供了方便。在实际应用过程中,必须注意大数据算法的应用安全,避免形成对算法的过度依赖。算法本身的安全性需要海量的数据集进行测试,避免使用具有倾向性的数据进行检测,并且应用前需要在模拟的档案处理环境中进行充分验证,在实际应用中对算法产生的结果进行充分分析。算法产生的结果是否揭示了档案信息真实的内涵,必须经过人工分析和审核以确定算法产生结果的合理性和有效性。同时,需要避免算法的自动化对用户使用档案的心理产生不必要的干预,算法本身是为用户服务和使用的,而不是诱导性地暗示用户进行某一种档案的使用行为。档案管理人员和用户对算法的理解很重要,知道算法采用的基本理论,能够明确应用算法处理某一类数据是否合理及符合要求。对算法的理解不是理解算法本身的语句,而是理解算法的功能,这是管理人员和用户判断算法是否合适应用的基础。便捷性不应以牺牲安全性为代价,算法应用是实现以安全为基础的档案管理的便利。

4 结语

大数据技术对档案管理效率和效果的提升提供了支持,也使档案得到更充分、更合理的应用。信息数字化是社会管理的必然趋势,档案管理应用数字技术、大数据技术以至于人工智能技术适应了数字化发展的客观规律。由于硬件升级和软件应用中尚需要进一步的整合,在推进档案管理数字化进程中,要克服一蹴而就、一劳永逸的观念,循序渐进地推动档案管理工作建设,边推进,边使用,敢于尝试,勇于接受新技术、新观念,采用多种方法改进档案管理,更好地服务社会、服务大众。

猜你喜欢

档案管理数字化算法
家纺业亟待数字化赋能
基于MapReduce的改进Eclat算法
高中数学“一对一”数字化学习实践探索
Travellng thg World Full—time for Rree
高中数学“一对一”数字化学习实践探索
档案管理中的电子档案管理
进位加法的两种算法
档案管理与企业内部控制关系的思考
数字化制胜
一种改进的整周模糊度去相关算法