APP下载

大数据视野下的档案管理模式变化与创新

2020-01-09陈健民

太原城市职业技术学院学报 2020年1期
关键词:结构化数据挖掘档案管理

■陈健民

(福建水利电力职业技术学院,福建 永安 366000)

大数据技术蓬勃发展,对社会各行业造成了不同程度的冲击。其中,“档案管理”作为一项数据管理工作、知识管理工作,在大数据影响下发生了深刻的变化。对于档案管理工作者而言,这种变化既是一个严峻的挑战,同时也是一个大幅度提升档案管理水准的契机。“除了上帝,任何人都必须用数据说话”,这句话被档案管理业界高度认同,在大数据时代,数据、信息从一种单纯的处理对象,上升为一种影响人们生活的重要资源,我们必须在深刻理解档案管理内涵、大数据特征的基础上,采取行之有效的措施,才可应对大数据规模效应给档案管理带来的管理挑战、分析挑战、储存挑战。

一、大数据时代背景下档案管理的变化趋势

数据处理、数据收集是大数据的主要特征,在大数据时代到来前,有关于“数据处理”的相关技术就得到了人们的广泛关注,其技术方法也相对成熟,知识管理者、营销人员、信息管理者将数据背后隐藏的内涵作为指导决策、预测未来的重要前提。而在信息技术快速发展的背景下,数据处理、数据收集水平显著提升,同时物联网、云技术的成熟,让各行业数据的增长量跃升到一个新的量级,人们能够将各种非结构化数据、结构化数据整合起来进行分析,最终得出可有效支持决策的分析结果[1]。数据挖掘是大数据时代应运而生的一门“新学科”,它本身是人工智能、统计学、信息技术的整合。现代化的档案管理,倡导通过档案管理来为组织机构提供可靠的数据,业界常采用“去粗取精”的办法,摒弃档案信息数据中零碎的、不完整的信息,在档案使用过程中,仅调用此前筛选接受的信息数据,该种档案管理方法的确能够为组织机构或者档案查阅者提供一定的便利,但是从长远来看,“去粗取精”的方法去除了诸多有价值的信息数据。大数据技术的发展,为档案信息数据中零碎的、非结构化的、不完善的数据提供了应用基础,因此我们可窥见大数据时代背景下,档案管理工作的变化趋势,以“数据分析、数据价值挖掘”最为明显[2]。

二、档案资源的大数据特征

(一)数据量增加

信息技术对档案管理产生的影响深刻且长远。目前我国各地档案馆主要以“档案数字化、档案电子化”为主要特征,就国家档案馆馆藏档案而言,2011-2018年间,馆藏档案卷数快速增长,且预计到2020年,国家档案馆的馆藏会增加至6亿余卷。同时,随着档案数字化工作的不断推进,各地档案馆、单位档案管理部门将会形成规模庞大的数字档案资源库,图标档案、电子文件档案、声像档案等还会涵盖档案访问日志、档案浏览轨迹等数据内容。这就为档案管理和大数据的整合奠定了重要的“数据基础”,有利于档案管理人员去挖掘档案的潜在价值[3]。

(二)分布广泛化

统计技术、在线分析处理技术、数据检索技术、机器学习技术、专家系统技术的发展,提高了人们对数据的整合、探索、保存能力,档案管理工作者所面临的档案管理数据来源呈现出多样化的发展趋势,加之移动终端设备的快速发展,让数据的产生也体现出多样化的发展趋势[4][5]。由此我们可了解到,在大数据时代背景下,档案管理将会面对不同种类的数据信息,档案分布呈现出结构化信息、非结构化信息相互融合的发展态势,最终形成分布广泛的档案体系。

三、大数据时代背景下档案管理面对的新问题

(一)技术问题

大数据的确为档案管理工作指出了新的发展道路,但是大数据技术和档案管理的相互整合,的确存在较大的挑战。当下,广大从业者必须要解决传统档案管理和大数据的整合,如何实现档案归档、档案分类和数据挖掘、数据分析的无缝整合是一个极大的挑战,尤其是在不同档案资料分析模型构件方面,存在较为明显的技术瓶颈。

(二)职能问题

众所周知,传统的档案管理工作模式中,档案管理工作人员的主要职能是收集档案、分类档案、档案归档、档案调用,虽然许多从业者在积极倡导,档案管理工作应该挖掘档案的潜在价值,并实现“知识管理”的转型。但在大数据时代,档案管理工作必须具备的职能不仅仅局限在档案保存、调用等方面,同时还要在大数据技术的应用下,在确保数据安全的前提下,对信息数据进行全面、有效的处理,全面体现出档案管理的潜在价值[6]。

(三)安全问题

大数据时代,档案信息数据已转变成了一种可影响人们生活、工作的基础性资源,档案信息数据价值的提升,带来了此前不存在的“安全问题”。从现阶段我国大数据技术的应用上来看,数据信息安全方面缺少相应的法律法规,也缺少一个行之有效的监管机制,若盲目应用大数据技术改变档案管理工作,必然会出现信息安全隐患。

四、大数据时代档案数据挖掘相关技术

(一)决策树算法

决策树算法是一种相对常见的数据挖掘技术,可根据档案数据中的每一条记录,为记录分配相应的属性标签,并将部分数据内容节选为训练数据,在数据挖掘、分析的过程中,就可根据属性找到输出属性、输入属性之间的对应关系。目前,决策树算法已经在各行业得到应用,部分银行用决策树算法进行客户管理,部分企业用决策树算法进行供应商管理,在预测客户行为、客户需求方面体现出较高的准确性。档案管理工作就可整合决策树算法,根据档案数据资料中的详细数据条目进行定义,通过分析数据之间的关联,就可挖掘档案数据的隐含价值。

(二)聚类算法

聚类算法可估计数据库内不同数据的属性,根据数据之间的相似度,将属性相似的数据进行归集。聚类算法的技术要求相对较低,所以应用较为广泛、应用方法相对成熟。在档案管理工作中,档案数据以“多样、多层次”为主要特征,难以根据某一个“定义”对档案进行归集,所以各地档案馆或者企业单位的档案管理部门,常根据档案的性质(影像档案、文字档案、合同档案)对档案进行分类,从客观的角度来看,该种分类方法并不能体现出档案的性质、属性。采用聚类算法,就可根据档案的深层次关联对档案进行区分,从而为档案的价值挖掘奠定坚实基础[7]。

(三)关联规则

关联规则是针对数据库存中一类可挖掘的数据进行归类,根据数据的多个变量取值存在的规律性,将不同的数据进行有效关联,从而体现出数据之间的发生规律,这种规律长久以来都被用于辅助决策。20世纪90年代,美国沃尔玛超市管理人员分析销售数据时就发现了数据之间的关联,即“啤酒”与“尿布”两件看上去毫无关系的商品,会经常出现在同一个购物篮中,且大多出现在年轻的父亲身上。经过分析,原因是美国家庭往往是母亲在家看护婴儿,父亲外出购物,所以在购买尿布的同时,就会为自己购买啤酒,沃尔玛利用该关联,将尿布和啤酒两个毫无关联的商品摆放在一起,让男性能够快速地完成购物,沃尔玛商品售卖量也因此大幅度提升[8]。

上述几种算法是档案管理用于解读档案信息数据的基本工具,目前有关大数据的数据挖掘方法层出不穷,从业者应不拘泥于某一种特殊的技术方法,而是要综合利用多种方法来处理结构化数据、非结构化数据,这样才能够对档案进行合理的区分、定位、关联。

五、大数据时代背景下的档案管理工作模式创新策略

(一)加强资源收集

数据资源是大数据技术发挥作用的基础,同时“数据、信息”也是档案管理工作的主要对象,其完善性、完备性是保证档案管理工作可持续发展的关键要素。在大数据背景下,务必要进一步增强档案资源的建设力度,目前各地档案馆、单位档案管理部门都已经实现了档案管理的信息化、电子化,档案管理工作人员面对着海量的结构化数据、非结构化数据,为给大数据技术的应用奠定基础,需要进一步提高资源收集水平,将各种数据整合在档案数据库中。

(二)创新服务内容

“服务功能”是档案管理工作亟需强化的重要元素。目前各地档案馆、单位档案管理部门储存的数据并没有明确显示出其应用价值,必须要以“数据分析、数据挖掘”为基础,建立起完善的服务体系,在服务内容上实现有效创新。档案数据资源务必要尽可能地进行分析、挖掘,并充分体现档案数据资源的价值。目前,云计算技术已经相对成熟,档案管理工作人员应根据服务要求、档案管理工作实际情况,灵活选择合理的“云部署方案”,合理选择私有云、公有云来弥补档案管理工作的计算能力、储存能力,从而为档案使用者提供更加宽泛、多元的服务。

(三)完善保障体系

一是应该构建起完善的“IAM身份访问管理系统”,实现统一档案访问身份认证、权限控制,达到档案数据资料安全集成管理的目标,以有效应对档案管理可能出现的安全问题;二是要提高档案数据节点和各种应用程序节点之间的有效保护,可应用SSL安全套阶层协议层来实现加密;三是应该根据大数据整合档案管理工作的需求,构建一个完善的制度体系,同时遵循ISO27001信息安全技术标准,完善档案数据的共享制度、保密制度、审计制度,确定档案的传播范围、加密层级,确定档案关键信息的识别机制。

综上所述,大数据对档案管理工作产生了深刻的影响,广大从业者应该采取合理的方式方法,促进档案管理工作在大数据时代做出有效的改变,实现档案数据资料的科学整合、有效分析,并创建出新的服务功能,构建起完善的安全保障体系。

猜你喜欢

结构化数据挖掘档案管理
促进知识结构化的主题式复习初探
探讨人工智能与数据挖掘发展趋势
结构化面试方法在研究生复试中的应用
档案管理中的电子档案管理
档案管理与企业内部控制关系的思考
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于图模型的通用半结构化数据检索
健康档案管理的“云”前景
基于软信息的结构化转换