简述档案管理中数据的摄取
2017-08-01胡艳华
胡艳华
摘 要:在档案管理的工作中,数据摄取是其中重要的组成部分,档案信息具有量大的特点,所以档案管理人员要从大量的档案信息中提取有效的部分其实是具有一定难度的,并且这项工作需要消耗大量的人力与物力资源,档案管理中心拥有庞大的信息数据量,要想在这些信息中筛选出最有价值的部分,就应该采用数据摄取的方式对所采集到的信息进行有效的处理。在处理时,应该应用先进的设备以及现代化的科学技术,这样才能进一步的提高档案管理的工作效率,以达到令人满意的档案管理效果。本文重点对档案管理过程中的数据摄取问题展开了论述,希望对今后的工作带来一定的帮助。
关键词:档案管理;数据采集;信息;处理
在我国当前社会发展的过程中,档案信息资料不断增多,虽然档案信息可以对社会发展起到记录的作用,但是在庞大的数据面前,人们很难找到有效的信息,所以要想进一步提高资源的使用率,就应该学会将档案信息资料中有效的信息进行提取,以及进一步的处理,由此可见,数据摄取这一技术是档案管理过程中重要的组成部分,只有采用先进的技术手段以及相关的设备,才能讓数据采集具有准确性与完整性的特点,以促进工作人员工作效率的进步提升,本文重点对档案管理中数据摄取的问题展开论述,希望可以对这项技术起到不断完善与进一步改进的作用,更好的应用于档案管理中。
1 档案管理中的数据采集工作
不同的档案信息在内容方面具有很大的差别,并且在对档案信息资料进行管理的过程中也具有复杂性的特点,所以档案管理中通常都需要对数据进行分类,分类处理是数据摄取的首要前提,这是一项系统性的工作,必须要按照一定的流程展开,同时在对数据进行采集时,也需要注重以下几方面的问题。首先档案管理人员应该充分的了解档案的结构,这样才能对电子档案或者文字资料进行正确的处理,只有掌握了相应的框架结构,那么就可以对其进行简单的描述,在数据摄取要求的基础上从中提取出有价值的信息,同时,将其保存在一个数据库中,这样可以让整个档案信息的结构更加明显,具备一定的条理性,更加顺利的开展后续的工作。
其次,应该对档案数据的安全性引起一定的重视。在对数据进行采集时,应该有效地预防数据丢失的现象,并且对数据被窃取的现象加以避免,为此,只有工作人员具备了较高的安全素质,在准备工作中加强安全方面的管理,才能保证数据采集的安全性。在对数据进行采集的同时,应该将重要的信息或者数据隐藏起来,例如使用特殊的符号对重要信息进行替换,这样可以有效地预防数据信息受被窃取,提高了档案管理的安全性。
第三,数据信息还应该具有独立性的特点。在档案部门进行数据管理的过程中,通常采用的模式都是关系数据管理模式,这种管理模式主要是将有价值的信息提取出来,并且进行数据联机,这样便可以为档案使用者提供更加便利的服务。在关系数据库中,要想对数据信息进行有效的分离,那么首要的前提条件就是应该满足数据自身的完整性,这样才可以进一步提高档案信息分析过程的准确性,同时将档案信息有价值的一面展现出来,更好的作用于社会的发展与建设。
2 档案管理中的数据摄取工作
2.1 数据清理
首先,在开展数据清理的工作中,其主要的目标就是将收集来的信息进行加工以及进一步的处理,这样可以将有用的信息提炼出来,以便进一步提高数据的可靠性与完整性,为后续的数据摄取工作带来便利。数据摄取工作具有一定的标准,工作人员在这一标准的基础上择优筛选出有用的信息,有助于数据资源质量得到进一步的提高。之所以在数据摄取之前对数据进行清理,是因为以下几点原因。第一是著录标准不是统一的,不同的档案管理部门所采用的管理软件是不同的,所以对著录也有着不同的要求,或者说是标准,因此档案信息在数据结构方面就存在一定的差异性。这样对于数据摄取效率的提高是十分不利的,所以如果没有事先对数据进行有效的清理,就会对后续的工作带来一定的困扰。
第二,著录错误。在档案信息数据管理的过程中,著录工作是人工操作的,如果工作人员出现失误,会造成著录错误的问题,由于档案信息量比较庞大,所以,著录错误的影响也比较大,可能会改变原始数据的属性,所以,必须通过数据清理的方式,对数据信息进行重新归档与定性。工作人员需要对数据中的空缺进行补录,补录值可以采用常量、均值、随机值等,但都需要档案专业工作者对其准确性进行推断后方能进行。对于包含孤立点和异常值的噪声数据进行处理的时候,具有可视化功能的挖掘软件可以很直观的显示出这些噪声数据,用户可以依据图形对这些噪点进行清除或纠值。
2.2 数据集成
前文提到在数据采集时要对源数据进行分类汇总,并进行初步的差异项统一。而数据集成是更为深层次的操作,它整合不同数据源中的元数据到一个一致的存储中,包括数据类型的选择、数据间冲突的处理、数据表的集成,表间关系的重确定等操作。由于这些源数据是异种异构的,数据集成必须将这些数据统一并规范化,形成初始挖掘数据。例如不同档案管理系统中“时间”或“日期”都可以表示文件形成时间,我们可将这两种异名同义字段从数据库中导出后,保留其中一个字段名,字段内容不用做任何处理,就做到了该字段上的统一。
2.3 数据变换
现有的数据变换方法如平滑、聚集、数据泛化、规范化、属性构造等都可以对经过数据集成后的初始挖掘数据进行处理,但是对档案信息数据这一特殊信息体来说,属性构造手段是否良好运用,关系到最终挖掘结果的优劣。
2.4 数据规约
经过之前步骤处理过的数据集,在正确性、统一性,规范性上都有了一个大幅的提高,但是数据集内的数据量在去重后的变化并不显著,在其上进行复杂的数据分析和数据挖掘依然会耗费人量的时间,数据规约从原始数据集中选取用户感兴趣的数据集合并从集合中去除无关或偏差属性和元组,一方面降低了无效、错误、冗余数据对挖掘结果的影响,另一方面也大幅缩减了挖掘所需要的时间以及存储这些数据所需要的成本,因此是一个效果和效率兼备的过程。
3 结论
数据摄取具有一定的复杂性,为了保证数据摄取的顺利进行,必须先建立有效的档案数据摄取标准,还要保证制定标准的准确性以及普遍性,这样才能保证档案数据摄取的质量,才能提高数据摄取的工作效率。在对数据信息进行采集与处理的过程中,要保证数据的安全性,工作人员一定要具有较高的安全意识,这样才能避免数据丢失以及泄漏问题的发生。
参考文献
[1]罗艳,黄明初,陆旭安,潘雄伟.一个数字档案馆中的数据挖掘系统工作流程[J].广西科学院学报,2010(4).
[2]鲍静,范生万.基于数据挖掘的图书数据预处理[J].大学图书情报学刊,2008(2).
[3]郑晨.高校档案管理工作网络化之我见[J].赤峰学院学报(汉文哲学社会科学版),2006(6).