大数据时代背景下的档案利用服务分析
2016-11-26陈岩
陈 岩
吉林省梨树县廉政教育培训中心
大数据时代背景下的档案利用服务分析
陈 岩
吉林省梨树县廉政教育培训中心
大数据时代的到来为人们的工作与生活带来了极大的影响,并且这一影响更多是来自于好的一面,我国很多行业在大数据时代的背景下都发生了重要的变革,其中档案行业的变化就十分明显。对于大数据的定义,目前并不具备一个明确的定义,但是其主要的特点是信息数量大,具有实时性,并且有着多样化的发展特点,蕴含着极大的社会价值,所以在档案馆的发展建设过程中,因为有了大数据这一重要的背景,相应的利用服务产生了很大的变革,对于社会的发展具有积极的意义。
大数据背景;档案利用服务;数据挖掘;文本挖掘
随着大数据时代的到来,档案馆的信息利用以及服务工作产生了巨大的变化,现如今的档案馆档案目录正在采用集中化的管理方式,将其进行统一的展现,并且提高了馆藏的存储量,并且电子文件的出现节省了很大一部分空间,采用数字档案的方式让档案管理变得更加高效与快捷,此外,现如今的档案馆还采用了非结构化的数据,诸如扫描图像、演示文稿等方式,这样人们在查阅档案资料的过程中变得更加方便了,同时也减轻了档案管理工作者的工作负担,是一种十分高效的档案处理方式。
一、大数据时代下档案利用服务的必然选择
在大数据时代的发展背景下,采用数据挖掘的方式是档案馆利用服务的一个重要选择,因为档案的数量会随着时代的发展变得越来越大,形式也会变得更加丰富,所以在这种情况下,就会造成需要的材料无法在第一时间找到的问题,所以令服务质量下降,在大数据的环境下,可以建立起一个IT架构,这样就可以有效的提高性能,然后采用数据挖掘的方式能够从大量的文本中找到所需要的档案。在传统的档案管理过程中,主要包含了收集、管理以及保存和利用四个不同的方面,要想直接使用原始数据会存在一定的难度,此时就更加需要采用数据挖掘技术来找出所需要的数据,这样对档案服务质量的提升具有重要的帮助。
在应用数据挖掘技术的过程中,可以满足不同用户对档案信息的需要,所以可以将这一技术得到进一步的推广,在实际应用的过程中这一技术是具有显著意义的,采用数据挖掘技术就是在大量的应用数据中,将具有价值的数据寻找出来,其价值可以是真实存在的,也可以是潜在的,在这一过程中,包含了很多方面,例如结构型的数据挖掘,或者是文本数据挖掘等,但是最常见的挖掘技术还是文本数据挖掘技术,这一技术也可以称之为是文字探勘或者是文本的数据挖掘等,与文字分析是等同的,在对文字加以进一步处理的基础上,就能获得具有高质量的信息,在本文处理的过程中,可以产生结构化的数据类型,从而得到最终的评价,并且能够进行解释输出。“高品质”的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。文本数据挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本数据挖掘的基本技术,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;文本挖掘有两个主要应用领域,信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。
总之,我们可以把对文本数据的分类、融合、压缩、摘要、以及从文本中抽取发现知识与信息都看作是文本数据挖掘。通过这些技术使得我们在搜索档案时从大数据范围变成从小范围,从而提高了效率和准确度。如,文本信息抽取是从文本数据中抽取人们关注的特定的信息。文本数据可以以句、段落、篇章为单位;抽取信息既可以以字、词、词组、句、或段落为单位,也可以是以上基本单位的组合。抽取信息可以是关于个体的(比如,人、组织、时间、地点),也可以是关于事实、事件、或个体间关系的。抽取的信息还可以作为文本数据的特征,用于其它数据挖掘处理。
二、档案资源数据挖掘及智能应用
在大数据时代发展的过程中,档案利用以及服务应该满足大数据时代的特点,为其带来更加积极的影响,在新形势的发展过程中,采用数据挖掘技术可以促进档案服务质量水平的进一步提高,其主要的应用主要体现在以下几点。首先是在音视频内容的基础上展开检索,这种检索的方式具有自动识别关键帧的功能,可以将同一个视频中不同的内容进行定位,这样就可以进一步的缩小人工量,让视频的处理能力得到进一步的提高。其次是基于语义检索。提供计算机可以理解人类语言后的一种搜索模式。还有就是档案智能化辅助分类。可从历史分类中智能提取档案分类,提高用户整编效率,实现文献的自动分类;系统可自主根据已有档案分类进行学习,促进以后辅助分类的准确度;支持多维度的动态分类;支持用户自定义分类展示。
数据挖掘管理平台架构于文本智能数据处理层上,其核心是建立在独特的信息论和概率论的基础之上的模式识别技术以及音视频识别技术,抽取概念和内容挖掘后,为外围提供多种的搜索应用服务。因此,系统总体架构也是按照实际内容应用的流程实现,即从数据的采集、智能处理、数据挖掘及智能搜索应用平台三个层次实现,通过多类型数据采集平台进行数据采集,在智能数据处理平台上对这些非结构化信息、多媒体信息和用户信息进行分析,最后在应用平台上提供数据挖掘结果的搜索平台和多媒体自动编研平台。
三、结束语
大数据时代档案数据的量大、形式多等特点带来的无法找到、查询性能急剧下降、甚至无法响应等问题,利用传统的简单查询服务模式已经无法适应大数据时代的要求。在此情况下,只有通过数据挖掘和文本挖掘,深层次发掘档案之间的关联,开发档案信息中蕴藏的知识,通过智能化处理平台主动推送给用户,才能不断满足用户日益增长的高层次、个性化的需求。
[1]张建.档案数据库“胀库”问题研究[J].档案学通讯,2012(5).
[2]李航.机器学习及其应用(文本数据挖掘)[M].北京:清华大学出版社,2006.
[3]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.