APP下载

关于大数据时代档案检索的几点思考

2020-01-06

资源信息与工程 2019年6期
关键词:检索数字化

李 琳

(长沙先导投资控股集团有限公司,湖南 长沙 410000)

档案检索是指对档案信息进行系统存储和根据需要进行档案查找的工作,其定义包括档案信息存储和查检两个具体过程。档案检索主要有以下四步:第一步,分析利用档案的具体需求和特点;第二步,选择检索工具,确定将要采用的检索方式(即根据档案的特定属性进行检索),如按分类方式、按主题方式、全宗构成者方式、责任者方式、时间段方式或其他方式;第三步,根据选定的档案检索方式和档案检索标识,如分类号、主题词、关键字等查取需要利用的档案;第四步,通过一定的方式(比如:复印件、电子件),将档案内容或提炼的档案目录提供给利用者。

在档案利用实际工作中,资料存储的全面丰富、查找的快速准确、信息的方便实用是衡量档案利用质量水平的主要标准,直接关系到为用户提供档案服务的效率与优劣。因此,作为档案开发利用的前提条件,在大数据时代,档案检索也将并且必须实现进步。

1 大数据时代档案检索进步的动因

在信息爆炸时代产生的海量数据和与之相关的技术发展与创新中,各个行业的边界日渐模糊,领域融合快速变化,档案工作也受到了前所未有的冲击,档案检索也从中得到了进步发展的新的推动力,改变传统的档案检索模式和发展思路,研究适应大数据时代的档案检索新模式、新思路,提供更多、更有价值的档案检索内容,方能顺应大数据时代的发展。

1.1 档案利用过程的客观需要

档案查找的过程,是首先对利用者的检索要求进行分析,确定利用者所需档案的实质内容,然后综合运用档案检索工具,找出利用者所需要的档案。档案检索就是为解决档案信息量与用户精确需求之间的矛盾而出现并发展起来的。大数据时代背景下,文字图像资料的信息量呈现几何式膨胀,同时,现代社会的物资高速流动,使涉及到人物历史,工程进度、文化发展等资料存在跨时间、跨部门、甚至跨空间分布的趋势。与此同时,全社会的信息意识迅速增强,不同背景的人们开始有意识通过档案信息来维护自己的合法权益,用户数目的增长进一步对档案检索的效率提出了严峻考验,也要求检索平台与检索方式趋于简便与普及。基于手工检索而生的传统检索方式,无疑无法充分满足人们对档案信息准确性、丰富性、知识性的需求。这些客观因素,决定了档案检索进步的必然。

1.2 信息进步提供的技术支持

科技进步是推动档案事业发展的强大动力。档案工作涉及每一个部门,社会每一个角落,首当其冲面临当代信息技术的发展革新带来的驱动力。首先,科技进步给传统馆藏带来了图像、音频、视频、软件等信息,使检索目录呈现多元化;其次,现代信息技术发展,给标准化、兼容化的检索平台的构建提供了可能;最后,数字化的社会现实,使档案工作人员的知识结构与事务处理方法有了跨越式发展。而今,日新月异的信息技术使得电子档案检索方式(见图1)不断深化、扩充,正逐步取代传统手工检索的主导地位,给档案检索带来了全新的机遇与挑战。

1.3 社会部门分化整合的影响

作为一项开放性的工作,档案检索服务对象综合性和多样次性,馆藏内容也牵涉社会生活、历史人文、自然地理等各个领域。其中,服务对象既是资料的提供者,也是提取者,受当前的社会发展需求与简化政务的大环境影响,部门与企业主体的编制规模变动大大增加,随着职能的变动,档案资料内容也在不断分化整合。同时,服务对象所查的资料范围也在持续扩大,往往单个事项,就牵涉到个人资历、行政公文、统计数据等多项内容,对信息要求越发“全”和“精”。这些因素不可避免地影响了检索的侧重点与检索方式。

图1 电子档案检索的多种方式

档案检索发展的是社会、科技、人文动因相互交织的结果,这些动因共同凝聚成推动档案检索进步的动力,使之突破传统档案检索的瓶颈。然而,制约档案检索向数字化进步的现实情况也始终存在。

2 制约档案检索进步的因素

2.1 档案数字信息化不完全

检索是基于档案而生的工作过程,因此,检索方式的数字化不能脱离档案数字化存在。目前,由于经费、人力、软硬件设备的制约,大部分档案馆尤其是地方档案馆,并没有实现馆藏档案的数字化,这就使检索数字化成了空中楼阁。所以,目前部分单位正在尝试实行数字化目录+纸质化档案的模式,完全实行档案数字化的单位非常少。

2.2 数字化检索缺乏有效标准

首先在学科方面,至今档案学依然是“冷门”专业,教学内容更集中于传统的检索工具、著录标引、检索语言等方面,没有及时更新针对电子文件的内容,整体呈现滞后状态。其次,在信息化社会,大量档案以电子文档、音像制品的形式被存储利用,现有的检索标准已很难适应需要。最后,近年来,各地区档案部门纷纷探索跨区域档案信息共享,然而至今,标准化、兼容化档案共享平台仍然只是地区性的小范围尝试。

2.3 从业人员科技水平较低

数字化时代的档案检索是计算机、网络、数据库、搜索引擎、编程等先进技术的综合运用,要求档案管理者不仅要掌握传统的手工检索技术理论,更要掌握计算机技术与理念,甚至具备一定建立数据库能力。而现今大部分档案工作人员大多未进行专业系统的档案学科学习,计算机能力与科技理念偏低,有些单位聘请的档案人员往往年纪偏大,对新事务接受程度偏低或干脆不愿意尝试新事务,甚至存在一定的思想观念落后情况,这严重阻碍了档案检索服务的成功转型。

这些现实状况,是现代档案检索发展需要克服的命题,却也为未来的发展提供了一定的指导方向。

3 档案检索前进方向的思考

3.1 根据需求,有选择地数字化馆藏

目前,地区档案馆数字化方式一般为“扫描+后期+存储”,是极其耗费人力与时间的工作,地方档案馆的财力也很难维持全馆全文扫描的财政支出。因此,档案馆必须正确把握当地的利用需求,根据服务对象需求的密度和价值来进行选择性数字化,有计划选择存储内容与形式,强调突出馆藏特色。其中,档案数据库建设应当以档案目录数字化为首要任务,然后逐步扩展到档案正本的数字化。

在全文数字化的过程中,档案馆应当根据利用频率和档案的重要程度,递进式进行全文数字化。比如先完成利用频率非常高的婚姻档案、退伍军人档案和改制国有企业的离退休人员档案;先完成民国时期、明清时期的重点档案。

3.2 整合资源,增加民生档案的比例

目前,地方档案馆主要职责为存储政府机构的公文资料,对社保、婚姻、拆迁、房产、计生、环境、林权等民生档案的收集相对薄弱,大多散存于各职能部门。而与之相对的是现今民众日益觉醒的档案维权需求,实际工作中,因为历史民生档案的不完备和分散存储,给民众维护自己合法权益带来了许多不便。而民众个人查档受交通条件制约,也对快速确定档案位置形成了强烈诉求。因此,地方档案馆在现有条件允许下,不妨尝试增加民生档案种类,并在资料存储中有意识选择数字化形式,减少馆藏数字化工程量。

3.3 根据载体,改善检索方式

随着时代的变迁,档案载体目前已多样化发展,常见的载体有纸张、照片、胶片、磁带、光碟、软盘等等。然而,在目前的技术背景下,文字是最主要的检索手段,图像和多媒体文件检索往往通过详细的文字描述检索实现,因此,档案馆应加强对多媒体档案目录的建设,早日实现真正意义上的多媒体检索。比如在音视频中做到帧检索、帧定位、帧播放,结合语音检索(见图2)、图像检索(见图3)等先进技术,直接可以检索并定位音视频中的语音内容,或根据某个图片检索出音视频中的响应人像或物体。同时,及时对特殊载体进行复制更新,比如软盘、录像带等载体,必须及时转录为符合现代技术水平的多媒体资料,以免因硬件淘汰而造成的档案丢失。

图2 语音检索说明

图3 图像检索说明

3.4 针对实际,开发模糊搜索功能

在检索实践中,查阅人往往存在信息要素的不确定现象,库中存有档案却无法检出的情况屡屡发生。因此,当利用者输入关键词但没有得到所需结果时,系统需要进行相应的模糊搜索,提供主题近似的内容或者检索词,同时,尽量兼顾发文方、文号、关键词、日期、类别等多种信息进行搜索筛选,以改善查询结果,缩小甄别的范围。这一点,可以面向网络搜索引擎寻求经验。

对电子档案的再应用,主要包括两部分:一是浏览扫描的档案内容,二是对扫描的档案图像识别后,再利用识别后的文本文字。一般如果需要文本,必须画框并对框内内容识别,需要在客户端安装OCR软件,成本较高。双层PDF在生成的同时就做了OCR处理,那么客户端打开PDF的同时,不需要再作OCR识别,即可使用文本在档案原文信息资源库不断丰富的基础上,建立全文索引库后,全文搜索的速度比数据库检索的速度要快数倍。全文检索库的建立粒度需要根据用户常用检索模式、档案数据结构、系统性能问题、授权问题综合考虑。

3.5 依托科技,建设兼容统一检索平台

平台的兼容统一,首先体现在技术方面。目前,数据库电子文本格式基本为PDF、WORD、TXT等,电子图片格式有JPG、JPEG等,多媒体格式更是纷繁芜杂。许多甚至与计算机、浏览器相冲突,需要安装插件。其次在内容上,由于检索时只能选取其中的一个数据库进行查询,一旦信息分散或者交叠,将会带来极大不便。因此,提供统一的检索入口,提供兼容的文件格式,实现跨库检索和全文检索是目前档案信息检索系统建设需要努力的方向。

图4 电子档案的智能检索

4 结语

时代在进步,新兴技术不断更替发展。大数据时代,档案人应利用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示档案内容之间的相互联系,借助机器学习,必将实现档案的智能检索(档案智能检索,见图4),深度发掘档案信息资源,把握开启未来之门的钥匙。同时实事求是,注重科技,更新观念,推进档案事业在新的时代焕发新的活力。

猜你喜欢

检索数字化
数字化赋能农业提质增效
“华龙一号”数字化转型的实践与探索
家纺业亟待数字化赋能
CNKI检索模式结合关键词选取在检索中的应用探讨
论经济学数字化的必要性
瑞典专利数据库的检索技巧
高中数学“一对一”数字化学习实践探索
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究
高中数学“一对一”数字化学习实践探索