大数据时代高校档案数据化发展初探
2021-12-28苗洪丽
苗洪丽
档案信息资源具有来源多元、内容丰富、信息散布、数据繁杂等特性,尤其是随着高校的发展,档案的种类、数量和内容都在不断增多,这对高校档案管理部门的档案信息管理控制能力和开发利用能力提出了更高的要求。2016年印发的《全国档案事业发展“十三五”规划纲要》明确提出,要采用大数据、智慧管理、智能楼宇管理等技术,提高档案馆业务信息化和档案信息资源深度开发与服务水平[1]。通过档案数据化,更新信息处理模式,可以为提升档案信息管理和开发能力提供新的思路和技术手段。
一、档案数据化是数字化的进一步发展
档案信息的数据化是新时代档案事业发展的新趋向,是建立在数字化基础上的进一步发展。数字化的主要工作是将档案由物理形态转变成电子形态,即可通过计算机来阅读和编辑的二进制数据档案信息。数字化的确有很多优势,丰富了档案储存方式,增加了流通渠道,但在档案利用方面,只是将实物变成了电脑屏幕,没有从实质上改变档案的利用方式。真正要实现档案利用方式的进一步发展就需要实现档案数据化,也就是将其中蕴含的信息转变成可制表分析的量化形式的过程[2]。
档案数据化是在数字化的基础上,用OCR(Optical Character Recognition,光学字符识别)、ASR(Automatic Speech Recognition,自动语音识别)等技术,对档案中的内容进行智能识别,完成基本的分类和著录工作,通过词频分析、GIS以及关系网络分析等方法,将利用文献的方式从“读”转变为“分析”,重组档案内容,置入新的文本或数据结构中,实现结构化。换言之,数据化是将利用档案的途径由“页面阅读”转变为“信息开发”,在由计算机识读档案文字的基础上,借助智能化的工具转换成计算机可以理解的内容,实现档案利用价值的深度开发[3]。
档案数字化主要是将档案信息转化为二进制代码,数据化对应的则是档案中零散的信息。档案数字化是数据化的基础,如果没有数字化对档案的收入和转化,那么就无法开展档案数据化工作;但数据化对档案信息的识别和处理,是数字化所不能替代的。所以档案数据化和数字化并不是对立的,而是承接与完善的发展过程。
二、档案数据化发展是必行之势
随着高校的发展,各类档案的数量必然是呈增加趋势的。截至2018年,全国共有普通高等学校2663所,比上年增加32所,增长1.22%。普通本专科招生790.99万人,比上年增加29.50万人,增长3.87%;普通高等学校教职工248.75万人,比上年增加4.45万人,增长1.82%。普通高等学校校舍总建筑面积97713.56万平方米,比上年增加2313.23万平方米;教学科研仪器设备总值5533.06亿元,比上年增加537.77亿元[4]。我国高等教育事业在蓬勃发展的同时,档案中包含的信息数量也逐渐增多,这为高校档案部门带来了巨大的压力。传统的档案管理和数字化档案管理模式,仍然需要大量的人工介入,才能完成对档案信息的利用和整理,导致一定的滞后性、片面性和主观性,已经不能满足高校的现实要求。
新时代对高校档案部门提出了更高的要求,只有具备探索数据时代改善业务能力、服务水平,提升档案利用率的能力,才能更好地为高校师生服务。数字化解决了档案信息的收集、转化、录入和储存的问题,而具有高密度价值的档案信息,只有通过数据化手段才能对其进行智能分析与利用,实现对多源异构的低密度价值数据资源的深层次开发与整合,为高校发展和规划提供有效的档案信息。
在大数据时代,只有大数据和人工智能技术完成档案数据化,才能完成档案的深层次利用,可以说全面推进高校档案数据化,正是高校档案管理未来的发展方向。但需要注意的是,数据分析和数据挖掘应当作为高校档案业务的拓展部分,而非高校档案管理工作的全部内容。
三、高校档案数据化意义
数据化可以实现档案信息从机器读取到智能理解的转变,为高校档案部门业务工作智能化转型奠定基础,对于实现档案智能化深度开发、增强智能化服务能力、提升智能化管理水平,具有重要的现实意义。
1.实现智能化深度开发。档案信息资源的深度开发一直以来都是高校档案部门重点研究内容,单纯的数字化技术不能通过计算机技术对档案信息进行识别和处理,使得高校的档案信息停滞于数据领域之外,无法实现更深层次的内容开发和挖掘。这样一来,伴随着档案数字化工作的不断推进,高校档案部门利用数字化技术完成了对档案信息的收录、保存、检索工作,大量的档案信息得以通过PDF、图片、文本文档等数字格式进行保存,呈现出“内卷化”趋势。即虽然拥有大量有价值的档案信息,但没有足够的能力来加以利用,档案工作难以突破“有编无研”的瓶颈,使得档案数字化也逐渐变成了“鸡肋”。
档案数据化为高校档案信息资源开发和利用带来新的方向,不但改变了档案信息的储存模式——将档案信息与档案实体剥离,也实现了对档案信息的有序化组织和内容的开发。通过适当的统计分析方法对档案信息进行分析,提取有效数据,并对其加以详细研究及概括总结,实现了将档案信息从基础性的“载体转化”到更深层的“内容开发”,再进一步对档案信息进行融合、关联、挖掘与分析,实现智能化的处理。
2.增强智能化服务能力。目前,高校档案部门为师生提供的服务主要集中在:档案查阅、档案展览、跨馆出证、信息推送、参考咨询等方面,在需求多样化和差异化的今天,这些服务已经不能完全满足于高校师生的需求。在传统管理模式下,要利用档案信息往往是要建立在对档案内容有初步掌握的前提下,但是庞杂的高校档案决定了其不可能进行完全掌握,尤其是在定期更新的环境里,对于档案内容的了解就有了更高的门槛。这需要高校档案部门能预测用户隐性诉求,改善服务方式,实现档案服务的人性化和知识化,从“供给导向”服务模式向以用户为中心的“需求导向”服务模式转变[5]。
高校档案的数据化是为了满足不同个体的档案需求,在收集分析档案信息的基础上,通过大数据技术,对档案用户的身份、习惯、借阅内容、搜索方式、言行记录等结构化、半结构化、非结构化数据进行分析。精准地将档案信息提供给有具体需求的师生,甚至是挖掘内在需求,做到定点推送,完成档案服务和用户需求的匹配、档案信息和传输渠道匹配。
3.提升智能化管理水平。传统的高校档案管理模式,在很大程度上依赖于著录标引深度以及文件目录、专题指南、专题目录、全宗指南、案卷目录等检索工具的编制,这一工作模式,操作相对简单,在档案工作的初步阶段,有利于档案的著录描述、检索、管理和长期保存。但是工作量大,对人力依赖性比较高,无法解析档案中信息单元的复杂特征及信息单元间的复杂语义关系,也不能对其进行定义和识别。
推行档案数据化后,通过数据挖掘技术分析档案数据,从档案数据中挖掘出潜在信息,实现档案信息智能检索服务、档案信息决策服务[6]。基于元数据进行档案信息的标引,从而对档案数据进行聚类、分类和相关性分析,利用大数据和人工智能领域的技术,按照预设模型和流程,自主感知、汇集、记忆、分析信息,把档案信息变成电脑可以任意检索的数据,在非人为干预的情况下,实现档案的收集、立卷、归档、标引、鉴定、检索、编研、利用和服务等,提升高校档案部门对档案信息内容层面的把控能力。
只有推行档案数据化,才能完成高校档案信息的数据挖掘与数据的深度整合,充分将高校的信息加以利用,最大限度实现高校档案信息的价值。