数字人文视域下文书档案的开发与利用研究
2024-04-26国家广播电视总局五二三台张倩
文/国家广播电视总局五二三台 张倩
数字人文是人文学科和计算机科学相结合的产物,能够弥补传统人文学科研究中存在的缺陷和不足,同时也为社会大众提供了了解历史文化、提高文化素养、增强文化自信的途径。数字人文对传统人文学科研究模式产生了深远影响,数字人文研究的本质是“以数据为核心”,以数据为驱动,强调研究成果的可靠性和实用性。文书档案是历史、文化与社会记忆的载体,数字人文视域下文书档案的开发与利用应以数据驱动为核心理念,强化数据安全,优化利用流程,整合开发资源,形成以大数据为基础的文书档案数字人文服务模式,更好地服务社会和人类发展。
一、数字人文研究的本质:“以数据为核心”
数字人文是以数字技术为工具,以数据为核心的一种人文学科研究方法,强调通过数字技术和数据分析的方式来获取、处理和理解人文学科中的文本、图像、声音等形式。随着数字技术与人文学科的深度融合,数字人文研究呈现出“以数据为核心”“以数据为驱动”等特点。数字人文以计算机技术和人工智能为基础,主要使用自然语言处理技术、计算机视觉技术、知识图谱技术以及机器学习算法等方法,对人类的认知过程进行模拟。数字人文研究强调以数据为核心,将一切可量化、可分析的信息进行数字化处理,通过对大量文本、图像等信息的整合,从不同维度深入挖掘文本背后隐藏的历史文化信息,进而探究社会和文化发展规律,促进社会的发展。数字人文研究认为传统人文学科研究中存在大量的“黑箱”问题,导致研究者无法准确判断研究成果是否符合实际需求,此研究可有效解决其中存在的问题。
二、数字人文视域下文书档案的开发方向
(一)运用文本挖掘技术挖掘文书档案的潜在价值。文本挖掘是对文本内容进行自动分析并发现其中蕴含的信息的过程。通过对文本内容的挖掘,可以对用户需求、知识图谱等相关信息进行挖掘,进而生成用户需要的信息和知识,同时也能从文本挖掘中发现问题和规律,从而为文书档案的开发与利用提供新的思路。在文书档案开发与利用的过程中,首先要明确开发与利用目的。目前,文献档案的开发与利用方向主要是:满足用户阅读需求,为专业人员提供研究支持。对于前者来说,要进一步挖掘现有文献档案的潜在价值,通过深度加工并整合现有的文献资源,充分发挥其在历史、文化和社会记忆方面的作用;对于后者来说,要进一步挖掘文书档案的潜在价值,为人文研究提供新思路。在文书档案的开发与利用过程中,要明确当前研究存在的问题并及时解决,将已有的数据资源进行整合,充分发挥其在历史、文化和社会记忆方面的作用,为不同环境下历史、地理、科学等学科的发展提供信息与数据支持。
要建立基于大数据和文本挖掘技术的文书档案开发与利用系统,需根据研究目标制定科学的系统设计方案和框架;明确系统功能模块和数据流程;运用大数据技术和文本挖掘技术进行数据分析;建立科学的指标体系、搭建文书档案管理平台等,对系统的运行效果进行评估。在文书档案开发与利用过程中,充分运用大数据技术、人工智能等现代信息技术进行辅助。例如:利用自然语言处理技术实现对文书档案的自动标引和自动生成摘要;运用机器学习技术对文书档案进行分类;利用文本挖掘技术对文书档案进行语义分析、构建知识图谱;利用机器翻译技术自动评估相关文献的翻译结果。
(二)运用数据管理技术充分发挥文书档案数据的作用。在数字人文研究中,数据是开展研究的基础和保障。随着数据量的增长,传统的基于人工整理、统计的档案管理模式越来越难以适应目前档案管理的需要,文书档案数字化、信息化、网络化管理模式在实现档案数字化过程中得到越来越广泛的使用,数据管理技术可将文书档案从实体档案转化为电子文档,也可将纸质档案转化为电子档案,为档案管理人员对文书档案进行全流程管理提供便利。在保存方面,未来可结合数字技术与传统技术形成不同类型文书档案的长期保存模式。如建国初期的民间契约、公文、电报等较为久远的档案、文献等资料,根据其性质与价值特征进行分类保存,以满足需求;在数字化进程方面,可对各类文书档案进行扫描、识别、去重、分类、标注等处理;在开发利用方面,可加强对文书档案数据的开放共享和深度挖掘利用。但数字人文研究同样面临着数据共享与价值挖掘之间的矛盾,一方面,数字人文研究需要海量数据的支撑;另一方面,数字人文研究成果的价值在于对数据的应用和价值的挖掘。因此,在开发利用过程中应注重数据质量和数据安全问题。通过对各种类型文书档案信息进行分类管理和整理加工,建立完善的文书档案资源体系,搭建文书档案管理平台。
(三)结合GIS技术将人文历史地理脉络与现代科技相结合。利用地理信息系统技术可以满足历史档案资料、人文历史发展、地理环境保护等学科的发展,为文书档案管理工作提供数据支撑,尤其是在不同区域下文书档案的整理与汇总,以及各种与地理信息数据相关的文书档案整理方面,人文历史地理等学科与现代科技的结合可为信息使用者、阅读者提供更加全面、有效的数据。因此,文书档案开发可从地理空间数据管理、分析和制图等方面展开,发挥自身优势,将数字人文的研究成果与GIS技术结合,建立基于GIS的数字人文平台。这一平台可以从文书档案中获取海量信息,包括文书档案信息、历史地图、地理空间数据等,并利用GIS技术进行数据分析,建立基于地理空间数据的数字人文模型,实现文书档案中地理信息数据的有效整合。对于有不同使用需求的人员、部门、单位、企业以及其他使用者来说,有利于文书档案在多部门之间实现共享和利用,提升对文书档案资源的开发利用效率。与此同时,将数字人文与GIS技术结合的另一大优势是可以进行空间分析与空间制图。通过空间分析和空间制图将相关文书档案信息进行有效整合与管理,实现对地理空间数据的可视化呈现,为用户提供多种空间分析功能和可视化展示手段。例如,可将电子地图上的文字信息、图像信息等进行直接显示或转换,对数据进行有效管理。
(四)结合VR技术提升文书档案的展示效果。VR技术是指利用计算机仿真技术,通过创建虚拟环境,使用户身临其境地感受真实场景中的视觉、听觉、触觉等信息,并在此基础上产生深度感知和思维活动。VR技术被广泛应用于博物馆、图书馆、档案馆等人文社会科学机构,展示形式多种多样。目前,我国博物馆在数字人文平台展示的馆内情况与展品通过计算机图形图像处理技术,以三维数据形式对博物馆档案进行数字化处理,以实体博物馆档案为基础,制作一套完整的博物馆档案的数字化产品目录,将纸质档案、图片档案、视频档案转化为数字产品。通过该目录,用户可以清晰地了解博物馆文书档案的数字化产品内容及其使用方式等信息。在展示效果上,用户可以通过360度视角感受博物馆档案的真实面貌。当前我国各地方博物馆、中国科技博物馆、国家博物馆均在发展此项技术,且得到了一定的应用。除了博物馆文书档案外,利用VR技术还可以将其他类型的档案进行展示,如司法文书、诉讼档案、司法卷宗等。
三、数字人文视野下文书档案开发利用的策略
(一) 搭建文书档案数字人文研究平台,助推文书档案的转型升级。在数字人文视野下,文书档案的开发利用工作应该围绕数字人文理念,搭建具有特色的数字人文研究平台。平台可以在传统的档案管理基础上,通过大数据技术分析整理各类历史档案数据资源,从而实现对历史文化资源的开发和利用。此外,文书档案开发单位还可以将数字人文理念应用于文书档案开发利用工作,构建数字人文研究平台。数字人文档案在技术层面可利用互联网、移动互联网等技术,实现对历史信息的有效采集、存储和检索,并进行数字化处理;对于数字人文档案内容,可利用数字技术将大量分散于各领域的文献资料进行整合,形成统一的研究框架。数字人文作为近几年新兴发展起来的研究领域,涉及人文学科多个领域的交叉学科,注重将传统人文研究方式与现代科学技术相结合,实现对历史文化的深度解读。
(二)建立数字仓储,实现文书档案资源的整合与长期保存。文书档案作为我国历史文化的重要组成部分,是国家历史文化的重要载体。随着社会的发展,文书档案数量也在不断增加。为了避免文书档案资源分散资源利用率低等问题,需要将文书档案资源进行整合并长期保存,从而更好地满足人们对文书档案信息资源的需求。数字仓储作为数字人文技术的重要组成部分,能够对文书档案进行统一管理和长期保存。利用数字仓储技术能够将分散在不同领域、不同单位、民间遗落的文书档案资源进行整合并长期保存。在整合时,可以先对文书档案资源的类别、时间等要素进行统计分析,然后根据需要制定统一的管理标准,最后统一存储和长期保存。
(三)推动项目委托,进行文书档案的数字人文开发。目前,我国高校和科研机构中都设有数字人文研究中心,且已将数字人文研究中心委托给国家图书馆、中国社会科学院图书馆等单位进行开发利用。以国家图书馆为例,该机构每年都会组织相关领域的专家学者申报数字人文项目,国家图书馆还会组织相关领域的专家学者进行评审。从这些申报项目可以看出,这些单位都在积极探索文书档案的开发利用与数字人文技术结合工作,为高校教育、社会信息的获取提供路径。数字人文项目一般都是由特定机构发起并完成,数字人文研究中心、图书馆、档案馆等都是主要参与者,由于我国现有的数字人文研究大多是以项目委托形式展开的,也就是将相关研究项目委托给科研机构,由科研机构根据用户需求和社会需求开展具体研究,从而推动数字人文研究的发展。对于我国文书档案而言,由于其本身具有较强的稳定性和保密性,因此在数字人文视野下开展文书档案的开发利用工作时,可以采用项目委托的方式促进人文档案管理技术的升级。除此之外,对于一些大型文献资源丰富的机构,可以直接将相关文献资源以项目委托的形式委托给数字人文研究中心进行开发,丰富和优化人文档案开发模式与管理技术。
(四)加强教育培训,提升文书档案工作人员的专业素养。数字人文视野下,文书档案的开发利用工作需要工作人员具有专业的知识储备和实践经验,数字人文在很大程度上依赖于工作人员对数字人文的理解和掌握程度,因此,加强对文书档案工作人员的教育培训十分必要。在数字人文视野下,文书档案开发工作人员要具备扎实的理论知识,熟悉数字人文技术,了解文书档案管理中涉及的相关知识和概念,掌握文书档案管理中涉及的技术标准。具体而言,可以从以下几方面入手:第一,加强对工作人员专业素养的培训,提升工作人员的专业知识水平,可以通过组织系统学习数字人文的相关知识和理论,也可以邀请数字人文领域的专家为工作人员授课或组织开展专题培训,帮助工作人员提升数字人文知识水平。第二,建立完善的教育培训体系。可以通过设置数字人文课程、邀请专家授课等方式提高工作人员对数字人文理论和方法的掌握程度;也可以通过举办培训班、研讨会等形式对文书档案管理人员进行有针对性的教育培训。第三,注重对工作人员实践能力的培养。文书档案的开发利用工作涉及档案管理、信息资源整合、数字人文技术等多方面,需要文书档案工作人员具有一定的实践经验和创新能力。
四、结语
综上所述,数字人文技术的发展为文书档案资源的开发与利用带来了新机遇,数字人文与档案管理的融合为文书档案资源的开发提供了新思路。基于此,本文从数字人文视域下文书档案的开发与利用出发,分析数字人文视域下文书档案开发的方向,提出了相应的发展策略,以期为之后文书档案的开发提供思路引导,满足数字档案管理工作的升级及优化、工作人员专业能力提升、数字档案开发技术的升级与探索等工作需要,为我国科学技术和文化发展提供良好的技术与平台支撑。