APP下载

基于数字人文的档案信息资源开发模式构建和实施研究

2018-01-24朱令俊南京大学信息管理学院

浙江档案 2018年12期
关键词:人文数字资源

朱令俊/南京大学信息管理学院

1 基于数字人文的档案信息资源开发模式的提出

数字人文是指围绕人文社科领域特定研究对象、知识本体数字化保存和应用而进行的信息资源采集、加工、组织、服务、研究、教育等活动的总称。数字人文依托数字化、数据管理、数据分析、可视化、VR/AR、机器学习等技术[1],实现人文研究的理念革新、资源整合、机制融合、协同创新。从数字技术角度而言,数字人文是数字技术与人文学科交叉的学术活动领域,是数字资源在人文学科中的系统化应用。基于数字人文的背景,档案信息资源开发主要由开发客体、开发技术与开发平台三部分组成。

1.1 开发客体:数字档案资源/档案数据库

数字档案资源依托计算机技术、扫描技术、OCR(Optical Character Recognition,简称OCR,光学字符识别)技术、数字摄像技术、数据库技术、多媒体等技术条件实现形成和储存,形成有序结构的档案数据库,是构造基于数字人文的档案信息资源开发模式的基础。

1.2 开发技术:数字工具

档案信息资源开发需要对大规模的非结构化数字档案资源进行清理过滤,对所采集的有效信息进行文本化与结构化处理。数字工具是参与档案信息资源的处理、分析、呈现等全过程的重要媒介,为基于数字人文的档案信息资源开发提供技术支持。从数字人文理念出发,数字工具主要作用于档案信息资源开发中文本编码、语义分析、时间表、网络分析、可视化处理、空间分析和地图制作几方面。常见的数字工具有历史地理信息系统(History Geography Information System, HGIS)、关联数据(Linked Data)、数据清洗工具Open Refine、文本可视化分析工具TextArc等,使固化的档案领域具有生命力和交互性的文化产品。

1.3 开发平台:数字人文网络基础设施

数字人文网络基础设施分为三个层次,核心层为文献资源及其服务机构;中间层由基金会、资源库、计算设施、机构存储、系统平台、工具软件、领域专家和数据科学家构成,是网络基础设施的主体部分;外围层是成果发布、社会交互、影响辐射的门户或平台[2]。网络基础设施主要提供支持数据获取、存储、管理、整合、挖掘、可视化的技术,以及其他计算与信息处理服务研究的环境,便于数字人文框架的总体布局与可持续性开发。

从人文学科角度而言,基于数字人文的档案信息资源开发具有七大特征:面向主题,即面向单一主题聚类、资源整合、集成创新;关注本体,即注重语义分析效率,提供用于查询推导的丰富语义信息,提高自动化程度;基于数字仓储,即基于知识本体的数字档案资源的采集、加工、组织和保存,并为对应用户群体提供集成化、专业化、精确化、智能化、互动性服务的信息系统及相关资源的总和;跨媒介互动,即通过建立逻辑整合交互系统,使海量信息在不同媒介之间交叉传播利用,实现全方位、远距离、及时性的互动体验;跨领域整合,即打破学科领域壁垒,拓展档案开发深度、广度,加强与其他领域研究的关联度;多机构协同,即更加注重跨业态、多机构的协同合作与创新,跨界集成资源、技术、平台、管理和服务优势,实现资源整合、技术支持、业务共享等开发实践;持续性开发,即迎合社会变化与需求及时更新迭代,保证档案开发价值的时效性。

2 基于数字人文的档案信息资源开发的案例研究

2.1 案例概述

当前,国外学者密切关注数字人文与档案结合的项目,其中欧洲联合数字档案基础设施(Collaborative European Digital Archive Infrastructure, CENDARI)[3]与威尼斯时光机器[4]两大项目作为数字人文档案项目的典范,对研究基于数字人文的档案信息资源开发具有参考价值。

CENDARI项目是欧盟资助为期四年的项目,该项目主要由计算机信息学家、历史学家和档案学家合作整理、加工、开发欧洲各国档案文献资源而成,利用OAIPMH协议库和API(应用程序编程接口),Atom(文本代码编辑器),CKAN(开源数据门户软件)开发工具,基于EAG(制度层面)、EAD(采集)、MODS(项目级)等开放平台。作为强大的档案虚拟研究基础设施和人文研究虚拟工作空间,CENDARI旨在通过内容管理与历史数据可视化帮助学者开展跨机构、跨国界研究。威尼斯时光机器项目是瑞士洛桑联邦理工学院和意大利威尼斯大学合作项目,该项目时间跨度长达十年,主要由数字人文专家、计算机科学家、历史学家、档案工作者共同开发威尼斯国家档案馆档案,利用断层(CT)扫描技术、语义编码、人工智能、机器学习技术、可视化技术、云技术等,借助结构分析、功能预测、基于语音识别的语言模型、云端平台等工具,虚拟重构中世纪威尼斯历史风物、地理面貌、文化习俗等多层次的社会全貌,旨在帮助研究者获取存储在威尼斯国家档案馆的大量数据,并构建中世纪威尼斯的社会网络关系。

结合上述案例比较分析,本文提出构建一个假设性的开发架构,用于描述基于数字人文的档案信息资源开发的逻辑过程与基本轨迹:在开发目标的规划设计下,开发主体明确开发客体的用户需求,借助开发工具和开发平台进行技术处理,客体以多种形式向服务对象发布开发成果,并依据交互反馈机制后续完善。

2.2 模式要素简析

一是开发目标。开发者在开发前首先需要明确两个问题,即通过开发,档案信息资源(即开发客体)会呈现什么效果或结果?用户(即服务对象)通过档案开发可以得到什么?在此基础上考虑后续开发的技术可行性、经济可行性、环境可行性,精确选择主题和服务对象,并围绕开发目标制定和完善开发方案。二是开发主体。数字人文背景下的档案信息资源开发主体更具多元化和复杂性,且呈现出明显的跨学科、跨领域特征,需要综合考量学科背景多元化、跨部门跨领域协作、资源与用户特性三项因素。三是开发客体。档案信息资源需要经过海量筛选、综合评估、充分了解后方能被确定为开发客体,在开发中对其可用性、有用性、完整性需要有更高要求,从而细化开发任务和目标,提供开发效率。四是服务对象。开发的最终目的是服务利用,服务对象与开发目标相适应。即明确为哪一类用户群体使用,并与开发客体形成交互反馈机制。而在数字人文背景下,服务对象需要更具目标明确性和交互性,推进数字人文的深入。五是开发工具与开发平台。为实现数字人文愿景,在搭建高效安全的开发工具和强大稳定的开放平台的基础上,需要明确三个问题,即开发需要哪些技术、技术如何应用开发、如何展现技术红利,帮助了解档案信息资源开发人员和设计人员多种开发语言和开发技术需求,实现高难度、多样化、模拟环境的档案项目开发任务。

2.3 实施原则

为科学合理、有序高效地开发档案信息资源,除了构建基于数字人文的档案信息资源开发模式,还要明确档案信息资源开发模式的实施原则:一是以档案为中心,建构数字人文开发框架,搭建开放、包容、前沿的多学科交流平台;二是保护档案实体,注重档案可持续使用,实现机制运行下的实体档案与数字档案协调有序;三是技术创新,构造数字交互环境,拥抱技术力量;四是跨界融合,创新开发途径,促成产学研一体化;五是互动共生,探索可复制、可推广的实践经验。

3 基于数字人文的档案信息资源开发实施策略

3.1 技术:变革的契机与挑战

技术是资源利用和服务供给的支撑力量,是档案开发的重要动力。基于数字人文的档案信息资源开发在技术层面包含数字化技术、数据管理技术、数据管理技术、数据分析技术、可视化技术、VR/AR技术、机器学习技术。以数据分析技术为例,该技术对档案信息资源进行分析研究,涉及内容挖掘、时序分析、社会关系分析、历史地理空间分析等,能够重新组织构建档案信息资源所反映的社会网络与历史轨迹。哈佛大学地理研究中心开发了地理信息平台“世界地图计划”(WorldMap),将历史文献与古地图上的地理描述予以定位、归纳,使公众对信息进行编辑与可视化管理[5]。在平台中,古代中国地图包含环境、气候、边界、能源、交通、教育、语言、人口等信息,借助数据分析技术提供结构化、可视化的数据呈现,能够在地图上清晰地标注有关信息,例如标注古代中国受蝗虫灾害影响的地区、全国各省男女受教育的平均年限等信息[6]。

3.2 服务:本质的回归与拓展

服务是技术加工和资源利用的保障,是档案开发的价值归宿。数字人文框架下的档案信息资源开发不同于传统档案信息资源开发,本质在于档案机构或研究人员的工作理念发生了转变,由被动“提供”变为主动“服务”,从而创新档案服务方式。服务主要从两大方面实现,即开放式推送和个性化定制。在开放式推送方面可借助平台网络优势,开启档案开发传播新形式。如美国国家档案与文件署在Twitter、Facebook、YouTube等社交媒体上积极推广档案动图GIF系列,形成良性循环的信息生态圈;里士满大学数字研究实验室牵头创建在线信息中心,提供美国“居住警示区域”信息,将全美社区按照安全系数标注为不同等级,从“最佳”到“危险”,使用者可以搜索150幅地图和对5000个社区的描述信息[7]。由此形成良性信息生态圈,拓展与提升档案文化与开发成果的覆盖面和影响力,实现档案信息资源的社会价值。数字人文还影响着档案信息资源开发的内容传播与呈现方式,在个性化定制方面,通过融入全新的技术如全景技术、地理信息系统、APP端应用服务、微信小程序等实现档案信息的实时展示,以耳目一新的方式展现与传递档案文化。

3.3 资源:生态的融合与重构

资源是技术加工和服务供给的基础,是档案开发的物质前提。资源在构建信息生态圈和联接公共部门、研究机构与公众上具有举足轻重的作用。在数字人文的支持下,积极建构“大档案观”理念,使档案信息资源能够全方位、无遗漏、多形式地呈现。在重塑档案信息生态圈时,可整合档案馆、图书馆、博物馆的馆藏资源,建立统一的元数据标准,解决单馆存在的“信息孤岛”问题,最大程度地发挥三馆资源优势。通过跨界合作的方式重构档案信息资源,与各类电视节目联合制作以档案资料为背景的纪录片或专题节目,如中央电视台国际频道的《国宝档案》节目,利用档案资源优势,重新整合加工,还原历史,赋予档案呈现于公众面前又一新形式。除此之外,档案部门还可以与商业机构、文化遗产保护机构等组织主动合作,保护档案资源,合理挖掘开发档案信息价值,如近现代中国苏州丝绸档案入选《世界记忆名录》,可通过开展记忆工程项目和档案非物质文化遗产的保护、传播、交流等实践,与全社会共享档案成果,扩大档案受众群体与档案文化影响力。

猜你喜欢

人文数字资源
基础教育资源展示
一样的资源,不一样的收获
资源回收
答数字
人文绍兴
资源再生 欢迎订阅
数字看G20
人文社科
谁来教“医学人文”课
让人文光辉照耀未来