基于信息生命周期的古籍数字化建设研究:框架、路径与策略
2024-07-07霍艳花吕建新
霍艳花 吕建新
摘要:依据信息生命周期理论,结合古籍数字化工作实际过程,构建以数字化项目规划、数字化内容选择、数字化组织、数字化保存、数字化应用为五大核心环节的古籍数字化建设框架。通过文献调研梳理总结古籍数字化建设路径内容,面向古籍数字化生命周期上游节点、中游节点、下游节点提出相应策略。
关键词:信息生命周期;古籍数字化;数字化建设
中图分类号:G253 文献标识码:A
DOI:10.13897/j.cnki.hbkjty.2024.0033
0 引言
古籍文献是中华优秀传统文化的重要载体,亦是中华民族宝贵的文化遗产。2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》[1],指出要通过挖掘古籍的时代价值、促进古籍的有效利用、推进古籍数字化、做好古籍普及传播等加快古籍资源的转化利用。因此,做好古籍文献的保护与利用具有重要意义,应积极开展古籍文献数字化建设工作,在古籍再生性保护的基础上,充分利用现代化信息技术,对古籍数字资源进行深度加工,以实现面向用户的知识服务[2]。
目前,古籍数字化研究主要聚焦于古籍文献的保护与传承、古籍数字资源整合与共建共享、古籍数字化标准与协作机制、古籍数字化与数字人文结合[2-3]等方面。刘家真等[4]认为,古籍的保护与开发相互关联,应在多视角拓宽古籍开发与利用渠道的基础上,争取社会各界参与古籍数字化的公开征选计划,同时应建立与数字化紧密结合的古籍开发长期规划与近期目标。萨蕾
[5]指出,在古籍数字化资源整合中应加强对文本自动分析技术与知识本体的研究、构建古籍知识库、加强各方合作。毛建军[6]提出了理想的古籍书目数据库建设所应具备的五个标准,即机读目录格式标准、古籍著录规则标准、古籍分类法标准、主题标引标准、统一字库标准。卢彤和李明杰[7]调研了中文古籍数字化成果辅助人文学术研究功能,指出在文史专家与信息科学家的协作下,结合文献整理学术传统与现代信息技术,以专业问题为导向的数字人文研究平台的开发模式是未来古籍数字化的发展方向。
整体而言,现有研究多侧重于探讨古籍数字化建设的局部问题,如古籍数字化处理、古籍数字化存储、古籍数字化标准、古籍数字化利用、古籍数字化服务[3]等主要内容,鲜见从古籍数字化建设的全链条角度研究。鉴于此,本研究借鉴辛莉[8]学者的研究观点,以信息生命周期理论为指导,对古籍数字化建设的全过程进行条分缕析,并厘清其生命周期节点,探讨古籍数字化建设框架、路径与策略。
1 基于信息生命周期的古籍数字化建设框架构建
1.1 信息生命周期理论
信息生命周期作为一种学术概念,较早出现于信息资源管理领域。1985年,著名信息资源管理学家霍顿(F.W.Horton)在《信息资源管理》(Information Resources Management)一书中提出,信息是具有生命的,其生命周期由一系列逻辑上相关联的阶段或步骤组成。一般来说,信息从产生到消亡的整个过程大概会经历以下五个阶段:产生、加工、存储、应用、消亡。霍顿基于人类信息利用与管理需求提出了信息生命周期的七阶段,即需求定义、收集、传递、处理、存储、传播、利用[9]。信息生命周期理论被广泛应用于图书馆数字馆藏的管理中,这为古籍数字化建设框架构建提供了重要的理论基础。
1.2 古籍数字化建设框架构建依据
通过文献调研发现,臧国全等[10]提出了图书馆信息资源数字化项目实施生命周期中所包括的主要阶段:项目准备、数字主文档存储、元数据描述、数字资源发布和资源共享,并基于此提出各阶段标准框架。庞桂娟[11]
在此基础上进一步归纳总结出信息资源数字化项目的生命周期,即项目规划、数字化内容选择、数字化生产流程、数字资源保存、数字资源发布五个阶段。杜泽逊[12]在《如何做好新时代古籍工作》一文中提到古籍工作具有系统性且大致分为上、中、下游三个节点,其中古籍收藏保护为上游、古籍整理研究为中游、古籍出版发行为下游。这为古籍数字化建设框架构建提供了重要的文献依据。
1.3 基于信息生命周期的古籍数字化建设框架
本研究以信息生命周期理论为基础,结合已有相关文献研究和古籍数字化工作的实际过程,提出古籍数字化生命周期的三个节点、四个阶段、五大核心流程,共同构成基于信息生命周期的古籍数字化建设框架,如图1所示。
古籍数字化的三个节点分别为上游节点、中游节点和下游节点;古籍数字化生命周期的四个阶段分别为生产、加工、存储和应用;古籍数字化的五大核心流程分别为数字化项目规划、数字化内容选择、数字化组织、数字化保存和数字化应用。
其中“数字化项目规划”“数字化内容选择”对应信息生命周期的生产阶段,并对应古籍数字化生命周期的上游节点;“数字化组织”对应信息生命周期的加工阶段,“数字化保存”对应信息生命周期的存储阶段,“数字化组织”“数字化保存”对应古籍数字化生命周期的中游节点;“数字化应用”对应信息生命周期的应用阶段,并对应古籍数字化生命周期的下游节点。
2 基于信息生命周期的古籍数字化建设路径内容分析
通过对古籍数字化建设路径关键环节内容的系统梳理与分析,能够明确古籍数字化的目标与方向。
2.1 古籍数字化生命周期上游:数字化项目规划、数字化内容选择
数字化项目规划是古籍数字化具体工作得以开展的总体指南,旨在为古籍数字化项目的顺利进行提供方向与指导,其直接关系到项目预期目标的实现[13]。在这一环节需要对古籍数字化项目进行广泛调研、全面分析、科学论证和设计。
数字化内容选择是古籍数字化工作中的核心要素。在这一环节需要选取古籍数字化对象,包括古籍内容、古籍版本。就古籍内容选取而言,首先要从文献保护与文化传承角度考虑,选取亟需得到保护、数字化意义非凡的古籍文献;其次要从文献本身特色角度考虑,选取具有浓郁民族特色、鲜明地域特色、深厚文化特色的古籍[2];最后从古籍资源获取性[3]角度考虑,要保证古籍数字化的完整性、专业性、可信性,就近选取方便获取、相对集中的古籍资源。就古籍版本选取而言,可借鉴我国在文献整理方面所形成的优良学术思想,如支敏度提出的“百虑一致,万流同归”的版本源流考订思想、章学诚提出的“辨章学术,考镜源流”的目录学思想[14]等,从数字化古籍底本及参照本的版本类型选择、[JP3]细节描述等方面进行考量[13],从而保障数字化古籍内容的质量。
2.2 古籍数字化生命周期中游:数字化组织、数字化保存
数字化组织是根据相应的标准与规范,运用一定的技术与方法,对古籍文献进行数字化处理与整序,深入挖掘古籍内容所蕴含的显性知识与隐性知识,实现对古籍所含知识的重新组织。在这一环节需要采用古籍数字化标准、合理选用文本加工手段、数字化处理技术,实现传统古籍文本向数字化形式的转化。依据具有权威性、普适性的古籍著录规则、古籍分类规则等标准与规范,如我国于2008年发布的相对统一的《古籍著录规则》[15]、适用于古籍常规分类的“经、史、子、集、丛”五部分类法、DC元数据、MARC格式等,将标准规范贯穿于古籍数字化建设的各个环节和全过程。要综合考虑数字化古籍情况以及现实需要,合理选择相应的数字化处理技术,如扫描、拍照等OCR技术[16]、本体构建[17]、图像分割等,完成古籍文字图片信息的提取转换、语义解析、内容挖掘、知识发现等工作。
数字化保存是通过数字存储技术对已形成的数字化古籍内容进行存储,以实现古籍由传统载体向数字载体的转换以及数字化古籍的长期保存。王学琴等[18]人提出数字资源的长期保存由责任体系、保存对象、战略规划、技术体系四要素组成,要以科学的战略政策和规范管理为抓手,以强有力的技术为支撑,保障数字化古籍资源长期保存和永久获取。
2.3 古籍数字化生命周期下游:数字化应用
数字化应用主要关注古籍数字化后所能实现的功能与价值,实现古籍内容的长久性保护与现代化古籍信息传播[3]。这一环节主要是实现数字化古籍的检索、共享、知识服务等功能,需要依托古籍数字化系统、古籍数字化平台的建设或新兴的信息化手段,在满足用户信息浏览、内容检索与筛选、阅读等基本型需求的基础上,拓展“知识增值利用”功能,如问答、可视化呈现、知识社区等,满足用户更高阶的需求。李明杰等[19]指出在数字化古籍资源建设达到一定规模后,应全面查缺补漏,整合各类古籍数字资源和现有资源,系统集成储存、阅览、检索和研究支持功能,加强古籍知识的深度开发和增值利用,完成对古籍乃至古代社会历史的全方位认知。
随着科技的飞速发展,我们正在步入一个被称为“数智化”的时代,在强调“数据”价值的同时也要注重“智慧”的共享。新形式下的数字化古籍同样也需要通过建立古籍数字化系统与平台得以充分展示,一方面能够拓展古籍宣传与普及的渠道,另一方面能够兼顾古籍“藏与用并重”、平衡古籍的“文物性”与“文献性”,促进古籍的进一步开发与利用,发挥古籍文献的最大使用价值。
3 基于信息生命周期的古籍数字化建设策略探讨
结合古籍数字化建设生命周期的阶段性特征与差异化表现,分别从生命周期上游、中游、下游三个节点来探讨古籍数字化建设策略。面向生命周期上游节点,应科学全面系统规划古籍数字化项目,在做好古籍保护与传承的同时,关注并了解用户需求,突出古籍数字化对象的“特色”;面向生命周期中游节点,针对古籍数字化生产的工作流程,包括古籍数字化转化、古籍内容的加工组织、知识的发现与重构、数字化资源的存储与管理以及相关技术应用,应采用并完善国际国内相关标准规范体系,促进古籍数据的互联互通,实现古籍资源的长期保存与永久获取;面向生命周期下游节点,打造资源丰富、功能齐全的古籍智慧共享平台以及数字化特色应用场景,全方位、立体化揭示古籍内容,多渠道多形式宣传推广古籍数字化资源,开展面向用户需求的古籍数字化知识服务,实现古籍资源共建共享。
3.1 古籍数字化生命周期上游:以传承为前提,以需求为引领,以特色为核心
我国古籍文献总量庞大且种类繁多,截止2021年12月全国已有39家古籍收藏单位实现古籍资源数字化和在线开放共享,数量超过2.2万部,相比古籍总量270余万部而言[20],古籍数字化工作任重而道远。对于古籍数字化项目的开展,古籍数字化对象的选取显得尤为重要。具体从三方面入手:一是要进行古籍资源的调研与梳理,了解当前古籍资源的收藏情况、数字化现状与需求,识别并分析可实施古籍数字化项目;二是要进行用户需求的调研与分析,古籍数字化成果最终要面向用户,应深入了解不同用户的古籍数字化需求,包括图书馆、档案馆、博物馆、历史研究所等各级各类古籍资源保护与研究单位以及文旅部门、人文社科研究者、古籍爱好者等,以用户需求为导向,让用户积极参与到古籍数字化建设工作中;三是挖掘古籍文献“特色”,深耕具有鲜明地域特色、民族特色、文化特色的古籍文献,将古籍数字化与文化保护传承、用户需求、地方经济与社会发展相结合,充分发掘古籍文献的文化价值、时代价值。河北北方学院图书馆基于已有馆藏资源,对张家口地区图书馆、历史文化研究院以及国家图书馆等展开充分调研,提出了具有地方特色鲜明的“察哈尔方志数字化建设”项目,旨在通过全面系统的收集、整理以数字化方式实现珍贵地方志遗产的长期保存,实现对馆藏资源的利用与推广,让藏在地方志中的知识“活起来”。
3.2 古籍数字化生命周期中游:以标准为指引,以技术为支撑,以互通为目标
采用统一化、规范化、实用化的古籍数字化标准体系。当前我国已拥有相对统一的古籍著录规则和分类体系,开展古籍数字化工作时,在遵循标准化规则的基础上,借鉴在古籍数字化建设领域取得一定成果的先进单位的宝贵经验,如国家图书馆、中国出版集团、北京国学时代等,为构建古籍数字化著录、技术、管理和工作流程等相关标准体系提供参考,同时结合古籍数字化工作实际需求,进一步完善相关标准与规范,促进数据资源互联互通。
综合应用多学科技术与方法,加强对古籍知识的发掘与重构。当前古籍数字化工作应重点关注对古籍内容的深度挖掘和知识发现,通过采用文本聚类、数据挖掘、本体构建、社会网络分析、知识图谱、机器学习、人工智能等方法,实现古籍知识的可视化呈现和立体化揭示。同时还应积极探索数据资源存储与共享机制,改进并开发相关信息技术,实现古籍数字化资源的长期保存和古籍数字化资源的可访问性与可共享性。
3.3 古籍数字化生命周期下游:以共享为理念,以利用为导向,以服务为根本
充分整合古籍数字化资源,建设古籍智慧共享平台。当前古籍数字化实践存在对现有古籍整理成果数字化的忽视[2],一方面会造成学术资源浪费,另一方面也会对古籍数字化资源的全面揭示产生影响。因此,要在充分挖掘已有古籍整理成果价值的基础上,将其科学合理地嵌入到古籍数字化资源中,实现古籍数字化资源的全方位、多角度揭示。要以用户需求为中心,搭建资源丰富、功能齐全的古籍智慧共享平台,在满足用户信息浏览、内容检索、阅读下载等基本功能的基础上,开发计量统计、可视化呈现、知识关联等用户高阶需求功能,并嵌入有助于用户进行古籍学习的相关应用,如简繁体字典、释义、纪年换算等,还可以开发知识社区供用户学习讨论。浙江大学徐永明团队打造了集浏览、查询、研究、欣赏于一体的“智慧古籍平台”,通过引入知识图谱理念,综合运用大数据技术,实现文献的计量统计、定位查询、聚类查询、地理信息可视化等功能[21]。平台将文史数据与数字地图相结合,构建多种学术地图,例如点击著者详情,即可查看所链接的人物行迹图,极大地增强了用户的古籍阅读体验,丰富了读者对古籍知识的综合认知。
创新古籍数字化资源利用方式与渠道,面向用户提供知识服务。通过运用云计算、人工智能、5G通信、区块链、物联网等新兴技术,打造古籍数字化特色应用场景,为用户提供多种形式的古籍数字化体验与利用形式,激活古籍在新时代的传播力、生命力,利用AR、VR、XR等技术为用户提供沉浸式的、融合虚拟与现实的新体验,让古籍以立体式、多维度、生动化的方式走入用户的日常生活,使古籍文化知识实现更深层次的延展与传承。河北博物院“盛世修典”展览通过采集流传于世界各地约千余幅的中国历代名画数字化影像,并采用先进的技术将之处理为高清数字化打样稿呈现于用户面前,让用户能近距离欣赏名家对于色彩、线条等细节的独特构思和运用。同时还对历代书画的鉴赏进行展览,包括书画本身以及书画的历代印章和题跋,这既是书画鉴别的重要依据,同时也是中华文化薪火相传的重要见证。河北博物院通过打造沉浸式体验区,让用户身临其境体验古籍文化的真实意境和魅力。
参考文献
[1]中共中央办公厅、国务院办公厅.关于推进新时代古籍工作的意见[EB/OL].[2024-01-13].http://www.gov.cn/zhengce/2022-04/11/content_5684555.htm.
[2]李明杰,张纤柯,陈梦石.古籍数字化研究进展述评(2009-2019)[J].图书情报工作,2020,64(6):130-137.
[3]李世钰,张向先,沈旺,等.古籍数字化国内外研究现状分析与路径构建研究[J].现代情报,2023,43(11):4-20.
[4]刘家真,程万高.古籍保护与开发的策略与建议[J].中国图书馆学报,2009,35(3):15-20.
[5]萨蕾.图书馆古籍数字资源整合研究[J].图书馆,2014(4):116-119.
[6]毛建军.古籍书目数据库的标准与评价研究[J].图书馆理论与实践,2009(6):30-33.
[7]卢彤,李明杰.中文古籍数字化成果辅助人文学术研究功能的调查[J].图书与情报,2019(1):70-79.
[8]辛莉.面向全生命周期的公共图书馆红色文献数字化建设研究[J].图书馆工作与研究,2023(6):42-48.
[9]万里鹏.信息生命周期研究范式及理论缺失[J].中国图书馆学报,2009,35(5):36-41.
[10][JP3]臧国全,庞桂娟,姜燕.图书馆信息资源数字化项目实施标准框架解析[J].图书馆理论与实践,2006(4):5-10.
[11]庞桂娟.图书馆信息资源数字化生产流程研究[D].郑州:郑州大学,2007.
[12]新华社新媒体.新时代古籍工作这样开展[EB/OL].[2024-01-14].https://baijiahao.baidu.com/s?[KG-1mm]id=1731128447531207250&wfr=spider&for=pc.
[13]尚奋宇,张文亮.基于DLC的我国古籍数字化标准体系框架研究[J].图书馆学研究,2017(3):21-27.
[14]李明杰,卢彤,高晓文.文献整理学术传统对古籍数字化的参照价值(之三)——以“版本源流考订”为例[J].图书馆论坛,2021,41(5):108-117.
[15]鲍国强.古籍著录规则[M].北京:中国标准出版社,2008.
[16]焦佳琛,包能胜,姜佳华.基于人工免疫算法的古籍文本数字化处理[J].汕头大学学报(自然科学版),2021,36(1):3-11,2.
[17]周莉娜,洪亮,高子阳.唐诗知识图谱的构建及其智能知识服务设计[J].图书情报工作,2019,63(2):24-33.
[18]王学琴,何菊香,罗涛.区域性图书馆联盟JALIS的数字资源长期保存路径研究[J].数字图书馆论坛,2022(3):53-58.
[19]李明杰,卢彤.文献整理学术传统对古籍数字化的参照价值(之一)——以“会通观”为例[J].图书馆论坛,2019,39(4):118-124.
[20]中国日报网.90%以上的汉文古籍已经完成普查[EB/OL].[2024-01-17]. https://fashion.chinadaily.[JP3]com.cn/a/202112/09/WS61b1cf4aa3107be4979fc4e1.html.
[21]人民数据.用科技手段激活古籍瑰宝[EB/OL].[2024-01-17].https://baijiahao.baidu.com/s?id=1769821912153600244&wfr=spider&for=pc.
Research on Digitization Construction of Ancient Books Based
on Information Life Cycle: Framework, Path and Strategy
Abstract:
Based on the theories of information lifecycle and combined with the actual process of digitalization of ancient books, a framework for digitalization construction of ancient books is constructed with five core links: digital project planning, digital content selection, digital organization, digital preservation, and digital application. Through literature research, the paper summarizes the content of the digital construction path for ancient books, and proposes corresponding strategies for the upstream, midstream, and downstream nodes of the digital life cycle of ancient books.
Keywords:Information Life Cycle; Ancient Books Digitization; Digital Construction