地方志书籍数字化转化的实践与探讨
2024-12-06岳宏柳杨
摘 要 中华文脉绵延赓续、文明薪火代代相传,新时代新征程,我们要担负起新的文化使命,保护好、传承好、利用好地方志文化资源。本文结合实际工作,对天津市地方志资源数字化工作开展研究,根据数字化标准建设情况,对志鉴书籍数字化转化实践过程中遇到的问题进行探讨,积极推进地方志一、二轮志书及市级综合年鉴书籍的数字化转化工作,加快地方志资源传统载体的数字化,更好地为读者提供查阅利用服务。
关键词 地方志 志鉴书籍 数字化
地方志是中华民族特有的文化瑰宝,作为中华优秀传统文化的典型代表,连接着中华民族的历史、当下与未来。方志文化是坚定文化自信的重要组成部分,是国家“五位一体”总体布局和“四个全面”战略布局的重要内容。地方志蕴藏着丰富而有价值的史料,是社会主义先进文化的重要组成部分。新形势下,积极推动并做好地方志资源数字化工作、提升公共文化服务数字化水平势在必行。随着地方志工作的不断发展,地方志成果的大量涌现,地方志资源的数字化应运而生。
为深入开发利用地方志资源,促进群众查阅服务更加便捷高效,进一步发挥“存史、资政、育人”作用,本文以天津市为例,结合实际对地方志资源数字化工作开展研究与实践,推进地方志一、二轮志书及市级综合年鉴书籍的数字化转化工作,加快地方志资源传统载体的数字化,更好地为读者提供查阅利用服务。
一、开展地方志书籍数字化转化的必要性
(一)时代发展的必然趋势
科技进步推动人们阅读方式的不断变化,在这个快捷、高效的时代,需要到图书馆、方志馆等专门机构查阅的大开本、厚重的纸质地方志书籍逐渐不再被人们所喜爱。尽管地方志“横陈百业,包罗万象”,但要融入新时代、让广大读者易于接受,必须提供一种携带便捷、浏览方便、随时随地阅读的电子书籍形式。根据第21次全国国民阅读调查结果,2023年我国成年国民数字化阅读方式(电脑端网络在线阅读、手机阅读、电子阅读器阅读、Pad阅读等)的接触率为80.3%,且通过分析发现,相较于实体读物的阅读率,数字化阅读比例逐年增长,已成为阅读的主流方式。这意味着蕴含丰富资源的地方志书籍要想被更多人了解与使用,必须进行数字化转化,以适应大众的阅读需求。
(二)保护利用的有效途径
地方志书籍的形成经历了复杂而漫长的过程,其中不少书籍流传至今成为孤本、珍本、善本。为保管好地方志书籍,不对其造成损害甚至遗失,需要将纸质书籍妥善存放于温湿度适宜、避光无尘的环境中,并减少翻动次数,保护纸质书籍。如要达到开发利用的效果,需要通过数字化转化,即借助各种数字化设备,将图、文、声、像等各类信息转化为计算机能识别的二进制数字“0”和“1”后,进行运算、加工、存储、传送、传播、还原,以及编码、压缩、解码等技术,使书籍便于存储、易于传播。为扩大利用范围,可将已数字化书籍内容通过建立查阅系统、制作专用程序等方式进行深度开发,既提供现代式的快速查阅,又实现了地方志书籍的广泛传播。
(三)行业系统的本质要求
2006年5月18日,国务院发布《地方志工作条例》第十六条规定,地方志工作应当为地方经济社会的全面发展服务。县级以上地方人民政府负责地方志工作的机构应当积极开拓社会用志途径,可以通过建设资料库、网站等方式,加强地方志工作的信息化建设。
2022年5月26日,天津市地方志工作办公室印发《天津市地方志事业发展规划(2021—2025年)》主要任务中明确,要加强全市地方志数据资源建设,制定全市地方志数据资源标准。以数字方志馆建设为带动,加快推进志书、年鉴资料数字化,力争实现馆藏第一、二轮志书以及市级综合年鉴全文数字化。依托各级地方志网站,充实完善地情数据库,为人民群众提供地方志资料在线阅读、查阅利用等服务,全方位、多角度宣传展示天津地情。
2024年4月9日,天津市地方志工作办公室印发《2024年天津市地方志工作要点》指出,加强资源开发利用,围绕中心服务大局,要求加快传统载体数字化,持续推进部分一、二轮志书及年鉴书籍数字化转化工作。
二、天津市地方志书籍数字化情况
近年来,天津市市级地方志工作机构多措并举,加快志书、年鉴书籍数字化转化,提升地方志资源开发利用水平,推进地情资料数字化建设,向社会各界提供方便快捷的数字化查阅形式,提升查阅服务水平。
(一)数字化开展情况
一是不断推进地方志资源数字化工作。截至2023年底,已完成119册志鉴书籍的全文数字化,且已上传天津档案方志网供广大读者浏览、查阅。二是为进一步扩大对年鉴资源的宣传,增加受众面,增强影响力,自2021年,天津市地方志工作办公室(简称市地方志办)连续两年资助6个单位开发“掌上年鉴”小程序,截至2023年底,点击率达133万余次。2023年,为助力市委市政府高质量发展“十项行动”,纾解基层财政困难,搭建全市“掌上年鉴”小程序建设项目平台,进一步加强年鉴资源的覆盖率、传播率。三是顺应数字化形势,推进《天津史志》数字化与传统纸媒的融合出版,2021—2023年已连续开发制作《天津史志》合订本全文检索光盘,增强可读性,扩大服务受众面,更好发挥平台阵地作用。
(二)现有志鉴书籍数字资源主要来源
一是2018年机构改革之前与其他单位合作,完成了部分书籍的数字化转换;二是书籍印刷出版后,由印刷厂提供最终的电子版本;三是在制作小程序时,由服务企业开发适合平台需求的数字化转化形式;四是由地方志业务指导部门提供。
(三)电子文件存在问题
一是电子文件与实物书籍不完全一致,存在缺页、重页、文字欠缺等现象;二是电子文件清晰度低,正常比例阅读时文字模糊、断墨严重,对于文字密集的页面,放大比例后更加模糊,影响阅读效果;三是电子文件格式不统一,存在pdf、jpg、txt、tif和doc等多种格式;四是部分pdf文件中没有书签或缺少书签;五是部分志鉴书籍在出版时未保留最终版电子文件,以至于后期联系相关部门或者出版机构索要时,因时间久远、人员调整等原因无法获取。以上这些问题导致仍有部分志鉴书籍未进行全文数字化或未达到上传网站满足读者利用的要求。
因此,出台全市统一的志鉴数字化数据规范,是地方志数字化资源共享的关键所在。天津市地方志工作机构主管部门必须建立具有长期约束力的标准和规范,以信息技术的发展和数字化的实践成果为基础,强化地方志数字资源开发过程中的相关性、重复性环节,取得相关法律法规和政策的获准,契合社会大众对获取地方志信息的需求,方便各界人士浏览检索,使不同的系统资源进行转换、交换、兼容和共享,有利于相互合作与共建共享。
三、数字化标准建设情况
(一)部分省市数字化标准建设情况
笔者通过实地考察座谈交流、参加全国数字方志论坛等方式,了解到江苏省、浙江省、广东省数字化成果丰硕的省级地方志工作机构数字化标准建设情况。
1.江苏省。江苏省在地方志书籍数字化方面开展较早,2015年左右,江苏省已经开始尝试构建地方志书籍数字化的平台,但是进展较慢。依托2018年组织制定的全国地方志系统第一个数字化地方标准《地方志著录元数据规范》和《地方志数字化处理规范》,统一了数字化标准。2023年,江苏省地方志办理清思路,制定了江苏省地方志书籍数字化标准,并推出了一系列操作规范与数字化产品要求。在全省范围内达成了共识,江苏省各地市同时开展地方志书籍数字化推进工作,并于2024年构建完成江苏省智慧方志馆的线上平台。目前,江苏省智慧方志馆已经容纳了3000余册志鉴书籍。
2.浙江省。2022年,浙江省印发《浙江省人民政府办公厅关于加快推进新时代地方志事业发展的意见》,提出浙江省地方志数字化平台的整体构想,包括确立数字化方志建设转型的方向、构建统一的一体化数字方志平台、统一的应用生态等。截至目前,已制定完成一系列业务与技术标准规范,完成“浙江省方志部门数据仓”“浙里有志”等应用程序开发。围绕地方志业务,构建并完善了应用生态体系,包括:数字方志驾驶舱、志鉴智慧编纂、数字方志查询服务、方志数据挖掘利用等应用服务。其中,数字方志驾驶舱目前数字化志鉴成果超过1000册。
3.广东省。广东省地方志办于2024年7月印发《广东省地方志数字能力提升年(2024—2025)实施方案》中明确,要突出“高水平复用”、推进“跨越式发展”为目标,以“存史、资政、育人”为业务核心,以省地方志办为主导,推动各级地方志工作机构做好项目立项和实施。值得关注的是,广东省提出“大模型+地方志”为技术核心,推动“数字方志”朝智能化、智慧化升级。
(二)天津数字化标准建设情况
1.制定过程。天津市地方志资源数字化标准由市地方志办组织制定。2023年4月,启动《地方志数字化加工技术规范》申报地方标准工作;2023年8月,通过立项论证会专家论证,列入2023年天津市地方标准制修订计划;2023年4月至8月,市地方志办成立了地方标准起草小组,深入开展资料收集、调研工作,广泛查阅国内地方志数字化相关的标准和资料;2023年9月,向市地方志办方志指导部、年鉴指导部等相关业务处室征求意见;2023年10月,完成《地方志数字化加工技术规范》(征求意见稿)的起草工作,并在全市部分市级单位、区级地方志办范围征求意见,同时在天津档案方志网面向社会公开征求意见;2023年11月,向天津市市场监督管理委员会提交《关于送审lt;地方志数字化加工技术规范gt;天津市地方标准的函》;2023年12月6日,召开《地方志数字化加工技术规范》地方标准审查会,专家组对标准文本逐条审议,一致同意该标准通过审查;2024年2月19日,天津市市场监督管理委员会网站《天津市地方标准发布通告(第177号)》发布《地方志数字化加工技术规范》(DB12/T 1303—2024)地方标准,于2024年3月19日实施。
2.规范内容。《地方志数字化加工技术规范》包含范围、规范性引用文件、术语和定义、地方志数字化加工流程及质量要求、元数据著录要求五部分内容。其中,“地方志数字化加工流程及质量要求”分九个方面,对地方志数字化加工作出了完整性、规范性、有效性、准确性的基本要求,规定了数字化加工中建立目录数据库、扫描纸质文献、OCR识别、制作书签等流程,围绕目录数据库规则、扫描纸质文献的加工范围、加工格式、OCR识别、书签制作、地方志数字资源命名方式、地方志数字资源的XML格式和存储结构等提出了具体要求。“元数据著录要求”分五个方面,规定了元数据的组成元素、分类方法、描述方法、索引表及地方志数字资源每一项元数据的具体要求。
该标准是天津市现行地方志书籍数字化转化工作的目标与规范,对于推进、指导各级地方志机构开展数字化转化工作具有重要意义。
四、地方志书籍数字化路径与实践
(一)地方志书籍数字化路径
统观全国地方志书籍数字化转化情况,根据对志鉴书籍数字化成果的存储利用程度,可以分成四类。
1.纸质书籍转化成电子文件。地方志工作经过漫长的发展历程,取得了志鉴编纂的丰硕成果。但是,早期出版的书籍大部分都没有相应的数字化文件,或者虽有电子文件,却存在文件内容不全等问题。因此,很多地方志机构开展志鉴书籍数字化转化工作,将没有电子文件的志鉴书籍转化形成电子文件,方便志鉴书籍的存储、复制与分发。
2.电子文件形成结构化的数字志鉴。前一类转化工作完成了从纸质书籍到电子文件的转化,但受技术转化、目录缺乏等影响,无法实现在文中搜索关键词。因此,这一阶段的志鉴书籍转化工作相较于上一阶段,主要是添加整理书籍的元数据,以便检索查阅。在转化形成的PDF文档基础上,增加目录和OCR文字识别层,形成双层PDF。双层PDF的志鉴书籍电子文件可以通过关键字检索,也可以通过目录跳转到相应的页面,复制所需相关内容,方便了志鉴书籍的查阅和使用,提高了书籍的服务功能。
3.构建数字志鉴平台。志鉴书籍转化形成的双层PDF书籍,依然是以单本电子书籍的形式存在,虽然方便查阅复制,但针对特定的主题检索时,仍需要在一本本书籍中翻阅、检索、查找。因此,浙江省“浙里有志”平台、江苏省“智慧方志馆”平台,实现了提供全平台内藏书内容的检索和查阅。同时,依托网络平台,在提供便捷服务的同时,扩大了志鉴书籍的社会服务范围。
4.结合人工智能。志鉴书籍种类众多,内容浩大,仅依靠关键词检索,从汗牛充栋的书籍中找到所需的信息内容相当不容易。尤其是某个特定主题,按时空多个维度来提炼总结相关信息更为困难。因此,除了专业的研究人员,普通社会公众是难以完成的,阻碍了志鉴书籍服务社会公众效能的发挥。借助人工智能特别是大模型、NLP技术的发展,现代技术已有可能对书籍的内容进行提炼总结,并回答公众的提问。因此,广东省提出与人工智能结合的发展目标,打造新一代的地方志鉴服务平台,这也是未来地方志资源从数字化到智能化发展的方向。
(二)地方志书籍数字化实践
依据《地方志数字化加工技术规范》(DB12/T 1303-2024),在各级领导的关心重视和各位同仁的帮助下,天津市地方志馆于2024年6月启动地方志书籍数字化转化工作,已实现120余册志鉴书籍的全文数字化转化。现从两个方面对实践过程中的问题进行探讨。
1.数字化转化面临的技术问题与解决方案。自《地方志数字化加工技术规范》发布实施以来,通过调研了解到和平区地方志办按照此规范开展了数字化转化工作,结合市地方志馆开展数字化转化工作情况,梳理总结面临的技术问题并提出相应的解决方案。
(1)OCR技术处理。OCR(Optical Character Recognition,光学字符识别)技术的工作原理是通过电子设备将纸质文档扫描成图像,然后利用OCR软件对图像中的文字进行识别和提取,最终转换成可编辑的文本或可搜索的文档。这一过程涉及对图像中字符的形状、大小、颜色等特征进行分析,并通过算法将这些特征与已知的字符模式进行匹配,从而实现文字的识别和转换。
在数字化转化过程中,OCR技术问题主要有:一是早期出版的书籍扫描效果较差,主要表现在纸张粘连、发霉、脆弱等问题导致页面不洁、字迹不清等情况,有些单本藏书不能通过拆解的方式进行扫描。二是OCR效果差异与提升。各类OCR设备以及软件的字符识别水平良莠不齐,直接处理结果达不到“文本、图片准确率应在99%以上”的加工标准要求。
通过多方咨询了解及实践证明,对于扫描效果较差及无法拆解扫描的书籍,可采用特种扫描设备完成扫描工作。OCR识别率较低问题,可从两个方面予以解决:一是对不同OCR平台接口进行实测,多次对比准确率后,选择识别率高的OCR平台接口;二是在做OCR之前对扫描后的书籍图片进行预处理,通过降噪、锐化、对比调整后再提交OCR处理,最终获得良好效果。
(2)书籍数据目录整理技术。志鉴书籍是纸质书籍经扫描转换成电子文档,大部分没有目录。然而,目录是一本书的重要组成部分,也是书籍内容结构化的关键。目前,目录的提取与整理处理方式是先从OCR结果中提取目录文字,并按照PDF软件的要求,组成目录数据文件,如:WPS要求按目录的顺序以及目录级别组成TXT文件,然后使用软件导入到PDF文档中。
目录整理主要涉及三个方面问题:一是数量庞大,由于志鉴书籍有大量的目录条目,年鉴一般都在1200条以上,而行业志等也都在100条以上,依靠手工从OCR内容中提取并组成目录数据文件的工作量巨大。二是目录多级,按级别整理后的目录便于数字化志鉴书籍的内容翻阅,整理不同级别目录的工作量十分可观。三是准确度高,最终形成的书籍目录要确保目录指向正确的页面,而不会错页。
针对这些问题,在整理过程中采用算法与人工相结合的方式,通过算法核算目录所在的页面,并在页面OCR内容中查找,确保目录完整与正确。同时,在转化过程中对书中的目录分别依照篇、章、节、目四个级别进行整理,为后期数字化工作奠定良好基础。
2.信息安全与数字版权风险。数字风险也是志鉴书籍数字转化工作中必须注意的环节,虽然书籍都是公开发行的文献资料,但也是拥有自主版权的公开出版物。开放的地方志书籍数字平台有利于社会公众访问、检阅志鉴资源,提高志鉴成果的利用率,但也会带来一些风险隐患,主要体现在:
(1)数字侵权。由于公开访问的形式使社会公众通过网络即可访问,因此也给不法分子提供了可乘之机。目前,已经有某地方志网站的书籍被盗取,在网络上贩卖的侵权事件发生。因此,地方志书籍数字资源公开访问必须要考虑到版权问题,应采取必要手段予以保护,主要可通过访问控制来实现,如面向特定用户授权开放接口、注册用户审核等。此外,还可以采用网页安全防护技术等予以解决。
(2)网络传播安全。地方志书籍数字平台属于国家部门面向社会的公众网络,一旦被黑客攻击,利用平台恶意传播信息将会产生恶劣的社会影响。因此,在开放前要高度重视平台的网络系统安全保护。目前,如江苏省、广东省等大多数省市都将地方志书籍数字平台纳入政府网络中,通过托管的方式予以统一的系统与网络安全管理。
结 语
文化是一个国家、一个民族的灵魂。习近平总书记视察天津时提出在推动文化传承发展上善作善成的重要要求,强调要“以文化人、以文惠民、以文润城、以文兴业”。地方志作为中华优秀传统文化的重要组成部分,是重要的地方文献,对于中华文明的继承与推动方志文化发展具有不可替代的作用。推进地方志资源数字化,可以将束之高阁的地方志书籍转换成数字资源,随时随地访问的便捷性极大满足了社会公众的需求,拓宽了方志文化传播渠道,进一步提升为民服务水平。这是深入落实“四个以文”重要要求的有力抓手,也是推动地方志事业高质量发展的重要路径。我们要坚持保护好、传承好、利用好地方志数字资源,为服务高质量发展“十项行动”落地落实、全面建设社会主义现代化大都市、奋力谱写中国式现代化天津篇章贡献更多方志力量。
(责编:张文娟)
Practice and Exploration of Digital Transformation of Local Chronicles Books:
A Case Study of Tianjin
Yue Hong Liu Yang
Abstract The Chinese cultural heritage stretches continuously, and the torch of civilization is passed down from generation to generation. In the new era and on the new journey, we must shoulder new cultural missions, protect, inherit, and utilize local chronicles cultural resources well. This article combines practical work to conduct research on the digitalization of local chronicles resources in Tianjin. Based on the construction of digital standards, it explores the problems encountered in the digital transformation of reference books, actively promotes the digital transformation of first and second round local chronicles and municipal comprehensive yearbooks, accelerates the digitization of traditional carriers of local chronicles resources, and better provides readers with access and utilization services.
Key words Local Chronicles The Books of Local Chronicles Digitalization