APP下载

公共图书馆古籍数字化协同发展路径研究

2022-09-15赵长波

图书馆学刊 2022年8期

赵长波

[辽宁省图书馆(辽宁省古籍保护中心),辽宁 沈阳 110167]

“得知千载外,正赖古人书”。卷帙浩繁的古籍,是中华文明的历史见证,其中绝大部分都庋藏于各公共图书馆中。2016年,“中华古籍保护计划”被列为文化领域的重大工程,《“十三五”规划纲要》中明确提出推动古籍原生性和再生性保护、建设国家古籍资源数据库。政策支持有力推动了古籍数字化的发展,在为研究者带来便利的同时,也暴露出一些建设上的不足,需要认真反思,以便更好地推动“十四五”时期公共图书馆的古籍数字化工作。

1 古籍数字化工作在“十四五”时期的重要意义

1.1 中华优秀传统文化传承发展的客观需要

《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》中提到,传承弘扬中华优秀传统文化,加强文物古籍保护、研究、利用。作为其中重要组成部分的古籍数字化工作,使得中华传统文化借助于现代科技手段,让全世界的利用者都能感受到中华文化的魅力,助力中华优秀传统文化的国际交流和传播。

1.2 保护古籍文献的必然要求

古籍数字化是有效解决古籍保护与利用矛盾的重要手段,也是未来不可阻挡的历史趋势。通过古籍数字化,古籍的“历史文物性”可以得到有效保障,“学术资料性”也能得到彰显,同时把有限的古籍保护经费用到“刀刃上”,使古籍保护工作产生一系列的叠加效应。

1.3 打造传统文化云阅读的重要方式

自2014年起,“全民阅读”连续第9次被写入政府工作报告。全民阅读不仅包括现代出版的书籍,更应该将古籍文献纳入其中,以汲取古籍中蕴含的丰富精神滋养。古籍数字化使古籍的阅读突破了时间和空间的限制,足不出户实现网络上的自由存取,毫无疑问也带动了传统文化的云阅读。

1.4 古籍数字化是科技融入古籍工作的最佳切入点

借助于现代科技,实现古籍与智能移动设备等新媒介的对接,为使用者提供个性化的阅读体验,实现传统与现代的结合,为传承传统文化提供了多元化的手段。

2 公共图书馆古籍数字化成果概况

2007年“中华古籍保护计划”实施以来,以公共图书馆为主体,按照“统一规划、统一标准、合作共建、资源共享”的原则,古籍数字化工作取得了重要进展。国家图书馆(国家古籍保护中心)在2017年至2019年,先后联合36家古籍收藏单位在线发布古籍数字资源超过2万部,其中绝大部分为公共图书馆所藏。作为重要成果的“中华古籍资源库”,在线发布的古籍影像资源总量已超过3.3万部(件)[1]。考虑到一些收藏单位尚未将所建设的古籍数字化项目纳入其中,因此实际也会远超这个数量。

3 古籍数字化工作存在的不足

虽然古籍数字化为学者研究和公众利用提供了极大便利,但通过笔者的工作实践,发现仍有一些不足之处。

3.1 古籍数字化标准化建设仍需加强

3.1.1 管理规划标准不统一

较早开展古籍全文数字化工作的是馆藏量非常宏富的图书馆,如国家图书馆、上海图书馆等,现在则有更多的图书馆加入其中。许多单位采取外包形式,即由专业的数据公司负责古籍书影的扫描、裁切,再由专业的设计公司进行数据库的搭建。虽各有分工,但也使得古籍数字化的主体多样化,各主体之间缺乏统筹协调,使得各单位在古籍数字化的选取标准、数据平台使用等方面各自为政,缺乏沟通,由此造成了重复建设,有限的古籍保护经费也不能得到最大化地利用,更不利于实现数字资源的共建共享。

3.1.2 建设流程缺少标准化

国家古籍保护中心曾在2014年5月发布了《古籍数字化工作手册》(V.1修订版),对于古籍数字化的工作流程作了相应规定,成为各古籍收藏单位工作的重要参考。但工作实践中,由于各单位差异、工作人员理解不同等原因,使得古籍书影质量、元数据的著录等都有差异。此外,由于数据库发布时使用的平台不一致,导致读者利用时存在诸多不便。

3.2 古籍数字化属于聚集型而非聚合型

3.2.1 不能实现平台统一检索

在国家古籍保护中心网页“全国联合发布古籍数字资源”专题中,共集合了32家古籍收藏单位的数字资源,但其中只有云南省图书馆、天津图书馆和上海图书馆3家单位纳入到了“中华古籍数字资源库”中。读者要想知道3家单位之外的古籍情况,只能到相应的古籍收藏单位中寻找,费时费力,非常不便(见图1)。因此,随着古籍数字化数量的增加,建设统一的检索平台,整合各单位的分散数字资源,做到“一键检索、一键直达”,由聚集变为聚合,将成为下一步古籍数字化亟待解决的课题。

图1 国家图书馆古籍数字资源检索界面

3.2.2 未能实现古籍资源的整合

国家古籍保护中心建设了“全国古籍普查登记基本数据库”(也称“中华古籍书目数据库”),到2020年底,已经累计发布264家单位古籍普查数据825362条7973050册[2]。遗憾的是,目前该数据库在查询通行古籍版本时,即便以高级检索来限制,也会面临动辄十几页的数据量,查找非常麻烦。而且该书目数据库与“中华古籍资源库”是分开的,二者不能实现整合检索,造成使用不便,事实上这在现有的技术条件下是完全可以解决的。下面即以“千山”为搜索关键词,分别在“中华古籍资源库”(见图2)和某网站(见图3)所得到的结果。

图2 “中华古籍资源库”搜索结果

图3某网站搜索结果

图3 的页面搜索,明确标示了目前可以在线阅读和提供线索的信息,这为使用者提供了极大方便。打开图3最下面《奉天辽阳州千山剩禅师塔碑铭》一书的链接时显示的结果(见图4)。

图4 某网站《奉天辽阳州千山剩禅师塔碑铭》查询链接界面

通过图4,使用者可以清楚地了解某部书是否提供全文阅读的线索,甚至拓展了使用者的学术认知,真正做到了“一键直达”,一目了然。因此,古籍数字化的趋势不仅要对古籍的文献层面进行简单的搜索,更重要的是要实现包括古籍书目、书影、全文等包含信息的有效组织和整合,从而进行更为深入地挖掘阐释。

3.2.3 用户体验感差

如前所述,由于许多古籍收藏单位在古籍数字化工作中采取了各自的发布平台,因此造成了界面繁多、界面设计不够简洁友好等问题,影响了用户的体验,更为数据的兼容、整合、共享带来极大不便,此为其一。

其二,阅读繁琐。很多图书馆建设的古籍数据库,在用户浏览访问时会增加一些人为的限制条件。如有的需要注册账户(或需以读者证登录),操作麻烦;有的会提示没有阅读权限;有的受制于服务器问题,经常出现卡顿、网页无法访问等现象;有的需要下载安装阅读控件才能阅读。这些都背离了古籍全文数字化的初衷,使用户的满意度下降。

其三,许多数据库在元数据著录中没有考虑到古籍中异体字识别、繁简通检,及形近字的容错检索等细节,造成了检索结果的不准确、不全面。

3.3 数字化开放理念仍显不足

3.3.1 “重藏轻用”的观念依然存在

据笔者的调查发现,许多馆即使开展古籍数字化工作有年,但在数据发布时态度保守,只能在馆内局域网浏览,或只发布一小部分较为通行的古籍版本,有的馆还会采取降低分辨率、加设水印、采用黑白图片等限制形式。究其根本还是没有充分认识到信息时代古籍数字化工作的重要意义,重保护轻利用的观念根深蒂固。

3.3.2 宣传缺失

国家图书馆(国家古籍保护中心)曾先后4次举办了古籍数字资源的联合发布活动,得到了社会各界的热烈反响。但实事求是地说,普通民众的认知仍十分有限。此外,公众对于知识的获取主要来自于搜索引擎,而图书馆发布的古籍数字化资源,在搜索引擎上基本没有反映,不能不说极大影响了受众面,如以国家图书馆所藏宋刻《锦绣万花谷》为例。该书共9册已经在“中华古籍资源库”中可以全文阅读,但我们以“百度”来搜索,却查不到相关的信息,不得不说是很遗憾的事情。

3.4 古籍数字化建设经费不足

据笔者所知,古籍数字化的经费很多来自各省中心的古籍保护经费,并没有专项经费,资金投入不足对于中小型公共图书馆更为明显。此外,古籍数字化中的扫描设备、人员培训、数据库发布等,都需要一定规模的资金支持,这也对古籍数字化的规模、质量产生相当大的影响。

4 “十四五”时期古籍数字化协同发展路径

4.1 做好数字化工作的顶层设计

实施国家古籍数字化工程已经被纳入到“十四五”规划纲要之中,因此“十四五”时期,古籍数字化工作要从弘扬中华优秀传统文化魅力、彰显文化自信的国家战略层面来进行统一规划与协调。

古籍数字化既是复杂的工程,也是可持续发展的文化工程。项目的规划,涉及古籍版本的选择、古籍的用字、数据的加工、元数据的著录、发布、保存、安全等连续多个环节。“十四五”时期,应由国家相关部门牵头主导,从宏观角度统筹构建一系列统一规范的古籍数字化标准体系、工作体系和安全服务等体系。只有明确了数字资源的保护目标和标准规范,才能从源头上对古籍数字化工作进行控制[3]。

为避免工作的盲目性和重复化,古籍数字化工作可以实行项目制。各单位在古籍数字化的底本选择上,可充分利用“全国古籍普查登记基本数据库”和“国家珍贵古籍名录数据库”等古籍保护成果,根据版本存藏情况,结合各自馆藏特色,自行申报或跨地区联合申报古籍数字化课题项目,由国家古籍保护中心组织古籍界专家,发挥全国古籍部际联席会职能,对其进行价值评估和审核,最终形成”十四五”时期全国古籍数字化的目录清单,以便最大化地做到资源整合和组织协调。当然,工作中不能以“唯年代”作为选取的唯一标准,对于具有较高文献价值,或者利用率较高的古籍,即使不属于善本,也应酌情加入到数字化的目录中。

在古籍专项资金使用上,为了做到统筹规划、有的放矢,相关主管机构可以根据上述审定的古籍数字化目录来拨付古籍保护专项资金,根据项目的进度、质量、影响等方面来进行验收评价,以形成有力的政策保障,更好地保护古籍数字资源的绝对安全,形成品种完备、版本丰富、共享开放的古籍数字资源库。

4.2 实现共建共享

在做好顶层设计的基础上,古籍数字化工作还要摆正古籍的藏用矛盾,最终实现资源的共建共享和可持续发展。国内各古籍收藏单位可以互通古籍数字化数据,避免重复建设,补充数字资源馆藏,收集重要古籍的重要版本。

国家古籍保护中心在2014年以单一来源采购的方式购买了天津图书馆5300余种300万拍的古籍数字资源,目前该资源均可以在古籍数字平台上免费阅览[4]。国家图书馆先后与东京大学东洋文化研究所、哈佛大学燕京图书馆、法国国家图书馆和牛津大学博德利图书馆等合作,将各自所建设的中文数字化古籍纳入到古籍资源库中向读者开放。“十四五”时期,这种古籍数字化的国内外项目交流与合作应该继续加强。海外的中文典籍以数字化的形式回归,也可以学习国外古籍数字化工作尤其是资源开放存取、数据加工标准、统一检索、平台设计等方面的相关经验。当然,也应该做好数据的安全存储,绝对保证国家文化的安全。

4.3 构建聚合型的古籍数字化平台

古籍数字化应该充分发挥科技手段的重要作用。笔者认为,现有的技术足以实现对跨平台、跨类型的古籍数据进行识别、抓取,并不断优化算法,更好地满足用户的需求。古籍工作属于图书馆的传统业务,但随着科技的发展,以技术手段来推动古籍工作的迭代更新,已经成为必然趋势。图书馆界汇集了众多古籍、网络等方面的人才,更应该实施技术引领的发展战略[5]。

“十四五”时期的古籍数字化,应该融合“中华古籍书目数据库”的成果,纳入历史上有一定影响的官私目录、建国后所编纂的有影响的古籍工具书,如《中国古籍善本书目》《中国丛书综录》《中华古籍总目》等。加上已经数字化的各单位古籍,整合到一个可以实现统一检索、操作简单、界面友好、指向精准、一键直达的古籍数字化平台之中。类似于一些商业典籍数据库,“十四五”时期古籍数字化的建设也应该具备超文本的链接功能,以便将文献按照属性予以重新筛选和分类,寻求之间的关联性,以此获得知识发现,进而带动数字化与传统文化研究的不断深入。

4.4 社会化力量应积极参与古籍数字化工作

图书馆界在“内部合作”基础上,也应该进行“外部联合”,即积极借助于社会机构,尤其是与从事AI、数据库开发等科技公司和文化创意公司合作,利用其技术、人员、理念、营销等优势,进行资源整合,实现共建共赢。如近期的“汉典重光”数字化项目,就是由国家图书馆、四川大学、美国加州大学伯克利分校等国内外图书馆,联合阿里巴巴公益基金会合作开发的。其中阿里达摩院开发的AI古籍识别系统,据称可以规模化、系统化地对古籍书影进行识别,准确率达到了97.5%[6],这为公共图书馆今后的古籍数字化工作提供了有益借鉴。

4.5 打造古籍数字化人文平台

近年来,数字人文、关联数据、知识图谱等,正越来越多的地被应用到古籍数字化中。如上海图书馆的“中国家谱知识服务平台”“中文古籍联合目录及循证平台”、中南民族大学教授王兆鹏的“唐宋文学编年地图”等,都是数字人文的有益尝试。

“十四五”时期,公共图书馆应依托技术的不断变革,迎接挑战、抓住机遇,借助于庞大的古籍数字资源,联合图书馆界,发挥社会力量,构建一个基于大数据、云计算为基础的知识文化谱系,发现隐藏于古籍文本之间的深层信息、潜在价值、内部联系,实现“文化+科技”的融合。这不仅会为古籍数字化工作带来质的变革,更能推动古籍学科整体发展。

当然,在构建数字人文过程中,应避免哗众取宠和故弄玄虚,而是要培育古籍工作者的人文学术修养,将传统的人文科学方法与数字人文有效整合,这是避免数字人文产生弊端的最有效办法[7]。

4.6 人才培养

古籍数字化工作涉及到文献学、版本学、训诂学等多学科,数字化内容的选择,也需要具备较高的古籍知识。因此一方面要着力培养既懂古籍相关知识,也熟悉计算机网络技术的复合型图书馆人才;另一方面,“术业有专攻”,图书馆界和科技企业等各司所长,紧密合作,发挥各自优势。技术是形式,内容是核心,用更好的技术手段为更好的文献内容服务,做到工作的双赢[8]。

5 结语

古籍数字化不但很好地保护了古籍原件,还实现了数字资源的线上阅读,并藉此实现典籍的知识发现,打造古籍整理研究的新生态;古籍数字化,为古籍工作贴近生活、融入时代提供了更多的可能方式;古籍数字化,对于挖掘中华优秀传统文化内涵,增强文化自信和国家文化软实力等都意义重大。让古籍数字化工作更好地协同发展,是“十四五”时期公共图书馆责无旁贷的历史责任。