浅谈山西博物院古籍文献再生性保护工作实践
2022-08-16肖君
肖君
(山西博物院古籍保护部,山西 太原 030024)
0 引言
古籍是对中国古代书籍的总称。其内容主要为收录、论述中国古代的传统文化,并以中国古代传统的著作方式撰写,具有中国古代图书传统的装帧形式。从广义上讲,1911年以前出版的所有书籍、典籍都可视为古籍。古籍还有孤本、珍本、善本的区分。其载体是非常丰富的,经过数千年的演变,已经由岩石、竹简、锦帛等逐渐过渡到现在轻便且利于保存的纸张书籍。同时,古籍文献的价值也是多样的,其体现的文化内涵是中国古代人民集体智慧的结晶;其版本、版式、印刷技艺也有很高的研究价值,对于深入了解历史文化和语言文字都具有极其重要的意义。
然而,由于长久以来自然因素和人为因素的作用,流传至今的诸多古籍文献保存状况不佳,不仅不利于使用,更不利于保护、整理与研究。因此,各大图书馆、博物馆另辟蹊径,提出了既能延长古籍使用寿命,又能发挥地域及馆藏特色的再生性保护。
1 山西博物院古籍文献的馆藏特色及再生性保护的必要性
山西博物院前身为山西教育图书博物馆,成立于1919年,主要负责征集和保管博物馆各类的藏品,其中就包括古籍图书,数量颇为可观。但是,战乱原因导致这批古籍散佚非常严重。直至五十年代,图书馆与博物馆“分家”,很多珍贵的善本才辗转留在了博物馆中。另外,又通过收购、接受捐赠等方式,陆陆续续征集到7万余册的古籍文献。这就造就了今天的山西博物院不仅具有悠久的历史文化,还拥有丰富的馆藏资源。2008年山西博物院被评为第一批国家古籍重点保护单位,2009年被评为山西省第一批古籍重点保护单位。
现在的山西博物院拥有10万余册的古籍文献资料。善本600余种、5000余册,涵盖了刻、写、稿、抄、印等多个版本,不乏珍本、善本。普通古籍的数量,也占馆藏的90%以上,以包背装和线装为主。可以说,山西博物院藏古籍数量之多、珍本之丰,在全国也是翘楚。
不难看出,这批古籍不管在内容、版本,还是艺术形式上都具有很高的价值。但是,从保存现状来看,经过这么多年的辗转收藏,在不同程度上,院藏古籍都出现了书页变色严重、污斑、书衣破损等现象,有些古籍甚至还有相当严重的脆化情况。由于纸张易碎易折,工作人员在翻看古籍和拍摄书影的过程中,虽然小心翼翼,还是不可避免地造成了书口缺损、书页开裂及装帧线断裂等状况。基于这些情况的出现,从保护的角度出发,山西博物院对部分古籍进行了日常的保养与修复,并在制度层面,采取“双人双锁”入库制度,非必要不得进入,对古籍库房进行了严格管理。此举措有效地保护了古籍图书,但也为研究、利用设置了障碍。古籍保护和利用之间的矛盾日益凸显。因此,为了真正让沉睡的古籍“熠熠生辉”,山西博物院经过多次的讨论与利弊分析,最终决定将古籍再生性保护作为古籍保护的重要举措列入博物馆发展的长期规划中。
在此,笔者首先提到古籍保护的两个有效途径。一是原生性保护,博物馆正在践行的,即对古籍进行修复、加固和对古籍库房环境的必要改善。二是再生性保护,也是博物馆最需要付诸行动的,通过现代技术、数字化手段将古籍内容复制或转移到其他载体上,避免古籍利用的二次损坏。其次,笔者提出再生性保护最为重要的手段:古籍的数字化。所谓古籍数字化,就是利用三维激光扫描仪和图像识别技术,精准地将古籍文字内容转化成为电子文本。它不仅降低了人工录入出错的概率,还能够通过互联网与世界共享,达到馆藏文献资源惠及他人的目的。这是古籍与现代技术的完美结合,既能解决保护与利用之间的矛盾,又能为将来馆际间古籍数字资源的共享打下基础,让博物馆工作人员把更多的时间和精力投入古籍整理、保护与研究的更高层面。因此,古籍数字化势在必行。
于是,山西博物院借鉴了很多有关单位,诸如国家图书馆、上海博物馆等大型先进图书馆、博物馆的成功经验,综合考虑本院特色古籍的管理方式,与北京汉王科技有限公司合作,开展了数期数字化保护项目。并制定了古籍加工过程中相关的操作制度,规范了在古籍领取、古籍整理、古籍扫描、扫描质检、图像处理、OCR识别校对、成品验收、数据备份等方面的工作流程,在整个工作环节中保证古籍及其信息的安全性,确保了每期数字化的顺利完成。现将具体工作经验分享给大家,以求共勉。
2 山西博物院古籍文献数字化保护工作实践
2.1 古籍领取
古籍出库:在数字化工作开展期间,为确保古籍文献的安全,山西博物院仍然保留了“双人双锁”的入库制度及现场人员轮班制度,专人负责古籍拿取、监督、紧急情况处理及确认归还等工作。古籍扫描前,按古籍出库流程进行登记,记录古籍序列号、册数、页数、纸张大小以及完残程度等原始状况,经两位古籍保管员和扫描提书人员双方签字确认后,形成规范的登记目录。根据数字化工作进度,领取频次为每天领取。一天工作结束后,古籍全部核对清点无误后,方可入库。
2.2 古籍整理
为确保数字化质量,在扫描之前,对古籍的物理形态、古籍的质量、古籍的可读性进行检查,无问题的进入下一道环节,有问题的记录问题作报告。对古籍进行逐页清点,包括古籍的封皮、封底、正文页、浮贴、夹条的页数都要一一记录。检查及统计古籍内容的完整性,详细检查有无缺页、漏页破损、残缺等情况,是否需要添加衬纸,同时整理及检查古籍内容的页数、顺序,对照目录逐条记录;要对纸面进行平整处理,消除折角、皱褶及遮字等现象,确保古籍文献的扫描质量。山西博物院要求汉王科技工作人员在古籍整理中必须佩戴手套,整理过程中轻拿轻放轻翻,以古籍安全为第一位。
2.3 古籍扫描
古籍扫描选用非接触式快速扫描仪设备(图1)。根据实际情况会先对古籍页面进行平整、除尘等处理,以保证扫描效果。并确认扫描参数是否正确。确认完毕后,方可正式扫描。古籍扫描时需要给原书卷端添加色卡和标尺,并且每册古籍最后要单独对色卡进行扫描。古籍资料扫描采取逐拍扫描方式,依照扫描规格进行数字加工,按照命名规则命名图像文件。扫描工作完成后,会再次整理及清点古籍资料,并上传加工端进行扫描质检。扫描完成的古籍及时清点归库。图像采用原始TIFF图像,分辨率600dpi以上。山西博物院要求扫描不得有漏扫、多扫、页码顺序颠倒等情况发生,保证图像内容完整。扫描页面清晰、无扭曲、变形等现象发生,无脏点、脏斑,黑点、黑线、黑框、黑边等污渍出现。最终形成双层PDF文件。
图1 古籍扫描
2.4 扫描质检
为保证古籍资料无缺、漏、残现象发生,山西博物院要求必须逐册逐页对古籍资料进行全检。扫描质检过程中戴棉质手套,特别注意轻拿轻放,不能对古籍资料造成任何人为损坏。详细质检项如下:古籍扫描有无缺页、倒页、漏号、重号、错号等不规范现象;检查图像分辨率,命名是否符合标准;有无存在倾斜、压字、折角、异物、透字和露字等情况,扫描明暗度、对比度是否最佳,是否与原件效果吻合。不符合要求的要打回扫描工序进行返工处理。质检结束后,会将衬纸撤出。撤出衬纸时务必小心操作,不得损坏古籍。质检结束后,将质检完成的图像,上传至服务器质检文件夹内。
2.5 图像处理
根据山西博物院的要求,扫描后的图像文件需经过页面纠偏、去影像黑边、影像拼接等图像处理程序。图像处理后进行自我检查,先与扫描记录单核对页数是否完整。使用影像进行图像质检逐册逐拍检查图像文件,详细质检项如下:检查图像完整性、偏斜度、清晰度、失真度、图像畸变等;检查古籍漏扫、多扫等情况;检查图像文件的排列顺序与古籍原件是否一致或是否符合文种要求的扫描顺序;检查图像文件命名是否符合规范要求;检查图像文件与实际目录是否相符。对于图像文件质检不合格部分进行返工、修改。最终处理后的图像分页按实际页展现,无颜色失真,满足图像利用效果(图2)。
图2 图像处理前后对比
2.6 OCR识别校对
对获取的古籍图像,根据版面布局、内容会先进行分析理解,然后采用OCR技术对文字进行数码识别转换,识别繁体印刷体、刻版图像、规范手写图书等内容。全文识别采用的“机器+人工”方式,能够OCR识别的进行OCR识别,OCR识别质量不好的,进行人工校对,这种“机器+人工”的方式可以发挥机器和人的最大优势,大大提高了文字的准确率。最后还会由山西博物院方专业人员进行审核,再次确保识别校对的准确性。
2.7 成品验收
完成所有既定古籍的数字化加工后,山西博物院对所有古籍原件、数字化加工后的图像数据进行了质量抽检。遵循古籍原件100%不丢失,数据要求图像清晰、亮度适中、无黑边、图像不偏斜的原则,对抽检的每一本古籍进行了严格的核查。确保每一页图像资源的技术参数(包括色彩、分辨率、格式)100%达标;古籍原件除确认无法扫描的外,100%不漏扫;需要进行重扫、补扫,完成率为100%;图像质量参照图像处理要求,完好率≥99%;图像数据文件夹排序、命名正确率100%。
2.8 数据备份
经验收合格的完整数据信息,山西博物院与汉王科技工作人员交接后,进行了及时备份。备份数据主要包括能否打开、数据信息是否完整、文件数量是否准确等。山西博物院对备份好的数据都做了标记,便于以后的查找与管理,还就具体出现的其他问题通过协商的方式得到了及时的解决。经过院方验收合格的扫描TIFF图像和处理质检的JPG图像,以及双层数据图像由汉王科技备份至服务器和存储介质。PDF文件通过扫描录入后,经过去污、纠偏、OCR识别,辅以人工校对,最终生成上层是原始图像,下层是识别结果,可以检索的双层PDF文件。这样形成的图像既可以100%保留原始版面效果,又便于建立数字资源库,进行科学的管理。
2.9 古籍数字资源库平台的建立
博物馆是一个集征集、典藏、陈列和研究于一体的综合性非营利机构。古籍文献作为博物馆藏品的重要组成部分,是非常珍贵的学术宝库。所以,古籍数字资源库的建立对山西博物院再生性保护具有十分重要的意义。根据山西博物院的要求,汉王科技通过数字化加工的方式将院藏古籍文献内容转换为图像数据和全文精加工数据,搭建起了古籍图像数据库和全文识别数据库等数字资源库平台。
该平台集内容检索、书影浏览、辅助研究等功能于一身,预计会先向院内职工提供在线阅览、检索查询及部分资源共享的服务,使馆藏古籍得以展示和利用。后期会陆续对古籍资源库进行升级和改造,以达到与其他博物馆相适配的目的。未来将逐步实现院古籍数字资源平台对外适合管理、方便阅览、易于检索和辅助利用等功能,为最终实现资源共享做好充分准备。
3 结语
在《山西博物院古籍善本书目》序言中,李致忠先生提出:“对待古籍藏品,凡属善本,皆以文物相待,是博物院(馆)共同的看法和做法。而一旦成为文物,就要跟其他文物一样,深栢地宫,轻易不能为人所用。从保护的角度讲,无可厚非;从研究的角度讲,无论院(馆)内外,都可能要受到不同程度的制约,这大概是包括博物院(馆)人在内的普遍感受。”李先生也是希望诸如我们这样收藏有典籍文献的博物馆,悉心整理,揭示馆藏,真正让古籍上的文字“活起来”。因此,笔者认为利用扫描、拍照等再生性保护技术手段将纸质的古籍文献,转化为计算机识别的电子数据,建立起庞大的信息资源数据库,形成资源共享,增进各个图书馆、博物馆之间的交流与合作,最终帮助到更多有需要的人。这才是真正的“活起来”。
目前结束的两期数字化保护项目,山西博物院共完成3000余册古籍的逐页扫描,500册全文精加工。笔者认为这是山西博物院古籍再生性保护的重要成果,也为今后古籍文献整理的延伸、发展与创新奠定了基础;而数据库平台的建立,将为实现数字资源的共享起到强有力的推动作用,最终能够惠及更多热爱中国古代典籍与文化的人。