浅谈古籍数字化操作中的问题及对策
2016-09-23赵长波
赵长波
(辽宁省图书馆,辽宁 沈阳 110167)
浅谈古籍数字化操作中的问题及对策
赵长波
(辽宁省图书馆,辽宁 沈阳 110167)
古籍数字化是古籍再生性保护的重要手段。目前,古籍数字化的具体操作中存在着一定的问题,包括古籍数字化的硬件设备、古籍数字化人员不足以及古籍数字化扫描软件缺陷等。对这些问题进行了初步探讨,并提出相应的对策。
古籍 古籍数字化 再生性保护
古籍数字化是以保护和利用古籍为目的,利用扫描、拍照等技术手段,将古籍的文本信息转化为计算机识别的数字符号,进而揭示古籍文献中包含的信息资源的系统工作。由于古籍尤其是善本古籍的历史文物性,使得在我国大多数的古籍收藏单位都严格限制其原件使用。目前来看,古籍数字化是对古籍进行再生性保护的重要手段之一,包括商业数据公司、图书馆系统和一些科研机构,近年来都进行了卓有成效的工作,取得了丰硕的数字化成果。同时,古籍数字化也成为近年来学界研究的热点问题。在中国知网上仅以“古籍数字化”来搜索相关的论文即有近千篇之多,相关的著作包括毛建军的《古籍数字化理论与实践》与王立清的《中文古籍数字化研究》等。这些论著对古籍数字化的各方面几乎都有涉足,但美中不足的是,对古籍数字化实际操作中存在的问题和应该采取的对策,却鲜有论述。笔者近年来一直从事古籍数字化的相关工作,在实践中对一些相关问题深有体会,现不揣鄙陋,对古籍数字化具体操作中存在的问题进行初步探讨,以期抛砖引玉。
1 古籍数字化操作中存在的问题
1.1 操作设备未能尽善尽美
1.1.1 操作平台设计不足,现有扫描模式效果不甚理想
古籍数字化操作平台是进行古籍数字化的主要硬件。从全球范围来看,真正做到完全符合古籍数字化各项标准的操作平台几乎没有。以辽宁省图书馆为例,该馆现有善本12万余册,目前只有一台专业的德国Bookeye4自动书刊扫描仪扫描的书影能够达到国家古籍保护中心的要求。Bookeye4扫描仪可以说是目前进行古籍数字化较为高端的设备,但其操作平台最大只可以扫描A2幅面,对一些大型地图和篇幅较大的古籍只能先分段扫描,后期再进行整理拼接,拼接后的书影容易与一次扫描的书影有出入,并且费时费力。
Bookeye4扫描仪具有“V”型扫描和书籍折叶修正扫描等模式,但这两种模式扫描后的书影效果并不理想,达不到国家古籍保护中心规定的原始书影采集标准,只能改用平面压板式扫描。这种扫描方式需要使古籍左右两页基本处在同一水平线上,为了达到这一要求,要在薄的一页后面进行垫板(如图1所示)。由于操作平台不具备升降功能,导致有些古籍还需要在书脊下垫板,在调整古籍位置时垫板很容易滑出,如果是稍微滑出一点,在图像放大时才能看清,后期质检时发现这样的书影就要返工重新扫描(如图2所示)。更主要的是,操作人员要经常接触古籍,极易对古籍造成二次破坏。此外,目前使用的普通钢化玻璃板用久会产生划痕,并且因为是手动翻板,一般扫描4到5幅书影就要对玻璃板进行清理、擦拭,无疑会影响到扫描速度。
图1
辽宁省图书馆目前新购入的一台德国Bookeye3扫描仪(正在调试阶段),虽然操作平台具备了升降功能,并且标配了水平压稿玻璃,但经过反复调试后仍有两个无法解决的问题:一是由于该扫描仪的光源是从两侧偏上打入,扫描完成后的书影中缝处有一道明显的黑影(如图3所示),古籍越厚阴影越明显;二是对黑色或者深蓝色的古籍封面、封底无法识别。针对这两个问题,笔者专门与国家古籍保护中心的老师进行了沟通,认定此款扫描仪扫描成型后的书影达不到国家古籍保护中心的要求。
图2
图3
1.1.2 扫描仪的操作环境仍需改善
由于受自然光照环境的影响,使得扫描的古籍书影有时会出现偏色和色彩分布不均等情况(如图4所示),从而影响扫描效果,需要经常反复加工、多次扫描才能达到要求。
图4
1.1.3 存储空间不足
设备存储空间不足也是操作中存在的问题之一。扫描后的古籍书影基本都是以TIFF无压缩图像进行存储,每个书影在后期加工处理前都在100MB左右,这样算来,每人每天扫描的图像数据容量在10GB左右,占用的空间相当大,经常出现电脑空间不足,即使是将扫描好的书影剪切到移动硬盘或者其他磁盘上,复制速度较慢,同时只能是以点对点的形式进行保存,很容易造成数据丢失,对数据安全造成隐患。
1.2 古籍数字化人员严重缺乏
现阶段,辽宁省图书馆从事古籍数字化扫描工作的人员很少,从笔者与其他省市公共图书馆员的沟通来看,或多或少都存在着这样的问题。这就导致古籍数字化人员的工作量特别大,从前期整理、原始书影采集,到后期纠偏裁切、元数据著录等都由一名同志完成,在不包括元数据著录的情况下,每人每天最多只能处理100幅书影左右,大大影响了扫描速度,而且容易造成漏扫、多扫与重复扫描等问题。
1.3 操作软件存在缺陷
Bookeye扫描仪所自带软件虽然经过多次升级,但仍然没有完全汉化。此外,软件的默认设置参数比较混乱。比如:每次扫描设置好的分辨率400DPI、TIFF无压缩格式、平面扫描、矩形裁切等参数无法保存,扫描不同部古籍时默认参数每次都不一样,有时其他参数不变,只将TIFF无压缩格式变成TIFF-G4,或者只将TIFF格式变成PDF格式等等,一不小心就容易出错,所以每次打开软件都需要重新设定参数。同时该软件裁切和倾斜校正参数不完善,无法精确设置留边1CM,也没有大批量处理功能,需要利用其他软件逐幅书影进行纠编和裁切,给书影的后期加工处理增加了难度。
1.4 古籍元数据著录尚有不明确之处
在填写《文献整理登记表(各卷)》中,叶数一栏的规定是阿拉伯数字。除封面、前护、后护、封底单独统计叶数外,各卷叶数均在此填写。但如果上一卷卷末和下一卷卷端在同一页上则没有明确的规定(如图5所示),容易造成卷次叶数统计混乱。
图5
2 做好古籍数字化扫描工作的对策
2.1 改善操作环境,加大设备投入力度
应提供专门的古籍数字化加工场地,改善古籍数字化的工作环境;在购入扫描仪时,操作平台应满足不同尺寸古籍扫描工作的需要;操作平台最好是能够具有升降功能的电动书稿台;要带有平面透明电动压稿玻璃;扫描仪的光源要与德国Bookeye4一样从正上方打入;对深颜色能够完整识别等,尽量使操作人员减少接触古籍的次数;加大计算机自带硬盘的存储空间,最少需要1TB才能保证整部古籍的扫描不间断。
2.2 加强古籍数字化人才队伍建设,提高人员的整体素质
2.2.1 古籍数字化是一个人力密集型的行业
以国家图书馆数字方志扫描项目为例,若要求每天扫描10000叶,需配置项目经理1人,古籍编目专家1人,软件工程师1人,设备维护工程师1人,数据加工人员共分4组,前整理组4人,图像采集组8人,图像处理组12人,图像质检组4人,目录标引组3人,这样才能保证图像数据加工的数量与质量。目前按照辽宁省图书馆的标准,最少需要配置前期整理1人,图像处理两人,图像质检1人,元数据著录两人,才能保证图像数据加工的质量。
2.2.2 提高古籍数字化操作人员的整体素质
古籍数字化操作人员必须由事业心、责任心强的同志担任,因为扫描的古籍许多已经入选《国家珍贵古籍名录》,其中不乏宋元精品。所以要求操作人员必须严格按照相关规定要求进行数字化加工,强化个人素质和职业道德的修养,进而提高古籍数字化队伍的整体素质,同时这也是古籍数字化不可或缺的,因为一名高素质的操作人员直接关系到古籍数字化的质量。
2.2.3 加强古籍数字化操作人员的业务培训
古籍数字化需要有较强业务能力和综合素质的人才。为此,需要进行相关的人员培训。其中既要包括与数字化加工相关的技能培训,如扫描、拍照、图像处理等,也包括古籍基础知识、古籍版本鉴定、古籍普查、古籍修复及古籍元数据著录等知识培训。
在培训方式上,可以采取“请进来,走出去”的方式。“请进来”即请国家古籍保护中心或者相关的专家实地对数字化加工中存在的问题进行指导;“走出去”即指派操作人员参加由国家古籍保护中心举办的各类古籍培训班,为以后的人员管理、文献管理、数字化加工业务管理打下良好的基础。
2.3 进一步完善扫描设备的操作软件
古籍数字化设备供货商要多征求古籍数字化实践人员的意见,定期对软件进行更新升级,如将设置参数固定化,避免重复设定,将图像裁切和校正参数进一步完善,增加批次处理功能等;要根据用户需求完善扫描硬件的配置,如能否将现有操作台添加升降功能和配备高质量的水平压稿玻璃等。只有这样,才能更好地提高古籍数字化扫描效率以及书影质量。此外,应该利用微信等形式,随时与用户进行沟通,不断予以改进。
2.4 明确元数据著录各项表格的填写
元数据著录具有多样性、复杂性和不规范性,是一项要求很高的工作,它需要操作人员既要懂得古籍整理相关知识,又要精通计算机操作,著录时更要细心,耐心,有不明确的地方要及时向有关专家请教,也可以通过网络、电话等方式与国家古籍保护中心的老师沟通,尽量保证元数据著录的准确。
3 古籍数字化展望
古籍数字化是一项系统工程。目前来看,日本、中国台湾等国家和地区都已取得了令人瞩目的成绩。2007年“中华古籍保护计划”实施以来,建立“中华古籍数字资源库”是其中的重要内容。按照“统一规划、统一标准、合作共建、资源共享”的原则,以及“边建设边服务”的宗旨,通过中国古籍保护网将古籍数字化成果向全社会提供服务,而古籍数字化也必将迎来发展建设的历史机遇。
[1]康尔琴.我国古籍数字化建设探析[J].图书馆学刊,2010(6).
[2]刘伟红.中文古籍数字化的现状与意义[J].图书与情报,2009(4).
赵长波 男,1981年生。本科学历,助理馆员。
G255.1
2016-04-11;责编:徐向东。)