江西省珍贵古籍数字化项目案例分析
2018-01-29张小燕
张小燕
(江西省图书馆 南昌 330046)
古代典籍是中国历史文化遗产最为重要的物质载体。从前,古籍收藏单位注重古籍整理和保护,随着现代信息技术的发展,各古籍收藏单位开始对古籍进行数字化加工、整理以便专家学者研究利用。那么,什么是古籍数字化?简单来说,古籍数字化就是利用扫描仪、照相机等设备将实体古籍转换成电子数据,接着利用现代计算机技术对电子数据进行整理与发布,形成一个庞大精深的连续性、开放式的古籍数据库,供大众进行海量信息查询、字词频分析,使古籍的阅读、翻检大为便利,提高专家学者研究古籍的工作效率[1]。古籍数字化的意义有:一是解决了古籍善本藏和用的矛盾;二是有利于地方古籍文献的保护;三是有利于地域文化的建设;四是能为科研工作提供有效服务。
江西古称文献大邦,存世典籍浩如烟海。作为全省规模最大、藏书最多的综合性公共图书馆,江西省图书馆以古籍珍善本特色藏书著称,是国家古籍重点保护单位。古籍数字化是江西省图书馆古籍保护的一项基础性工作,从2003年开始建设书目数据库到现在建设全文数据库,江西省图书馆一直致力于保护和利用好赣鄱大地上的珍贵古籍,继承和发扬传统文化,提升江西文化软实力。2015开始,江西省图书馆开始实施江西省珍贵古籍数字化项目——“江西珍贵古籍数字资源库”的建设。
1 江西省珍贵古籍数字化项目建设背景
20世纪80年代,台湾“中央图书馆”率先开始建立古籍书目数据库。该数据库可以提供题名、作者等多种查询途径。辽宁省图书馆是大陆地区最早开始建立古籍书目数据库的公共图书馆,于1997年建成“普通古籍书目数据库”,录入数据3万余条[2]。1999年,中国大陆最大的古籍收藏单位国家图书馆在古籍书目数据库方面做了一些探索。紧接着,我国图书馆界开展了如何建立古籍书目数据库的热烈讨论和实践,上海图书馆、浙江图书馆、山东省图书馆、南京图书馆等公共图书馆纷纷开始建设书目数据库[3]。90年代末开始,随着古籍数字化相关技术的发展和成熟,我国公共图书馆界古籍数字化又向前迈进了一大步,各地公共图书馆在古籍书目数据库建设的基础上,开始进行古籍全文数据库建设[4]。古籍全文数据库有三种模式,一是图像模式,二是文字模式,三是图文模式。图像模式是利用电子扫描技术将古籍以图片的格式存入数据库,这种模式可以保持古籍的原貌,处理技术相对简单,一般可进行书目检索;文字模式是图像模式的升华,在提供古籍原貌图片的同时还提供古籍全文的文字版,可以对古籍内容进行检索,实现精确查找;图文模式是图像模式和文字模式的结合,既可看古籍原貌,又可进行内容检索[5]。
虽然大陆地区古籍数字化起步晚,但由于国家重视,近十几年来发展迅速。国家有关机构最早提到古籍数字化是2006年4月,全国古籍整理出版规划领导小组制订的《国家古籍整理出版“十一五”(2006—2010年)重点规划》提到“运用现代技术,开展古籍数字化、影印出版和缩微工作,促进古籍的有效利用”[6]。2007年1月,国务院办公厅下发《关于进一步加强古籍保护工作的意见》,其中明确要求制定古籍数字化标准,规范古籍数字化工作,建立古籍数字资源库。2011年8月,文化部发布《关于进一步加强古籍保护工作的通知》,要求加快古籍的数字化建设。
在一系列政策的支持下,我国公共图书馆界更加重视古籍数字化,相关工作开展得如火如荼,古籍数字化逐步走向规模化、规范化、成熟化。2012年5月22日,由文化部主办,国家图书馆、国家古籍保护中心承办的“全国古籍数字化建设与服务工作研讨会”在北京召开,国家图书馆相关负责人和各省、自治区、直辖市省级图书馆馆长及有关专家出席研讨会,就全国古籍数字化合作服务机制、国内外古籍数字化保护利用、古籍数字化成果共享方式和古籍数字化标准规范等问题进行了充分讨论[7]。在国家政策的扶持下,全国性古籍保护工程“中华古籍保护计划”正式启动,在此框架下,国家图书馆(国家古籍保护中心)联合各省级公共图书馆古籍保护中心共同开展了“全国古籍普查基本数据库”“中华古籍数字资源库”“国家珍贵古籍名录”等的建设。近几年来,数字人文在古籍数字化资源深度开发利用中的应用不断被提及,古籍数字资源库正在发生从只能达到基于字符匹配的全文检索层次到从概念或知识层次对文献进行挖掘利用的转变[8]。目前,国家图书馆、上海图书馆、天津图书馆等联合在线发布全文古籍数字资源,资源量在我国公共图书馆界位列前茅。国家图书馆发布了1.7万部古籍,上海图书馆发布了6 000种家谱,天津图书馆发布了1 000部古籍[9],而江西省图书馆全文古籍数字资源是空白。据统计,江西省古籍总藏量100万余册,其中善本8万余册,分散收藏于文化、文物、教育、科研和档案等不同行业和系统[10]。由于人才匮乏、经费不足、环境污染等问题,一些珍贵古籍破损严重,其整体保存情况令人忧心。为了做好古籍保护工作,开发古籍的文献价值,填补古籍全文数据库的空白,缩小与外省公共图书馆古籍数字化成果数量的差距,2014年10月,江西省委宣传部下拨专项资金开展江西珍贵古籍数字化项目建设工作。2015年1月,在江西省文化厅的统一部署下,按照统一规划、统一标准、合作共建、资源共享的原则,由江西省图书馆牵头组织全省各有关古籍收藏单位共同实施,江西珍贵古籍数字化项目——“江西珍贵古籍数字资源库”的建设工作正式拉开了帷幕。
2 江西省珍贵古籍数字化项目案例分析
2.1 “江西珍贵古籍数字资源库”的建设内容
“国家珍贵古籍名录”数字化是“中华古籍保护计划”工作的一部分,是为了建立完备的珍贵古籍档案而开展的,由文化部拟定,报国务院批准后公布的一份名录。从2008年3月1日第一批《国家珍贵古籍名录》公布到2016年5月24日第五批《国家珍贵古籍名录》公布,我国已公布国家珍贵古籍名录12 274部[11],收录范围是1912年以前书写或印刷的,以中国古典装帧形式存在,具有重要历史、思想和文化价值的珍贵古籍[12],是最具代表性的中华民族典籍文化遗产。江西省古籍入选国家珍贵古籍名录的共有125部[13],包括宋王安石撰,宋绍兴二十一年两浙西路转运司王珏刻元明递修本《临川先生文集》;宋欧阳修撰,宋庆元二年周必大刻本《欧阳文忠公集》;宋欧阳修、宋祁等撰《唐书》225卷;宋郑樵撰,元大德三山郡庠刻本《通志》;宋司马光撰,元胡三省音注,元刻本《资治通鉴》;明金幼孜撰,明金昭伯编,明成化四年金昭伯刻明弘治六年重修本《金文靖公集》;宋黄庭坚撰,明弘治叶天爵刻嘉靖六年乔迁、余载仕重修本《豫章黄先生文集》;元马端临撰,明嘉靖三年司礼监刻本《文献通考》;明林庭修,周广撰,明嘉靖四年刻十七年增修三十八年递修本《江西通志》;宋文天祥撰,明嘉靖三十一年刻本《文山先生全集》;明宋应星撰,明崇祯间自刻本《宋应星四种》;明泥金写本《太上洞玄灵宝无量度人上品妙经》。这些古籍都具有重要的文学价值、史学价值和版本价值,还有很多古籍具有极高的艺术价值,堪比孤本,属稀世珍品。为了保护和传承江西这些极其珍贵的古籍资源,“江西珍贵古籍数字资源库”根据珍贵性、地方性、系统性原则,选择了江西入选国家珍贵古籍名录的116部古籍文献作为建设对象。
2.2 “江西珍贵古籍数字资源库”建设流程
2.2.1 数据采集
为了最大限度保护古籍,江西省图书馆在开展“江西珍贵古籍数字资源库”建设前,对市面上主流的专业古籍扫描设备进行了对比研究,选择了对古籍文献没有损伤的德国BOOKEYE非接触式线性CCD书刊扫描仪BOOKEYE4 A1 A2 A3生产型,满足A1—A3幅面的扫描需求。在确保古籍文献安全的前提下,江西省图书馆分阶段、分批次对古籍进行扫描,将其转换成数字图像。数据采集过程严格按照国家古籍保护中心2014年版的《古籍数字化工作手册》来执行[14]。
江西珍贵古籍页面主要有筒子叶、半叶、双半叶等类型,根据这些珍贵古籍实际的物理状态,“江西珍贵古籍数字资源库”的建设选择双半叶进行图像采集,数据采集扫描参数设置为彩色扫描色深24,光学分辨率600DPI,输出TIFF格式图像文件保存。在数据采集过程中注意防护光源,避免透光或反射光的影响。线性扫描后的图像清晰,采集到的图像文件色彩平衡,页码连续,没有重页、缺页,错页、折页等情况。
2.2.2 图像加工
清晰完整的古籍再现,是古籍数字资源库的建设重点,对图像文件进行后期处理得好与坏,直接关系到古籍数字资源库的建设质量和读者的阅读体验。因此,江西省图书馆对图像加工环节进行严格把控。在“江西珍贵古籍数字资源库”建设过程中,江西省图书馆使用PHOTOSHOP软件对图像文件进行后期加工。在图像加工过程中,江西省图书馆在未改变原扫描图像分辨率、色彩、格式等情况下对方向不正确的图像进行旋转还原,消除了书脊中缝阴影,对图像进行纠偏处理、图像拼接、去污处理等。
纠偏处理。数据采集过程中因为操作者没有将古籍放置平行整齐导致扫描出来的图片出现倾斜,需要后期进行纠偏处理,使版心居中,页面端正。
图像拼接。图像拼接在版面较大的古籍文献数字化过程中较为常见,一般线装书不需要拼接,它们页面图像幅面大多在A2内,而经折装、卷轴等装帧形式的古籍文献扫描出来的图像均需拼接。图像拼接的好处是可将分次扫描出的图像文件整合在一起,展现古籍原貌,方便读者阅览。
去污处理。古籍文献经过扫描得出的图像文件一般不对内容进行修改,通常尽量展现古籍的原貌。但古籍文献在扫描时,通常会因为空气中的灰尘、古籍脱落的纸屑等掉在扫描平台上,使图像文件产生黑点或阴影,严重影响古籍图像的美观和阅读效果。因此,需要对图像文件进行去污处理,将古籍页面上不存在的污点进行消除,使得页面整洁清晰。
裁切和水印处理。由于扫描出的图像文件容量较大,在保证古籍内容完整的基础上,对图像文件进行纠偏、拼接、去污等一系列加工后,还要对较宽的页边距进行裁切。因“江西珍贵古籍数字资源库”建成后将在互联网上对读者开放,为防止恶意下载和商业牟利,江西省图书馆在图像加工时进行水印处理,将江西省图书馆的馆徽添加到页面中,其颜色与页面颜色统一,不影响古籍阅读。
图像命名。图像文件命名需要科学规范,显示完整路径,区分其唯一性。“江西珍贵古籍数字资源库”命名规则如下:加工记录标识号(8位)+古籍册号(4位)+图像文件顺次号(4位)。其中,加工记录标识号(8位)由国家图书馆给的单位代码(1901)和古籍数字化流水号(4位)组成;每部古籍有多册实体,古籍册号每册命名为4位数字,从0001开始,依次按流水号命名;图像文件顺次号是以册为单位进行数字化,从古籍封面、前护、正文、后护、封底等依次加工。
2.2.3 元数据著录
古籍元数据的著录是古籍数字资源库建设的基础,只有拥有统一结构的古籍元数据,各古籍数字化单位的古籍数字化成果才能实现共建共享。国家图书馆(国家古籍保护中心)建议全国各公共图书馆按照2014年修订的《古籍数字化工作手册》中元数据著录规范来进行元数据著录。《古籍数字化工作手册》规定的著录内容包括文献整理登记、描述元数据、管理元数据,著录字段包括加工记录标识号、名录号、普查编号、书目记录标识号、索书号、分类、题名、卷次、责任者、版本、册数、板框、版式、合订状态、装帧形式、批跋、馆藏单位、制作单位等。规范元数据的著录,是建立数据库的基础,是进行数据标引和数据关联的前提,是数字资源库实现信息检索和知识挖掘的关键。为了将来能和各级公共图书馆实现数据共建共享,江西省图书馆在“江西珍贵古籍数字资源库”的建设中,按照《古籍数字化工作手册》元数据著录要求对古籍提名、卷次、责任者、版本、页码等各字段进行了客观详细的描述,以便后期生成一个规范化、标准化、结构化的古籍资源关系数据库,实现智能检索、排序、数据挖掘等功能。
2.2.4 数据发布和利用
江西省图书馆借鉴国家图书馆(国家古籍保护中心)古籍建库经验和标准,依托计算机互联网大数据技术服务平台,对珍贵古籍数字资源进行整合,最终建成“江西珍贵古籍数字资源库”。通过古籍数字资源共享和发布平台,实现了江西省全省古籍数字资源整合、信息发布,为读者提供资源检索、信息查阅和古籍专题研究服务。
服务架构。“江西珍贵古籍数字资源库”采用B/S多重结构模式建设。与传统C/S结构相比,B/S模式具有分布式的特点,不受客户端不同操作系统的影响,只需在图书馆搭建好服务器,安装SQL标准化数据库,即可通过浏览器随时随地访问古籍数字资源服务,方便提高图书馆数字化古籍资源服务的广度和深度,使更多读者获取自己所需的数字资源。
云平台。云计算技术已经成为图书馆不可缺少的技术之一。它提供的模拟计算机系统,可动态配置内存、CPU、硬盘,随时搭载不同操作系统,充分发挥出数据库的性能,使资源得到充分调度,也使管理者能快速搭建平台,提供系统的运行环境,并可对各个系统进行统一管理、维护。“江西珍贵古籍数字资源库”采用分布式云化技术、服务器端采用Windows系统、.NET环境语言,创建了拥有强大的稳定性、兼容性、安全性和灵活性的分布式古籍数字云平台。
数据分发。古籍数字资源的特点决定了古籍数字资源库必然是拥有海量的数据。数据分发服务DDS由对象管理组织(OMG)制定的分布式实时网络中间件技术规范,它遵循了HLA及CORBA标准。DDS强调以数据资源为核心,采用发布/订阅总分体系架构,提供了丰富的数据访问服务质量策略,能保障古籍数字资源分布式管理标准,对数据源进行实时、高效、灵活地下发,可响应各种分布式实时服务需求。数据分发服务DDS采用的分发中间件是一种轻便的、能够提供实时信息传送的中间件技术,这种技术有效支撑了古籍大数据服务,多异地同步构建分发的需求。
前端展示。“江西珍贵古籍数字资源库”前端展示平台采用ASP.NET技术,创建后缀名为ASPX的动态Web页面文件。ASP.NET是一个开源的跨平台的开发框架,基于分布式云化服务的Web展示设计应用,是微软公司推出的新一代脚本语言,目前最新版本为ASP.NET Core。它所有开发框架都是基于平台应用程序的需求。它的开发框架囊括了验证管理、缓存管理、状态管理、调试管理和部署管理等全部应用级功能。它的分布式特点保证了ASP.NET既可以部署在公有云、私有云上也可以部署在本地服务器上。另外,它使得平台构建更加精简和模块化,具有跨平台、云优化的特点,其程序设计代码与最终展示页面的内容相互隔离,这使得网页表现形式更丰富多彩,同时也使平台应用看起来更规范、更简单。
2.3 “江西珍贵古籍数字资源库”服务和共享
“江西珍贵古籍数字资源库”是依托江西省图书馆、星子县文物管理所、庐山图书馆、修水县图书馆、赣州市图书馆、乐平市图书馆、景德镇市图书馆、萍乡市图书馆、南康市图书馆等九家“全国古籍重点保护单位”的丰富馆藏而建成。建成的数字资源库目前只在九家共建单位之间共享。“江西珍贵古籍数字资源库”也提供远程访问模式,只要是以上九家共建单位的有效注册读者,就可凭读者证(身份证)进行统一用户认证,认证后可登陆到资源库访问数字资源。目前,“江西珍贵古籍数字资源库”只在九家共建单位之间共享,是为了促使更多的古籍收藏单位加入到古籍数字化的队伍当中。长期以来,公共图书馆过分强调古籍保护,将古籍作为自己的馆藏特色,不愿让馆藏古籍呈现在大众面前。如果这些古籍收藏单位想共享江西古籍数字化成果,就要加入江西省古籍数字化的队伍,成为合作共建的一员,这在一定程度上促进了江西古籍数字化规模的壮大。在这种模式下,随着古籍收藏固有观念和保护壁垒不断被打破,参与共建的古籍收藏单位必会日益增多,江西古籍数字资源将不断增加。当共建单位发展到一定规模时,江西古籍数字化的资源将会考虑在互联网开放,让读者不受时间、空间、读者身份的限制就能访问江西珍贵古籍数字资源。
3 江西省古籍文献数字化存在的问题及思考
江西省图书馆在“江西珍贵古籍数字资源库”的建设和服务中,发现江西省公共图书馆古籍数字化还存在缺乏省级层面的宏观管理和统一规划、缺乏基于互联网的统一检索导航平台、古籍数字化工作发展不均衡、古籍数字化技术较为薄弱、缺乏古籍数字化复合型人才等问题。
3.1 缺乏省级层面的宏观管理和统一规划
江西省公共图书馆馆藏古籍数量众多,各图书馆的古籍数字化工作主要是根据其馆藏古籍资源有选择、有目的地进行,特色浓郁,封闭性较强。20世纪开始,江西省公共图书馆开始了古籍数字化的摸索尝试,至今已经建成了一定规模的古籍数字资源。由于江西省公共图书馆古籍数字化工作缺乏省级层面的宏观管理和统一规划,各公共图书馆各行其是,缺乏沟通交流,导致古籍数字化重复建设严重,极大浪费人力、物力和财力。因此,结合江西省古籍数字化的现状,江西省公共图书馆古籍数字化的后续开展,应该在江西省图书馆的统一规划下建设古籍数字资源库。同时,江西省图书馆应在国家图书馆的统一规划和指导下,加强与各基层公共图书馆的交流,统筹江西省各基层公共图书馆开展古籍资源库建设任务,这样才能有效避免重复建设的现象。
3.2 缺乏基于互联网的统一检索导航平台
虽然国家图书馆(国家古籍保护中心)2012年编制了《古籍数字化工作手册》(试用本),2014年对其进行了修订,对著录规范、字库标准、分类标准、格式规范、系统规范、长期保存规范等都有详细的说明,但也只是建议各公共图书馆在古籍数字化时参考执行。江西省公共图书馆在古籍数字资源库建设过程中采用的著录标准、技术规范类型各异,难以统一,致使各数据之间无法实现数据交换和格式交换,导致缺乏基于互联网的古籍数字资源的统一检索导航平台。因此,江西省图书馆应该在省内有关部门的推动下,确保各基层公共图书馆古籍数字化按照国家图书馆发布的统一的标准规范执行;同时整合省内公共图书馆已经建设完成的古籍数字资源,实现统一平台的分类导航和集中检索,方便读者对古籍的研究和利用。这样做的好处是,江西省统一的古籍数字资源检索导航平台可以和国家图书馆古籍数字资源平台对接,实现国内古籍数字资源统一检索。
3.3 古籍数字化工作发展不均衡
江西省各地区因经济水平差异,经济发达地区的古籍数字化工作开展得较好,欠发达或落后地区的古籍数字化工作进展缓慢。江西省有很多基层公共图书馆因为设备技术落后,很多珍贵古籍不能及时通过数字化进行整理,无法加强保护和利用。从全国层面看,江西省公共图书馆古籍数字化整体发展水平较为落后。江苏省古籍数字化加工单位已达到30余家,占了江苏省各级古籍馆藏单位总数的50%以上。江苏省各加工单位建设的古籍数字资源库共有69个,最多的是书目数据库,其次是图像数据库,少量为全文数据库[15]。而江西省参与古籍数字资源共建的单位只有9家,古籍数字资源库成果数量与其他各省相比也偏少。针对此种情况,一方面,国家和地方财政应加大对经济欠发达或落后地区古籍数字化工作的经费投入,将古籍数字化经费纳入财政预算;另一方面,省级公共图书馆在国家图书馆的规划和指导下,应积极联合基层公共图书馆、博物馆等公益性机构,加大力度、加快进度进行珍贵古籍文献数字化工作。
3.4 古籍数字化技术较为薄弱
现阶段,江西省公共图书馆建设的古籍数字资源库仍以书目数据库和图像版数据库为主,不支持古籍全文在线检索功能。而很多企业、公司建设的古籍数据库大多为图文版,支持全文检索、图文参照功能,有的还实现了智能检索,具备超文本链接功能。对比之下,江西省公共图书馆古籍数字化技术较为薄弱。目前的局面是,江西省各级公共图书馆拥有大量具有历史价值和研究价值的文献,公司、企业拥有较为先进的古籍数字化技术,这二者之间可以优势互补。江西省各级公共图书馆应该和技术力量先进的公司开展合作,图书馆出资源,公司出技术,共同建设古籍数字资源库,取长补短。另外,古籍数字资源库的用户不再只是专家学者,非专业的古籍爱好者越来越多,公共图书馆的职责之一就是普及古籍资源,传播传统文化。因此,江西省公共图书馆在建设古籍数字资源库的同时,要考虑到非专业古籍爱好者的阅读需求,注重利用技术开发资源库的辅助阅读功能、繁简字体转换功能、白话文翻译功能等,同时完善检索技术,实现精确检索、模糊检索、逻辑检索等各类型检索。再者,移动用户的比例逐年上升,古籍资源库的开发要向适用于手机、平板等移动终端设备倾斜。
3.5 缺乏古籍数字化复合型人才
古籍文献数字化建设的关键是人才。要想做好古籍文献数字化工作,就必须拥有一批既懂得古籍相关知识又懂得现代计算机技术的复合型人才。当下,江西省从事图书馆古籍文献整理、修复、管理的人才本就少,既要精通古籍文献保护,还要熟练掌握现代计算机技术的复合型人才就更稀缺了。当前现代计算机技术日新月异,发展迅猛,新技术的涌现让老一辈古籍保护专家不能适应,而年轻的计算机专业人才又缺乏古籍相关知识,使得现代图书馆古籍文献数字化建设与古籍信息化服务停滞不前。因此,应加大对古籍数字化工作技术人才的培养,保障现代图书馆古籍数字化建设与服务能力的不断提升。
4 结语
古籍数字化是图书馆、博物馆等古籍收藏单位的古籍整理的方向,是图书馆、文博单位网络化 、信息化、数字化发展的必然要求,与网络信息社会的发展相适应,同时也是古籍保护和利用最有效的方法之一。然而,在技术实现上,古籍文献数字化建设从管理、建设、发布到保存都没有一整套完善的体系,古籍数字化仍有极大的发展空间。我们应该在古籍数字化道路上,统筹规划,注意统一标准,注重人才培养,关注新技术利用,提升古籍文献数字化水平,发扬中华民族传统文化。
(来稿时间:2018年9月)