以CADAL项目为例探析国内古籍特色数据库建设
2010-04-05孙琴
孙琴
(苏州大学,215123)
中美百万册书数字图书馆合作计划(简称CADAL,China-America Digital Academic Library)是一个由国家投资,作为公共服务体系一部分的数字图书馆项目。从2002年开始到现在,CADAL取得了重大成就,特别是古籍、民国期刊、民国图书数据库的建设,其模式、质量与影响,堪为国内特色数据库建设的模范。
1 CADAL基本功能
CADAL的检索功能有:快速检索、高级检索、图像检索、视频检索、书法字检索。分类检索有:古籍、民国期刊、民国图书、现代图书、学位论文、绘画、视频、英文。检索字段有书名、作者、关键字、描述,可以全文浏览,全文检索,逐页保存与打印,但因为古籍与民国书刊的界定困难,有些详细信息中没有书刊的出版年介绍。古籍、民国书刊等珍贵文献的数字化,极大地方便了读者的阅读,有利于数字资源的长期保存与进一步开发利用。其数据的开发与利用模式,值得国内古籍与民国文献特色数据库学习与借鉴。如南京大学民国史研究中心的陈蕴茜副教授最近要找一本贵阳文通书局1947年出版的《甘肃夏河藏民调查》,她打开CADAL网站,几秒钟就找到了。如果在几年前,她必须去一趟北京的国家图书馆才能借到这本书。[2]
2 依托网站
CADAL项目从开始即建立自己的网站(http://www.cadal.cn/),详细公布了该数据库的项目背景、项目动态、技术规范、机构组织、合作伙伴、资金来源、版权公告等,用户随时可以动态地从各方面来了解该数据库的进展。网站提供具体项目的具体负责人、联系地址、电话与Email等联系方式,有利于用户了解该项目,监督该项目,以及提供相关信息与建议,这是非常值得借鉴。目前,国内很多特色数据库的建设只在小范围内进行论证,或者为了申请某个课题而临时上马,之后便进行闭门造车。整个数据库的建设过程外人根本无从了解,更谈不上建议与监督。
3 古籍著录原则
目前,国内古籍数据库还没有统一的规范与标准,各古籍与民国文献特色数据库在建设过程中无章可循,从而导致古籍与民国文献特色数据库近来虽发展蓬勃,但又良莠不齐。为了保障数据库的质量,CADAL项目开始就明确提出,拟数字化古籍选目的著录要求原则上应与《CALIS古籍联机合作编目规则》保持一致,但考虑到CALIS项目的进度不能满足本项目的实际需要,又参照《CALIS古籍联机合作编目规则》中基本级次著录的要求,制订了《CADAL项目拟数字化古籍选目著录格式》,从《著录要求》、《著录内容》来规范古籍数据库的建设。这样,各成员馆在参建过程中,就有章可依,严格按照要求数字化,从而有效避免低质建设。
4 古籍选目原则
随着CADAL项目成员馆的不断增加,为了在古籍与民国文献资源数字化中尽量避免重复交叉,南京大学图书馆作为CADAL项目管理中心古籍子项目的牵头单位,特别制定了《关于CADAL项目古籍选目协调工作的原则》,从《古籍数字化工作各阶段的基本要求》、《古籍选目范围》、《古籍选目查重、申报和著录要求》来协调古籍数据库的建设,并适时更新《拟数字化书目查重》,各参建单位在数字化前必须先在网上查重,这在很大程度上避免了无意义的重复建设。
近年来,国内特色数据库的建设蓬勃发展,大小图书馆都开始围绕自身的资源进行特色数据库建设,但很多图书馆并没有明确目标,如数据库的规模,所依托的技术平台。客观而言,很多图书馆只是想把自己的部分资源数字化,如首都图书馆的《古籍插图库》,其实只是从首图馆藏古籍文献中拣选制作,包括人物、小说、戏曲、军事、宗教(佛教、道教)、动物、植物、风景、建筑、历史故事等许多类,但每一类数量很少。而且首都图书馆的古籍馆藏在国内并不丰富,该库也未能利用地理优势,对国家图书馆、北京大学图书馆等周围大型图书馆的古籍资源加以利用,只是局限于本馆馆藏资源。这种类型的古籍特色数据库在中小型图书馆中很有代表性,很多图书馆为了跻身于数字化行列,扩大本馆在数字化建设中的影响,根本不进行可行性论证,只是利用本馆的人力把本馆的部分资源加以数字化,并建设成特色数据库。就数据库的质量与投入的人力、物力、财力而言,这些数据库并不成功。
5 古籍扫描方式
CADAL 采用开放式电子书标准,采用600dpi分辨率进行扫描,有别于目前国内电子书大都需要专用阅读器和低显示精度的状况,将大大方便读者的阅读,有利于数字资源的长期保存与进一步开发利用。但这在古籍、民国书刊以及珍贵文物数字化过程中难以实现,如古籍多以线装装订,纸张脆,不能用力按压书籍进行扫描。即使如此,还是难以保证扫描质量,并会严重损坏古书的原貌。所以,为了实现这一标准,CADAL成员馆在扫描录入时,需先把书进行分拆,一页一页平铺扫描,再由古籍修复专家穿线修补复原,但很多书已经非常脆弱,尤其是民国书刊,已发黄、发脆、变酸,并且民国书刊多采用双面印刷和机械装订,传统的古籍修复技术无法适用。这不可避免地在某种程度上对古籍与民国书刊以及珍贵文物造成了损坏。在扫描过程中,扫描仪的光源、热源会对文献的纸张、文字、装帧产生影响,尤其是扫描时拆开书刊,必然会破坏到文物的品相,拆分扫描后,有时难以恢复原样。那么,究竟是文献的原生性重要还是文献的内容重要,这一直在图书馆学术界争论不休。有些大馆为了维持文献的原生性,拒绝数字化过程中的破坏,拒绝传统的翻阅,在某种程度上使这些文献的价值难以实现,变相地造成了一本书的“死去”。而数字化虽对其品相有一定的损坏,但可以更方便读者利用,可实现这些文献的最大价值,让每一本书都“活起来”。随着电子文献的开放,可以原则上不再对公众开放纸本文献,从而减少翻阅,长久地保存在恒温恒湿的书库中,这是否可以理解为一种真正意义上的保护。
6 古籍与民国文献数字化资源服务策略
根据《著作权法》和《信息网络传播权保护条例》,CADAL中尚处于版权保护期的现代图书和学位论文,因授权范围的限制,目前只能限制在馆藏单位图书馆和授权用户使用。无版权的古籍资源,免费向公众开放;民国书刊向项目参建单位和合作单位图书馆局域网开放服务。对于作者或出版社提出有版权争议的图书资料,及时从网站撤出。目前,各大图书馆为了加强对古籍与民国文献的保护,限制读者复印、拍照,有些珍贵文献甚至有条件阅览,这对读者从事学术科研极为不便。有些图书馆虽已经对古籍与民国文献数字化或做成缩微胶卷,但收费不菲,并多有用户限制,如只对本校师生开放。在国内的特色数据库建设中,公共图书馆的建设资源多能免费共享,如国家图书馆的《民国期刊》数据库,但高校图书馆的特色资源基本上只对本校师生开放,校外读者无权共享这些数字化特色资源。这实际上是“奇货自居”在数字化上的一种反映。所以,很多图书馆丝毫不考虑自身的技术、人力、物力、财力的限制,不进行可行性论证,只是依赖本馆一些独特的、有研究价值的文献资源和一些特色收藏进行数字化建设,常常导致无疾而终、有始无终或有名无实。现在,特色数据库建设已成为国内图书馆数字化进程中不可或缺的内容,很多图书馆拥有一些自建的特色数据库,并且在版权保护等因素下,近来已逐渐向古籍与民国文献资源数字化扩展,但并没有充分考虑这部分资源的特殊性、重要性与敏感性,从而造就了古籍与民国文献资源特色数据库表面上的热闹非凡与严重的低质量重复建设。
7 结语
诚然,CADAL项目中的古籍与民国文献数据库不是其他普通特色数据库所能比拟的,它资金充足,技术先进,资源丰富。但是,CADAL建设过程中在对数据库质量的严格把关,各参建单位的协作精神,古籍与民国文献选目与著录时的严格要求等,值得各古籍与民国文献特色数据库建设时加以借鉴。
目前,各大图书馆都热衷于依靠自身资源自建特色数据库,他们难以相互合作,更不可能与专业数据库公司共建。很多单位认为对馆藏特色资源的数字化建设可以提高本馆在图书馆界中的影响,并且为了限制馆藏资源的外流而迫使读者回归。但又常囿于技术支持与各方面因素,数据库建设质量难以保障,而且,很多建设单位不愿共享自己的建设成果。另一方面,专业数据库公司亦难以找到合适的合作单位,如一些馆藏单位对高额的版权支付费的索取,加大了专业文献数据库的建设成本。如《中国基本古籍库》,因为建设过程中高昂的版权费等因素,使得国内很多学术机构望洋兴叹,从而使如此高质量的古籍特色数据库难以普及。近来,我国参加CADAL项目的高校从原来的16家扩增到近40家,截止到2008年1月27日,该数据库中已数字化古籍190405册、民国图书114202册、民国期刊6578册、绘画3427件,有效地满足了用户对古籍与民国文献资源的需求。
[1]肖 卓.CADAL项目与古籍整理[J].图书与情报,2005,(4):82-84.
[2]且 休.世界最大公益数字图书馆馆藏突破150万册[N].浙江日报,2007-11-28.
[3]关于CADAL项目古籍选目协调工作的原则[EB/OL].http://www.cadal.cn/.2009-11-20
[4]高等学校中英文图书数字化国际合作项目[EB/OL].http://www.cadal.cn/.2009-11-20.