APP下载

缩微文献数字化建设探索——以天津图书馆“缩微文献影像数据库”项目为例

2010-03-23

图书馆研究 2010年4期
关键词:书目著录检索

赵 晟

(天津图书馆 天津 300191)

1 引言

为使目前已有的缩微文献能够得到更好的开发利用,对缩微胶片进行数字化加工已成为我国图书馆界的共识。笔者以天津图书馆“缩微文献影像数据库”(以下简称缩微数据库)项目为例,探索公共图书馆缩微文献数字化建设问题。

2 缩微文献数字化建设概况

从2009年5月起,天津图书馆开始实施馆藏缩微数据库建设项目,将馆藏民国时期文献、古籍文献的缩微胶片转换为数字化图片,并进行了相应的影像处理、书目著录、目次著录、网络发布等,初步建立了缩微数据库——“民国时期期刊”子库。

2.1 缩微文献数字化的目标与功能

天津图书馆实施缩微文献数字化项目的规划目标是对馆藏的历史文献缩微胶片进行数字化转换和加工,形成馆藏缩微数据库,其中包括民国时期的期刊、报纸、图书和古籍文献子库,实现缩微文献的网络发布,并能具备四大功能:(1)在线全文浏览功能。读者通过网络能了解到缩微文献的封面、封底等所有内容,并能全文浏览;(2)书目查询功能。该库具有多个字段的查询和浏览功能;(3)目次检索功能。文献的所有目次信息均能提供全文检索和定位到内容浏览;(4)版权保护功能。该库既能对馆藏珍贵文献进行保护,又便于读者利用,实现多种保护手段单独或组合使用。

2.2 缩微文献数字化的实施步骤

第一步是设计整个系统的规划流程。包括对缩微胶片的数字化影像、影像加工、书目著录、目次著录、管理发布等流程。

第二步是构建运行软件的系统环境和数据库存储格式。根据目前计算机操作系统的实际使用情况,天津图书馆先期开发采用了微软Windows服务器端和客户端平台,后台数据库采用微软的SQL Server数据库软件,保证了系统的兼容性和易用性。

第三步是制定不同的加工和处理标准。针对不同文献,制定了不同的加工和处理标准。如针对民国时期的期刊、报纸、图书以及古籍文献等,根据本馆情况,参照相应的国家标准和行业标准,制定了不同的加工和处理标准。上述四种类型的文献的书目著录标准、目次著录标准、网络发布标准都有所不同,需要根据不同情况分别制定加工和处理标准。

第四步是进行测试化加工,随时发现问题并改正。调查馆藏文献的使用情况,确定以使用量和使用频率最高的民国时期期刊作为测试加工对象。

第五步是开发测试,不断完善相关标准。根据项目开发的全过程,制定缩微胶片的数字化影像标准、影像加工标准、书目著录标准、目次著录标准、统一发布标准等,并在项目测试工作中不断改进。

第六步是项目的应用。在将近一年时间充分测试的基础上,正式进行天津图书馆缩微数据库的一期项目:“民国时期期刊”子库的加工制作和发布工作。截至目前,天津图书馆已完成缩微胶片转数字化影像、影像加工、书目著录、目次著录“民国时期期刊”31种,404册,33077拍,外网全文发布11种,175册,11000拍。

3 缩微文献数字化建设中需解决的问题

3.1 缩微文献数字化标准问题

根据天津图书馆的实际情况,并考虑到历史文献特别是民国时期文献的原件纸质不佳的因素,该馆制定了民国时期文献缩微胶片转换数字化影像采用300 DPI的加工标准,而没有采用《数字图书馆加工标准规范》推荐的600 DPI最高加工标准,这样避免了影像图片多余数字噪点的出现,为后期的图片处理降低了难度。

对于不同的文献、不同的收藏单位,在建立相应数据库时数据会有所不同。根据这一情况,项目组设置了“系统设置”模块,对六种情况进行设置:(1)数据字段的设置。包括设立字段数量、类型、数据长度。系统数据库支持可自定义字段,字段长度可在系统中调整;(2)编辑书目字段;(3)设置目次字段;(4)维护 MARC 字段;(5)设置查重字段;(6)服务器设置,包括加工服务器、数据库存储服务器、发布服务器的相应设置等。

根据馆藏文献已经按MARC标准著录,且许多缩微文献也带有MRAC数据等情况,项目组决定书目数据采用MARC标准,并开发了标准接口。这样不仅可以单独著录文献,还可以从其他图书馆系统中导入标准的MARC数据,减少著录工作量,也方便数据交换。

在目次著录上,除将目次信息全文著录外,还将目次和对应页面挂接,使读者能快速定位到内容信息。根据文献具体情况,项目组制定了专门目次著录标准,统一了解决问题的办法:(1)在目次著录外,增加全文浏览功能,既真实反映了文献原貌,也符合读者的使用习惯;(2)设置绝对页码,与真实的文献页码相对应;(3)对于民国时期文献的文字用法,在原文照录的基础上,还制定具体标准,统一设置对应检索字段;(4)根据目次著录标准,人工添加某些实用目次,并加特殊标记以示区别,使目次信息更加全面。

3.2 数字化影像处理问题

目前,图像全文识别技术并不完全能够处理古籍文献,实际的识别精度也不太高,并存在着字体、版式识别的问题,需要大量人工干预和处理,加工成本高,进度也相对慢。根据这一情况,项目组创新性地提出,只进行书目和目次信息的著录,待相关技术成熟再进行全文识别。这样能大量减少加工处理的难度,快速提高加工速度,解决主要信息检索的问题。

由于只是针对图片进行处理,项目组还开发了图像处理模块,可将缩微胶片转成数字化影像后进行处理,包括剪边、纠斜、去噪点等,并支持单独或批量处理功能,大大加快了处理进度。

3.3 数据应用格式选择问题

参照《数字图书馆加工标准规范》,项目组在影像原始数据的存储上采用TIF格式,发布采用JPG格式,并加入了PDF发布格式。

3.4 任务加工的流程管理问题

为保证大量加工的流程管理,项目组在系统中设置了六大模块:影像加工、书目著录、目次著录、管理发布、系统设置、系统管理,并在相应模块设置了任务交送,明确当前模块加工任务结束后,由系统自动转下一模块,保证了工作的按序进行。

3.5 网络版权保护问题

由于部分文献涉及版权问题,项目组根据不同的保护等级要求,设置相应的保护手段和措施,实现了不同版权的保护问题。主要采取了以下几种方法:部分文献内网发布,限制浏览;发布数据采用水印管理;降分辨率发布;设置只读或限制打印、复制等。

3.6 网络发布管理问题

为保证发布数据的安全、准确、检索方便,项目组统一了发布标准,并开发了部分功能。如设定书目信息的发布字段和别名、字段长度以及检索字段;设定目次信息的发布字段以及检索字段,对目次中的统一检索字段只用于检索而不发布;对书目、目次信息进行全文检索;检索关键字支持简繁体自动转换。

3.7 数据安全保护问题

为保证加工、存储、发布的数据安全,系统设置了“系统管理”模块,并能实现图像状态跟踪、缩微用户管理、数据库备份还原、缩微日志管理、数据导出、数据导入、修改密码七大功能。

4 缩微文献数字化项目的特点

4.1 拥有自主版权

拥有自主版权主要体现在三个方面:一是服务器端统一认证、支持多客户端同时使用;二是统一服务器管理平台,包括加工服务器、数据库存储服务器、发布服务器,支持集群功能,能充分满足大数据量、多客户端加工使用,能满足多用户、多功能检索要求;三是支持简繁体字自动转换,无论读者输入的检索字体是繁体字还是简体字,系统都能自动进行转换,将含对应的简繁字段的检索结果一并检出。

4.2 自主制定了多个相关标准

参照国家标准和行业标准,项目组制定了缩微胶片转数字化影像标准、影像加工标准、书目著录标准、目次著录标准、统一发布标准,方便用户使用和数据交换。

4.3 采用多种版权保护手段

包括内外网控制发布、高分辨率TIF格式加工存储、低分辨率JPG格式发布存储、数字水印保护、PDF格式加密发布等。

4.4 支持标准数据接口

系统设置了支持标准的数据接口,能方便数据的导入和导出,便于相应的软件开发和利用。

5 缩微文献数字化建设的发展目标

缩微数据库建设是公共图书馆缩微文献开发与利用的发展方向,笔者结合天津图书馆的实践,认为我国公共图书馆缩微数据库建设的发展目标主要应体现在以下八个方面。

5.1 缩微数据库的升级

由全国缩微文献复制中心牵头,在天津图书馆缩微数据库的基础上加以扩展,形成全国性的缩微文献数字化项目。

5.2 缩微数据库的统筹规划

由全国缩微文献复制中心负责制定全国公共图书馆缩微数字化工作规划,协调各图书馆的缩微文献数字化工作。各图书馆可根据自身馆藏,自定选题或多馆联合选题,并提前报全国缩微文献复制中心备案,做到统筹规划,避免重复建设。

5.3 缩微数据库标准的统一

应以国家标准和行业标准以及数字资源版权征集中涉及的缩微文献数字化征集标准为依据,在天津图书馆标准的基础上,针对各类缩微文献制定统一的加工、发布、存储等一系列标准。各图书馆均依据此标准进行缩微文献的数字化转换工作,确保数字文献格式及各项参数的统一,为各图书馆之间的文献共享提供保障。

5.4 缩微数据库的自主加工

各图书馆在同一平台上以同一标准,按选题自主加工,加工进度自行安排。

5.5 缩微数据库资源分散存储

凡各图书馆加工完成的缩微文献数字资源,应由各图书馆按照标准自行保存。对于各图书馆有容灾备份计划,需要异地保存的数字资源,可复制一份交由全国缩微文献复制中心代为保存。

5.6 缩微数据库的集中检索

由全国缩微文献复制中心负责开发检索平台,并为各图书馆提供检索接口,使读者可以在各图书馆的网站上检索到包括国家图书馆在内的各图书馆的缩微文献目录,并可获知缩微文献的馆藏信息。具体文献服务由各图书馆负责。

5.7 缩微数据库的灵活服务

缩微数字资源的服务方式可采用多种方式,笔者认为主要可分为三种方式:一是完全开放。读者可以在网上检索并浏览全书内容,但不提供下载服务;二是有限开放。各图书馆可以结合自身情况,灵活选择文献资源发布方式,如完全局域网发布或部分局域网发布等;三是离线光盘调阅等。各图书馆可根据自身情况以及读者需求,决定采用相应的服务方式。

5.8 缩微数据库的共享资源

在完成以上工作的基础上,全国缩微文献复制中心应与各公共图书馆一起,进一步探讨缩微文献资源共享方式,力求实现缩微文献数字资源在公共图书馆范围内的共享。

缩微文献的数字化开发与利用是一项长期的工作,天津图书馆缩微文献数字化的探索,不仅培养了一批熟悉缩微文献数字化技术和流程的专门人才,而且在推动全国公共图书馆缩微文献数字化工作中将发挥积极作用。

[1] 李茁.缩微文献影像联合数据库的共建共享[J].数字与缩微影像,2009(3):4-6.

[2] 李茁.缩微文献影像数据库的建设与应用[J].数字与缩微影像,2008(4):39-41.

[3] 陈小平.论网络环境下的图书馆数字化建设[J].数字与缩微影像,2010(2):28-31.

猜你喜欢

书目著录检索
常用参考文献著录要求
常用参考文献著录要求
推荐书目《初春之城》
常用参考文献著录要求
专利检索中“语义”的表现
本刊参考文献著录要求
本刊邮购书目
国际标准检索
国际标准检索
《全国新书目》2009年1月荐书榜