APP下载

中文近代文献数字馆藏建设的策略与实践

2010-05-12

图书馆建设 2010年12期
关键词:馆藏检索数字化

龙 伟 杨 勇

(中国国家图书馆 北京 100081)

1 中文近代文献数字馆藏建设的必要性

图书馆担负着保存和传承中华文明的重任,通过建设数字馆藏揭示更多的文献内容,进而推动珍贵文献的使用和流传。中文近代文献对研究我国近代政治、经济、文化等不同领域的发展状况具有无可替代的作用,是研究中国近代史的重要史料。但是这一时期的纸质出版物大多是以酸性纸张为原料印制而成的,距今最长的有百余年的历史。据美国著名图书保护专家巴罗的研究报告,1900-1949年出版的部分文献在20世纪面临着无法使用的危险[1]。

根据《民国时期总书目》、《全国中文期刊联合目录》、《全国中文报纸联合目录》统计,我国民国时期出版民国图书124 000种、民国期刊29 000种、民国报纸7 800种[1]。民国文献大多被我国公共图书馆所藏,如国家图书馆、上海图书馆、南京图书馆。国家图书馆(以下简称我馆)现有民国文献馆藏约67万件,馆藏量居全国之首。为抢救、保护文献,我馆从上世纪80年代开始利用缩微技术拍摄了大批近代文献。20多年来,全国图书馆缩微文献复制中心联合文献抢救共建单位共拍摄民国图书60 000余种、民国期刊15 000余种、民国报纸4 300余种[2]。随着数字图书馆标准规范建设工作的推进、信息处理技术的发展和信息服务模式的多样化,2000年国家图书馆将民国图书、期刊、报纸及中文普通古籍等馆藏文献列入数字馆藏建设计划,并按常规性基础业务工作分步实施、组织数字资源建设。

2 中文近代文献数字馆藏建设策略

2.1 突出馆藏特色,避免资源重复建设。

在丰富的馆藏中准确定位、寻求自己的馆藏特色、树立精品意识是图书馆数字馆藏建设的首要任务。中文近代文献数字馆藏建设的主要任务是图书馆缩微文献的数字化建设。缩微文献是图书馆专业队伍经过长时间建设积累的信息资源,因此在文献拍摄、书目数据制作等方面有质量保障。以缩微文献数字化建设为中文近代文献数字馆藏建设的基础,可以不再动用原始出版物,有利于对原始文献的保护。而且充分利用已建设的缩微文献相关数据,可有效避免资源重复建设导致的人、财、物的浪费。图书馆在缩微文献数据的基础上进行数字内容的深度加工和处理,可形成完整的、系统的、可持续发展的特色数字资源体系。

2.2 实现数字馆藏建设的规范化、标准化[3]

图书馆在特色馆藏建设过程中,应坚持数据加工处理标准化、内容编码国际化、语言描述与标引规范化,直接引用和采纳国际上普遍应用的技术标准和规范。中文近代文献数字馆藏建设确定了相关建设原则和方法,其中包括字符集选择、元数据规范、对象数据处理及数字对象唯一标识符注册等几个方面。

(1)国际标准字符集 编码字符是数字资源最基本的表现形式。事实证明,选择的编码字符集是否适用是文献数字化成败的关键。从 1999 年起,文献数字化出现了势如破竹的大好局面,相关国际标准的制定、发展和实施基本解决了中文字符集的问题。中文近代文献数字馆藏建设选择了以 ISO/IEC 10646和Unicode为代表的国际标准,基本满足各种简体、繁体、异体等字符和符号的处理,保障了文献数字化工作进行及数字资源的跨平台使用。

(2)元数据 中文近代文献数字馆藏的元数据建设是在缩微文献书目数据基础上进行的扩展。元数据既包括名称、责任者、出版者、出版时间、主题、版本等基于文献内容特征的描述元数据,同时还包括缩微文献的感光材料、长度、解像力等胶片信息特征的技术元数据。

(3)对象数据 选择成熟的、与系统无关的数字编码以保证数据的可用性,使其不会随着时间的推移和系统的变换而受到影响,是中文近代文献数字馆藏数据编码选择的重点原则。同时,数字馆藏加工过程中详细记录了文献源特质信息、数字对象处理参数,包括文献规格、加工参数、放大倍率和数字化允许的处理方式、命名体系、数据格式等要素。

2.3 中文近代文献数字馆藏的可持续发展[4]

特色数字馆藏的可持续发展能力决定数字图书馆的生命力。图书馆要在丰富的、可靠的、持久的、适用性强的数字资源中挖掘特有的内部资源,并将其保存、转化为特色数字馆藏,同时加强馆际合作与交流,有计划、有组织、有步骤地建设数字馆藏;另一方面,图书馆应注意不断提升资源建设者的综合素质,这是数字馆藏建设良性发展的可靠保障。

(1)特色馆藏资源建设规划与共建 图书馆特色资源建设应充分发挥本馆资源优势。通过统一的协调管理,采取分工协作、联合建设的工作方式,不断更新和丰富各种特色资源内容。国家图书馆已建民国期刊、民国图书、民国法律、新善本、地方志等具有本馆特色和地方特色的中文近代文献特色资源库,这些资源库仍处于不断的完善和建设之中。在全国数字图书馆数字资源征集项目中,国家图书馆倡导联合建设特色馆藏,中文近代文献数字馆藏建设就是其中的一个项目。联合建设使各个图书馆既是资源建设者又是终端用户,既有效地避免了资源重复建设,又大大地提高了资源使用率,使更多人享用图书馆的特色资源成果。

(2)不断提高图书馆建设者的专业素质 图书馆建设被不断地赋予新的内容和形式,这对图书馆建设者提出了更高的专业化要求。图书馆员的专业训练不能仅局限于使馆员掌握图书馆专业知识,还要使馆员掌握现代信息技术、经济管理方法、法律知识和外语能力,培养他们强烈的责任感和敬业精神。

图书馆建设和发展需要图书馆全体人员共同努力。馆员要有高度的责任感和紧迫感,只有不断地学习和更新知识和技能,提高自身素质,才能成为合格的建设者。同时图书馆管理者要积极培养适合图书馆发展的合格人才,除了要引进人才外,还要重视现有人员的培训和继续教育。

3 中文近代文献数字馆藏建设的实践[5-6]

数字图书馆的核心是数字资源的管理和服务,是传统图书馆功能的延伸和扩展。国家图书馆中文近代文献数字化工作至今已有10余年的建设历程,并在实践中不断探索和发展,图书、期刊、地方文献等数字馆藏品种丰富、各具特点,数据总量呈逐年递增态势。

3.1 中文近代文献数字化建设基本方法

3.1.1 文字字符识别

大规模的数字化工程表明,采用OCR(Optical Character Recognition,光学字符识别)技术将书面文字转化为电子形式的编码字符,在建立图文对照的基础上进行半自动的人工校对和补字录入,是现实可行的途径。文献版面分析与文字、图片的切割等OCR技术 的预处理,绝大部分可以通过版面分析和切分软件实现,再由操作人员进行校对、纠正。版面分析建立了原文图像与编码字符的联系,为后续校对工序的自动化和半自动化奠定了基础。OCR 技术的引擎识别率非常重要,它往往达不到人们所期待的精度,但这并不影响采用 OCR技术解决绝对数量文字识别的总策略。事实上,在中文近代文献数字化中,OCR 是被当作“炮兵”使用的,它解决的是 85% 的字符录入问题和10% 的汉字录入问题,真正需要人工键盘录入的汉字只有5%。

3.1.2 数字内容标引

书刊文献标引分为3个层次:书目数据、摘要数据和文献目录。所有“目录”、“目次”、“要目”需按原文内容实录。书刊的篇名、著者、页码为标引必录项,若目录页中缺少其中的一项,则须对照原始文献查找后再进行标引。

3.1.3 数字影像处理

影像数字化转换是在充分获取胶片摄制情况后进行的。影像数字化加工包括缩微文献的资料整理、胶片扫描、影像处理、数据质量检查、数据保存等过程。在缩微文献扫描之前,管理员对缩微文献进行适当整理,登记每个片卷标识号、数字对象唯一标识符,经数据查重后建立对象数据与元数据、篇名目次数据及其他元数据的对应关系。在数字化加工过程中,由于胶片需要与扫描设备直接接触,为了保护文献,要选用第二代缩微胶片,以免划伤缩微文献。合格的数字影像进入影像处理流程要进行纠偏和去除黑点、黑线、黑框等处理,一幅图画被分拍在不同画幅时,管理员应将各个影像文件进行拼接处理,拼接后影像不应出现白边和内容缺失。 数据的质量检查是数据品质的重要保证,影像的清晰度、失真度、完整性与数据结构、文件顺序、文件命名、数据存储介质命名、文档管理、交接手续等项目是检查和验收的主要内容。影像数据分为档案典藏级和浏览服务级,档案典藏级数据用于资源的长期保存和必要时的出版印刷,可作格式转换和复制的母本;而浏览服务级的数据因用途、使用对象不同,是通过影像压缩、格式转换处理后的衍生物。

3.2 特色馆藏服务与管理

特色资源管理和服务系统是中文近代文献推送服务的平台。为方便数据维护与更新,系统采用浏览器作为操作界面,灵活配置索引项,实现定制检索方式。服务界面提供简单检索、高级检索和在检索结果中再检索等检索方法,可满足不同的检索需求。

(1)中文近代文献的数字化包括信息资源采集加工、数字内容获取、存储管理、资源发布、检索服务等几个步骤。系统平台由具有添加对象、修改对象、索引对象、对象管理、用户帮助等功能的系统管理模块,保存元数据和对象数据的数据管理模块及通过用户检索界面获取资源的数据发布模块构成(见图1),相关的国际标准及知识产权保护机制贯穿在应用系统中。

(2)特色资源管理和服务系统要实现资源的统一发布和管理,应先通过搜索系统检索元数据库获得数字资源唯一标识,然后通过调度系统获取数字对象。该系统不需要专业人员另外开发Web系统,用户可以根据自己的需要选择适合的Web界面模版,根据资源使用需求,发布人员可在可视化参数表中选择支持显示和检索的数据项。

(3)系统提供标准检索功能,允许读者通过文献的名称、主题、日期、出版等项目检索数据,检索条件由管理员定制。高级检索支持多个条件的“与”、“或”组合查询,方便读者迅速、精确地查找到所需内容。对于不确定的条件,系统提供模糊检索方式。检索结果以列表形式呈现,条目过多时读者可以通过在检索结果中再检索的方式进一步查找。每条数字资源都有详细的内容描述供读者阅读。数据显示页面和结果条目的排序方式均可由管理员随时修改。

(4)特色资源系统提供数据读取接口,输出XML格式的元数据文件,输出篇名目次导航,使用阅读器浏览全文影像,保留历史查看记录并提供相关文献的关联。

4 结 语

国家图书馆数字馆藏建设工作一直是有目标、有计划的,目前自建数字馆藏已达到250TB。本着“边建设边服务”的原则,我馆馆藏数字资源建设不断扩大与完善。中文近代文献作为数字馆藏建设的重要内容,得到图书馆各方面重视,不断增加建设力量。未来我馆还将推出更多的文献品种和数字内容。我馆在加强自有馆藏建设时还应与国内其他图书馆一起建设国家数字图书馆工程,包括各种数字资源的组织管理、内容服务和标准技术研究等。我们相信,这项具有长远影响的工程将使数字图书馆成为网络时代保障人民群众基本文化权益的重要途径。

[1]解 说. 近代文献的保护修复刍议[J]. 图书馆学刊, 2008(5):111-113.

[2]全国图书馆文献缩微复制中心[EB/OL]. [2010-07-15]. http://swzx.nlc.gov.cn/wxqj.htm.

[3]孙一钢, 龙 伟, 赵四友. 数字资源加工标准与操作指南[EB/OL].[2010-07-15].h ttp://cdls.nstl.gov.cn/mt/blogs/2nd/archives/docs/CDLS-S03-008.pdf.

[4]王居平. 数字图书馆评价的理论和方法[M].合肥: 安徽大学出版社, 2008:30-36.

[5]欧 洁, 罗治国, 林守勋, 等.数字图书馆的数字对象体系结构[J].中国科学院研究生院学报, 2000(1):93-99.

[6]叶 鹰, 金 玮. 数字图书馆的体系结构与理论模型[J]. 图书情报工作, 2003(9):45-47.

猜你喜欢

馆藏检索数字化
馆藏
家纺业亟待数字化赋能
博物馆的生存之道:馆藏能否变卖?
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
知还印馆藏印选——古印篇
数字化制胜
专利检索中“语义”的表现
介绍两件馆藏青铜器
国际标准检索