APP下载

民国报纸缩微胶片数字化及服务探析
——以国家图书馆为例

2015-05-13国家图书馆北京100081

图书馆学刊 2015年10期
关键词:篇目版面民国

肖 红  吴 茗  曾 燕(国家图书馆,北京100081)



民国报纸缩微胶片数字化及服务探析
——以国家图书馆为例

肖红吴茗曾燕
(国家图书馆,北京100081)

[摘要]民国报纸是研究民国历史、把握民国文化精髓的重要文献,受载体损坏、组织形式复杂等因素影响,一直未能广泛为读者提供服务。结合国家图书馆的具体实践,系统分析了民国报纸缩微胶片的数字化方法及服务模式,并介绍了工作中存在的问题及对未来的展望。

[关键词]民国报纸缩微胶片数字化服务

[分类号]G255.72

自我国第一种报纸——唐朝时的邸报(官报)问世以来,我国报业便迅速发展,并成为传播知识、社会教育的重要媒介。民国报纸经历了辛亥革命、五四运动等多次社会动荡,承载着特定历史时期的珍贵记录,是反映民国时期中国政治、经济、军事、科学、文化、生活等各个方面的重要文献,同时也是中华民族文化宝库的有机组成部分,具有特殊的参考价值和史料价值。

民国时期是造纸工艺过渡时期,因材料混杂,工艺落后,导致民国报纸酸度大,质量差,极易老化。另外,报纸建报之初并未考虑长期保存,受保存条件和方法所限,大量民国报纸出现纸张恶化、无法利用的惨状。近年来,很多图书馆采用缩微或数字化技术进行民国报纸的抢救、保存为读者服务。笔者在国家图书馆从事文献数字化工作多年,并亲身参与民国报纸缩微胶片的数字化及服务工作,提出几点想法,希望能为其他图书馆的民国报纸数字化工作起到借鉴作用。

1民国报纸缩微胶片数字化的必要性

1.1缩微胶片的优点

与民国报纸原件严重损坏、一触即碎屑满地的情况相比,其缩微胶片在很大程度上解决了民国报纸的保存和服务问题。缩微胶片节省存储空间,通过拷贝的方式可基本实现长期保存,并可通过一定的政策实现各图书馆间民国报纸的共建共享,查漏补缺。

1.2缩微胶片的局限

胶片因其载体的特殊性,只能使用专门的胶片阅读设备阅读,硬件成本较高,图书馆配置数量有限,尤其是经费紧张的小型图书馆,无法充分提供服务。读者缺乏胶片阅读设备的使用知识,需要图书馆员的技术支持,增加了人员成本。报纸出版周期短,信息量大,版数多,而且编目时一般只揭示到报纸名称,胶片阅读设备只能以浏览方式阅读某卷报纸,无法按读者指定的日期、版次等进行精确的检索服务,读者往往需要不停地更换胶卷并逐页浏览报纸来找到所需的信息,花费较多的时间也未必能获得想要的信息资源,读者需求较难满足。

1.3数字化的必要性

众所周知,很多图书馆很早便开始针对馆藏民国图书和民国期刊的数字化工作,民国报纸却始终被束之高阁,国家图书馆亦是如此,除少数几种报纸用于数字化实验外,并未大规模开展民国报纸的数字化工作[1]。报纸具有出版频率高、载体形态复杂、内容组织形式丰富、数量大等特点,加上民国报纸原件的脆弱,导致民国报纸的数字化工作进展缓慢。但在互联网和多媒体技术迅速发展的今天,为了将民国报纸这一珍贵资源早日呈现给读者,并提供报名、篇名、版面等多种检索方式的网络阅读服务,其数字化工作迫在眉睫。

2民国报纸缩微胶片数字化的方法

2.1缩微胶片数字化的优缺点

1985年全国图书馆文献缩微复制中心成立[2],因每个成员馆藏民国报纸种类有限,存在残缺、内容不全、载体损坏等多种问题,报纸缩微拍摄前通常会进行补缺、登记、整熨、修补、排序等多项整理工作[3],因此用缩微胶片数字化比直接数字化原件更全面,信息更完整。民国报纸数字化除了要得到报纸的影像文件,经过OCR处理的全文文件也是很重要的数字化成果,经过一定的计算机技术处理,可以实现民国报纸的全文检索。然而,原件本身的劣化,拍摄时的缩微比例,最终可能导致文字断笔、透字、重影和模糊,将直接影响文字识别的准确性,除了需要设计较好的识别算法来控制,还需要大量的人力辅助工作。

2.2对象数据

2.2.1民国报纸的特点

民国报纸缩微胶片数字化除了考虑扫描图像的格式、分辨率等参数,还应充分考虑其载体形态和内容组织的特殊性。民国时期报纸开本大小不统一,版面版次也有很大的随意性;一张两版的报纸部分有中缝内容,部分没有,有中缝内容的也因为折叠装订导致中缝内容被遮掩而看不清;有号外、增刊、特刊、副刊等特殊版面内容;报纸内容另一个显著的特点是各类广告所占篇幅较大。

2.2.2实践中应侧重考虑的问题

①图像格式:数字化图像分长期保存级和发布服务级两个级别。长期保存级数据用于数据保存,不应用于网络,可作格式转换和复制的母本。经过大量的试验对比,国家图书馆选用业界广泛接受的不压缩TIFF格式作为民国报纸长期保存级数据格式,8位灰度扫描,分辨率为300DPI。

发布服务级数据由长期保存级数据经适当的压缩和格式转换获得,经由互联网等渠道为广大读者提供服务。国家图书馆提供数字资源服务的方式丰富多样,如个人计算机、触摸屏、数字电视、移动终端等,每种服务方式对发布服务级数据的格式均有一定的要求,综合考虑后将发布服务级数据格式选为JPG格式和双层PDF格式,双层PDF格式的上层为图像层,下层为文本层。

②OCR识别的范围:影像数据只能提供简单的版面浏览服务,无法像全文文本数据一样,经过计算机和数据处理便可实现按用户指定的检索词来快速准确地检索信息。受经费和民国报纸数字化经验等多方面因素的限制,本着先做起来再逐步完善的思想,国家图书馆民国报纸缩微胶片数字化项目规定现阶段只对报纸篇目内容(包括引题、标题和副题)进行OCR文字识别和位置置标,方便用户检索报纸标题内容来相对精确地查找信息。

③图像的切分与合并:民国报纸在开本和版面安排上没有一定的规律,可能一张为一版,也可能一张有多版,为能够向读者提供最基本的按版面进行检索与浏览的服务,规定每版加工成一幅图像。如缩微胶片存在一拍多版时,按版拆分图像;一版多拍时,长期保存级文件按拍摄胶片直接转换图像,发布服务级图像需将多拍图像拼接为一幅JPG或PDF文件。

④中缝和广告:据抽样统计,报纸广告所占的版面比例很高,北京《晨报》占52.7%,天津《益世报》占62%,上海《申报》占42.7%[4],由于开本较大,在装订时常采用中缝对折装订、导致中缝内容损坏严重。缩微拍摄时不论中缝装订部分拆与不拆,装订过的中缝信息都将不同程度地破损或缺失,基本无法还原原有信息内容。考虑民国报纸的中缝内容破损较严重以致难以恢复,且多为广告类资源,实质性信息较少,转成数字化图像时将采用计算机图像处理技术去除中缝信息。目前,由于经费和时间等因素限制,各版面中的广告原样保存,但双层PDF的文本层将暂时放弃对广告内容的识别,未来可以考虑再进行广告加工。

⑤号外、增刊、副刊、特刊:大部分民国报纸的号外、增刊、副刊和特刊是和当日普通版面报纸一起出版的,有的为独立版面,有的占据普通版面。如此看来,号外等特殊版面的图像加工和普通版面并无两样,但需在相应的文档里进行记录,以便日后的检索和统计等。

2.3元数据

国家图书馆馆藏民国报纸缩微胶片的元数据是标准MARC格式,记录了该种报纸的名称、出版地、出版时间等各种信息。民国报纸在数字化过程中会产生很多新的元数据信息,如版次、篇目坐标和篇目作者等,考虑读者的个性化需求和未来可能为读者提供的各类检索服务,此处用ACCESS数据库和XML文件来保存新的元数据内容。ACCESS数据库记录信息更全面,分基本信息表、版面篇目信息表和结构信息表,分别用于基本信息记录、元数据与对象数据挂接和报纸结构揭示。XML文件主要从全文识别的角度来记录数据。两种元数据文件都将记录到标题及其在版面的具体位置等最小粒度。

2.4存储路径

国家图书馆馆藏民国报纸种类多、出版频率高(一日、三日、一周等)、每期有多个版面等特点要求其在介质上的存储路径要清晰,便于查找。结合每种报纸编目时赋予的唯一标识号和出版日期,将其存储路径设为两个层级。第一级为每种报纸的唯一标识号,不同的报纸此标识号唯一、不重复,可由MARC中的001字段内容充当。第二级为期号,8位数字组成:4位年、两位月、两位日组成,相应的文件夹下放置该期的版次扫描图像。如:唯一标识号为2009n00884,出版日期为1940年2月1日,民国报纸相应的图像扫描文件应存放于 2009n0088419400201目录下。

3民国报纸数字资源服务模式

数字报纸的服务模式依赖于数字报纸的格式、整合深度和整合方式。格式分图像、文本和图像文本双层3种格式。整合深度为对报纸的揭示深度,从大到小可分为报纸名称级别、版面级别、篇目标题级别和篇目内容级别。整合方式,即针对报纸各级别内容进行多个维度的分类处理、数据挖掘而获得更深层次的内容聚合,如主题知识库、人物知识库等。早期报纸因缺少原始排版的电子文件,需经过扫描等方式将印本转换为数字化图像提供图像级别服务。近期报纸在互联网和数字出版技术不断发展的大环境下,可以原始原貌的数字格式提供各种级别的检索服务,无需从纸本进行数字化,不但可以有效降低成本,还能极大地满足读者的需求。国家图书馆正在深入研究自建或已购买的数字报纸库的服务模式,总结经验,努力探寻当前民国报纸的最佳服务模式。

3.1基于图像的服务

3.1.1基于版面的图像服务

基于版面的图像服务为按照报纸名称、版面、出版日期等提供对数字报纸的简单浏览和检索服务。如国家图书馆的“数字报纸典藏与服务项目”,通过网络采集、报社缴送等方式收集的近年来出版的数字报纸,按照报纸名称、地区、出版日期和版次进行整理,提供版面级别的原版原式图像浏览服务。

“报纸在线阅读系统”对通过网络采集获得的报纸资源,提供字序、报纸种类和地区3个维度的分类浏览和按报纸名称的检索服务,对每种报纸可进行逐页图像的浏览,并支持对感兴趣区域的剪报服务。

此种方式因支持报纸原版原式图像浏览,能满足大多读者的读报体验。

3.1.2基于篇目标题的图像服务

“台湾时报数据库”提供按报纸篇目进行检索,检索结果为该篇目内容的图像文件,不可编辑和复制内容。每个篇目文件为黑白二值图像,字多图少,如此提供服务也符合了时报快捷、简单的特点。

3.2基于内容的服务

3.2.1基于篇目标题的内容服务

基于篇目标题的内容服务即提供篇目名称的检索、浏览,并可对内容进行编辑等操作。如“中国重要报纸全文数据库(清华同方)”提供篇目级别的按主题、题名、关键词、全文、出版时间、作者、句子和中图分类号等进行的模糊和精确检索服务。检索结果为简单排版的篇目内容,包括报名、出版日期、版次、题名、作者和正文。

该方式不体现原报纸的排版信息,适用于侧重内容查找的读者,对读报体验有较高要求的读者不太适合。

“中国报纸资源全文数据库(方正阿帕比)”提供按报纸名称、新闻图片和新闻3类进行检索,并可按地区进行分类。报纸名称检索,针对名称和刊号进行查找;新闻检索,按标题、内容、出处、作者和版名进行检索;新闻图片检索,检索点包括标题、内容、作者和出处。用户界面可同时展示报纸原貌、版号、版面名称和各版的篇目标题。通过点击篇目标题或鼠标单击报纸感兴趣的篇目区域来获得篇目内容。篇目内容的展示与原报纸排版略有差异,文字部分可编辑。

该方式既能展现报纸原貌,又可进行篇目阅读、检索与编辑,较好地满足大多数读者的需求。

3.2.2基于全文的内容服务

基于全文的内容服务是在报纸全文文字识别的基础上,实现对全文内容进行检索、浏览和编辑的服务。如本馆购买的“参考消息”数据库提供了该报纸自创刊以来的全部报纸原版、文字、图片、表格和广告的全文信息,支持对各部分内容的文字检索。依据“参考消息”的报道特点,数据库对报纸进行了特色分类,并可在各自分类下进行检索,同时具有题名、报纸名称、期号和全文内容的检索能力。

此种方式为目前较受欢迎的服务方式,提供类似服务方式的还有“经济日报”。

3.3国家图书馆民国报纸数字资源的服务模式

通过研究各种数字报纸的服务模式,比较现代报纸和民国报纸的多方面情况(如表1所示),充分考虑民国报纸的自身特点、经费限制以及迫切需要对外提供服务等因素,秉承“先做起来再逐步完善”的基本思想,国家图书馆克服诸多困难完成了缩微胶片到影像图片的转换,并进行标题内容的文字识别工作,以期尽快将数字化数据用于网络服务,最终选用基于篇目标题的图像服务模式。考虑到将来各方面条件充足时,可能进行基于全文的内容服务,民国报纸的发布平台会预留全文服务的接口。

此种方式提供报纸名称、版面、出版日期、篇名等信息的简单浏览和检索服务,既能实现读者按报纸原版原式阅读,同时还能对篇目进行检索服务。

表1 现代报纸和民国报纸比较

4问题与展望

4.1面临的问题

4.1.1部分报纸信息存在变更

民国报纸种数多,出版周期、每期版数和报纸名称等变化大,尤其对存在继承、替代等关系的报纸,如果要在元数据中清晰地著录这些信息将会遇到一定的困难,需要查阅大量资料来确定变化前后的名称、关系等各种信息的真实性。

4.1.2文字识别困难较大,需大量人为干预

报纸原件在缩微拍摄前进行了很多细致的整理工作,但由于原件本身质量较差,文字不清晰,透字较严重,尤其是缩微倍率的问题,导致报纸缩微胶片的内容有断笔、模糊等情况,OCR文字识别准确率不到30%,要实现报纸全文识别,从而提供全文检索服务仍任重而道远。

4.1.3发布平台需更新

资源的质量和加工深度是基础,好的展示平台是关键。国家图书馆正在使用的资源发布平台是以图书类型资源为主体设计的,元数据即为MARC数据,对象数据为每页书的影像数据,一般为PDF格式。民国报纸的组织形式和图书迥异,很难在现有的发布平台上得到很好的展示,尤其考虑将来完成报纸全文的文字识别后,现有平台就更难以满足其服务需求。

4.2展望

第一,在民国报纸缩微胶片数字化过程中,尽量克服人力和财力的困难,多与其他图书馆进行合作交流,做好边建设边梳理的工作,将每种报纸的变化信息理清。

第二,民国报纸缩微胶片本身的问题已几乎无法挽回,为了提高文字识别的准确率,可与市面上有经验且技术成熟的数字加工公司合作,来获得更高品质的数据。

第三,着眼于未来,全面考虑民国报纸可能的整合方式和展现方式,选用最先进的技术,开发能够实现满足民国报纸各种展示方式和检索方式的发布平台。

民国报纸具有较高的文物价值、资料价值和艺术价值。数字化后,兼具数字化媒介和纸质报纸的优势,可按多维度进行检索并方便在网络上展示。国家图书馆民国报纸数字化工作是该领域一项很好的尝试,通过实践来获得民国报纸数字化和发布的最佳方式方法,希望有更多的图书馆可以开展此项工作,及时将馆藏民国报纸通过网络为广大读者提供服务。

参考文献:

[1]谢雷.图书馆民国文献保护探析[J].图书馆建设,2012 (8):13-17.

[2]张炜.报纸的保存与保护:缩微化与数字化探究[J].图书馆建设,2007(2):37-40.

[3]李建庄.报纸缩微复制的七个程序[J].河南图书馆学刊,1988(3):36-37.

[4]赵琛.民国报纸广告[J].中国广告,2005(4):65-69.

肖红女,1982年生。硕士,馆员。研究方向:文献数字化方式方法。

吴茗女,1975年生。硕士,馆员。研究方向:数字资源发布与使用。

曾燕女,1962年生。本科学历,副研究馆员。研究方向:数字资源验收与检查。

收稿日期:(2015-05-11;责编:徐向东。)

猜你喜欢

篇目版面民国
拥有猫一样的眼睛
他们为何都爱民国?
本刊2013-2017年被四大文摘转载篇目汇总
中共党史研究篇目索引
民国人爱刷朋友圈
版面撷英
版面“三评”看得失
民国书家与民国书风
午社“四声之争”与民国词体观的再认识
新版面 新视角