APP下载

中文老报纸数据库的建设研究

2018-12-17王静沈立力

河南图书馆学刊 2018年10期
关键词:元数据时报数据库

王静 沈立力

关键词:《时报》;中文老报纸;数据库;元数据

摘要:《时报》作为近代上海三大报之一,在中国近代史与新闻史上影响深远。《全国报刊索引》依托上海图书馆丰富的馆藏资源,在完成《时报》的数字化加工后,推出了中国近代中文报纸全文数据库——《时报》。文章以《时报》数据库建设为例,介绍了《时报》数据库的建设流程,并从正文、广告、图片三大类型资源的元数据著录规则入手,重点阐述了该库的资源揭示与知识组织,并分析了《时报》数据库的功能构建情况,以期为中文老报纸乃至近代文献数字资源的建设提供一定的借鉴和参考。

中图分类号:G250.74文献标识码:A文章编号:1003-1588(2018)10-0106-03

1815年出版的《察世俗每月统纪传》是第一个以中国人为阅读对象的中文近代化报纸,以此为起点至1949年,在中国出版的报纸被称为近代中文报纸,即老报纸。据统计,现存老报纸应有近万种[1]。老报纸作为真实记录当时历史和特殊社会转型期思想文化的主要载体,极具思想文化价值和史料价值。随着数字化技术的发展,老报纸资源逐步呈现在世人面前。但由于各机构对老报纸内容建设缺乏沟通,存在较为严重的重复建设,且缺乏统一的元数据著录标准,致使老报纸的内容未能得到很好的揭示。

1《时报》数据库的建设情况

《时报》是近代上海老牌中文报纸,创刊于1904年,1939年停刊,存世35年,与《申报》《新闻报》并列为近代上海三大报。该报注重时评,刊载小说众多,后期更有大量的体育新闻与图片报道,内容丰富,特色鲜明,使读者可以穿越百年的时光隧道触摸历史的脉动。《时报》是由中国人自己创办的,历史长久且影响深远。《时报》开创了多个第一,如是第一个创办专刊的日报,其影响延伸至文艺、教育、出版等众多领域,时代意义可见一斑[2]。

《全国报刊索引》依托上海图书馆丰富的馆藏资源,采用先进的大幅面扫描设备,精心完成了《时报》的数字化加工处理工作,共计14.18万版,正文篇数约180万篇,广告篇数84万余篇,图片篇数5万余篇,推出了中国近代中文报纸全文数据库——《时报》,为广大读者了解和研究《时报》提供了全面而系统的资料,并实现了该资源的共享。该数据库将正文、广告、图片三大类型分开著录,并制定了各种类型的元数据著录标准及细则,实现了对文献内容的深度标引,对文献内容进行全面而又有效的揭示,这种资源组织方式为用户提供了极大的便利,充分发挥了资源的价值。

2《时报》数据库建设流程

《全国报刊索引》在建设《时报》数据库前从用户需求出发,经充分调研后根据老报纸的研究价值及可操作性对上海图书馆馆藏的中文老报纸进行选题,在进行内部论证及向专家咨询后,最终确定了中文老报纸的开发对象——《时报》。为了更好地对《时报》的资源进行揭示及知识组织,《全国报刊索引》制定了各类型资源的元数据著录规则,并根据元数据著录规则对《时报》的资源进行数字化加工处理。由于受人力、物力等限制,目前《全国报刊索引》依托上海图书馆的馆藏资源,数字化加工处理工作采取外包形式,由专业的数字化生产制作商完成[3],通过招投标确定外包方进行合作,外包方根据《全国报刊索引》提供的元数据著录规则完成数字化加工后,再由《全国报刊索引》对数据进行验收。为了提升用户体验及提高资源利用率,《全国报刊索引》对用户需求进行跟踪和调研后,根据用户需求开发系统,设计数据库结构框架及完善数据库功能,并进行调试和发布。

3《时报》数据库的资源揭示与知识组织

笔者对国内外的知识组织案例进行调研后发现,标引深度日益加深,趋向深入文献内容。《时报》等中文老报纸内容丰富、版面多样,这就使元数据的著录变得较为复杂。目前的老报纸数据库普遍只对基础信息进行标引,缺乏对报纸中图片的题名、图中人名、广告标题、广告发布人、广告对象等信息进行深度标引[4]。中文老报纸的内容一般分为正文和广告,部分正文内容会附有图片,为了更好地揭示报纸数字化文本的内容,《全国报刊索引》对报纸的文中圖片也进行了著录,著录的图片主要是内容独立或附有文字说明的图片。中文老报纸元数据的著录分三种类型:正文元数据、广告元数据及图片元数据。《时报》数据库建设初期,关键步骤之一就是制定正文、广告、图片三大类型的元数据著录标准及细则,该标准及细则不仅要全面揭示《时报》的内容,同时还要考虑其通用性,能适用于其他老报纸资源。因此,《全国报刊索引》在都柏林核心元数据规范的基础上,大量查阅《时报》等中文老报纸,总结其出版、内容等方面的规律,最终制定出三大类型的元数据标准及细则。

3.1正文元数据著录

目前,《时报》的正文元数据著录项有将近40个,除标题、责任者、责任者单位、责任者著作方式、卷期信息、版次等基础著录项外,为了更深入地揭示资源,《全国报刊索引》还对新闻的来源、发布地、发布时间、题中人名、栏目等信息均进行了著录。此外,《时报》的专刊和特刊众多,如《教育周刊》《妇女周刊》《医学周刊》《实业周刊》《汽车周刊》《图画周刊》等,针对这一特点,《全国报刊索引》扩展了附属报名这一著录项,用于对正文内容所属报纸正刊的附属报纸名称进行著录,包括增刊、副刊、特刊、纪念刊、专刊等,为后续报名沿革的揭示打下良好的基础。

《时报》内容涵盖面极广,为了更好地进行知识组织,《全国报刊索引》对《时报》正文内容所属的主题进行分类,即对资源进行深度标引,实现丰富的检索和聚类等,因此增加了类别这一著录项,同时制定正文类别细则,主要有:①“评论”类别。《时报》设有“时评一”“时评二”“时评三”三个专栏,配合每日重大新闻发表时事短评,言简意赅,贴合时局,针砭时弊。在其影响下,其他报纸也纷纷效仿,因而这种时事评论在其他中文老报纸中也常出现,因此设立这一类别。②“小说”“诗歌”“散文”“剧本”类别。当时的报刊杂志登载小说是一种风尚[5],《时报》等老报纸刊载的文学作品内容丰富多样,尤其是小说、诗歌等众多,因此设立这些类别。③“通信”类别。《时报》开辟有“特约通信”“北京特约通信”等,其他各报纷起效仿,如《申报》的“飘萍通信”、《新闻报》的“一苇通信”等[6],因此设立这一类别。④“原报导读”类别。《时报》多期报纸中的题名为“提要”“尚有本埠新闻转入后页”“本报今日第四张教育周刊阅者注意”“本报今日第四张妇女周刊阅者注意”等,对报纸内容进行概括或引导,因此设立这一类别。此外,《全国报刊索引》还设有“消息”“编辑部来信”“公文”等类别。

王静,沈立力:中文老报纸数据库的建设研究3.2广告元数据著录

广告作为一种史料记录社会生活的点滴,是还原历史的重要线索[7],因此对广告元数据的著录也应尽量揭示其内容特色。目前,《时报》的广告元数据著录项有将近20个,除广告标题、卷期信息、页码、版次等基础著录项外,《全国报刊索引》还对广告对象、广告语、广告发布者、广告栏目等信息进行了著录。中文老报纸的广告包罗万象,为了更好地揭示广告内容,《全国报刊索引》对广告对象进行划分,制定了广告类别细则。

《全国报刊索引》查阅《时报》及《新闻报》(《新闻报》是近代中国刊登广告最多的著名商业大报,亦被称为“广告报”[8])等老报纸后,制定了广告元数据类别细则,主要有:①“百货零售”类别。《时报》几乎每天都有永安、先施、新新、丽华等百货公司的广告,因此设立这一类别。②“烟草”类别。在国货运动的影响下,各香烟厂商宣传推广其产品的主要方式就是在报纸上投放广告。《时报》刊登的香烟广告数量大、品牌多,而且非常醒目,甚至独占头版;《新闻报》等中文老报纸上的香烟广告也不胜枚举,涉及面广,影响较大,因此设立这一类别。③“医疗保健”类别。《时报》等老报纸刊登有大量的医药广告,数量多、版面大,表现手法丰富多样。广告发布者除有个人诊所和医馆外,还有医院、药房以及经营药品的洋行等,广告内容主要是各种药品、疾病、偏方秘术等,如性药广告、妇科广告、戒烟广告等,因此设立这一类别。④“文化教育”类别。学校招生、图书出版等方面的广告是《时报》广告的主要内容,商务印书馆和中华书局等出版社的广告经常出现在《时报》等老报纸的重要版面,因此设立这一类别。⑤“交通运输”类别。《时报》《新闻报》等老报纸经常登载运输公司的启事或声明,如上海交通运输公司、鸿安轮船公司、太平车行、云飞汽车等,以及列车运行时刻表、轮船时刻表以及汽车时刻表等各种运输工具的运营信息,因此设立这一类别。⑥“招聘人才”类别。《时报》多期刊登题名为“待聘”“征求”“征求人才”“招请人才”等广告,因此设立这一类别。⑦“钟表珠宝”类别。《时报》登载各钟表行、银楼、珠宝号等公司的广告,因此设立这一类别。此外,《全国报刊索引》还设有“房地产”“金融保险”“拍卖”“建筑装饰”等类别。

3.3图片元数据著录

为了更好地揭示老报纸的内容,《全国报刊索引》对报纸中的图片也进行了著录。目前,《时报》的图片元数据著录项有将近20个,包括图片标题、图片类别、卷期、页码、版次等信息。《全国报刊索引》针对图片类别这一主观著录项制定了图片类别细则,主要有:①“书法”类别。《时报》刊登的图片部分题名为“书法”,其内容大多为某人题字,此外还包括与书法相关的信息,如学生的书法成绩及评语等,因此设立这一类别。②“地图”类别。《时报》刊登的图片部分题名为地图或某地区的地图,因此设立这一类别。③“漫画”类别。《时报》刊登的图片部分题名为“漫画”或“漫画/版画”,因此设立这一类别。此外,《全国报刊索引》还设有“照片”“歌谱”等类别。

4《时报》数据库的功能构建

4.1文献检索

检索功能是用户使用数据库最直接的工具,其操作的便捷性和丰富性直接影响用户对数据库的体验。目前,《时报》数据库已实现网络资源共享,用户可通过普通检索、高级检索及专业检索等多种渠道进行文献检索。丰富、全面的检索字段为用户提供了极大的便利:在正文内容方面,数据库可利用的检索字段包括题名、作者、作者单位、文献来源、新闻来源、新闻发布地以及全字段等;在图片内容方面,除全字段和文献来源外,数据库可利用的检索字段还包括图片标题、图片责任者、图片说明等;在广告内容方面,除全字段和文献来源外,数据库可利用的检索字段还包括广告标题、广告发布者、广告语以及广告产品等。此外,《时报》数据库还可按时间范围进行检索,为保证文献查全率,还支持文献繁简检索转换。用户通过数据库的索引导出功能,还可以将检索结果,如文献的题名、报名、出版时间等信息导出和保存。

4.2文献导航

科学合理的导航对中文老报纸数据库的建设及应用具有重要的作用,这直接关系到老报纸数据库的使用效率及馆藏资源的利用率。目前,中国近代中文报纸全文数据库通过首字母导航和检索两种方式设立文献导航。用户不仅可以按照刊名拼音首字母或英文刊名的首字母进行检索,还可以通过输入中文老报纸信息,如报纸名称、创刊时间、出版社、出版地等进行检索。该数据库对每期报纸都提供整本浏览和篇名浏览功能,整本浏览功能可完整呈现报纸原件的全貌,并可在全屏状态下对该版报纸进行放大或缩小;篇名浏览功能则完整地罗列出各期报纸收录的所有文章篇名,使用户一目了然。此外,该数据库还提供日期选择功能、版面目录信息功能、缩略图功能等。

4.3聚类功能

《全国报刊索引》在建设《时报》数据库初期就制定了规范、详细的元数据著录规则,并依照该著录规则进行数字化加工处理,同时通过多重校验确保数据质量。因此,《时报》数据库具备丰富的检索字段,可以快速、准确地查找文献,可实现正文、图片和广告三种文献类别的分类检索,并可以根据不同的文献类别将检索结果进行个性化聚类。正文、图片和广告的聚类项均包括文献类型、文献来源及出版时间。此外,正文聚类项还包括全文状态、作者、正文类别、文章栏目、新闻来源及新闻发生地等;广告聚类项还包括广告类别和广告发布者等,通过个性化的聚类和图形化的展现方式为用户提供优质的服务。

4.4全文查阅和文献定位功能

《时报》数据库提供每篇文献的全文阅览服务,用户可通过整本浏览和篇名浏览等功能,查阅和下载其所需的文献资源。同时,该数据库实现了报纸的热区精准定位,并对每篇文献提供预览功能,用户通过预览功能和报纸的热区精准定位查阅某篇文献时,该篇文献即可通过热区分色显示方式展示报纸的原貌。

参考文献:

[1]杨敏.近代中国报纸数字资源的建设和利用研究[J].图书馆工作与研究,2014(6):60-64.

[2]尹婷.上海《时报》专刊研究[D].南昌:南昌大学,2014.

[3]刘洪梅,梅颢,郭薇.外文老报纸篇名数字化项目外包后的数据质量监控[J].中国高新技术企业,2017(11):119-121.

[4]杨敏.新中国成立前老报纸数据库的比较研究[J].科技情报开发与经济,2014(7):157-160.

[5]刘永文,陈晓鸣.《时报》:颇具时代特色的小说传媒(1904—1911)[J].江汉论坛,2006(2):113-117.

[6]余玉.从体裁到题材:上海《时报》新闻业务变革及效应探析[J].南昌大学学报(人文社会科学版),2017(4):83-90.

[7]杨朕宇.《新闻报》广告与近代上海休闲生活的建构(1927—1937)[D].上海:复旦大学,2009.

[8]陆依君.“东方之泰晤士”的传承与揭示:《新闻报》数字资源的特色及价值[J].浙江档案,

2017(4):56-58.

(编校:徐黎娟)第38卷第10期河南图书馆学刊2018年10月

收稿日期:2018-09-01

作者簡介:陈骊(1969—),长治医学院馆员。

猜你喜欢

元数据时报数据库
老飞人
数据库
基于来源的组织机构元数据构建研究
《京华时报》2017年1月1日起休刊
元数据与社会化标签在微视频搜索中的应用
高等院校智慧校园建设规划与实现
潮流时报
数据库
数据库
数据库