利用TPI系统建设特色馆藏数据库
2009-05-31郭广堃
郭广堃
关键词:盛京时报;TPI;特色数据库;馆藏数据库
摘 要:《盛京时报》是由日本人中岛真雄创办的中文报纸,该报以中国国内时事和评论为主,大量报道了当时(1906-1943年)东北地区商贸、金融、交通、教育等许多方面的信息,具有很高的研究价值。为方便读者查找和利用文献,充分发挥其史料参考作用,辽宁省图书馆与清华同方公司合作,利用TPI系统建成数据库发布。本文从建库意义、模式、加工平台、发布系统等几方面对此进行了阐述。
中图分类号:G250文献标识码:A 文章编号:1003-1588(2009)06-0074-02
《盛京时报》于清光绪三十二年九月初一日(1906年10月18日)在沈阳创办,因当时的沈阳被称作盛京,《盛京时报》由此得名。这张由日本人中岛真雄创办的中文报纸当时的发行量很大,遍及东北地区,华北以南的一些城市甚至东南亚华语国家,1943年左右停刊,历时38年。该报对我国当时的内政、外交、经济、军事、文化、教育、社会风情等,特别是对当时东北地区商贸、金融、交通、教育等方面的信息,均有详略不等的报道,同时还记录了众多官府档案与私家著述不能详细指明的史实。它不仅是研究中国近代史、国际关系史、东北军民抗日史、北洋军阀史极为珍贵的资料,也是了解和掌握20世纪前半叶东三省的第一手资料。
1建库意义
辽宁省图书馆藏有《盛京时报》从创始至停刊的全套原报、影印本及缩微胶片,总计有141册,胶片近10万拍,具有非常可靠完整的数据源。同时该文献时间距今年代较为久远,不存在版权问题。数据库建成后,读者可以通过网络检索,方便快捷,符合当前文化信息资源网络化、数字化的要求。
2建库模式及设计
《盛京时报》 整套报纸有近10万页,此库如由本馆人员自行建设,大约需要10个人约8年完成,而由外包公司以专业化的角度制作1年时间即可完成,并有加工发布软件支持,大大缩短了建库时间,提高了效率。经过咨询、调研,辽宁省图书馆最终选择与清华同方公司合作,应用TPI系统对《盛京时报》进行数字化加工、标引和发布。
2.1 总体要求
此数据库将纸质报纸进行扫描(或缩微胶片转换)形成电子文档,通过著录得到每篇文章的题录信息,入库形成《盛京时报》资源库。
因报纸文本为繁体字,竖排版,文章成不规则排列,广告较多,全文识别率较低,故本库做成题录数据库,每条题录做为一条数据,对应一张PDF文件(全文显示为PDF图片格式),生成文章索引,实现文献资料的题名、日期、作者、版次等的检索。这样做的优点是:用户接口多为菜单驱动型,易学易用,检索直接。
2.2 元数据及著录细则
2.2.1 制定元数据
此库的元数据严格按照《中国数字图书馆基本元数据标准规范》制定,著录时对照规范,结合此库特点,设立了包括题名、创建者、来源、栏目、分类、主题、说明、权限、格式等15个核心元素和包括副题名、出版发行年、地区、人名等项内容的20个修饰词,能较全面地反映报纸的客观信息。
2.2.2 限制访问
由于此报存在年代的特殊性,对元数据的著录项目做了严格的规定:原题名有“满洲国”字样的在其前加著“[伪]”;伪满时期涉及到中央或地方政府组织的会议、祭典或其他大型活动时在题名前加[伪满洲国]字样;有官衔或在伪满中央、地方特定的政治、经济、教育、文化等机构中任职的人物的姓名前加[伪满洲国]字样以示区别;出版发行年有“大同”、“康德”字样的,自动默认为限制访问。
2.2.3 客观照录
为方便读者检索,将出版发行年(同时转换并著录公元纪年)、日期、星期、总期号、版号等客观信息全部照录。
2.2.4 设立栏目项
《盛京时报》收罗广泛,前期保持了中国清朝邸报和京报的模式,每天在头条位置刊登“宫门抄”和“上谕恭录”,报道清朝宫廷的动态来归顺民心。同时设有多种专栏。如:时论、批示、小说、文苑、钦差行踪,专电、京师要闻、各省要闻、世界新闻、市井杂俎、公文汇录、紧要专件等。为全面反映该报对当时我国内政、外交、经济、军事、文化、教育等情况的报导,使读者能按类检索,特设立“栏目”著录项。
3数据加工平台
针对此报纸数字化加工的特点,同方应用vc++ 在windows NT server操作系统上,开发了对应的程序,以保证加工的高效及数据的质量。平台具有以下功能:
3.1 管理功能
此程序包括工号及权限管理功能、考勤记录功能、建立任务批次功能、工作量统计功能、自动生成生产报表等管理功能。
3.2 批量扫描功能
此程序保证使用扫描仪对纸介质的资料进行批量的扫描,能向已有的图像文件中插入漏扫的图像文件、替换错扫的图像文件,并具有图像文件格式转换功能。
3.3 图像处理功能
此程序能有效去除大面积的图像黑边和较大杂点,自动比对图像页数、文件夹个数是否与档案整理环节一致;能对图像进行批量90度、180度旋转和倾斜校正;有图像恢复功能(能将处理过的图像恢复到处理前的原始图像状态)等。大大减少了后期人工图像处理的工作量,提高了图像处理的工作效率和质量。
3.4 质量检查功能
此程序包括各工序根据预设的抽样比例自动选取抽样文件功能;图文对照功能;修改错误目录功能;自动计算错误率并出具质检报告功能。
3.5 数据挂接功能
此程序能提供图像文件和著录数据的按档号批量挂接功能;提供挂接后的数据修改、替换功能。
3.6 条目著录功能
此程序具备自定义著录字段功能;能根据起始页、终止页及档案案卷号批量挂接图像文件;图文对照功能;数据导入导出功能(支持常见数据格式MDB、DBF、XML及Excel表格等格式的导入导出)。
4发布系统
TPI数据库建设与管理平台是基于非结构化文档管理的大型智能内容管理系统。该系统以Kbase全文检索技术为核心,采用流行的B/S模式和先进的三层C/S架构,能够同时管理多种类型的信息资源,并提供全文检索服务。
TPI的建库发布过程遵循标准化和严谨的原则,按照库结构建立、导航建立、记录添加、数据标引、数据分类、数据检查、数据库发布等步骤划分,整个过程有全中文向导指导进行操作,使用方便,易于掌握。
5问题与思考
5.1 合作建库问题
从选题立项到外包直至全部建成上网发布,历时1年多。由于初次采取合作方式建库,缺乏经验,而且外包公司对数据不是很了解,并在异地加工,沟通未及时顺畅,建库初期走了一些弯路。例如图片扫描问题,公司利用缩微胶片进行了转换,可由于胶片时间较久,有些毁坏,图像模糊不清,等我们去实地指导时,已经全部转换完成,还需要重新挑选进行扫描,不仅耽误工期,而且增加了成本。对于数据加工中的题名项,当时公司考虑节约服务器容量空间和增加效率,前期将同张报纸中的几条数据著录成一条,造成检索歧义,后及时改正。
5.2 特色数据库建设的标准化问题
近年来辽宁省图书馆建设的特色库由于技术原因应用了多个加工系统,但由于采用了统一的标准规范,按照统一标准加工、标引数字信息,最终的裸数据无论在哪个平台上都能自由转换,互相兼容,保证了发布数据的统一。
5.3 馆藏数据库建设的版权问题
从图书馆的角度,特色馆藏资源是具有较高学术和史料价值的资料,如:辽宁省图书馆藏建国前期刊、东北抗战史文献、《盛京时报》等,但如果建成数据库,就涉及著作权确认和许可问题。对已发表作品进行数字化,会涉及署名权、修改权、保护作品完整权、使用权和获得报酬的权利。图书馆进行公益性的文献数字化主要是为保护文献、方便读者使用,借助网络使更多人共享,但这又将侵害权利人的网络传播权,是建库的矛盾所在。对此,在数据库建设上多选择建设距今年代较久,过了保障期或即将过期的作品来规避版权问题,来最大限度地保护著作权人的知识产权。
参考文献:
[1] 陈建红.广西图书馆数据库建设与实践[J].图书馆界,2007,(2).
[2] 肖碧云.论特色文献数据库的建设[J].高校图书馆工作,2006,(1).
[3] 徐红岚.《盛京时报》述略[J].图书馆学刊,1989,(2).