APP下载

原生文献数字化建设实践

2014-11-10刘霞高琳琳鲁二斌

博览群书·教育 2014年6期
关键词:数字化

刘霞+高琳琳+鲁二斌

摘 要:原生文献资源体现着馆藏特色,对原生文献资源的开发和建设具有直接的现实意义。本文结合图书馆实践工作介绍了原生文献数字化建设的流程,着重详细给出了基于MADL资源编目和审查的操作指导,以及使用EasySite进行资源发布的操作,这给原生文献的数字化建设提供了一个较完整的借鉴。

关键词:原生文献;数字化;MADL

一、原生文献资源

1.文献数字化的意义。在网络信息技术飞速发展的成果带动下,以文献信息资源的数字化加工、存储、管理和传输为主要特点数字图书馆技术,为各类公众信息与知识的传播提供了一种崭新的方式,这也被各国视为国家信息基础设施建设、知识创新体系和创造能力的重要组成部分。图书馆的文献信息资源建设从以纸质图书、期刊为主要信息源向电子化、数字化图书馆信息服务方向迈进,使读者足不出户就能够获得大量的信息资源。作为文献信息资源收集、整理、存贮和交流的中心,图书馆要改变以往的工作模式,能够随时准确地、快捷地为任何用户提供所需信息,这就需要将图书馆中的文献信息资源进行数字化加工,从而获得最佳意义上的资源共享。

2.原生文献开发建设的意义。原生文献资源是指由院校机构或个人直接生产出来的有关教学、科研和管理等方面正式出版或有价值的非正式出版的表现为不同载体的文献资源。这些文献资源有公开发表或出版的,但大部分是以半公开、非常规的文献形式存在。像教师的讲义、内部教材、各种科研学术研究报告、研究生毕业论文等,这些文献一般很少出版发行,这些文献只能被很少一部分人使用,其拥有的学术价值发挥受到极大的限制。加快原生文献资源的数字化开发建设,完善特色信息资源体系,是院校图书馆网站形成特色的一个很重要的环节。原生文献资源作为学校的学术窗口,能历史地、全方位地反映学校学术研究、科学研究、管理水平的发展变化,可为学校领导的决策、学校学术水平的评估以及总结办学规律和科研经验提供可靠的依据,是学校知识管理和知识创新的重要组成部分,对原生文献资源的开发和建设具有直接的现实意义。

二、原生文献资源数字化建设

原生文献的数字化建设应该包括资源选取、数字化加工、资源编目审查、资源发布等环节,如图1所示,图中标明了操作中使用的软件。原生文献资源类型的选取可以采取先易后难的原则,逐步展开。在数字化加工方面本文使用了Adobe Acrobat软件,资源编目审查、资源发布方面则基于我馆开发的MADL及EasySite。MADL和EasySite是由装备指挥技术学院图书馆设计开发并提供使用培训与后续升级服务的一套实现数字图书馆的软件,EasySite主要向图书馆提供一个基于Web平台的信息发布、交流与服务平台。

图1 文献资源数字加工流程图

1.数字化加工。美国Adobe公司开发的Adobe Acrobat软件集扫描、文字识别、添加链接、创建索引、表页及动态控制等功能为一体,可以将任何字处理软件、排版软件、图形软件等计算机应用程序产生的文件转换为PDF格式(PortabledocumentFormat),它可以将任何文字、表格、颜色、图形图像、超文本链接、声音、动态图像等信息封装在一个电子文档中,而不管创建该文件所使用的应用程序和平台,只要在使用Adobe Acrobat Reade软件就可以浏览、打印PDF文件。Adobe Acrobat软件以其强大的文件创建功能和良好的用户界面,可以在很大程度上满足中小型图书馆文献资源数字化工作的需要,而且PDF做为一种通用电子文件格式应用非常广泛。

连接好扫描仪并放入纸质文档之后,打开Adobe Acrobat软件通过“从扫描仪创建PDF”菜单项就可以实现完成纸质文档的数字化,输出的格式是PDF,在扫描输出过程中软件可以实现自动纠偏、文件合并、OCR识别等功能。扫描参数应根据扫描文档类型选取合适的设置。以图书类资源为例,该类资源以黑白文字及图表为主,灰度和彩色插图为辅,尺寸规格统一,主要由封面、目录、提要和正文等部分构成,数字加工项目通常有对目录、提要或正文的文字进行的要求。基于此,在进行数字加工时,首先要充分考虑OCR的需要,一般要以600DPI的精度扫描,印刷字体越小扫描精度要求越高;其次,文本和插图可以分别以不同的精度扫描,并以不同的格式存储,发布时再统一转换成PDF电子文档。

2.资源编目和审查。文献资源的编目应该包括分类、著录、标引、设置检索点等环节,在MADL中实现编目和审查的模块是内容管理器(MCT),MCT主要向编目与检查人员提供对MADL数据库中记录的编目与检查功能,便于编目与检查人员完成文献编目与检查工作。

内容管理器的主要特点有:文献在标引前就已经上传到服务器端;文献编目与审查的操作对象始终在服务器端,本地无需设置工作目录;对已编目与审查文献的元数据信息与数字对象进行修改,可在CMC中直接完成。支持PDF、doc、MLF、txt等多种文件格式;编目与审查人员必须事先获得对数据库的访问授权与任务分配才能开展编目与审查工作。画框取词;提供编目模板,并可以自定义编目模板。编目、审查完毕的元数据写入到“数据库名.mdf”的文件中,而引入的数字对象存到了“数据库名_objFile.mdf”文件中,这两个文件分属不同的文件组。由于数字对象与元数据分别存放在不同的文件组,占用大量磁盘空间数字对象并不会影响数据库的查询性能。

3.资源发布。编目审查完毕的文献对外提供基于web的服务是普遍采取的方式,这里使用EasySite对外发布文献资源。EasySite主要向图书馆提供一个基于Web平台的信息发布、交流与服务平台,该平台的功能面向图书馆的日常业务,包括服务功能与管理功能两大类,服务功能面向读者用户,而管理功能面向图书馆馆员。

EasySite目前的主要功能大致包括:站点架构管理;站点用户管理;站点元素发布与管理;简单的参考咨询服务;学位论文提交服务;MADL内容发布与发布管理。EasySite提供了多个发布模板,可以自定义选择可供用户检索的字段,而且可以对所有用户权限组的资源库访问控制设置,这一点非常适合解决原生文献类型复杂性的需要。

三、小结

MADL提供了从文献编目、审查到发布一系列环节的解决方案,能较好地保存和管理数字对象及元数据。所有的业务数据都存储到了SQL SERVER数据库里,这对数据的统一管理和迁移带来了极大的便利。MADL只是提供了一个元数据录入的框架,编目中涉及到的分类号和主题词仍需参考其他资料和软件。

参考文献:

[1]陈欣.高校原生文献资源的开发与利用.博士学位论文,2004.

[2]聂华等.文献资源数字加工与发布标准研究.现代图书情报技术,2005,第9期.endprint

摘 要:原生文献资源体现着馆藏特色,对原生文献资源的开发和建设具有直接的现实意义。本文结合图书馆实践工作介绍了原生文献数字化建设的流程,着重详细给出了基于MADL资源编目和审查的操作指导,以及使用EasySite进行资源发布的操作,这给原生文献的数字化建设提供了一个较完整的借鉴。

关键词:原生文献;数字化;MADL

一、原生文献资源

1.文献数字化的意义。在网络信息技术飞速发展的成果带动下,以文献信息资源的数字化加工、存储、管理和传输为主要特点数字图书馆技术,为各类公众信息与知识的传播提供了一种崭新的方式,这也被各国视为国家信息基础设施建设、知识创新体系和创造能力的重要组成部分。图书馆的文献信息资源建设从以纸质图书、期刊为主要信息源向电子化、数字化图书馆信息服务方向迈进,使读者足不出户就能够获得大量的信息资源。作为文献信息资源收集、整理、存贮和交流的中心,图书馆要改变以往的工作模式,能够随时准确地、快捷地为任何用户提供所需信息,这就需要将图书馆中的文献信息资源进行数字化加工,从而获得最佳意义上的资源共享。

2.原生文献开发建设的意义。原生文献资源是指由院校机构或个人直接生产出来的有关教学、科研和管理等方面正式出版或有价值的非正式出版的表现为不同载体的文献资源。这些文献资源有公开发表或出版的,但大部分是以半公开、非常规的文献形式存在。像教师的讲义、内部教材、各种科研学术研究报告、研究生毕业论文等,这些文献一般很少出版发行,这些文献只能被很少一部分人使用,其拥有的学术价值发挥受到极大的限制。加快原生文献资源的数字化开发建设,完善特色信息资源体系,是院校图书馆网站形成特色的一个很重要的环节。原生文献资源作为学校的学术窗口,能历史地、全方位地反映学校学术研究、科学研究、管理水平的发展变化,可为学校领导的决策、学校学术水平的评估以及总结办学规律和科研经验提供可靠的依据,是学校知识管理和知识创新的重要组成部分,对原生文献资源的开发和建设具有直接的现实意义。

二、原生文献资源数字化建设

原生文献的数字化建设应该包括资源选取、数字化加工、资源编目审查、资源发布等环节,如图1所示,图中标明了操作中使用的软件。原生文献资源类型的选取可以采取先易后难的原则,逐步展开。在数字化加工方面本文使用了Adobe Acrobat软件,资源编目审查、资源发布方面则基于我馆开发的MADL及EasySite。MADL和EasySite是由装备指挥技术学院图书馆设计开发并提供使用培训与后续升级服务的一套实现数字图书馆的软件,EasySite主要向图书馆提供一个基于Web平台的信息发布、交流与服务平台。

图1 文献资源数字加工流程图

1.数字化加工。美国Adobe公司开发的Adobe Acrobat软件集扫描、文字识别、添加链接、创建索引、表页及动态控制等功能为一体,可以将任何字处理软件、排版软件、图形软件等计算机应用程序产生的文件转换为PDF格式(PortabledocumentFormat),它可以将任何文字、表格、颜色、图形图像、超文本链接、声音、动态图像等信息封装在一个电子文档中,而不管创建该文件所使用的应用程序和平台,只要在使用Adobe Acrobat Reade软件就可以浏览、打印PDF文件。Adobe Acrobat软件以其强大的文件创建功能和良好的用户界面,可以在很大程度上满足中小型图书馆文献资源数字化工作的需要,而且PDF做为一种通用电子文件格式应用非常广泛。

连接好扫描仪并放入纸质文档之后,打开Adobe Acrobat软件通过“从扫描仪创建PDF”菜单项就可以实现完成纸质文档的数字化,输出的格式是PDF,在扫描输出过程中软件可以实现自动纠偏、文件合并、OCR识别等功能。扫描参数应根据扫描文档类型选取合适的设置。以图书类资源为例,该类资源以黑白文字及图表为主,灰度和彩色插图为辅,尺寸规格统一,主要由封面、目录、提要和正文等部分构成,数字加工项目通常有对目录、提要或正文的文字进行的要求。基于此,在进行数字加工时,首先要充分考虑OCR的需要,一般要以600DPI的精度扫描,印刷字体越小扫描精度要求越高;其次,文本和插图可以分别以不同的精度扫描,并以不同的格式存储,发布时再统一转换成PDF电子文档。

2.资源编目和审查。文献资源的编目应该包括分类、著录、标引、设置检索点等环节,在MADL中实现编目和审查的模块是内容管理器(MCT),MCT主要向编目与检查人员提供对MADL数据库中记录的编目与检查功能,便于编目与检查人员完成文献编目与检查工作。

内容管理器的主要特点有:文献在标引前就已经上传到服务器端;文献编目与审查的操作对象始终在服务器端,本地无需设置工作目录;对已编目与审查文献的元数据信息与数字对象进行修改,可在CMC中直接完成。支持PDF、doc、MLF、txt等多种文件格式;编目与审查人员必须事先获得对数据库的访问授权与任务分配才能开展编目与审查工作。画框取词;提供编目模板,并可以自定义编目模板。编目、审查完毕的元数据写入到“数据库名.mdf”的文件中,而引入的数字对象存到了“数据库名_objFile.mdf”文件中,这两个文件分属不同的文件组。由于数字对象与元数据分别存放在不同的文件组,占用大量磁盘空间数字对象并不会影响数据库的查询性能。

3.资源发布。编目审查完毕的文献对外提供基于web的服务是普遍采取的方式,这里使用EasySite对外发布文献资源。EasySite主要向图书馆提供一个基于Web平台的信息发布、交流与服务平台,该平台的功能面向图书馆的日常业务,包括服务功能与管理功能两大类,服务功能面向读者用户,而管理功能面向图书馆馆员。

EasySite目前的主要功能大致包括:站点架构管理;站点用户管理;站点元素发布与管理;简单的参考咨询服务;学位论文提交服务;MADL内容发布与发布管理。EasySite提供了多个发布模板,可以自定义选择可供用户检索的字段,而且可以对所有用户权限组的资源库访问控制设置,这一点非常适合解决原生文献类型复杂性的需要。

三、小结

MADL提供了从文献编目、审查到发布一系列环节的解决方案,能较好地保存和管理数字对象及元数据。所有的业务数据都存储到了SQL SERVER数据库里,这对数据的统一管理和迁移带来了极大的便利。MADL只是提供了一个元数据录入的框架,编目中涉及到的分类号和主题词仍需参考其他资料和软件。

参考文献:

[1]陈欣.高校原生文献资源的开发与利用.博士学位论文,2004.

[2]聂华等.文献资源数字加工与发布标准研究.现代图书情报技术,2005,第9期.endprint

摘 要:原生文献资源体现着馆藏特色,对原生文献资源的开发和建设具有直接的现实意义。本文结合图书馆实践工作介绍了原生文献数字化建设的流程,着重详细给出了基于MADL资源编目和审查的操作指导,以及使用EasySite进行资源发布的操作,这给原生文献的数字化建设提供了一个较完整的借鉴。

关键词:原生文献;数字化;MADL

一、原生文献资源

1.文献数字化的意义。在网络信息技术飞速发展的成果带动下,以文献信息资源的数字化加工、存储、管理和传输为主要特点数字图书馆技术,为各类公众信息与知识的传播提供了一种崭新的方式,这也被各国视为国家信息基础设施建设、知识创新体系和创造能力的重要组成部分。图书馆的文献信息资源建设从以纸质图书、期刊为主要信息源向电子化、数字化图书馆信息服务方向迈进,使读者足不出户就能够获得大量的信息资源。作为文献信息资源收集、整理、存贮和交流的中心,图书馆要改变以往的工作模式,能够随时准确地、快捷地为任何用户提供所需信息,这就需要将图书馆中的文献信息资源进行数字化加工,从而获得最佳意义上的资源共享。

2.原生文献开发建设的意义。原生文献资源是指由院校机构或个人直接生产出来的有关教学、科研和管理等方面正式出版或有价值的非正式出版的表现为不同载体的文献资源。这些文献资源有公开发表或出版的,但大部分是以半公开、非常规的文献形式存在。像教师的讲义、内部教材、各种科研学术研究报告、研究生毕业论文等,这些文献一般很少出版发行,这些文献只能被很少一部分人使用,其拥有的学术价值发挥受到极大的限制。加快原生文献资源的数字化开发建设,完善特色信息资源体系,是院校图书馆网站形成特色的一个很重要的环节。原生文献资源作为学校的学术窗口,能历史地、全方位地反映学校学术研究、科学研究、管理水平的发展变化,可为学校领导的决策、学校学术水平的评估以及总结办学规律和科研经验提供可靠的依据,是学校知识管理和知识创新的重要组成部分,对原生文献资源的开发和建设具有直接的现实意义。

二、原生文献资源数字化建设

原生文献的数字化建设应该包括资源选取、数字化加工、资源编目审查、资源发布等环节,如图1所示,图中标明了操作中使用的软件。原生文献资源类型的选取可以采取先易后难的原则,逐步展开。在数字化加工方面本文使用了Adobe Acrobat软件,资源编目审查、资源发布方面则基于我馆开发的MADL及EasySite。MADL和EasySite是由装备指挥技术学院图书馆设计开发并提供使用培训与后续升级服务的一套实现数字图书馆的软件,EasySite主要向图书馆提供一个基于Web平台的信息发布、交流与服务平台。

图1 文献资源数字加工流程图

1.数字化加工。美国Adobe公司开发的Adobe Acrobat软件集扫描、文字识别、添加链接、创建索引、表页及动态控制等功能为一体,可以将任何字处理软件、排版软件、图形软件等计算机应用程序产生的文件转换为PDF格式(PortabledocumentFormat),它可以将任何文字、表格、颜色、图形图像、超文本链接、声音、动态图像等信息封装在一个电子文档中,而不管创建该文件所使用的应用程序和平台,只要在使用Adobe Acrobat Reade软件就可以浏览、打印PDF文件。Adobe Acrobat软件以其强大的文件创建功能和良好的用户界面,可以在很大程度上满足中小型图书馆文献资源数字化工作的需要,而且PDF做为一种通用电子文件格式应用非常广泛。

连接好扫描仪并放入纸质文档之后,打开Adobe Acrobat软件通过“从扫描仪创建PDF”菜单项就可以实现完成纸质文档的数字化,输出的格式是PDF,在扫描输出过程中软件可以实现自动纠偏、文件合并、OCR识别等功能。扫描参数应根据扫描文档类型选取合适的设置。以图书类资源为例,该类资源以黑白文字及图表为主,灰度和彩色插图为辅,尺寸规格统一,主要由封面、目录、提要和正文等部分构成,数字加工项目通常有对目录、提要或正文的文字进行的要求。基于此,在进行数字加工时,首先要充分考虑OCR的需要,一般要以600DPI的精度扫描,印刷字体越小扫描精度要求越高;其次,文本和插图可以分别以不同的精度扫描,并以不同的格式存储,发布时再统一转换成PDF电子文档。

2.资源编目和审查。文献资源的编目应该包括分类、著录、标引、设置检索点等环节,在MADL中实现编目和审查的模块是内容管理器(MCT),MCT主要向编目与检查人员提供对MADL数据库中记录的编目与检查功能,便于编目与检查人员完成文献编目与检查工作。

内容管理器的主要特点有:文献在标引前就已经上传到服务器端;文献编目与审查的操作对象始终在服务器端,本地无需设置工作目录;对已编目与审查文献的元数据信息与数字对象进行修改,可在CMC中直接完成。支持PDF、doc、MLF、txt等多种文件格式;编目与审查人员必须事先获得对数据库的访问授权与任务分配才能开展编目与审查工作。画框取词;提供编目模板,并可以自定义编目模板。编目、审查完毕的元数据写入到“数据库名.mdf”的文件中,而引入的数字对象存到了“数据库名_objFile.mdf”文件中,这两个文件分属不同的文件组。由于数字对象与元数据分别存放在不同的文件组,占用大量磁盘空间数字对象并不会影响数据库的查询性能。

3.资源发布。编目审查完毕的文献对外提供基于web的服务是普遍采取的方式,这里使用EasySite对外发布文献资源。EasySite主要向图书馆提供一个基于Web平台的信息发布、交流与服务平台,该平台的功能面向图书馆的日常业务,包括服务功能与管理功能两大类,服务功能面向读者用户,而管理功能面向图书馆馆员。

EasySite目前的主要功能大致包括:站点架构管理;站点用户管理;站点元素发布与管理;简单的参考咨询服务;学位论文提交服务;MADL内容发布与发布管理。EasySite提供了多个发布模板,可以自定义选择可供用户检索的字段,而且可以对所有用户权限组的资源库访问控制设置,这一点非常适合解决原生文献类型复杂性的需要。

三、小结

MADL提供了从文献编目、审查到发布一系列环节的解决方案,能较好地保存和管理数字对象及元数据。所有的业务数据都存储到了SQL SERVER数据库里,这对数据的统一管理和迁移带来了极大的便利。MADL只是提供了一个元数据录入的框架,编目中涉及到的分类号和主题词仍需参考其他资料和软件。

参考文献:

[1]陈欣.高校原生文献资源的开发与利用.博士学位论文,2004.

[2]聂华等.文献资源数字加工与发布标准研究.现代图书情报技术,2005,第9期.endprint

猜你喜欢

数字化
数字化:让梦想成为未来
家纺业亟待数字化赋能
论经济学数字化的必要性
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
数字化电镀生产流程构建
数字化制胜
数字化博物馆初探
倍压Boost PFC变换器的改进及数字化研究
关于“万方数据——数字化期刊群”简介