APP下载

数字馆藏元数据的应用与研究

2017-05-13冯红娟张炜

新世纪图书馆 2017年4期
关键词:元数据搜索引擎图书馆

冯红娟+张炜

摘 要 数字馆藏元数据在图书馆的资源揭示与发现过程中发挥着日益重要的作用。论文结合国家图书馆具体工作,对图书馆元数据格式、元数据管理方法进行论述,提出数字馆藏元数据的4种应用模式:搜索引擎、专题资源库、可视化及关联数据。

关键词 元数据 数字馆藏 图书馆 唯一标识符 搜索引擎

分类号 G254.364

DOI 10.16810/j.cnki.1672-514X.2017.04.017

Abstract The digital library metadata plays an increasingly important role in resource reveal and discovery. Combined with the specific work in National Library of China, this paper discusses the library metadata format and the management methods of digital library metadata, and puts forward four kinds of application modes of metadata in digital libraries: search engine, special resource database, visualization and data association.

Keywords Metadata. Digital collection. Library. Unique identifier. Search engine.

随着信息环境的发展变化,人们的数据查询及阅读习惯也正在发生着巨大变化,网络阅读、移动阅读越来越融入日常生活。与实体馆藏相比,数字馆藏在图书馆中正发挥着日益重要的作用。以国家图书馆为例,经过多年的资源建设,截至2014年底,数字馆藏总量达1024TB,资源内容包含:电子图书、电子期刊、电子报纸、学位论文、会议论文、音频、视频等[1],呈现资源类型多、来源渠道多、元数据格式多等特点。数字馆藏元数据作为描述、整合及利用数字馆藏的重要工具,如何对其进行有效管理,已成为图书馆建设尤其是数字图书馆建设过程中亟需进行研究的问题。本文从图书馆常用元数据格式、数字馆藏元数据管理方法及利用模式等几个角度对图书馆数字馆藏元数据展开探讨。

1 图书馆常用元数据格式

图书馆在描述资源时,常用的元数据格式包含CNMARC、MARC21、DC、MODS等。现就这几种常用的元数据格式进行比较分析。

CNMARC(中国机读目录,China Machine-Readable Catalogue)是国家图书馆参考国际图联UNIMARC,并结合国内图书馆编目经验编制的,是我国现行的行业标准。CNMARC格式在图书馆中文实体馆藏编目工作中得到广泛应用。

MARC21是由美国国会图书馆和加拿大国家图书馆在1999年共同完成的,它既可用于描述、检索文献,还可作为一种交换格式,与UKMARC、UNMARC等格式兼容。目前,MARC21已成功应用于大英图书馆、美国国会圖书馆及加拿大国家图书馆。国内图书馆在著录外文文献时,也常用MARC21格式。

DC(都柏林核心元素集,Dublin Core Metadata Initiative)[2-4]是国际通用的适用于网络资源描述著录的元数据集,含15个核心元素,即:题名、主题词、描述、语种、来源、关联、时空范围、作者、出版者、其他责任者、权限、日期、类型、标识符、格式。DC元数据格式具有可用性、简洁性、独立性及扩展性强等特点,适于对网络资源进行著录描述。与CNMARC和MARC21相比,其灵活性大,但元素及子元素的扩展著录过程易出现不一致、不规范问题。

MODS(元数据对象描述模式,Metadata Object Description Schema)格式[5]是MARC的标准子集,在MARC21基础上进行设计,与MARC21之间具有较强的可交换性,利用XML作为编码语言,通用性强。MODS设置有20个顶级元素:题名信息、名称、资源类型、体裁形式、来源信息、语言、载体形态描述、摘要、目次、读者对象、附注、主题、分类、相关文献、标识符、馆藏位置、检索环境、部分、扩展、记录信息;另外,还包含两个根元素:MODS和MODSCollection。

以上四种元数据格式,在图书馆中都有较广泛的应用,现对其应用领域及特征进行比较分析,如表1所示。

2 元数据有效管理方式

目前,国家图书馆的数字馆藏编目主要应用CNMARC和DC元数据格式。针对数字馆藏元数据的管理,可通过建立唯一标识符系统,实现数字馆藏的统一标引;通过建设元数据仓储系统,实现各类型元数据的整合存储,为提供一站式检索访问服务奠定数据基础;另外,为增强元数据的揭示与发现功能,国家图书馆启动数字馆藏元数据改造工作,并制定数字馆藏元数据著录规范,为数字馆藏元数据著录与使用提供参考。下面对以上元数据管理方式进行深入阐述。

2.1 使用唯一标识符实现数字资源的准确定位

唯一标识符是数字资源的条形码,可在数字资源采集、加工、服务、保存、处置的整个生命周期中,进行统一编号和规范化管理,实现资源的准确定位,并可为不同机构及系统的数据交换及互操作提供便利。唯一标识符独立于数字对象的物理位置、复本数量及应用系统,一经生成,便不再更改,是数字资源规范管理的重要标志。

国外已涌现多个唯一标识符系统,如Handle System、Digital Object Identifier(DOI)等。Handle已被美国国会图书馆、美国国防技术信息中心等机构使用,DOI也已有较广泛的应用。国家图书馆在调研国外唯一标识符系统基础上,于2010年出版《国家图书馆唯一标识符规范和应用指南》,并在该规范指导下建设国家数字图书馆唯一标识符系统(Chinese Digital Object Identifier,CDOI),该系统于2012年12月开始试运行,并通过数字图书馆推广工程在全国图书馆进行推广部署[8]。唯一标识符系统作为数字图书馆重要的基础性设施,是数字馆藏元数据管理的重要方式,提升了图书馆数字馆藏的管理效率[9]。

2.2 建设元数据仓储

图书馆数字馆藏类型多样,包含图书、期刊、报纸、音视频、网络资源等;从数据来源区分,又分为自建、外购、合建资源。不同类型、不同来源的元数据存在较大差异,这给数字馆藏的整合与利用带来挑战。元数据仓储的建设是有效整合数字馆藏的重要途径。

为加强元数据的管理,增强对数字馆藏的揭示和利用,国家图书馆于2011年开始启动元数据仓储项目的建设[10]。元数据仓储的建设过程中,需秉承有序性、规范性、扩展性的原则,将各类元数据根据映射规则,转换为统一格式,并在一定程度上保留资源的特有字段信息,构建元数据仓储系统。截至2015年底,国家图书馆元数据仓储整合的元数据总量已有2亿多条,为实现各类资源的一站式检索奠定了数据基础。

2.3 改造数字馆藏元数据

图书馆自建数字馆藏元数据一般来源于实体馆藏元数据。在实体館藏数字化过程中,其描述对象已发生变化,需对实体馆藏元数据进行改造,才能更好地满足数字馆藏描述的需要。自2015年起,国家图书馆开始启动数字馆藏元数据改造工作,自建中文数字馆藏按CNMARC格式进行著录,主要改造内容如下。

(1)在原有的实体馆藏元数据基础上,增加135、307、337字段,著录数字馆藏的类型、色别、声音、文件格式、扫描分辨率等信息,去除描述实体馆藏形态特征信息的106、121、126、130等字段。

(2)在参考《信息资源的内容形式和媒体类型标识》(国家标准GB/T 3469—2013)的基础上,在281字段增加内容形式,在282字段增加媒体类型,替换原200字段的一般资料标识信息。

(3)针对数字馆藏重新生成001记录标识号,并将对应的实体馆藏的标识号赋予452字段,以实现数字馆藏与实体馆藏的关联。

(4)为实现数字馆藏的揭示与发布,在856字段增加发布链接及唯一标识符信息。

(5)进一步完善规范100字段和102字段,以便数字馆藏按时间轴、地域轴进行可视化展示,提升用户的应用体验,提高资源利用率。

通过元数据改造工作,数字馆藏元数据格式更加规范、统一,元数据描述的准确性、深度及内在关联性也得到提升。另外,国家图书馆在元数据改造工作基础上制定数字馆藏元数据的著录规范,为数字馆藏的著录与使用提供参考。改造后的CNMARC元数据按ISO2709和CNMARC-XML两种格式进行保存管理,以适应不同的应用需求。

3 元数据应用模式思考

3.1 基于元数据仓储提供一站式检索

基于元数据仓储建设搜索引擎,可实现不同类型、不同来源数字馆藏的一站式检索获取服务。国家图书馆文津搜索系统[11-13],便是基于元数据仓储系统搭建而成,其整合了国家图书馆各类数字资源,满足读者对图书馆资源的一站式检索需求,方便读者直接获取数字资源的目标对象文件和各类应用服务,而不必在多个系统或平台中分别进行检索查询。

另外,由于搜索引擎基于本地元数据仓储搭建,可方便地实现检索结果导航过滤、汇集展示等功能,并可应用数据关联技术,分析用户检索行为,基于检索请求和结果,挖掘元数据之间的关联关系,建立基于元数据的文献相似模型,为用户提供相关文献的推荐。

3.2 建设专题资源库提供深层次揭示服务

数字馆藏元数据除了应用于搜索引擎,还可应用于专题资源库建设。相比于搜索引擎对各类资源的统一检索,专题资源库是针对某类特色馆藏的深层次揭示服务[14]。元数据的建设与管理也是专题资源库建设的重要一环,对专题库的建设发布起重要作用。如“国图公开课平台”[15]是国家图书馆讲座资源的专题服务平台,采用MOOC的理念,为读者提供图书馆的精品讲座视频资源,每个视频时长一般不超过20分钟,面向互联网用户免费提供。国图公开课平台良好的发布展示效果,与公开课资源的深层次元数据加工密不可分。

3.3 数字馆藏的可视化展示是元数据利用的发展趋势

传统的数字馆藏发布系统主要依托分类导航和检索,而可视化平台的建设将为用户查询、浏览数字馆藏提供更加优越的应用体验。世界数字图书馆[16]、美国数字图书馆[17]均已利用可视化的平台提供用户服务。世界数字图书馆提供时间线和互动式地图的可视化功能;美国数字图书馆提供Map、Timeline及Bookshelf的可视化展示。国家图书馆基于数字馆藏元数据改造的成果,正在建设按时间轴、地域轴进行分类的可视化展示平台。数字馆藏的可视化展示将是元数据利用及数字馆藏揭示的发展趋势之一。

3.4 关联数据的研究为数字馆藏的利用提供更开放的空间

关联数据技术可将图书馆资源与全球网络资源建立链接,扩展馆藏资源的服务范围,提升图书馆的价值,为数字馆藏的利用提供更开放的空间。基于数字馆藏元数据的关联数据研究,是图书馆跟踪利用国际先进技术,提升馆藏资源利用率和服务效能的新研究方向[18]。大数据海量性的特征,为信息的传播方式带来深刻变化,图书馆的文献资源整合工作也需不断跟踪国内外的最新知识动态,如通过RDF三元组实现数据关联等技术,以实现决策管理的科学化和图书馆事业的可持续发展[19]。

4 结语

随着数字馆藏的海量增长,如何管理元数据,对资源进行整合揭示及服务,是图书馆研究的重要课题。本文以国家图书馆为例,就数字馆藏元数据的管理方法进行阐述,提出数字馆藏元数据的四种利用模式:搜索引擎、专题资源库、可视化展示及关联数据。相信随着资源揭示与组织技术的进步,元数据作为整合利用数字馆藏的重要工具,将在数字图书馆建设过程中发挥更重要的作用。

参考文献:

[ 1 ] 汪东波.国家图书馆年鉴(2015)[M].北京:国家图书馆出版社,2015.

[ 2 ] Dublin core metadata initiative[EB/OL].[2016-02-06].http://dublincore.org/.

[ 3 ] 都柏林核心元数据[EB/OL].[2016-02-06].http://dc.library.sh.cn/.

[ 4 ] 肖珑,申晓娟.国家图书馆元数据应用总则规范汇编[M].北京:国家图书馆出版社,2011:34-39.

[ 5 ] MODS[EB/OL].[2015-09-07].http://www.loc.gov/stand-ards/mods/mods-outline.html.

[ 6 ] 國家图书馆.新版中国机读目录格式使用手册[M].北京:国家图书馆出版社,2004.

[ 7 ] 国家图书馆MARC21格式使用手册课题组. MARC21书目数据格式使用手册[M].北京:北京图书馆出版社,2005.

[ 8 ] 童忠勇,李志尧,孙秀萍.国家数字图书馆数字资源唯一标识符系统的设计与实现[J].图书馆学研究,2013(21):53-58.

[ 9 ] 毛军,孟连生,镇锡惠,等.试论我国数字资源唯一标识符发展战略[J].现代图书情报技术,2005(2):1-4.

[10] 梁蕙玮,萨蕾.数字图书馆推广工程面向数字资源整合的元数据仓储构建[J].国家图书馆学刊,2012(5):27-32.

[11] 文津搜索[EB/OL].[2016-2-17].http://find.nlc.cn/.

[12] 杨东波,邢军.国家图书馆“文津搜索”的设计与实现[J].国家图书馆学刊,2014(3):93-98.

[13] 申晓娟,李丹,王秀香.略论图书馆资源整合与检索系统的发展:以国家图书馆“文津”搜索系统为例[J]. 图书情报工作,2013(9):39-60.

[14] 李晓娟,吴英梅,纪高飞,等.高校图书馆专题库建设的几点思考[J].图书馆工作与研究,2007(5):64-65.

[15] 国图公开课[EB/OL].[2016-02-23].http://open.nlc.cn/.

[16] 世界数字图书馆[EB/OL].[2016-02-22].https://www.wdl.org/zh/sets/chinese-literature/timeline/.

[17] 美国数字图书馆[EB/OL].[2016-02-22].http://dp.la/timeline.

[18] 刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011(2):5-12.

[19] 林海青,楼向英,夏翠娟.图书馆关联数据:机会与挑战[J].中国图书馆学报,2012(1):58-67,112.

猜你喜欢

元数据搜索引擎图书馆
Chrome 99 Canary恢复可移除预置搜索引擎选项
世界表情符号日
图书馆
基于来源的组织机构元数据构建研究
元数据与社会化标签在微视频搜索中的应用
高等院校智慧校园建设规划与实现
去图书馆
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌