APP下载

基于元数据的高校机构知识库建设研究*——以北京科技大学机构知识库为例

2012-03-14李国俊王瑜王李梅刘恩涛季淑娟邱小花张丽英

大学图书馆学报 2012年4期
关键词:北京科技大学字段论文

□李国俊 王瑜 王李梅 刘恩涛 季淑娟 邱小花 张丽英

1 引言

互联网已经成为科研人员信息交换的主要途径之一。基于传统出版模式的学术交流体系已经不适应科学家们获取最新前沿信息的需求[1]。随着开放获取活动的发展,开放获取理念被越来越多的人所认同,更多的科研人员愿意将他们的论文投向开放获取期刊。同时,技术的进步也使得越来越多的科研人员倾向自我存取服务,将他们的论文和科研数据保存在个人或专业网站上[2]。传统的学术信息交流模式正在发生改变,机构知识库就是在这样的背景下产生的。

随着开放获取活动的深入发展,以及对长期保存迫切需求的推动下,国外的机构知识库呈快速发展趋势,据OpenDOAR的统计[3],截至2012年1月14日已有2149个机构库在其站点上进行了注册。国内也 有 多 所 大 学 进 行 了 机 构 库 建 设[4][5][6],但 是与2004年国内对机构库的热情相比,现在国内高校对机构库的态度更为理性和现实,有学者称之为大陆机构库实践的“冷现象”[7]。造成这种“冷现象”的原因是多方面的,包括版权、制度、机构本身等等。但是总的来说,资源获取与组织、可持续发展问题是困扰 目 前 机 构 库 建 设 的 两 大 难 点[8][9][10][11]。 针 对上述问题,北京科技大学图书馆在建设机构库的过程中做出了一些有益的尝试,供其他高校参考。

2 机构库建设方案

机构库建设的意义主要包括三个方面:长期保存本校学术研究成果,展示本校各机构的研究实力,提高学术声誉、促进学术发展;减少因数据库购买不足而导致部分全文本校师生无法查阅的问题,促进学术交流;建立规范的题录内容和良好的组织架构,加强图书馆与学校人事、科技处等部门的合作,共享数据,提高工作效率。

Dspace是目前国内外机构库建设中采用最多的系统平台,据Open DOAR统计,截至2012年1月全世界的机构库中有38.9%的选择了DSpace系统。DSpace能够管理和描述各种数字资源,并长期保存开放源代码系统。北京科技大学图书馆选用Dspace作为机构库建设的基础软件,机构库建设的流程如图1所示。

3 基于元数据的机构库建设实践

建设机构知识库的难点之一就是机构库的资源获取。Crow[12]认为机构库的资源可以包括以下类型:正式出版的期刊文献、会议文献、专著、学位论文、文献的预印本、工作文档、数据集、辅助研究材料、灰色文献等。其中出版过的期刊文献和会议文献是最容易获取的,这也是目前机构库中主要存储的文献类型。北京科技大学机构库的建设内容主要也是以期刊文献和会议文献为主,本校的学位论文数据已经存入TPI系统中,暂时不将这些数据导入到机构库中。

图1 机构库建设流程

元数据是机构库建设的核心。DSpace采用都柏林(Dubin)核心元数据[13]来描述其管理的资源。都柏林核心元数据的元素集总共有15个元素,每个元素都不是必须的,并且可以重复,可以以任何顺序出现,这样就可以描述不同领域中的资源。都柏林核心元数据的可扩展性和互操作性使其可以描述任何网络资源,这也是DSpace采用此元数据标准的原因之一。

机构库是长期存储一个机构各种资源的平台,各种资源既有不同的属性和特点,又有一些相同的属性。如果使用一个统一的元数据标准来管理这些资源,需要对这些资源的属性进行分析和归类,取这些资源属性的并集,然后根据这些并集属性来设计机构库的元数据。同时为了今后机构库共享数据,进行互操作,在设计元数据时应尽量按照都柏林15个基本元数据对属性进行归类。

3.1 元数据规范设计

我们将Web of Science、EI和CNKI三个数据库中提供的字段全部提取出来,然后取这些数据库字段的并集。其中Web of Science和EI中的期刊论文和会议论文的字段不相同,CNKI中的期刊论文和会议论文的字段相同,将这三个数据库的所有字段分别列出,如表1-表3所示。根据各种机构不同的特点和要求可以选用其中的一些或者全部字段。

北京科技大学机构库除了要满足图书馆要求的字段外,还须兼顾校人事处和科研处对科研论文数据的需求,因为每年校人事处都需要对教师进行考核,其中很重要的一条就是科研论文,而科研处也会每年对发表高质量论文的教师进行奖励。因此,他们对科研论文的数据有一定的要求。图书馆作为一个文献信息组织与管理的机构,在文献管理方面很有经验,能够很好地完成这项工作。

校人事处和科研处对第一作者、通讯作者、第一作者单位、国内/国外、卷期的格式、发表年月的格式、页码的格式都有要求,这些要求不能直接通过数据库的题录数据得到,需要经过程序的处理。此外,根据需要我们还额外加上了所属学院和全文链接地址,所属学院是根据作者地址中写的单位名称进行匹配,全文链接地址是在文献的DOI基础之上利用DOI解析网站(http://dx.doi.org)拼接而成,这也在部分上弥补了部分全文不足的问题。为了利用NoteExpress插件和DSpace命令行进行提交,我们需要将题录数据转成相应的NE格式和DSpace要求的简单存储XML格式。在此之前,需要将NE模板字段、数据库字段和DC元数据字段对应起来,这是元数据规范设计的重点,北京科技大学机构库元数据字段之间的对应关系如图2所示。我们在利用自编程序进行数据转换和导入时都要遵循这个规范。

3.2 元数据采集

元数据采集是机构库建设的重要一步。期刊论文和会议论文大都数被商业数据库所收录,北京科技大学师生发表的科研论文绝大部分能够在Web of Science、EI和CNKI中检索到。我们从上述三个数据库中检索作者单位为北京科技大学的科研论文,时间从2005年到2010年。由于建立了学院、资源类型和年份三级树状组织结构,同时为了更好地管理,我们分别按照数据库和年份从各个数据库下载全记录的题录数据,以文本文件形式保存。目前已经采集的外文数据将近1万5千条。

由于图书馆的人力有限,自动采集一直是机构库建设努力的目标。有的高校利用NoteExpress文献管理软件进行自动采集[4],这样做存在两个问题:一个是NoteExpress在采集外文数据时存在很多问题,我们根本就不能使用NoteExpress来采集外文数据;另一个方面是NE采集的字段无法转换为机构库所要求的格式,满足不了人事处和科研处等单位对数据库字段的其他要求。基于此,我们放弃利用NE来进行自动采集,转用其他的方式,如图3所示。

表1 Web of Science的字段标识[14]

表2 EI字段标识[15]

字段 中文 字段 中文Source title 期刊名 Monograph title 专著标题Abbreviated source title 期刊名缩写 Publisher 出版商Volume 卷 Abstract 摘要Issue 期 Number of references 参考文献数量Issue date 出版日期 Main heading 主题词Publication year 出版年 Controlled terms 受控主题词Pages 页码 Uncontrolled terms 非受控主题词Language 语言 Classification code 分类代码ISSN 国际标准刊号 DOI 数字标识符CODEN 期刊代码 Treatment 主题类型Document type 文献类型 Database 数据库

表3 CNKI数据库的字段标识[16]

由于各个数据库提供批量下载题录数据的功能,我们首先人工批量从各个数据库下载题录数据,然后利用自编程序根据设计好的元数据规范将这些元数据转为NE格式和相应的XML格式,最后导入到DSpace系统中。虽然我们是人工批量获取,但是我们所花费的时间与NE自动获取的时间差不多,而且这样获取的数据质量更有保障。Web of Science一次可以下载500条记录,EI一次可以下载400条记录,CNKI一次可以下载50条记录数据。

3.3 元数据提交

本系统提供三种方式将元数据导入到DSpace机构库中:

(1)通过网站后台(命令行)批量提交[17]

DSpace本身提供批量导入的API,批量导入的命令格式为:/dspace/bin dsrun org.dspace.app.itemimport.ItemImport-a-e irp@ustb.edu.cnc 123456789/928 -s D:/data_dspace/1100 -m output.txt

在利用这种方式导入之前需要将题录数据转为DSpace要求的简单存储XML格式。

DSpace简单存储XML格式也可以通过API导出命令得到,导出的命令格式为:

dsrun org.dspace.app.itemexport.Item Export–t ITEM –i 123456789/1054–d d:/dspace/exports–n 10

该命令只导出一条记录,如须将整个专题全部导出,需要用COLLECTION替换ITEM,并更换-i参数后专题ID。上述的导入和导出命令的具体参数可以参考DSpace相关的系统文档。

(2)利用NE插件进行提交

NE插件将命令行方式以一种可视化的方式显示出来,以一种简单友好界面的形式进行提交,并反馈每条记录提交的结果。

(3)通过网站页面单篇提交

前面两种方式主要是管理员进行操作,网站提交方式是为了方便作者自行提交,然后由管理员进行审核,这种方式一次只能提交一篇,是对批量提交方式的补充。

4 机构库的可持续发展

机构库的可持续发展问题是目前机构库建设面临的又一问题。很多机构库由于缺乏资金、人力和制度的保障,机构库的数据往往不能常年更新。北京科技大学图书馆积极探索,从提供统计报告服务和合作两个方面来保证机构库的可持续发展。

图2 数据库字段、NE模板和DC元数据的对应关系

图3 元数据采集的流程图

4.1 提供机构论文的统计报告

机构库的目的之一就是长期保存本机构的科研论文,展示机构各部门的研究成果。北京科技大学图书馆计划利用机构库的数据,分析统计出整个学校的科研论文状况,为学校的相关部门提供参考。目前我们正在统计2010年的数据,统计报告主要包括学校和二级单位被SCIE、SSCI、CPCI-S、EI、CNKI、CSSCI等数据库收录的论文数量,作者发文量排行榜,期刊分析,学科主题分析,基金分析,合作分析等等。

4.2 为校科研处和人事处提供数据

北京科技大学图书馆每年都需向校人事处和科研处提供本校教师所发表的科研论文数据,主要用于教师的考核、职称评定和奖励。图书馆每年在提供数据的同时,也把这些数据导入到机构库中,保证机构库数据的常年更新。

由于各个文献数据库在收录文献时会存在一定的错误记录,一部分原因是数据库商标注错误,另一部分原因是作者在投稿时写错。比如有些文献的标题与纸质刊上的标题不同,有些作者使用不规范的校名,还有些作者将邮编写错或者不写邮编等等,这些错误会造成漏检的情况。科研处在奖励论文前会向全校教师公示,并要求教师认领,漏检论文的教师须向科研处提交数据。教师认领完并审核后会将正确的数据反馈给图书馆,图书馆再将漏检的数据添加到机构库中,将利用程序对二级单位归类错误的数据进行更新,保证机构库数据的质量。

5 结语

北京科技大学图书馆在机构库建设中积极探索新的途径和方法,在资源获取与组织方面和可持续发展方面有了比较满意的解决方案,但是对于困扰机构库建设的版权问题、政策支持问题等还没有很好的解决办法。这也是国内机构库面临的共同问题。

此外,DSpace系统本身还存在很多问题,如不支持元数据在不同的主题集合间的管理与移动,使用方面也不太符合用户的习惯等等,这也是需要我们进一步改进的地方。

1 Vishala BK,Bhandi MK.Building institutional repository(IR):Role of the library.In:the 5th International CALIBER-2007.Chandigarh:Panjab University,2007:631-640

2 Lynch CA.Institutional repositories:Essential infrastructure for scholarship in the digital age.[2011-11-15].http://www.arl.org/resources/pubs/br/br226/br226ir.shtml

3 The directory of open access repositories—Open DOAR.[2012-01-14].http://www.opendoar.org/

4 邹荣等.基于DSpace构建科研论文管理系统.现代图书情报技术,2009(10):90-94

5 史艳芬,刘玉红.高校机构库可行性方案研究——以同济大学为例.图书馆杂志,2010,29(9):47-50,41

6 张静等.大学机构库构建过程中的关键问题研究——以西安交通大学机构库为例.现代情报,2011,31(6):138-140,147

7 张巧娜.我国大陆机构库实践的“冷现象”研究.大学图书馆学报,2010(6):48-51

8 郭少友.机构库建设的若干问题研究.中国图书馆学报,2006,32(1):77-80

9 李晓辉.机构库愿景实现过程中面临的若干问题述评.图书馆建设,2010(4):2-5

10 Little G.Solutions in search of problems?The challenges and opportunities of institutional repositories.The Journal of Academic Librarianship,2012,1,in press:1-3

11 Li Y.Institutional repositories and digital preservation:Accessing current practices at research libraries.D-Lib Magazin,2011,17(5-6).[2011-11-15].http://www.dlib.org/dlib/may11/yuanli/05yuanli.html

12 Crow R.The case for institutional repositories:A SPARC position paper.[2011-11-20].http://www.arl.org/sparc/repositories/readings.shtml

13 申晓娟等.GB/T 25100-2010,信息与文献——都柏林核心元数据元素集.北京:中国标准出版社,2010

14 Web of Science的字段标识.[2011-11-8].http://images.webofknowledge.com/WOKRS54B7/help/WOS/hs_wos_fieldtags.html

15 EI字段标识.[2011-11-8].http://www.engineeringvillage.org

16 CNKI字 段 标 识.[2011-11-8].http://epub.cnki.net/grid2008/index/ZKCALD.htm

17 DSpace系统文档.[2011-06-09].https://wiki.duraspace.org/display/DSPACE/DSpaceResources

猜你喜欢

北京科技大学字段论文
《北京科技大学学报(社会科学版)》
《北京科技大学学报(社会科学版)》
图书馆中文图书编目外包数据质量控制分析
《北京科技大学学报》(社会科学版)
田永诉北京科技大学拒绝颁发毕业证、学位证案
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登
CNMARC304字段和314字段责任附注方式解析
无正题名文献著录方法评述