APP下载

中国地震台网中心机构知识库构建方案初探*

2013-12-22张晋辉

地震科学进展 2013年12期
关键词:台网知识库机构

张晋辉

(中国地震台网中心,北京 100045)

(作者电子信箱,张晋辉:zhangjh@seis.ac.cn)

1 机构知识库的定义与由来

机构知识库(英文为Institutional Repository,简称IR)又称为机构仓储[1]、机构典藏库等,是机构对本单位员工所创造的各种类型有价

值的知识产出进行统一收集、集中管理、长期保存和提供检索利用等增殖服务的知识资产管理系统[2]。

机构知识库起源于“草根”,最初由学者将成果发表在个人或专业的网站上,以加快学术交流和增加学术影响力。

机构知识库产生的由来:

(1)纸质资源价格上涨及商业出版的版权限制和时效性差引起学术交流不畅。

(2)研究人员对科研资源需求迫切,开放获取运动兴起,要求免费共享学术资源。

(3)计算机、网络、数字化技术发展,数字化学术资源的集中保存、有效管理、便于检索和传播使用成为重要问题。

以上这些因素导致了机构知识库的产生并使其得到迅速发展。

2 构建机构知识库的意义

构建机构知识库对于台网中心的意义在于:

(1)对台网中心的科研产品进行统一分类、标引、加工、存储、检索和利用,进行全面长期的集中管理和保存。

(2)促进科研活动的沟通与交流,提高科研效率及科研成果的应用效率[3]。

(3)有助于评价机构的研究方向与研究趋势,及评价科研人员的科研绩效。

(4)提升台网中心的地位和价值,吸引更多的科研基金和科研人员。

机构知识库对于单位员工的意义在于:

(1)增加个人研究成果可见性,提高学术影响和论文被引用率。快速传递研究成果,进行学术交流和知识共享。

(2)知识资源集中管理,永久保存提交的研究成果。通过固定的URL避免对工作的无效链接。

(3)便于个人成果的积累、评价、申报奖项。

3 机构知识库的国内外建设现状

国外对于IR的研究和建设始于20世纪末,近年来一直处于线性增长趋势(图1)。

根据OPENDOAR的统计结果(截止2012年11月9日),世界范围内在此网站上注册的知识库数量已达2 224个,其中机构知识库1 840个,占82.7%。从国别(地区)角度来看,拥有机构知识库数量前8位的国家和地区分别是美国 (280)、英国 (156)、德国(150)、日本(132)、西班牙(73)、意大利(61)、波兰(60)和台湾地区(57)。

图1 2005—2012年世界机构知识库的动态增长趋势[4]

图2 世界机构知识库的国家(地区)分布

OPENDOAR网站收录1 840个机构知识库,涉及到29个学科。其中多学科机构知识库有1 376个,占机构知识库总数的61%,地球科学机构知识库27个,仅占机构知识库总数的1%。

目前,我国大陆及港澳台地区在该网站上注册的机构知识库数量有90个(其中台湾有57个)。北京大学、清华大学、厦门大学等高校和中国科学院等部分科研机构都已经建立了机构知识库,将研究者的智力成果进行集中保存,供分享、交流、参考利用。但是,我国机构知识库的数量与西方发达国家之间存在很大差距,比例不到世界机构知识库总量的5%,而中国地震局这一具有很强研究性质的机构尚未建立自己的机构知识库。

作为我国防震减灾工作的重要业务枢纽、核心技术平台和基础信息国际交流的重要窗口,中国地震台网中心各类科研成果斐然,除了正式发表和出版的论著外,还有大量的科技报告、工作报告、科学数据、多媒体资料、科研项目申报材料、学生毕业论文等各种极具学术科研价值的灰色文献,但这些科研成果大多分散在科研人员个人手中,没有得到广泛的利用和共享,科研人员大都是在自己的圈子中埋头苦干,并不了解其他同事的工作内容,没有形成充分有效的合作机制。所以,我们完全有必要建立一个统一的共享和交流平台,长期保存并共享利用这些宝贵的知识财富。

中国地震台网中心数字图书馆经过几年的建设,已经取得了丰硕的成果。目前拥有40余种外文原版期刊的全文电子版;480余种中文地学类期刊的全文检索服务及8万多种中文图书;5万多篇天文学、地球科学类的博硕论文。维普、超星、万方等中文电子资源数据库镜像站点等。在网络环境下,70多家用户(包括许多台站)可随时随地快捷地访问数字图书馆资源。还可免费浏览由地震台网中心、京区有关研究所与超星公司联合制作的数字全文图书7万多册,其中地球科学类书刊2万余册。这些都为台网中心机构知识库的建设提供了丰富的资源、技术和经验支持。

图3 世界机构知识库的学科分布

4 台网中心机构知识库的构建方案

4.1 制定构建计划

4.1.1 进行需求调研

在制定台网中心机构知识库的构建计划前,必须首先在台网中心内部进行需求调研。需求调研就是通过访谈、设计并发放调查问卷等方式,了解目前台网中心地震科研成果的发表和存储方式,计算机、网络和存储设备等硬件资源的状况,中心领导、部门、组和科研人员对机构知识库的认知程度,并摸清参与机构知识库建设的主要力量等等。

4.1.2 定义服务功能[5]

定义服务功能就是在明确需求的前提下,确定台网中心机构知识库的服务内容与服务范围,包括机构知识库将提供哪些服务、资源如何组织、有哪些关键用户、是否有充足的经费来源、是否收费等。

4.1.3 制定时间计划

为构建机构知识库所需的所有工作编制一个时间表,按照这个时间表执行相关任务以保证机构知识库构建工作按时完成。

4.2 编制政策文件

编制政策文件是指根据前期的需求调研结果,明确机构知识库的建设目标,并围绕该目标制定相应的政策、工作流程、技术标准与维护方法等。政策文件主要包括[5]:

4.2.1 概述

概述是对构建机构知识库的目的、功能和意义的简要介绍。由于科研人员的学科背景主要是地球物理专业,他们对机构知识库一些专业术语和概念并不了解,所以在机构知识库的构建前期,有必要向这些科研人员进行解释和说明。

4.2.2 制定资源收集政策

资源收集政策规定机构知识库收录的资源类型和这些资源的组织方式。资源收集政策必须明确规定机构知识库将收录哪些类型的资料以及提交这些资料的格式。格式(包括 TXT、WORD、EXCEL、PDF、HTML等)的选择对资源的提交和存储都有直接的影响。值得注意的是,地震科研资源涉及到大量图表资料,而图表资料格式非常复杂多样,因此有必要专门针对图表资料制定相关政策。

4.2.3 规定资源提交和存储政策

这部分既要规定资源存储的步骤,又要明确资源提交的流程。

此外,在政策文件中还应包括机构知识库的经费模式、隐私问题等方面的内容。

4.3 创建成本模型

在建设机构知识库前,必须对机构知识库的建设费用进行预算,创建一个成本模型。成本模型应根据机构知识库的建设策略进行选择。机构知识库建设策略主要有使用开放源代码单独建设、加入机构知识库联盟、使用商业系统或混合使用上述方式等几种方式[5]。因此,成本模型需要结合机构知识库的构建策略进行选择。

4.4 组建工作团队

根据台网中心机构知识库的构建计划,确定所需的工作人员及其职责,组建台网中心机构知识库建设团队。

在计划阶段,需要物色人员组成一个包括中心领导在内的机构知识库实施计划小组,实施计划小组主要负责需求调研、服务模型构建、成本分析与计划制定;在实施阶段,需要组建用户服务与技术协调两支专业队伍,分别负责与用户的沟通和技术支持。

5 方案中涉及的若干问题

5.1 内容建设

5.1.1 资源类型界定

资源类型是CENC-IR存储资源的内容类型,主要包括:

单位员工正式出版的期刊论文和图书、学术会议论文、博硕士学位论文、地震观测和科研数据、工作简报、开发的程序和软件、专利和科技成果等等。这些知识产品可以通过检索或浏览的方式在CENC-IR中获取。

5.1.2 资源栏目设置

根据上述资源类型划分,将台网中心机构知识库的资源内容设置如下:

(1)研究成果类:期刊论文、会议论文、学位论文、图书著作、专利文献等;

(2)工作数据类:公文文档、工作简报、观测数据、前兆数据、开发的程序及软件等;

(3)教育培训类:硕士研究生、博士研究生、教学课件、教学课程等;

(4)科研项目类:国家级项目、省部级项目、其他项目;

(5)历史数据类:图片资源、视频资源、新闻报道等

(6)其他:无法归类却有保存必要。

5.1.3 资源采集

资源采集是指CENC-IR存储资源的采集方式,主要包括:

按照业务部门/组为单位进行分类收集和管理;

单位员工的科研成果;

来访交流人员的科研成果;

单位员工与外单位合作的科研成果;单位培养的硕博士的研究报告和学位论文等。

5.1.4 数据处理

数据处理分为对单位内部科研资源的处理和对从其他开放资源中所收集到的科研资源的处理两种[6]。

对台网中心内部科研资源的处理需经过身份验证、规范控制和建立索引3个步骤。首先对提交者身份进行验证,拒绝接收未注册的用户所提交的内容。规范控制是对所提交内容的文件类型、文件格式、元数据质量进行规范。对通过验证和规范控制的内容,要按照一定的顺序建立索引,以供用户检索。

对于从其他开放资源中收集到的科研资源的处理,要经过元数据过滤、格式转换、标准化、建立索引的处理过程。对经过上述处理的元数据按照一定的检索点进行索引并形成相应的倒排档,以供用户检索。

通过数据处理过程的元数据和资料将被添加到台网中心IR的存储区进行保存,并提供给台网中心内外的科研人员使用。

5.2 运行维护

(1)管理机制:建立台网中心部门/组/科研人员的层级式管理体系,集成单位办公系统的认证系统,控制用户使用权限。可采用账户身份识别技术,将用户分为5类:中心领导和部门主任、小组负责人、业务人员和管理人员;研究生;聘雇人员及临时工作人员。中心领导和部门主任具有上传资料和管理研究成果的权限;小组负责人、业务人员和管理人员仅具有上传和下载资料的权限;研究生和聘雇人员及临时工作人员无自行上传资料权限,若欲上传个人研究成果至系统,则可请导师或工作人员代为上传[7]。

同时,对文章资料设立保密登记制度。对于涉及到国家利益、国防安全等方面的资料设定最高保密等级,而对于其他资料设置一定的保密期(一般为半年到一年不等),过了保密期,就可以对台网中心的所有人员开放,以便保护文章作者的著作权。

(2)政策机制:由台网中心相关业务部门制定台网中心机构知识库成果提交政策;专利和软件著作权登记制度、CENC-IR存缴和保存政策、CENC-IR传播保护政策、知识产权政策等。

(3)激励机制:采用一定的奖励制度鼓励科研人员贡献和分享成果。为了使CENC-IR能够成功地运营起来,可制定以下一些激励机制:一是对于提交自己作品持消极态度的作者,尽量减少提交资料时的工作量,作者的作品可由情报信息部代为存储;二是对作者进行有针对性的培训,使他们能够了解机构知识库提供的服务,如知识资产统计等[8]。

(4)宣传机制:由情报信息部负责联系部分科研人员做试点推广,帮助他们将研究成果通过台网中心机构知识库发布;主动向单位员工宣传单位机构知识库,例如编制宣传小册子、定期发送电子邮件等,宣传机构知识库的意义与作用。

(5)版权政策:对期刊、图书根据出版商政策提供不同版本的全文或链接服务;对未出版物等灰色文献,签订著作权声明和版权许可协议,推进创作共用协议的使用,鼓励科研人员在最大范围内公开学术成果的全文或详细内容。

5.3 软件选择和系统架构

5.3.1 开发软件

机构知识库软件平台的选择在机构知识库建设过程中十分关键,可供选择的机构知识库软件多种多样,选用哪种软件取决于多种因素,软件既要功能强大而又物美价廉,既能服务到位又要有后续保障。

据统计,目前IR软件已有数十种之多[9],但使用范围最广的主要有两种,DSpace和EPrints。其中EPrints是全球第一款IR软件,在2004年以前的应用范围最为广泛。DSpace是由麻省理工大学图书馆和惠普公司在EPrints的经验基础之上合作开发的,在功能设计上作了大量优化,支持多种认证方式,支持被Google及其他搜索引擎索引,采用著名开源全文检索引擎Lucene,使其直接具有强大的全文检索功能等。DSpace是目前使用最多的机构知识库软件[10]。DSpace联盟的许多成员使用该软件构建了本机构的机构知识库,如MIT、Cambridge和Columbia大学等。

DSpace的优势在于:

(1)系统结构合理,支持OAIS(开放档案信息系统),是开源软件可以运行于所有UNIX/Linux系统,支持第三方开源系统。

(2)支持任意类型的内容存储。

(3)修改和扩展功能容易。

(4)能接受几乎所有的文件类型。

(5)检索功能强大,内置Lucence,以便实现全文检索。

(6)通过DSpace联盟可以建立强大的虚拟馆藏。

鉴于上述优势,笔者建议选取DSpace作为台网中心机构知识库的开发软件。

5.3.2 系统架构

通过分析北京大学、浙江大学等单位机构知识库的系统架构[11],并结合台网中心自身的实际特点,笔者将台网中心机构知识库的系统架构设计如下(图4):

它共分为用户服务层、技术服务层、业务逻辑层、存储层和硬件等5个层次,其中用户服务层直接面向终端用户提供服务,通过用户服务层,用户可以实现包括存储、管理和检索学术成果,监测、分析和评估服务以及与图书馆的服务集成;技术服务层;业务逻辑层分为内容管理、存取和用户管理3个子系统,它们分别实现对内容的收集、管理内容的存储和检索,以及对用户的管理,是整个系统的核心部分;存储层实现对数据流(日常数据条目)和数据对象(主要是数据库和XML文件)的存储,最底层就是支持上述服务的硬件设备,包括服务器、扫描仪等。5个层次是一个互相联系、由下向上的垂直体系结构,它们自底向上逐级提供服务。

6 方案实施的主要困难

机构知识库的建设是一项由众多部门和人员参与的、涉及若干问题的综合性项目,这需要相关部门和人员的密切配合和长期努力。机构知识库构建方案的实施过程难免会遇到各种各样的问题,中国地震台网中心机构知识库的构建过程中预期所面临的问题主要包括:

6.1 版权问题

制约机构知识库建设和发展的最大障碍是版权问题,诸如出版机构的版权限制、学术期刊已授权其他单位、著作权不明等问题[12]。由于机构知识库涉及到的资源来源广泛、类型复杂,版权归属非常复杂。

为此,台网中心必须要制定相应的版权政策,来维护内容提交者、产权所有者、出版商等相关责任人的权利,避免不必要的法律纠纷。在制定政策之前,首先了解本国与机构知识库相关的法律政策,包括与知识产权问题有关的版权、内容许可等,使制定的政策符合国家法律规定和机构政策,同时借鉴国外机构知识库版权问题的解决方法,以促进台网中心机构知识库版权问题的合理解决[13]。

图4 CENC-IR的系统架构图

6.2 经费问题

建立和运行机构库需要较高的成本,包括系统的软硬件设施、升级和维护费用、培训和推广费用、人力资本等费用。项目建设团队和日常维护团队需要和发展财务处密切沟通,结合成本模型和财政预算,制定合理的项目经费预算,工作团队也要严格执行各项预算,节约成本,使有限的资源发挥最大的效用。

(作者电子信箱,张晋辉:zhangjh@seis.ac.cn)

[1]冯占双,金玉玲.机构仓储的前景预测.图书情报工作,2009,53(12):113-116

[2]杨宏.国内机构知识库研究综述.上海高校图书情报工作研究,2007(3):1-6

[3]程爽,周宁丽,张曙.机构知识库建设实践与探讨——以中国人民大学教师成果数据库建设为例.图书情报工作,2012(S1):143-145

[4]University of Nottingham,UK.Growth of the OpenDOAR Database-Worldwide,Institutional Repositories[EB/OL].[2012-11-9].http:∥www.opendoar.org/onechart.php?cID=&ctID=&rtID=2&clID=&lID=&potID=&rSoftWareName=&search=&groupby=r.rDateAdded&orderby=&charttype=growth&width=600&height=350&caption=Growth%20of%20the%20OpenDOAR%20Database%20-%20Worldwide,%20Institutional%20Repositories

[5]何琳.机构知识库建立的方法.新世纪图书馆,2008(3):67-70

[6]程爽,周宁丽,张曙.中科院合肥研究院机构知识库(IR)及其机制建设研究.科技情报开发与经济,2010,20(20):120-124

[7]何艳宁.台湾地区机构库运行机制分析.图书馆学研究,2009(10):29-33

[8]李大玲.学术机构知识库构建模式研究.上海:上海交通大学出版社,2009

[9]夏明春.机构知识库发展现状、问题及对策研究.图书情报工作,2008,52(4):108-110

[10]李新,孙利芳.内蒙古农业大学机构知识库构建初探.内蒙古农业大学学报(自然科学版),2011,32(2):311-315

[11]王颖洁.我国机构知识库模式构建与流程设计.图书情报工作,2008,52(4):104-107

[12]何艳宁.台湾地区机构库运行机制分析——以台湾大学学术机构典藏(NTUR)为例.图书馆学研究,2009(10):29-33

[13]毕莹.机构知识库建设中的版权问题和对策.科技情报开发与经济,2011,21(24):124-126

猜你喜欢

台网知识库机构
地球物理台网仪器维修信息管理的研究与实现
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
推进报台网深度融合 做强区级融媒体中心
一周机构净增(减)仓股前20名
一周机构净增(减)仓股前20名
一周机构净增仓股前20名
西藏地震应急流动台网浅析
一周机构净减仓股前20名
高速公路信息系统维护知识库的建立和应用
MRG9000媒资卫士在市级电视台全台网的应用