中华女子学院机构知识库的建设与实践
2018-02-09张立省
张立省
一、机构知识库综述
(一)机构知识库的概念
机构知识库(Iinstitutional Repository,简称IR)的概念由学者Raym Crow在2002年首次提出,他将IR定义成获取和保存一个或者多个大学智力产出的数字化集合[1],通俗来讲就是他认为机构知识库实质上是一种数据库,是从机构的角度来对知识内容进行存储和共享。有学者从机构知识库的功能角度进行阐述,例如学者Clifford A.Lynch认为大学中的机构知识库是大学为其员工提供的一套服务,用于管理和传播大学的各个部门及其成员创作的数字化产品。[2]我国IR的概念于2004年由吴建中研究馆员引入[3],自此国内开始了对机构知识库的研究和实践。尽管不同的学者从不同的角度对机构知识库进行了阐释,但是基本在以下几个方面达成了共识。[4][5]
1.机构库的主体是机构,收藏的边界限制也是机构成员的知识成果。所谓机构主要是指大学、大学联合体、研究所这些实体机构,也可以是虚拟的,例如虚拟的联合实验室,e-研究院等。
2.机构知识库收录的内容以学术性成果为主。机构知识库收录的主要内容是各种学术资源,例如期刊论文、会议论文、专著、学位论文、专利等核心资源,还包括一些灰色资源。有的学校的机构知识库还包括一些课题文献、教师课件、网络公开课、精品课程、讲座视频,还有的学校将与教学和科研相关的管理类资源也收藏进来。
3.构建IR的基础是网络,通过网络平台来实现成果的提交、储存和共享并进行持续的管理和运行。
4.开放性。机构知识库是在开放获取的时代背景下产生的,开放和共享是其基本特征。机构知识库的初衷是改革传统学术交流方式的弊端,实现学术资源的开放获取,同时扩大机构的学术影响力。
(二)国内外机构知识库建设现状
目前,记录和统计全球机构知识库的网站主要有两个:全球机构库统计网站开放存取知识库名录OpenDOAR和开放存取知识库登记系统ROAR。2007年初,OpenDOAR收录了世界范围内机构知识库853个,2009年2月,此数字达到1338个,到2012年11月,OpenDOAR收录的IR是2230个,2018年1月达到3465个。[6]通常情况下,ROAR中注册的机构知识库的数量要略高于同期OpenDOAR的数量,这是因为OpenDOAR收录机构库的标准越来越高,尤其在2012年之后,标准越来越严格,在ROAR注册的IR未必能够被OpenDOAR收录。
我国内地的IR建设最早由清华大学于2006年推出,2007年厦门大学也推出了自己的学术典藏库。目前推出IR平台的主要高校有:清华大学、浙江大学、上海交通大学、中国科学技术大学嵌入式实验室、电子科技大学中山学院和大连理工大学。近几年,北京大学、中国人民大学、西北工业大学、江苏大学等也陆续推出了自己的机构知识库平台。除高校外,我国内地科研机构的IR系统主要是中国科学院IR系统,其下属的100余家研究所IR都已经上线运行。相比之下,我国台湾和香港地区要明显领先,在2009年OpenDOAR收录的1339个IR中,仅有14个来自中国,而这14个IR中台湾7个,香港5个,内地只有2个,分别是厦门大学机构典藏库和中国西部环境与生态科学数据库。从整体情况来看,我国内地尤其是高校,IR的建设还处于初级阶段,不仅总体数量偏少,并且各个高校从收藏数量、学术质量、文献类型、开放程度等方面表现出水平参差不齐的特点。[7][8]
(三)机构知识库带来的益处
1.从机构的角度
机构知识库主要是一个机构用来收录、保存、传播和共享其知识成果的平台。首先,IR的存在便于梳理和总体掌握本机构的知识成果总量。以北京大学为例,在其上IR系统之前,北大的科研成果到底总量是多少,有人说是15万,有人说20万,数字差距相当大,北大通过IR对其成果进行了回溯,结果显示北大的成果高达41万条。其次,便于长期保存知识成果。IR可以为机构的知识、信息提供一个长期存放的安全之地,避免各个部门以及个人分散保存成果和信息的风险和弊端,通过长期的积累,IR会成为机构的知识宝库。第三,有利于学术的传播。机构成员的各种知识产出分散在成百上千种期刊、数据库、网站中,这种分散性使机构的科研实力无法真实地显示出来。通过IR的汇聚,能够使自身所有科研成果集中于一个统一的平台,彰显机构的科研成就和科研水平,从而提高机构在本领域、本行业的知名度和影响力,增加机构在申请课题、申请项目基金、科研业绩考核以及吸引人才等方面的竞争优势。[9][10]
2.从学者的角度
从学者角度来讲,能够通过IR平台自动展示自己的学术履历,制作自己的学术名片,不用再重复填写和提交科研成果,一切由IR平台自动生成,便于学者自主管理自己的所有学术成果。基于开放获取理念建立的IR给研究者提供了不同于传统的发表平台,弥补了传统论文发表在传播上的不足。IR平台还可以提供同行分享交流的平台,在这种经验总结和思想交流中会产生很多隐形的知识成果,这些隐形成果通过传播和分享很有可能激发研究人员的创作愿望和灵感,促进隐性知识向线性化转化。IR平台除了收录大量的正式出版的论文,还有很多灰色文献,这些灰色文献包括教学和科研过程中产生的大量非正式出版成果。
3.从科研管理的角度
机构的科研管理部门例如高校的科研处,可以利用IR系统更好地掌握机构总体的知识成果总量,支持科研成果管理,进行产出分析和科研业绩评价等,为科研考核和激励政策提供有力的支持。可以充分利用IR的自动获取功能避免研究者大量重复填写和申报科研成果。科研管理部门还可以直接利用IR的内容进行统计分析,为科研政策的制定提供数据和信息依据。
二、中华女子学院IR建设现状和成果
(一)项目建设概况
中华女子学院(以下简称女院)是全国妇联主管的中央部属高校,是培养女性人才的重要基地,其发展目标是成为特色鲜明的一流女子大学。要实现这样的愿景和目标,需要各方面的努力,更需要不断扩大女院在世界范围内的影响力。而IR正是这样一种基于全球开放理念的新型知识组织与传播的门户,它允许搜索引擎发现和揭示,便于全球学者、机构之间的学术交流与分享,是以学者为中心的机构学术资讯系统。机构知识库能够管理一个组织或者机构的知识资产和学术总量,能够提升组织的学术影响力,促进组织和学者之间的学术交流,正是基于此种认识,女院建立了自己的机构知识库平台。
中华女子学院机构知识库平台(简称CWU-IR)自2015年开始项目论证、审批,于2016年6月开始建设,经过前期平台搭建、数据录入以及内部测试等工作,项目一期内容于2017年9月按照预期完成,并投入试运行。在试运行期间,收录学者数量和成果数据不断增长。截至2017年10月25日,机构知识库平台共收录本校学者202人,收录知识成果元数据5139条,其中期刊论文4573篇、会议论文262篇、报纸文章159篇、硕士学位论文111篇、图书34种,全文量达到4207条记录。随着图书馆对机构知识库服务和内容的不断宣传和推广,截至2018年1月,CWU-IR平台收录学者262人,知识成果元数据5275条,其中期刊论文4588篇、会议论文264篇、图书253种、报纸文章162篇。这只是目前IR系统收录到的知识成果,考虑到系统处于试运行阶段,教师们还处于熟悉和尝试应用IR的阶段,实际的成果总量肯定要大于这个数据总量。尽管如此,CWU-IR还是集中展示了中华女子学院的研究成果,很好地发挥了平台集中存放、展示和传播女院知识成果的作用,收到了较好的效果。
(二)CWU-IR政策框架协议
IR建设的一个核心问题就是知识产权问题,因此制定适合自身的开放获取政策非常有必要。为此,CWU-IR参照同行高校IR系统的相关政策制定了适合自身实际情况的一系列政策,包括CWU-IR开放获取政策、授权协议书、委托授权书、成果提交流程、成果认领规定、上传文件格式说明、成果撤回流程、用户使用手册等,并包括有关存储内容、存储需求、提交政策、使用政策以及保存、撤回、隐私政策等。在存储内容方面,规定存储的内容必须是全部或者部分由女院师生产生的知识成果,并且对收录成果的类型做了明确规定,覆盖面广,内容全面,基本可以涵盖女院所有类型的知识成果。在成果提交方面,可以由本人亲自提交,也可以签署授权协议委托代理人提交等,形式灵活,减轻了学者的负担,同时又保证了授权的合法性和避免不必要的纠纷风险。在使用政策方面,规定用户只能以个人学习、教学和科研等非营利的目的对存储在CWU-IR中的成果全文进行免费获取。CWU-IR中所有的相关政策只需点击两次就可以全部查看,网页和栏目设计比较醒目,方便快捷,便于用户发现和使用。
(三)CWU-IR实现的功能
1.女院公开成果全面回溯和自动更新
CWU-IR实现了女院公开发表的知识成果的全面回溯和自动更新功能。系统能自动、定期、全面地收集女院主要公开成果,在CWU-IR初步搭建完毕之后,就自动回溯和抓取女院的公开成果,以这些数据为基础对系统进行内部测试工作,发现问题及时解决,尽量避免上线运行中问题的集中爆发。同时对于全面回溯和定期自动更新(每月一次)的成果,系统可以自动审核,减轻了管理员的劳动负担,提高了数据的准确性。
2.成果自动标引
CWU-IR 对女院的知识成果 SCI、SSCI、CPCI-S、CPCI-SSH、PubMed、SCD、CSSCI、核心期刊收录情况进行自动标引,方便读者过滤出权威或者影响力高的成果,同时也能够作为成果统计数据的基础之一进行分类统计,衡量女院整体学术质量和学术影响力。
3.收录成果的类型全面而明确
CWU-IR对于收录的成果类型做了明确规定,包括期刊论文、会议论文、学位论文、图书、报纸文章、专利、电子公告、数据库文献、参加的学术会议、报告、标准、档案、古籍、工具书、软件、研究报告、论文集等。
4.成果认领
CWU-IR可以对自动抓取的成果与女院教职工姓名进行匹配,给疑似的成果拥有者发送认领通知,督促其进行认领或者拒绝,减少了成员工作量,但同时又有一道确认的关卡,防止由于成员姓名相同导致的自动误认。
5.分类浏览
可以按照多角度多种组合查看成果情况。例如,可以按照文献种类进行浏览,可以按照提交时间的先后浏览,也可以按照下载排行、热点成果等来浏览,还可以按照院系、作者、年度等不同的条件设置进行浏览,便于浏览和使用。
6.用户服务
CWU-IR除为用户提供上述功能外,为成员个人提供三个方面的服务:个人学术名片、认领个人成果、论文收录通知。个人学术名片就是机构成员互联网上的学术简历,学术名片中包括个人照片、基本信息、发表的成果以及联系方式等。同时CWU-IR成员可以自主设定是否公开自己的学术名片,自己设置哪些信息公开,哪些信息不公开,例如电话、电子邮箱是否公开等。认领个人成果指在CWU-IR中,当某一成果的作者中出现了成员的名字,就会将此成果归为机构某成员的疑似成果,考虑到机构中同名同姓现象导致的匹配错误,需要成员自行确认是否将该成果认领为自己的成果,成员只需要选择是或者否即可,自主性强,操作简便。当成员论文或者成果被SCI、EI、PubMed、核心期刊等收录后,CWU-IR 会自动给成员发送收录通知,并告知收录编号,所有女院教职工都可以免费开通论文收录E-mail通知服务。
7.科研管理和决策支撑
CWU-IR可以对成果收录情况及刊载的期刊进行分区,实现影响因子的自动计算、学科得分情况的统计等,是科研成果管理的有力支撑。同时,通过对学科分类以及学科影响等情况的分析,可以发现女院学科建设的不足,以及在短时间内通过努力可能成为高影响力学科的潜在优势学科,并进行学科贡献分析和统计。此外,可以通过与同类院校学科数据的对比分析,为科研管理以及政策制定提供数据支撑和依据。
(四)CWU-IR成果收录情况
CWU-IR自2017年9月上线试运行以来,累计作者资源量501位,资源种类8种,成果总数5275篇,全文量4458篇,页面访问量7317人次。CWU-IR目前收集了自1983年以来女院教师公开发表的成果,并按照年度进行了统计。运用此种统计和分析,CWU-IR系统能够比较清晰直观地呈现出女院的知识成果累计情况,以及知识成果总量的发展趋势,为学校科研政策的制定提供依据。
CWU-IR支持的成果类型共有20种,涵盖大部分成果类型,目前收录到的类型有8种,包括期刊论文、会议论文、学位论文、图书、报纸文章、学术会议、工具书、研究报告等。随着时间的推移和成果的累积,会有越来越多不同类型的成果收录进来。从成果类型分布来看,近90%以上是期刊论文。被收录自动标引的期刊总数为1635篇,占期刊论文总数(4588)的35%,还有很大的进步空间。
三、CWU-IR实践中存在的问题
尽管CWU-IR按照项目阶段性预期取得了应有的成果,但在建设实践和服务推广方面还存在一些问题。
第一,CWU-IR知识成果的现有存量还不能完全代表女院的知识成果总存量。由于系统运行时间短,目前收录的成果90%以上是公开发表在各类期刊和报纸上的文献成果。女院作为一所高校,教师学者们在教学和科研过程中产生的一些成果,例如教案、课题讨论、研究报告、视频资源等无法公开发表的知识成果,其积累、保存和共享也非常重要,目前CWU-IR一期建设中还没有涉及这一块的内容,对于IR来说是一个明显的缺憾。
第二,CWU-IR各方参与者对IR的了解以及重要性认识不足。除牵头部门图书馆之外,项目前期相关业务部门参与度不够,对项目了解不够,导致项目实施过程中相关部门对于IR能够带来的便利和益处存在认识上的不足,科研成果的产出者人工提交成果的积极性不够高,认领个人成果的积极性也不高,影响了CWU-IR应有作用的发挥。
第三,与学校其他系统接口的数据共享程度不够。IR系统基础数据不能根据人事、科研以及教务系统的变化而随时自动更新,需要部门间人工协调和沟通,手动更改相关数据的设置和变化,时间和人工成本比较高。
第四,目前CWU-IR只是校内开放,没有全部对外开放,暂时还达不到知识分享、扩大女院学术影响力的理想目标。
四、CWU-IR项目后续建设及完善的重点
第一,加大对机构知识库的宣传和推广。图书馆作为CWU-IR的牵头人和主推者,应该联合其他相关部门共同对IR系统进行宣传和推广,使各方参与者充分了解IR的作用和影响力,认识到IR能够给教学和科研带来什么样的好处和便利。只有认识到其重要性,成员们才有参与的积极性和动力。对于其他相关部门来说,制定相应的激励政策也不失为一个好的选择,例如对积极提交成果的院系和个人进行奖励等。只有多管齐下,齐心协力,配套政策完善,才能使CWU-IR真正运行起来,发挥应有的作用。
第二,作为牵头部门的图书馆,应与其他业务相关部门做好沟通,达到数据信息共享,实现基础信息数据的自动更新和数据同步。
第三,加快二期建设,重点是IR新模块项目建设和团队模块建设,收集更多的非公开发表成果,扩大IR系统的收录范围,真正使IR系统成为教师教学和科研不可或缺的辅助工具。
第四,对部分具体问题持续跟踪和落实。例如学位论文的收录和公开程度问题,离退休人员成果的收集和展示问题等。IR系统是一个持续、动态的平台,需要持续投入和维护,需要有专门的负责人员不断对CWU-IR系统的构架、内容以及成果进行更新和完善。
第五,在基本完善的基础上,加大开放的力度。针对不同的模块设置不同的开放程度权限,学者本人也可以自主设置自己成果的开放程度,真正做到IR的初衷——开放获取和共享知识的目的,为学校乃至社会的进步做出自己的贡献。
[1]Crow R.The Case for Institutional Repositories[J].A SPARC Position Paper,2002,(3).
[2]Clifford A Lynch.Institutional Repositories:Essential Infrastructure for Scholarship in the Digital Age[J].Portal Libruries&the Academy,2003,(2).
[3]吴建中.图书馆VS机构库——图书馆战略发展的再思考[J].中国图书馆学报,2004,(5).
[4]程波.2004—2008年我国机构库研究与建设综述[J].图书馆论坛,2009,(4).
[5]常唯.机构知识库:数字科研时代一种新的学术交流与知识共享方式[J].图书馆杂志,2005,(3).
[6]The Directory of Open Access Repositories-OpenDOAR[EB/OL].http://www.opendoar.org/,2018-01-17.
[7]舒蓉,韦衣昶,王玲玲.基于开放存取的大陆高校机构库研究[J].图书馆界,2012,(1).
[8]张冬荣,祝忠明,等.中国科学院机构知识库建设推广与服务[J].图书情报工作,2013,(1).
[9]钱建立.服务型机构知识库:机构知识库的中国视角[J].电子设计工程,2015,(17).
[10]赵继海.机构知识库:数字图书馆发展的新领域[J].中国图书馆学报,2006,(2).