我国机构知识库研究发展脉络探析
2015-07-12潘颖袁润
潘颖袁润
(江苏大学科技信息研究所,江苏 镇江212013)
数字技术和网络化通信的日益发达催生了代表学术交流共享新理念、新模式——开放存取的产生,推动了机构知识库 (Institutional Repository,IR) 的发展[1]。IR是收集、保存单个机构或数个机构知识产品的数字馆藏,是展示机构学术成果,传播共享学术信息的平台。目前,IR是开放存取的主要途径之一,是开放存取运动的主力军[2]。经统计,ROAR收录的全世界知识库共3 469个,其中美国、英国、德国的数量较多,资源也最丰富。虽然我国的IR建设处于起步阶段,目前只有有147个开放存取知识库被ROAR收录[3],占全球的4.2%,但是发展迅速,已经有越来越多的学术机构、图书馆和科研人员关注IR。本文拟通过对该领域研究文献的计量统计、内容分析等研究,展现机构知识库的发展历程,挖掘各阶段的研究内容,梳理IR研究主题的发展脉络,以期为后续IR建设提供参考和借鉴。
1 数据来源和研究方法
本文以CNKI核心期刊库为数据来源,检索策略为:主题=“机构知识库”OR篇名=“机构知识库”OR关键词=“机构知识库”。截止到2014年11月,共检索到570篇。经过数据清洗,删除会议通知、目录等信息,与机构知识库相关的研究论文共518篇。考虑到数据库在2014年文献收录时间上的延迟,本文中2014年的统计数据会低于实际值。
本文采用文献计量统计方法从年度发文、期刊分布、核心作者、重要机构等角度展示我国机构知识库研究的客观状况和发展趋势,通过共现分析、社会网络分析研究该领域作者合作、机构合作规模、紧密度等情况,通过内容分析挖掘每个发展阶段的研究内容,梳理IR研究主题的变迁。
2 结果与讨论
2.1 年度发文分析
图1 机构知识库年度发文量
我国机构知识库的研究始于2002年。清华同方在《知识服务与知识仓库——关于信息与知识产业化服务模式的探讨》中提出“知识仓库+知识服务平台”是实现从信息服务到知识服务转变的关键[4]。2002-2005年是萌芽阶段,这个阶段的文章数量少,图书馆界、数据库商刚刚接触到“机构知识库”,还处于翻译、引介、学习国外IR研究理论时期。2006-2012年是IR第一个发展阶段,在这个阶段,学者们从国外调研、建设环境、政策制定、构建流程、服务模式等多个方面对机构知识库展开了理论研究和实践建设。2013年开启了第二个发展阶段,发展态势不容小觑,2014年的发文量较之第一个发展阶段的顶峰2010年的还要多,除了对前期研究内容的深入探讨外,面对大数据环境的出现、作者惟一标识等需求的提出,学者开展角度更多的研究见图1。可以预测,在未来的一段时间,随着新技术、新方法、新需求的不断涌现,机构知识库的研究内容更广泛,研究热情将持续增强。
2.2 期刊发文分布分析
表1 发文量排名前十期刊的年度发文趋势表
对518篇文献的载文期刊进行统计,共有50份核心期刊刊载机构知识库研究论文,其中以图书情报领域的期刊为主,说明图书馆是机构知识库建设研究的主体,机构知识库是图书馆工作的重要部分。计算机软件及应用的期刊也有部分,这主要是因为IR的研究还涉及到软件系统、构建框架等技术内容。表1展示了发文量排名前十期刊的年度发文趋势,这10份期刊共刊载329篇文献,占总发文量的64%,是IR研究论文的主要投稿对象。其中图书情报工作、图书馆学研究、现代图书情报技术、情报理论与实践、图书馆工作与研究期刊在近两年非常关注IR的研究,说明IR越来越受到图书馆界的重视。
2.3 作者分析
2.3.1 核心作者
表2 IR领域的核心作者
通过对作者的统计分析可以看出该领域的研究群体还是比较庞大的,共有699位作者发文或联合发文。表2以发文量排序列出了排名前十位作者。中国科学院国家科学图书馆的祝忠明发文最多,研究的内容也比较广泛,有IR主题标引、数据搜索、人名消歧等。值得注意的是,前十位中有7位作者都是中国科学院单位。反映出中科院在IR方面已经形成一支实力很强的研究团队,无论是理论还是实践都有着深入的研究。
2.3.2 合作发文
图2 IR作者合作研究关系网络图
统计发文两篇以上的作者,并绘制他们之间的合作研究关系。从图2可以看出,在IR研究领域,独立发文、合作发文现象共存,合作发文还是相对较多的,说明IR研究需要发挥团队的智慧和力量。在作者合作网络关系中,明显的看出以祝忠明、卢利农、张旺强、李麟为核心人员是网络中最大的子群,他们的发文量不仅多,而且和其他作者的联系非常紧密,这个子群的作者大多数都属于中科院系统,反映了中科院在IR方面团队建设很强势。
2.4 机构分析
2.4.1 重要机构
表3 发文量≥6的研究机构
通过对作者单位的整理,统计出国内共有358个机构研究IR,表3列出了发文量不低于6篇的单位,从单位的数量上看,科研机构和高校平分秋色,但是发文量以科研机构居多。中科院是目前国内IR建设最早、运行效果最好的机构。作为一个拥有多个学科、多类不同性质单位的大型机构,在IR的建设上和推广上,遵循“全面规划、系统设计、分层递进”的思想指导,在IR技术平台开发、建设服务、政策研究、内容利用服务等具体的操作上配置了学科馆员、研究支撑团队、激励机制等强大的后台支撑,在政策研究、技术开发、服务支持等方面开展研究,并付诸于实践[5]。比如将IR与科研管理信息系统整合,减轻提交条目负担;建设中科院IR网络集成服务门户 (CAS IR Grid) ,通过元数据及内容自动采集技术形成全院联合的机构知识仓储;思考责任者惟一标识符在IR中的应用等。吉林大学、北京大学等是高校图书馆IR建设的代表,侧重于IR的构建及如何应对构建中遇到诸如知识产权等问题的研究[6]。2.4.2 合作机构
图3 IR机构合作研究关系网络图
机构之间的合作有助于拓展学科的研究领域、共享科学资源。对发文量不低于2篇的机构进行合作网络关系的绘制,识别IR领域中重要的学术机构和学术合作群体。从图3可以看出与作者合作网络图不同,更多的机构喜欢独立发文,与其他机构有没有合作研究的关系。在合作机构中,属于同一个单位的机构联合发文比较多,比如,湘潭大学图书馆和湘潭大学公共管理学院,上海大学图书情报档案系和上海大学图书馆,说明IR研究还仅限于本单位不同部门的联系,围绕某个学院的需求开展IR的研究。不同机构合作的比较少,一般是侧重于技术方面的研究,比如像清华大学图书馆和北京爱琴海软件公司的合作是针对清华大学机构知识库的建设,提出使用DSpace的核心开发接口进行扩展开发的方法,有效地解决DSpace主流版本的升级和本地化功能的兼容问题[7]。在合作关系网络中,以中国科学院研究生院和中国科学院国家科学图书馆兰州分馆为核心机构组是最大的子群,他们不仅与中科院系统内的机构开展合作研究,与高校图书馆也有较多的联系。
2.5 研究热点分析
关键词是论文核心内容的反映,高频关键词反映了该领域的研究热点。对有近千个关键词进行频次统计排序,发现“机构知识库、开放存取、图书馆、学术交流、知识产权、知识管理与服务、资源建设、机构知识库联盟、Dspace、发展研究”是十大热门关键词,反映了学者们对IR的构建模式,资源建设、组织与保存,基于IR的知识共享、交流、获取等领域关注度比较高,分析在建设过程中版权的归属、长期保存等问题,思考可持续发展的途径,比如开发和完善软件功能、加强联盟建设。特别将IR和图书馆的工作紧密结合,思考图书馆如何在IR的环境下开展知识管理、学科服务工作。为了探索IR研究主题的发展历程,文章对IR不同的发展阶段进行高频关键词共现分析。
萌芽阶段 (2002-2005年) 。在这个阶段,国外大学已纷纷开展IR建设,2001年俄亥俄州州立大学建立了IR的最初雏形知识库[8]。麻省理工学院2002年建立了开放源代码的软件平台Dspace系统,截止到2003年全球有3 500个机构下载了Dspace的开放性源代码并建立了自己的IR。而此时国内还处于初步接触,逐渐熟悉的过程。通过文献的查阅,逐步了解IR的概念、范畴、特点及主要构建工具。将它与传统的以正式出版物为主的学术交流、知识共享进行了比较分析[9]。阐述了IR对图书馆的知识管理、知识挖掘、应对期刊价格上涨对策等方面的积极意义[10]。提出了建立“知识仓库+知识服务平台”的运作模式是图书馆实现从信息服务到知识服务的转变[4]见图4。在这一阶段召开了“2005年海峡两岸图书馆服务发展与创新高层论坛”,把“机构知识库、机构知识管理系统与图书馆服务”特别设立专题讨论。
图4 IR萌芽阶段研究热点共现图
第一发展阶段 (2006-2012年) ,这是IR发展的第一个阶段。在这个阶段,IR的研究经历了快速发展和缓慢回落。从图5中可以看出这一阶段的高频词为IR、开放存取、图书馆、学术交流、版权等词,主要从理论、构建层面开展以下研究。
(1) 对IR与开放存取、图书馆之间的关系进行思考、梳理。普遍认为在数字技术和网络化通信日益发达的环境下,开放存取通过价格壁垒、使用权限壁垒的打破加速了科研成果传播利用的速度,代表着学术交流共享新理念、新模式。作为一个机构智力财产仓库的IR其目的是通过自存档提供开放获取文献输出和长期保存机构的数字资源。所以IR本质上是一个学术信息传播共享、增值利用的平台,已成为认为是开放存取运动的主力军[11-13]。负有保存学术资源、传播学术成果责任的图书馆是机构知识库创建的主要力量。
(2) 从宏观层面研究其建设环境、政策制定、构建流程、服务模式等方面内容。IR建设管理需要学校领导和相关职能部门的理解和支持。IR其实是一项图书馆主要负责,相关职能部门协同合作的工作[14-15]。需要制定相关政策来保障IR的顺利建立,比如馆藏政策、内容收录政策、内容提交原则和流程、元数据的标准及其质量控制规范等[14]。宣传推广工作在IR建设过程中得到更多部门的认同和支持。从资源使用者、资源提供者、IR工作人员3个角度开展IR服务模式[16]。
(3) 详细的探讨IR构建工具、资源获取和质量等具体环节。比较分析了软件系统 DSpace、Eprint、Bepress、Fedora的特点,目前利用DSpace系统构建IR的机构最多,DSpace也已颁布了10个版本。基于元数据抽取和收集两种方法提出一种元数据自动生成系统框架结构,从完整性和精确性两个方面对元数据的质量进行评估。研究了IR自存储资源的获取策略和质量控制策略等内容[17-18]。
(4) 对一些建设过程中遇到的问题大量调研国外做法。比如在“IR内容长期保存”上,由澳大利亚教育科学和培训部 (DEST) 资助的APSR用于确保机构知识库中对数字对象的长期存取,英国国家图书馆和南安普敦大学运用Eprints收集的元数据来构建一个基于OAI的保存服务模型[19]。在版权问题上,由美国研究图书馆协会 (ARL) 发起的作者补遗模式 (Model form Author's Addendum) 是作者保留在网络上张贴作品权利的主要方法,通过合同补遗模式,作者可以将自己的文章存入机构知识库。对于著作权等法律问题可以通过版权许可协议、存储许可协议、数字版权管理机制等制度保护版权所有者的利益[20-21]。
图5 IR第一发展阶段研究热点共现图
(5) 随着对IR的不断深入,一些学术机构和高校开始实践建设IR,浙江大学将DSpace系统与大学URP数字化校园建设结合,设计和实现了知识资产管理系统,目前该知识库从2009年正式上线以来,实现了近30万师生原生性资源的保存、展示、查阅等功能。中国人民大学图书馆和科研处合作,建设中国人民大学教师成果数据库。北京科技大学通过自编程序将各个数据库的题录数据转换为规范的元数据格式的方式构建机构库[22-23]。为了避免技术设施重复投入,使IR资源内容被更广泛地认可,实现规模宣传效益,开展IR联盟相关讨论。比如香港机构知识库,美国的HELIN数字知识库,俄亥俄州数字知识库联盟就是采用分布采集模式构建,华盛顿研究图书馆联盟数字知识库采用集中存储模式构建。徐州高校开展教学联合体机构知识库联盟建设的可行性、构建模式、服务内容、运营机制等方面的讨论[24-25]。
(6) 思考如何利用IR充实、加强图书馆的服务。比如,通过IR工作机制健全学科馆员服务制度,构建知识服务团队,利用IR的资源建立开放存取全文数据库、建立机构特色资源库等。对IR的功能进行扩展,如中科院将机构知识库与科研信息管理进行整合,将中国科学院资源规划系统中的数据集成到IR中,减轻科研人员提交数据的负担[26]。
第二发展阶段 (2013年-) ,经过2012年的研究谷底,“2013中国机构知识库”学术研讨会打开了第二个发展阶段的序幕。在前一个阶段的基础上,IR相关技术更成熟,研究内容和研究角度更丰富,研究方法也更多元化,对有争议的问题解决办法更多,如图6所示。
(1) 在IR建设方面更加重视新技术、新环境与IR的结合。提出了“以用户需求为导向”、“个性化推荐的IR用户模型”,研究如何根据用户的浏览行为判断其兴趣,为其开展有针对性的个性化服务[27];提供一站式数字信息共享空间,建立基于IR的用户科研绩效管理体系等。研究在大数据时代将知识发现、数据整合与挖掘、知识推荐等大数据技术融入IR的服务平台建设[28];在“学者惟一标识”的呼声下,研究在IR中建立作者标识与作品认领机制,保证作者与作品的惟一性,清华大学借鉴ResearcherID理念,采用数据挖掘方法为清华大学学者建立惟一标识[29]。对更多建设技术开展,研究OAI互操作数据同步、IR语义知识获取方法[30]、引入oai-pmh元数据收割协议和dc元数据来保证元数据的规范性等等。联盟技术日趋成熟,中国科学院建立了China IR信息支持门户,包含了IR联盟建设交流与推进等功能,北京大学图书馆等5个示范馆设联合建Calis高校机构知识库项目,根据各高校的通用及特定需求,开发完成了3套机构知识库系统[5,31];河北省高职高专 IR联盟[3]。
图6 IR第二发展阶段研究热点共现图
(2) 在IR应用效果方面,注重用户的使用感觉,开展科研人员对IR的认可度与使用调查、IR数据价值的鉴定和使用效果的评估。进一步拓展IR服务功能,开展增值利用研究,比如如何基于IR的资源开展收录引用、机构学术成果评测、机构学术研究领域结构分析、国际学术论文管理模式研究,为机构管理者提供发展战略规划和决策的基础数据等研究[32-33]。
(3) 将其他学科领域的研究方法运用到IR研究中,采用社会网络理论、信息生态论、资源生命周期法、TOPSIS法、质量评估等方法对IR的建设成本、激励机制、网络影响力、发展趋势等方面开展多层面的讨论,进一步完善 IR 的建设和使用[34-37]。
(4) 在法律、联盟建设、学科服务等的问题上,在学习外国的成功做法的基础上思考我国的方法,比如在版权问题上要注重机构知识库建设和管理中利益关系,采用“合理使用”原则、制定知识共享许可协议等。在联盟建设上可以采取政府主导,项目拉动的策略,“统一平台、分散建设、集中呈现“的发展模式,采取企业化管理运营模式保障联盟的可持续发展[38-39]。IR是一个“知识服务”的阵地、工具和渠道的方向。联盟平台服务、机构库内容服务、科研数据服务等是学科化知识服务的趋势[40]。
(5) 对目前IR的建设现状进行调研思考,认为我国IR建设进入快速增长期,但是在开放存取意识、科研人员对IR的认同、政策支持等方面还存在一些问题。对未来可持续发展提出了建议,比如在IR内容和元数据存缴的操作方式上可以加强与出版社、内容商等的合作,采取合作存储的方式;在IR存缴与传播方面积极争取教育科研机构层面的激励政策,拓展系统平台功能等[41]。
3 总结和建议
通过上述的分析,可以看出我国IR建设经历了从理论分析到实践操作过程,在一些问题的解决上也逐步从国外学习转为结合具体情况改进转化,相关技术越来越成熟,随着环境的改变,新需求的提出,在更多层面开展更广泛研究。对于未来IR的发展,需要进一步加强政策支持,加大宣传力度,提高IR认同度,将IR与开放存取深度结合,鼓励吸引更多类别的科研院所、技术团队参与机构库建设,开展研究成果的国内与国际交流;建立健全相关制度机制,完善IR的运作管理,保证存储内容的合法性、多样化、更新率;拓展、完善系统平台的功能,为机构发展需求、用户需求挖掘提供新服务,提升IR的社会影响力。
[1]刘海霞,方平,胡德华.开放存取研究进展述评[J].图书与情报,2006,(4) :10-16.
[2]王颖洁.我国机构知识库模式构建与流程设计[J].图书情报工作,2008,(4) :104-107.
[3]刘宗利.河北省高校机构知识库发展现状及展望[J].图书馆学研究,2013,(23) :37-39.
[4]王明亮,张振海,刘学东,等.知识服务与知识仓库——关于信息与知识产业化服务模式的探讨[J].现代图书情报技术,2002,(S1) :7-9.
[5]张冬荣,祝忠明,李麟,等.中国科学院机构知识库建设推广与服务[J].图书情报工作,2013,(1) :20-25.
[6]韦成府,聂华,崔海媛.多馆协作开发的机构知识库建设——以CALIS机构知识库项目为例[J].大学图书馆学报,2014,(3) :69-73.
[7]曾婷,涂飞平,董丽,等.DSpace事件机制的研究及其在扩展开发中的应用[J].现代图书情报技术,2012,(3) :73-77.
[8]吴建中.图书馆VS机构库——图书馆战略发展的再思考[J].中国图书馆学报,2004,(5) :7-10.
[9]常唯.机构知识库:数字科研时代一种新的学术交流与知识共享方式[J].图书馆杂志,2005,(3) :16-19.
[10]应峻,谷口规矩雄.日本大学图书馆期刊价格上涨对策研究[J].大学图书馆学报,2005,(5) :86-89.
[11]柯平,王颖洁.机构知识库的发展研究[J].图书馆论坛,2006,(6) :243-248.
[12]李枫林,赵雪芹,胡吉明.机构知识库:开放获取的有效实现形式[J].情报杂志,2007,(6) :115-117.
[13]蔡迎春.机构知识库:基于开放存取的学术交流机制[J].情报理论与实践,2008,(5) :680-683.
[14]李爱国,陆美.学术图书馆机构知识库的创建[J].图书情报工作,2006,(06) :119-121.
[15]陈钦琳.学术交流与知识共享的新平台——机构知识库[J].现代情报,2006,(9) :150-151.
[16]王学勤.机构知识库建设相关政策研究[J].中国图书馆学报,2007,(3) :44-47.
[17]邓君,毕强,韩毅.机构知识库 (IR) 系统 Archimède与eDoc比较研究[J].图书情报知识,2008,(1) :28-34.
[18]杨武健,王学勤.DSpace机构知识库系统的分析与研究[J].现代情报,2006,(11) :220-222.
[19]刘华.国外机构知识库的长期保存研究及其启示[J].情报资料工作,2007,(3) :49-52.
[20]于佳亮,吴新年,贾彦龙.机构知识库资源建设中的产权策略研究[J].情报理论与实践,2008,(3) :353-355.
[21]肖可以,龙朝阳.机构知识库建设及其法律问题研究[J].图书馆学研究,2008,(11) :39-41.
[22]赵亚萍,周东升,程艳旗.基于DSpace的大学个性化知识资产管理系统研究与设计——以浙江大学机构知识库系统为例[J].中国教育信息化,2012,(15) :60-63.
[23]熊秀忠,唐静,陈华,等.机构知识库建设实践与探讨——以中国人民大学教师成果数据库建设为例[J].图书情报工作,2012,(S1) :143-145.
[24]陈雨杏.我国区域机构知识库联盟的构建模式选择与实施策略[J].图书馆学研究,2011,(7) :59-63.
[25]渠芳.高校教学联合体机构知识库联盟建设研究——以徐州高校教学联合体为例[J].情报理论与实践,2010, (11) :83-85.
[26]马建霞,祝忠明,唐润寰,等.机构知识库与科研管理信息化环境集成的尝试[J].现代图书情报技术,2008,(2) :14-18.
[27]卞艺杰,赵 ,张庆龙,等.机构知识库个性化推荐的用户模型研究[J].情报理论与实践,2013,(12) :78-82.
[28]朱维乔.面向大数据的机构知识库构建模式创新研究[J].图书馆学研究,2014,(13) :32-36.
[29]窦天芳,张成昱,张蓓,等.ResearcherID现状分析及应用启发[J].图书情报工作,2014,(4) :40-45.
[30]王思丽,祝忠明,姚晓娜.机构知识库语义知识获取方法分析及实验研究[J].现代图书情报技术,2014,(4) :7-13.
[31]张晓丹,张志平.科研机构的机构知识库构建研究[J].现代情报,2014,(7) :45-49.
[32]李颖.数字图书馆机构知识库与信息资源使用效率优化[J].兰台世界,2013,(26) :114-115.
[33]邓君,马晓君,贾晓青.机构知识库数据价值鉴定研究[J].情报科学,2014,(7) :24-28.
[34]姜勇峰,肖可以,杨锦荣,等.基于质量评估的机构知识库激励机制研究——以厦门大学学术典藏库和美国RePEc为例[J].情报理论与实践,2013,(11) :41-44.
[35]庞恩旭,张倩,何芸.基于资源生命周期的机构知识库成本模型研究[J].图书馆工作与研究,2014,(3) :27-31.
[36]姜颖.基于信息生态论的机构知识库内容建设发展策略研究[J].图书馆工作与研究,2014,(1) :109-112.
[37]李铭,翁淳光.我国机构知识库网络影响力研究[J].现代情报,2015,(4) :17-21.
[38]田丽君,张静鹏.芬兰Doria和Theseus联盟机构知识库建设模式及其启示[J].图书馆学研究,2014,(5) :37-41.
[39]柳菁.美国机构知识库版权问题的解决方式及启示[J].情报科学,2013,(6) :157-160.
[40]周成效,江晓波.基于机构知识库的学科服务趋势探析[J].现代情报,2013,(12) :86-90.
[41]姚晓霞,聂华,顾立平,等.我国教育科研机构知识库建设现状调查与分析[J].现代图书情报技术,2014,(5) :1-9.