学术机构知识库生命周期研究
2015-12-15李大玲杨琪
李大玲 杨琪
〔摘 要〕学术机构知识库是依附于特定学术研究机构或者学术联盟而建立的服务和数字化学术数据库的集合,必须要依据特定的软件而建立,其生命周期符合一般软件生命周期的特征。本文根据十几年来学术机构知识库发展情况,对学术机构知识库的生命周期进行分析,发现学术机构知识库生命周期包括的规划、开发、部署、运行维护、停止运行等5个阶段。学术机构知识库的发展不是一个简单线性的过程,中间可能出现多次开发和功能提升,需要对硬件进行新的部署,直到停止运行为止。
〔关键词〕学术机构知识库;生命周期;知识管理
DOI:10.3969/j.issn.1008-0821.2015.09.005
〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0023-05
〔Abstract〕Institutional repository is database system with digitalization academic achievements run by certain academic institution or alliance.Institutional Repository lifecycle conforms to the normal features of software life-cycle.After observed the development of Institutional repository in the past ten years,the five stages of Institution Repository life-cycle were described including planning,development,deployment,maintenance,termination.The life-cycle of institutional repository was not a simple linear process but a complex process with multidevelopments of system,promotions of functions and redeployment of hardware.
〔Key words〕institutional repository;life cycle;knowledge management
生命周期理论是基于生物体从出生、成长到老化、死亡的生命历程的“生命周期”现象而提出来的[1]。该理论一经提出,就被广泛应用到企业管理、市场营销、客户管理、产品管理等相关领域。学术机构知识库是依附于特定学术研究机构或者学术联盟而建立的服务和数字化学术数据库的集合[2],据开放存取知识库名录(The Direct of Open Access Repositories,简称Open DOAR)统计,2008年全球机构知识库的数量为1 366个,2014年7月达到2 699个,截止2015年5月,有2 873个,其中,正在运行的机构知识库有2 698个,占94%;处于测试阶段的有86个,占3%;机器自动链接检测连接不上服务器的有68个;已经关闭的有21个[3]。从以上统计可以看出,处于不同阶段的机构知识库分布并不均匀,正在运行的机构知识库数量占到绝对优势,但也不能忽略其他状态的机构知识库的存在。国内外对学术机构知识库的生命周期研究还处于起步阶段,虽然有学者探讨高校图书馆自建特色知识库的生命周期延长的问题[4],数字图书馆生命周期组织文化建设的问题[5],以及基于产品生命周期成本的本体知识库研究[6]。目前缺少对学术机构知识库全生命周期的不同阶段的划分相关的研究。只有对机构知识库全生命周期进行分阶段分析,才能够更好地量化机构知识库的成本,确保机构知识库的高效运行。本文将尝试对上述问题进行分析,探讨学术机构知识库全生命周期模型与各阶段具体工作内容。
1 学术机构知识库生命周期模型
学术机构知识库必须要依据特定的软件而建立[2],如DSpace、Eprints、Fedora、Bepress、CDSware、ARNO、Archimede等等,这些软件虽然设计原则和应用目标各具特色,但是作为软件,都要依据一定的机构环境和要求进行设计,也有孕育、诞生、成长、成熟和衰亡的过程,这个过程就是软件开发生命周期。传统软件工程理论把这个过程划分为软件定义、软件开发和运行维护3个时期,这3个时期构成著名的传统“软件生命周期”理论[7]。有学者指出[8],软件生命周期应当包括从考虑其概念开始到该软件产品交付使用、直至最终退役为止的整个过程,一般包括计划、分析、设计、实现、测试、集成、交付、维护等活动。在实践活动中并不完全按照这些阶段逐一进行下去,而是一种迭代执行状态。
学术机构知识库作为基于软件运行的动态数据集合,其生命周期也符合一般软件生命周期的特征,应当包括学术机构知识库存在的全过程,即从开始规划到停止运行的各个阶段的总和,具体包括规划阶段、开发阶段、部署阶段、运行和维护阶段、停止运行期,如图1所示。其中,为了提升学术机构知识库的服务效益,随着机构知识库软件的升级以及用户和管理者对系统功能的要求不断提高,可能会对机构知识库进行二次开发和部署。因此学术机构知识库生命周期不是一个简单线性的过程,中间可能出现多次开发和功能提升的过程,同时需要对硬件进行新的部署。这均会增加学术机构知识库的成本。
2 学术机构知识库生命周期各阶段的内容
21 规划阶段
学术机构知识库规划阶段主要进行机构知识库的建设需求分析,明确建设的总体目标和技术路线,根据机构需求调查,规划机构知识库的系统架构和功能模块,确定采用技术架构。从经济、法律、技术等多个方面进行可行性论证,生成机构知识库建设可行性分析报告,对机构知识库建设进度和人员分工做出安排。根据具体的需求,可以建设单个或者多个机构知识库。endprint
在学术机构知识库的规划阶段,有3个方面需要重视:其一,学术机构知识库的规划设计由于涉及全局知识管理与数据安全等重大问题,因此,规划设计应当由组织高层驱动,基于组织全局战略进行规划设计;其二,学术机构知识库规划设计不是对局部的设计,而是整体知识管理流程的再造,因此,规划设计应当强调科学性、系统性、全面性与知识管理功能的有效性;其三,规划设计阶段必须重视知识的共享和交换,因为这是知识管理推进组织知识创新的关键。规划阶段的上述3个重点在实践中尤为突出,如中国科学院机构知识库在规划环节就充分体现了上述3个方面特征[9]。
22 开发阶段
学术机构知识库的开发包括学术机构知识库建设软件的选择、数字资源的组织、具体系统的开发3个方面的内容。机构知识库的软件可以由建设单位自己开发,也可以采用现有的开源软件,目前140种软件中仅有少部分是学术机构自己开发的。各个学术机构根据具体的需求可以自由决定选择自行开发,还是采用现成软件,也可以在现有开源软件基础上进行二次开发。学术机构知识库开发的框架如图2所示。
在学术机构软件选择与开发方面,需要综合考虑成本、技术实力、建设周期、品牌、安全性、可扩展性、管理等多方面的因素。技术方面主要包括具体的各个条目(如Word文档自动转化成pdf格式)和全面的技术支持(包括可以利用的市场营销和商业资源)等。组织方面主要考虑如何在最大程度上满足不同的合作者在管理和个性化方面对学术机构知识库灵活性的需求。
在知识对象组织模式设计与开发方面,需要注意的是,机构知识库开发不仅包括设计机构知识库数字资源的组织,还包括对非数字资源的组织,如非数字对象的数字化,数字对象的采集、加工、保存、元数据的形成与维护模式等。
对已有数字知识对象的组织采用分层结构,即知识对象的组织形成数据空间,这些对象自顶向下分别为:社区、合集、条目、数据包、比特流和比特流格式,其中“社区”对象可以拥有“子社区”对象,因此可以方便的用于构建分级式的应用系统它们关系,如图3所示。
在具体系统开发方面,主要涉及到八个模块的开发,包括:知识对象提交模块、存取模块、浏览模块、检索模块,外部知识集成模块、内容管理模块、系统管理模块和个性化服务模块等。(1)知识对象提交模块是学术机构工作人员或其委托人向学术机构知识库提交知识对象的功能模块,主要完成知识对象的格式转化,知识对象的批量上传,非数字化知识对象的数字化,知识对象分类推荐,为用户提供元数据描述、管理、维护工具的使用的建议;(2)知识对象的存取模块支持包括文本、图像、音频、视频在内的各种类型知识对象的存储,支持如文章、预印本、工作论文、技术报告、会议论文、图书、学位论文、数据集、计算机程序、可视化仿真环境和模型等任意形式的数字资源的保存;(3)知识对象的浏览模块的功能基于知识地图和知识组织的层次化模型,提供按照学术机构的作者姓名、部门、专业、知识对象题名的字母顺序、时间顺序、主题词或者被引次数等多种类别的浏览功能;(4)检索模块提供简单、复杂检索功能,用户可以通过Web方式进行各种方式的检索和查询;(5)外部集成模块主要是为了实现学术机构知识库与学术机构现有的系统和学术机构外的资源如博客、其他开放获取库的集成和无缝连接;(6)内容管理模块对用户或者工作人员提交的知识对象,需要进行审核,内容管理采用工作流的方式进行审核和发布,包括批准、退回、退修、发布等工作流程,提供灵活的、多步骤的基于角色的工作流机制,允许机构根据具体需求定制各种工作流;(7)系统管理模块主要完成对学术机构知识库知识对象作者用户的管理、知识对象和用户的权限管理、系统运行日志管理、工作流管理、安全管理等;(8)个性化服务模块是基于用户兴趣模型来实现对学术机构工作人员知识的跟踪和推送服务。
23 部署阶段
学术机构知识库部署涉及具体实施部门,主要是对机构知识库服务器的硬件部署,服务器主机软件配置,机构知识库系统安装与调试等相关工作。如果说开发阶段以技术设计部门为主来实现学术机构知识库系统的开发,那么学术机构知识库的部署则进入到以学术机构为主导的阶段。这一阶段,要将开发阶段的结果在计算机和网络上具体实现,也就是将虚拟服务器上开发的系统正式在网络上调试和发布。部署阶段是对前两个阶段全部工作的检验,因此,这一阶段学术机构用户的参与十分重要。调试发布以后,系统要进入试运行环节,并对学术机构知识库系统进行验收。学术机构知识库的部署工作并不仅仅包括系统发布、试运行与验收等内容,还包括机构涵盖各个子库的整体工作部署。如中国科学院国家科学图书馆于2008年开始部署启动中国科学院机构知识库网格建设计划,经过几年努力,中国科学院已有100多家研究所建立了所级机构知识库系统,并在此基础上,建立了全院机构知识库集成服务网络平台,覆盖全部开放服务的研究所机构知识库,提供全院科研成果的一站式检索和发现服务,目前已经累计采集和保存各类科研成果22万余份,其中可开放获取全文成果达到70%以上,成为国内最大规模机构知识库群和最有影响的机构知识库网络[10]。
24 运行和维护阶段
学术机构知识库开发并完成系统部署之后,进入运行与维护阶段。该阶段主要涉及知识对象的采集、保存、元数据操作、检索、访问、存储、推广等。
241 知识对象采集
采集来源包括知识对象所有者即学术机构成员的工作科研过程中产生的研究成果。采集包括提交、采集两种方式。对于新产生的知识对象以所有者提交为主,对于已经存在于学术机构的科技期刊数据库、电子图书馆系统、科研管理系统、学位论文管理系统、档案馆管理系统等则在版权框架下,可以采取采集的方式纳入机构知识库的管理系统。
242 数字对象保存
数字对象被采集后需要经过审核人员进行审核,然后存储到机构知识库中。存储之后并不是一劳永逸的,如果没有一定的保存措施,这些数字资源在不远的将来就会面临载体老化或软硬件过时的问题,无法再为用户所利用。机构知识库知识对象的长久保存,不仅需要大容量存储等硬件设备的支持,更需要制订相应的政策,前期机构知识库设计与开发过程也要充分考虑这个因素。为了研究机构知识库的长久保存,国外启动以相应的项目支持,如预印本保存的需求和可行性研究、开放资源知识库的保存元数据的需求说明研究等[11]。endprint
243 元数据操作
对机构知识库中的数字资源进行访问时,访问质量的高低取决于存储在机构知识库中的元数据记录质量。为了获取高质量的元数据,在机构研究人员提交科研成果后,需要机构知识库系统能够对元数据进行抽取和采集,生成元数据库。机构知识库对知识对象进行分类及标识,并通过元数据定义机构知识库资源的信息结构,以及资源库的组织结构,从而决定机构知识库的信息组织和利用方式,是实现跨资源库语义互操作的基础。元数据的定义及描述对于机构知识库的正常工作十分重要,不同的资源类型有不同的数据结构和描述方式,所以应该针对资源的不同特点抽象出不同的元数据。分别描述资源的主题和内容、描述资源对象的结构、描述资源对象的外部特征、描述资源对象长期保存的相关属性、描述资源站点的相关信息。
244 学术机构知识库推广
学术机构知识库建设完成后,要充分发挥效用,则需要进行机构知识库的推广,为服务打好前站。学术机构知识库的推广涉及到营销、用户心理学等多个方面的内容,对于高校图书馆、学术机构来讲,如何做好机构知识库的推广工作是面临的一个重要课题。杨梅认为[12],机构知识库的宣传推广应以服务对象的需求为导向,以资源和服务为内容,以营销策略为工具,向使用者进行宣传和推广,改变使用者使用机构知识库的行为和习惯。
联盟的机构知识库推广包括“示范+参建”模式、自上而下的模式、单个机构知识库推广的模式3种。“示范+参建”模式以CALIS为代表[13],自上而下的模式以中科院联合机构知识库为代表[14],单个机构知识库推广的模式以康奈尔大学工业与劳工关系学院DigitalCommons@ILR项目[15]和清华大学图书馆以学者为中心的机构知识库ThuRID项目[16]为代表。
25 停止运行阶段
万物皆有生灭,学术机构知识库也不例外。学术机构知识库停止运行不是指学术机构知识库因为系统升级、系统维护、网络问题等原因造成的系统短暂不能访问,而是学术机构决定永久性停止运行。停止运行一般存在两种情况,其一是学术机构知识库所在科研单位决定加入学术机构知识库联盟,即把现有机构知识库的内容和用户数据迁移到机构知识库联盟中,现有机构知识库停止运行;其二是由于机构知识库运行效果不理想、项目经费不足、人员流动、机构知识库建设与运行相关项目结项等主观和客观等原因,造成的学术机构知识库关闭,停止运行。通常,人们比较重视机构知识库的规划与开发,轻视机构知识库的运行阶段,而几乎完全忽视知识库的停止运行阶段,这是不可取的。以计算机技术和网络技术为核心的现代信息技术一直处于高速发展的状态,新技术、新产品呈井喷式发展,学术机构处在这样一个不断创新的环境中,指望一个学术机构知识库一劳永逸地运行下去,是不现实的。机构知识库会不可避免地遇到系统更新改造、功能扩展,甚至是报废重建的情况。因此,学术机构知识库在建设初期就要充分认识到其生命周期的最后一个阶段——停止运行阶段,注意机构知识库停止运行的条件和时机,以及由此而需要花费的成本。
3 学术机构知识库生命周期研究的价值
从上述学术机构知识库生命周期的5个阶段来看,不同阶段有不同的工作任务和工作重点,不同阶段有不同的技术要求与方法要求,不同阶段需要支出的成本也各有不同。因此,研究学术机构知识库的生命周期不但有助于科学界确定不同阶段的工作任务与范围,还有助于确定不同阶段的管理策略和成本控制。具体来说,学术机构知识库生命周期研究的价值体现在战略定位、运营管理和成本控制3个方面。
31 战略价值
学术机构知识库从规划建设开始,其目标绝不是要建成一个只能使用一年两年的知识管理平台,而是要长期为组织提供有效的知识管理工具,甚至要将其发展成为组织文化的核心。可见,学术机构知识库本身就是组织知识管理战略的组成部分,而不是一个临时性的行为。研究学术机构知识库的生命周期,就是从战略的视角来分析未来较长时期内学术机构知识库的成长阶段,并据此进行各阶段的战略决策,以确保组织知识管理的长远效益。因此,研究学术机构知识库生命周期具有重要的战略价值。这也是本研究的首要核心价值。学术机构知识库生命周期研究的正确与否直接影响到知识库不同发展阶段的战略决策,学术机构知识库生命周期愈长,本研究的战略价值就愈大,对于组织发展的影响也愈深远。
32 运营价值
研究学术机构知识库生命周期的第二个核心价值是运营价值。学术机构知识库建设关键在于运营管理,核心就是知识库的运行流程与运行系统的管理。研究其生命周期,能使学术机构知识库运营团队在学术机构知识库生命周期的不同阶段做出准确的判断和科学决策,既有助于制定科学的流程,也有助于做好不同阶段的系统规划。
33 成本控制价值
学术机构知识库生命周期的不同阶段,由于工作任务和工作重点的不同,组织需要支出的成本也有很大差别。科学研究学术机构知识库的生命周期,可以制定科学的财务预算,有助于组织做好学术机构知识库建设的成本控制。
4 结 语
综上,学术机构知识库作为组织知识管理的重要平台和工具,其本身也有从产生到消亡的“生命”历程,虽然其以知识管理软件为重要的技术支撑,但是它又不能简单等同于软件系统,其生命周期中,有远比一般软件系统更复杂的运营管理环境,既涉及技术,还涉及管理和组织战略与文化,因此,研究学术机构知识库生命周期有着十分重要的意义与价值。从全球学术机构知识库发展来看,随着知识在产业发展中地位的不断提升,各国都在加大学术机构知识库的建设与研究,学术机构知识库生命周期的研究不但可以为实践中的知识库建设提供重要思路,也可以为进一步开展学术机构的知识战略与成本控制研究打下基础。
参考文献
[1](美)伊查克·爱迪思.企业生命周期[M].赵壑,译.北京:华夏出版社,2004:8.endprint
[2]李大玲.学术机构知识库构建模式研究[M].上海:上海交通大学出版社,2009:45.
[3]开放存取知识库名录官网[EB/OL].http:∥www.opendoar.org/,2015-05-25.
[4]吴绮云,刘俊杰,赵慧真.高校图书馆自建特色库生命周期延长策略:以泉州运动鞋类信息数据库的更新维护为例[J].河南图书馆学刊,2015,(1):45-47.
[5]胡翠红.基于数字图书馆不同生命周期的组织文化[J].现代情报,2006,(1):101-102.
[6]李世辉,韩庆兰.基于生命周期成本管理的知识库构建研究[J].会计研究,2013,(7):35-41.
[7]张斌,郭军.软件工程及应用[M].沈阳:东北大学出版社,2007:43.
[8]陈长顺.计算机导论[M].北京:清华大学出版社,2010:196.
[9]王丽,孙坦,张冬荣,等.中国科学院联合机构知识库的建设与推广[J].图书馆建设,2010,(4):10-13.
[10]宋喜群,刘晓倩.中科院建成国内最大规模机构知识库群[N].光明日报,2013-09-25.(06).
[11]刘华.国外机构知识库的长期保存研究及其启示[J].情报资料工作,2007,(3):49-52.
[12]杨梅.高校机构知识库服务推广模式初探[J].长江大学学报:社会科学版,2014,(2):164-166.
[13]聂华,韦成府,崔海媛,等.CALIS机构知识库:建设与推广、反思与展望[J].中国图书馆学报,2013,(2):46-52.
[14]张冬荣,祝忠明,李麟,等.中国科学院机构知识库建设推广与服务[J].图书情报工作,2013,(1):20-25.
[15]康奈尔大学工业与劳工关系学院DigitalCommons@ILR项目网址[EB/OL].http:∥digitalcommons.ilr.cornell.edu/,2015-02-25.
[16]清华大学清华学者ID服务项目[EB/OL].http:∥rid.lib.tsinghua.edu.cn/thurid/about.html,2015-04-25.
(本文责任编辑:马 卓)endprint