APP下载

机构知识库: 学术信息服务新途径

2013-11-19程艳旗赵亚萍

中国教育网络 2013年9期
关键词:知识库学术师生

文/程艳旗 赵亚萍

机构知识库从资源内容和服务对象上均不同于文献数据库,是专属于特定机构的知识资源中心,因此其个性化程度更高,一切以特定机构的需求为基准。

机构知识库是大学或研究机构通过网络来收集、保存、管理、检索和利用其学术资源的数据库。它具有学术传播、电子出版、长期保存、知识管理、促进教育、科研评价、共享利用等功能。

经过多年探索与实践,机构知识库表现出了强大的生命力。然而资源内容建设成为当前机构知识库可持续发展中遇到的最大困难,据CALIS在2011年6月对全国大学机构知识库建设单位调查显示,68.35%的机构库内容建设受困于人力和时效,美国MIRACLE项目调查研究发现缺乏校内特定类型资源的呈缴制度、供稿者不了解自己能从IR中得到什么好处、使员工确信IR并不违背目前的出版模式、以及供稿者担心数字资料的知识产权是机构知识库建设的重要制约因素。机构知识库具有文献数据库相似的特征,包括收集、保存、管理、检索和利用,但是在资源内容建设机制上却存在着巨大的差异,文献数据库已经形成了从资源采集到资源出售的商业模式,其文献资源内容有专门的管理队伍,机构知识库资源内容建设缺少这样的队伍,为此需要探索促进机构知识库内容建设的途径。文章将从机构知识库定位、机构知识库系统建设、机制建设等方面给出促进机构知识库内容建设的对策。

个性化机构知识库定义

机构知识库从资源内容和服务对象上均不同于文献数据库,是专属于特定机构的知识资源中心,因此其个性化程度更高,一切以特定机构的需求为基准。以浙江大学为例,浙江大学从2008年开始机构知识库建设,其目标是建立一个基于全校学科体系的、信息权威、内容完整、组织有序、开放存取的学术资源网络平台,最大限度地采集、整合并保存全校师生、研究团队和机构的各类型学术成果资源,实现对资源的永久保存、广泛传播和开发利用,促进知识共享与知识再创新,为校内用户创建一个多层次、多途径、功能丰富的知识资源服务体系。可以发现,浙江大学机构知识库具有三方面功能:1.师生原创性知识资源的长期有效保存;2.多维度展示学术形象,提供全面了解机构的窗口,服务于学校招生、人才引进、科研合作;3.构建新的学术传播与交流模式,促进学术团队内部和外部之间的知识交流与共享。

图1 个性化机构知识库数据模型

系统设计服务于资源内容建设

目前,国内外大学机构知识库系统多采用DSpace系统实现,据OpenDOAR网站统计,DSpace软件使用比例高达59%。然而对照个性化机构知识库功能需求,仅用DSpace软件无法满足要求,尤其是多维度展示、统计、交流等方面,因此需要定制开发。

库结构模型设计

在DSpace系统里数字资源通过知识库(Community)、合集(Collection)、条目(Item)、资源集(Bundle)和资源实体(Bitstream)等对象得到持久保存,实现资源的属主管理和呈现管理,在DSpace系统每个资源实体只能属于一个合集,但是可以呈现在多个合集,即满足资源惟一性要求,这个逻辑关系符合资源的实际管理关系。通过引入专家实体(Expert)和机构/团队实体(Team)用于存放机构及其专家,这样就可以确定资源与机构、专家之间的归属关系,资源通过知识库归入机构,机构拥有专家,专家通过条目关联到资源,资源在机构页面呈现在专家名下。个性化机构知识库系统数据结构模型如图1所示。在浙江大学机构知识库实施中,其机构/团队表信息和专家表信息分别通过学校的基本信息数据库获取,其中机构信息来自于学校机构编码管理系统,专家信息来自于学校统一身份认证系统,学校的基本信息数据变动能实时地反映到机构知识库中。

资源归属关系确定即资源与机构、资源与专家这两者关系的确定,在这里通过状态库和关联表进行处理,将资源状态库设置为临时库和正式库,在资源未确定归属关系的情况下资源将进入临时库,临时库里的资源通过规则匹配与用户认领的方式进入正式库。规则匹配通过资源属性与人员身份的关联关系得以确认,由于存在同名情况,对于匹配规则不能确定的资源配以信息推送的方式将确认信息主动发送给用户,用户通过查看资源信息对比,点击操作完成认领。根据实际运行,由于同机构同名用户非常有限,因此涉及到的资源认领工作量非常少,因英文名字简写的原因,相对而言英文资源较中文资源认领工作量会多一些,但总体工作量在用户可接受范围之内。

表1 资源正式入库匹配规则

资源入库设计

库资源建设包括资源采集和资源入库两部分,有学者对机构知识库的存储率比较研究结果显示,一到两年内,如果没有强制性要求,机构知识库自愿进行自存储的论文数量只有15%,而强制要求自存储的数量为100%。无论是自存储还是强制存储,总体上传统的资源采集和资源入库将会产生巨大的工作量,如何利用技术减轻工作量,从机制上解决资源建设的人力和时效是机构知识库建设中需要解决的首要问题。浙江大学机构知识库的资源建设采用多元方式得以解决,在先期以整合为主,将已有数字资源进行回溯,以节约师生资源提交时间;后期以师生自存储模式为主,解决时效问题。

通过调研,浙江大学机构知识库的回溯资源已经存在于学校科研管理、教务管理等业务系统和数据库商的文献数据库中,如果采用自存储让教师再一次录入数据,将会引起教师的极大反感,不利于推进建设。数据集成技术(ETL)是通过数据库技术解决系统间数据共享的成熟技术,该技术能解决遗留数据集成还能解决实时数据集成。而文献数据库中的数据通过与数据库提供商协商获取专用接口和页面分析技术实现,关于页面分析技术读者也可以参考文献。通过近3个月的回溯,学校已经采集和清洗了近30万条资源数据,极大地减轻了师生的数据整理工作。

将30万条资源逐条入库的工作量将是巨大的,因此必须借助技术解决资源的批量入库。我们采用模式匹配的方式将Excel文件、数据库表里的数据批量导入机构知识库,考虑到程序执行性能,降低计算复杂度,我们采用了简化的匹配规则,部分匹配规则如表1所示。由于该匹配规则相对于资源归属判定并非足够严格,为此在用户个人信息空间里增加了将资源剔出正式库的操作,以确保资源归属的正确性。

师生自存储模式的实现不仅体现在机构知识库系统提供资源上传功能,更主要的是通过向全校发布资源存取开放接口,以嵌入到其他信息系统的业务层实现。学术团队知识管理系统是浙江大学面向学术团队内部信息管理而开发的系统,对科研团队的人员、设备资产、文献资源、科研项目等信息进行管理。团队知识管理系统调用资源存取开放接口,提供统一的资源访问界面,师生在学术团队知识管理系统中访问的资源实际上存储在机构知识库,当师生上传资源时,资源被统一保存在机构知识库中。通过学术团队知识管理系统与资源存取开放接口的整合,师生自存储模式在浙江大学的两个团队中得以应用,其中一个团队通过导师制定的强制存储制度,以团队成员自我上传方式确保了该团队的学术资源得以及时提交、发布;另一个团队则以配备专职科研秘书的方式,由科研秘书统一管理的方式解决了资源提交、发布。团队出于规范管理,促进内部交流和提升整体形象的角度,对于这样的自存储模式非常认同。通过系统之间业务逻辑层的整合,机构知识库的资源建设与学术团队日常工作融为一体,资源得以永久保存却不增加师生的工作量。机构知识库资源存取开放接口由资源的增、删、改、查及其组合操作组成,如表2所示。

表2 资源存取开放接口

资源利用促进资源内容建设

基于机构知识库提供更多的资源利用服务符合师生对知识资源服务体系的诉求,更是促进机构知识库资源建设的动力所在。资源开发利用须满足师生的信息发现、信息获取、学术交流为需求,在当前数字资源极度冗余、多种系统交叉并存的情况下,个性化机构知识库应该为资源整合、系统交互提供接口支持,从而减轻师生信息发现、信息获取成本,为学术交流提供更多新服务。

浏览和检索是用户获取信息的主要途径,传统的信息浏览方式以信息分类为基础,用户获取信息的路径较长,搜索引擎的出现改善了用户获取信息的途径,然而搜索引擎对信息的处理以分词为基础,通过用户输入的关键词与分词表进行匹配并辅以一定的算法实现信息提取,这样的信息获取缺乏结构和语义,用户获取信息的精确性、相关性、完整性并不理想。关联数据(Linked Data)技术的出现为资源深度整合提供了支持,关联数据是万维网的发明人蒂姆·伯纳斯-李(Tim Berners-Lee)提出的一种万维网数据发布方式,它一般采用资源描述框架(RDF)建立数据模型,利用统一资源标识符(URI)标识数据实体。关联数据可以将数字资源进行关联,用户可以很方便地通过这种关联访问相关资源,包括人、机构、书籍、学术文献、课件、多媒体、统计数据、评论等等。

传统的机构知识库以数字资产永久保存为主要目标,缺少知识交流和沟通的支持。Web2.0技术以用户参与为典型特征,Web2.0技术与DSpace系统的工作流结合,可以实现用户对数字资产提供评论、推荐、知识标签等功能,为用户知识交流和沟通提供支持,用户交流内容为数字资源的多维度标识与展示提供必要的关联数据,实现知识和信息的关联。

机构知识库建设将能促进更多优秀的个性化学科服务提供

利用企业服务总线(ESB),由机构知识库提供Web service 接口,可以实现机构知识库与其他业务系统之间的流程交互,为学术信息环境提供新服务。如机构知识库与科研管理系统交互,实现学术论文认领,科研管理部门提供的论文认领信息通过机构知识库资源入库流程分发到用户个人,对于无法确定个人的论文以E-mail等主动提醒的形式发送给相关用户,经用户对比、点击操作完成认领。

由于在实施中充分考虑了学校师生的学术信息服务需求,浙江大学机构知识库从2009年正式上线以来,网站访问量已突破150万人次。技术上的开放接口较好地支持了机构知识库系统与其他系统之间的互联互通,为其初步奠定了数字资源中心的地位,也为学校构建学术信息环境提供了良好的基础,促进了学科信息服务的完善与创建。未来浙江大学机构知识库系统建设将能促进更多优秀的个性化学科服务提供。高校可以根据自身定位和IT技术支持能力情况,选择合适的解决方案,共同致力于为师生提供优质的学术信息环境,更多实现方案供参考。

猜你喜欢

知识库学术师生
汉语近义词辨析知识库构建研究
初中历史教学中师生的有效互动
学术是公器,不是公地
如何理解“Curator”:一个由翻译引发的学术思考
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
对学术造假重拳出击
高速公路信息系统维护知识库的建立和应用
麻辣师生
重视“五老”作用 关爱青年师生
成功的师生沟通须做到“三要”