APP下载

高校原生资源库平台的构建

2015-03-22,,

中华医学图书情报杂志 2015年8期
关键词:标引资源库检索

,,

传统学术出版作为学术交流和传播的途径,在数字时代日益呈现出与其初衷相悖的态势。各数据库厂商日趋垄断并不断商业化的趋势形成了高昂的价格壁垒,成为学术成果生产者和使用者获取与使用学术资源的阻碍。高校的教学和科研成果是彰显高校办学质量和核心竞争力的重要指标之一,是图书馆馆藏建设的重要内容,但是在传统学术交流体系中,这些资源却分散于各种期刊、数据库和网站中,限制了图书馆和教研人员对本校研究成果的存取,不利于本校原生资源的共享和长期保存。因此,高校迫切需要一种自由开放、便捷可靠的学术资源交流共享方式。很多高校图书馆已经意识到这个问题并开始着手构建本校原生资源库,旨在将本校的教学科研成果集中保存、有效管理,以便于检索和传播使用[1-3]。

第二军医大学自建校以来已产生了海量的学术信息资源,包括已发表或未发表的期刊论文、会议论文、学术论文、科技报告、图书、教学课件、成果专利、图片等。第二军医大学图书馆(以下简称“我馆”)通过自建原生资源数据库平台实现了对本校产生的学术资源的有效获取、存档、管理和利用,从而进一步促进了学术传播和学术繁荣。

1 高校原生资源库平台建设需满足的条件

与传统的纸质文献和电子期刊数据库相比,原生资源数据库所涵盖的数字资源在载体形式和文档格式上更丰富,在时效性上也更具优势,能够很好地促进图书馆的馆藏资源建设和馆藏结构优化。为了完成第二军医大学自建校以来产生的全部原生文献资源建设数字化任务,我馆根据学校实际需求,构建原生文献资源数字化加工、存储、管理、服务于一体的集成环境,制定配套的建设管理使用规范,建设特色鲜明、种类齐全、内容完整、布局合理的原生文献信息资源库,并搭建一个可以实现长期保存和动态更新的数字原生资源库平台。

该原生资源库平台需达到以下要求:一是数字文献资源的集中存储、集中管理、统一发布,数据制作与发布简便、高效,审核发布后的数据前台实时响应;二是方便高效地建立各种类型专题文献库,适应图书、期刊论文、会议论文、学位论文以及教案、课件、报告、手稿等资料的管理和发布,并能适应百万级以上规模资源文献的管理和发布;三是支持单字段检索,多字段联合高级检索,支持单库浏览检索以及跨库联合检索,支持在线阅读全文和全文下载功能,支持外部著录数据(如Marc等)的批量导入和自动关联标引,减少人工标引工作量。

2 高校原生资源库平台的功能设计

2.1 总体设计架构

原生资源库平台系统架构如图1所示。

图1 原生资源库平台设计架构

原生资源库平台共有存储层、业务层、应用层3层逻辑结构。存储层的主要功能是对数字资源内容及相关的元数据进行储存和修改等操作,其操作对象包括数据流(即数字资源本身和数据条目)和元数据(对数字资源属性和相关关系进行描述与揭示的数据);业务层负责对整个系统的业务逻辑进行操作,具体包括内容管理(数字对象管理和唯一标识符生成)、存取管理(数字对象映射和数字对象分发)和系统管理(用户安全、权限、历史日志和工作流等);应用层主要负责向用户提供基于 Web 的操作界面,包括数字资源提交,对整个原生资源库的浏览、检索,数字资源获取及其他一些信息服务[4-5]。

原生资源库平台的运行主要包括存储和获取两个环节。存储环节先由用户通过应用层进行数字资源提交,然后由业务层进行内容审核与管理,最后由存储层进行数据流和元数据包的存储;获取环节由用户通过应用层进行浏览与检索,提交获取申请,业务层根据检索词进行数字对象映射与分发,从存储层中抽取相关内容,最后通过应用层将数字资源提供给用户。

2.2 系统功能模块

原生资源库平台主要包含文献资源管理和数据发布两大子系统,分别实现文献入库、标引、发布和浏览的功能。系统采用B/S(Browser/Server)结构方式,客户端可通过浏览器在任何时间和地点对服务器各种数据资源进行管理和检索、浏览、下载[6]。

2.2.1 文献资源管理子系统

该子系统主要实现对数字文献资源的管理,包含各专题数据库结构定义、全文入库、标引、发布等功能[7-8]。

2.2.1.1 资源分类

原生资源类型包括科研资源和数学资源(表1)。正式出版物包括期刊论文、会议论文、图书专著等,非正式出版物包括本校学位论文、工作报告、科研数据、讲座报告、教案、课件、软件和程序等各种形式的学术成果。

表1 原生资源库管理的主要资源类型

系统还可针对用户的需求,提供新建资源分类的功能,方便用户根据本校特色资源库的性质和读者的需求实现资源的自定义分类管理。在分类时,交叉学科的资源除了严格按分类法进行分类外,还提供复选选项,解决学科、类型、主题交叉等带来的多个分类的问题。

2.2.1.2 资源录入

支持联机采集数据,支持doc(x)、xls(x)、caj、pdf、pdg等各种主流数字出版格式文件的批量导入;允许管理员逐条将所需发布的文献添加到数据库中,添加的基本信息包含操作用户、文献标题、全文文献路径、文献来源、加工日期等,其他信息可以在标引环节处理;支持对新添加数据详细信息的自动补全功能。在添加数据入库时,可对用户提供的基本信息与已存在数据进行对比,选择出相似度最高的数据供管理员一键同步[9]。

支持线下采集数据,如纸质图书经扫描仪导入等。经扫描完成的图像可按整本图书的形式封装成一本电子书,以PDF的格式进行保存。系统能够提取书名、作者信息,将生成的电子书分门别类归属到相应专题数据库;还可对每本图书制作目录导航,以PDF书签形式在PDF文件内生成目录导航文件。有目录页的图书,目录导航遵照图书目录页著录,目录编辑采用简体字著录;没有目录页的图书,则对照书本内容编制目录导航,一般编辑二级目录。

2.2.1.3 自动标引著录

原生资源进入数据库之前要先经过预处理,文献的预处理包括转码、整理和标引等。可以通过标题、文摘作为标引源,经OCR后,系统采用自动词语抽取功能,对所识别出的主题词进行优选,或以其他算法得到的关键词作为标引词,最终产生表达所扫描文献内容的标引词。还可采用标准的Marc格式对各类型文献进行元数据著录,并支持外部Marc文件的导入和交换。系统预先设置期刊(连续出版物)、图书、报告、音视频等常用文献类型的Marc著录字段,并允许用户自由定义需要增加的字段[10]。

2.2.1.4 资源编辑加工

具有新建信息文档的功能,可以将Word或互联网页的正文内容直接复制粘贴到文档内容之中,可以在文档正文中插入图片和表格,可对文档内容进行可视化排版。信息录入采用所见即所得的方式,文档发布形式与文档编辑版式相同。 文本编辑:支持像Word一样的可视化在线编辑功能,支持Word内容智能排版、Word图片一键上传,正文图片在线裁剪功能,在线截屏功能;图片编辑:支持图片批量上传并自动生成缩略图,前台幻灯片显示图片集;视频编辑:支持断点续传,在线avi转flv。

2.2.2 数据发布子系统

数据发布子系统主要完成自建原生资源库的Web发布功能,界面友好,功能强大,以统一高效、快速方便检索为目的,实现原生资源高效、准确、即时的发布。支持doc(x)、ppt(x)、pdf等格式文件的在线浏览功能。管理员可以指定需要发布的数据库和文献列表,一经审核和发布后,前台立即可以进行检索和全文下载。主要功能包括:数据审核,完成数据发布前的审核,具有审核权限的用户登陆到发布系统,进行发布前审核,文献审核通过(允许发表)后可以进行发布操作,允许用户单篇或者批量选择文献进行审核操作;数据发布,完成信息的前台发布,发布后可以立即进行前台检索和文献下载,允许用户选择特定范围的文章进行发布;访问控制,所有用户可以通过网络地址访问已发布的数据,在线浏览和检索、下载需要的资源;用户管理,文献加工、标引、审核发布人员管理功能,可以预先定义文献导入权限、文献标引权限、文献审核权限、数据发布权限等5个管理权限。

2.3 平台技术路线

为了节约建设和维护成本,现有的原生资源库开发大多采用的是开放源码软件,如DSpace,EPrints,Fedo等。但是,这些来源于国外的资源库建设软件,在页面呈现、功能拓展以及长期维护方面都不太符合中国国情。我馆原生资源库平台采用ASP.NET技术进行开发,支持多种开发语言,如ADO.NET、AJAX无刷新技术、LINQ数据库访问技术、母版页、Web Service、主题等。整个系统具有方便、灵活、性能优、生产效率高、安全性强、完整性强等特点。

原生资源库建设与维护的主要技术包括数字对象管理技术和开放存取技术。数字对象管理技术是原生资源库实现内容组织和长期保存的关键技术,其核心内容是数字对象框架;开放存取技术是原生资源库实现互操作和开放存取的关键技术,主要包括基于OAI-PMH的开放元数据互操作技术、基于DOI的永久性保存与利用技术、基于搜索引擎的开放存取技术和基于Web Service的开放存取技术等。

3 结语

第二军医大学图书馆通过构建原生资源库平台,可将校内学者、专家和学生所著的论文、书籍及教案、教学课件等有价值的资料用数字化的形式保存下来,也可以实现校内资源共享。它将极大地推动高校信息资源开放共享,满足用户信息需求,促进科研成果快速转化,提升高校和学者的学术影响力。

猜你喜欢

标引资源库检索
健身气功开放课程资源库建设研究
贵州●石斛种质资源库
2019年第4-6期便捷检索目录
档案主题标引与分类标引的比较分析
本刊对来稿中关键词标引的要求
高中历史信息化教育资源库应用探索
福建基础教育教学资源库建设研究——以福建基础教育网资源库为例
专利检索中“语义”的表现
本刊对来稿中关键词标引的要求
本刊对来稿中关键词标引的要求