科技文献信息资源库管理系统研究
2021-11-30张舒逸
张舒逸
吉林省科学技术信息研究所 吉林 长春 130033
1 研究内容
科技文献信息资源库管理系统即是对建设的数据库进行使用管理、使用指导等,可在资源库创建项目设定数据库负责人和管理人员,数据库负责人和管理人员就可以随时对数据库进行管理,包括任务管理及资源管理等,并提供了计算机辅助创新中的各种工具集,以及各种统计分析工具。
该模块将平台拥有的各类数字资源,建成一个统一整合和检索的平台,根据机构的实际资源特点,整合所有资源实现“一站式”检索。可提供所有资源的统一检索的入口,资源类型含期刊、学位论文、会议论文、报纸、专利、标准、成果、机构、政策法律、科技报告、OA资源等。资源范围涵盖中文、英文。中文元数据仓储能覆盖万方、维普、知网、超星等主要中文电子文献资源;外文元数据仓储覆盖Springer、wiley、
IEEE/IEE、LWW、OUP、BMJ、ACM、ACME、ASME 、IOP、ACS等数据库。数据上线之前还要对数据进行清洗、查重处理。将异构、分布和海量的科技文献信息重新组织,形成无重复且有序的元数据仓储,通过预索引方式,为我省科研用户提供简单、快捷的数字资源发现、检索服务[1]。
2 关键技术
2.1 元数据加工
对平台的数据库资源进行整合,实现统一管理、统一搜索、统一登录、结果排序、数据关联分析等。
2.2 数据更新机制
无论是整个平台的数据更新还是各行业领域资源的更新,形成固定规则,按要求进行数据更新上线。
2.3 开源非关系型数据库(MongoDB)
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
2.4 Solr搜索引擎
基于solr搭建核心文献检索服务,可轻松满足目前500万级搜索量级的要求。Solr还具备极强的扩展性,结合硬件的组配,可支撑更大规模的大数据集检索,为本项目的未来发展和数据扩容提供了强有力的保障。
2.5 检索技术
布尔逻辑检索:支持非与或布尔逻辑检索,系统默认逻辑运算符大写,在输入关键词后,系统默认的关键词是和的组配关系,也可通过检索式的序号进行布尔逻辑检索.
截词检索:检索词里加入适当代替符,提高检索运输成功率。
字段限定检索:在检索运算中,检索词过长或过短都会影响检索效果,在检索词后加入字段标识,通过字段限定检索可提高查准率[2]。
3 数据处理
3.1 元数据仓储搭建
平台元数据仓储要包含图书、期刊、学位论文、会议论文、标准、报纸、专利、科技报告、法律法规、学术视频等资源。中文元数据仓储能覆盖万方、维普、同方、超星等主要中文电子文献资源;外文元数据仓储覆盖Springer、wiley 、IEEE/IEE、ASME 、IOP、ACS等数据库。
数据上线之前还要对数据进行清洗、查重处理。将异构、分布和海量的科技文献信息重新组织,形成无重复且有序的元数据仓储,通过预索引方式,为我省科研用户提供简单、快捷的数字资源发现、检索服务。
3.2 统一检索系统搭建
面对异构、海量的科技文献,我们需要为用户提供统一的检索界面,统一的检索语言。可以对图书、期刊、学位论文、会议论文、报纸、视频等文献进行统一检索,同时支持各文献独立检索。对不同资源进行混合排序,支持按照学术性、相关性、馆藏优先、出版时间升降序等多种排序方式。并且登录打通,形成统一认证。
3.3 构建科技资源池,实现多类型资源跨库检索发现
整合多类型资源内容,包括科技文献(期刊、会议、报纸、学位论文等)、科技成果、科研项目、专利标准、专家人才等数据资源,基于目前的科技资源的共建、共享、共用现状,针对分散/异构/异种科技资源,通过建设区域科技大数据资源池,实现科技信息资源、科技物质资源和科技业务服务的智能连接、快速匹配和有效结合[3]。
4 数据库管理系统研究成果
4.1 数据数量一站式检索统计
科技文献资源库管理系统将涵盖国内4000多种期刊,其中核心期刊1500余种,预计全文文献总量将达到1000多万篇,收录专题按学科分120多个,内容将逐年累增细化。数据库中还会收录1000多种重要报纸,内容每日累增。另外还包括1600多种国内的科学与工程核心期刊的论文将会在数据库中体现,其中会议论文400多家。本系统涉及研究机构达到3万多家,关键词信息达到6万余条,包含300多个学科层级分类。如此多的数据在管理系统完成后将实现一站式检索资讯统计服务。
4.2 数据质量分析
数据库管理系统提供各种评价元素影响力指标分析及重要文献资源链接。科技资源库也将涵盖国内3000余种核心与专业特色期刊、博硕论文、报纸、行业标准、法律法规、行业经济数据统计、行业深度研究报告、技术发展动态、国外经济发展动态等信息,涵盖企业技术创新、经营决策、企业管理、行业动态等专业资料信息。检索方式有分类检索、初级检索、高级检索和专业检索四种方式。在每种方式的检索结果(包括二次检索的检索结果)里都可以进行二次检索,可以无数次的进行,逐步缩小检索范围,直至检索结果为零。
5 结束语
基于整个系统的目标定位和特点,开发时必须满足系统的先进性、可扩展性、兼容性、实用易用、可维护性、稳定性等原则。系统使用分布式部署,有效地平衡各服务器的压力,可以保证系统的稳定性。