基于协同理论的大数据平台资产数据管理研究
2021-07-15赵毅李晋王颖
赵毅 李晋 王颖
摘 要:基于协同理论的大数据处理能力,本研究实现了各种数字资源元数据的精细存储和管理,完成了其与纸质文献资源元数据的集成。其间利用平台的元数据采集和清理能力,为图书馆提供不断更新的大数据资源库。资源库中的数据都是图书馆拥有的,图书馆可以实现对各类资源的管理与运用,提升数据掌控能力。
关键词:协同理论;大数据;资产数据;管理
中图分类号:G250.7 文献标识码:A 文章编号:1003-5168(2021)06-0036-03
Research on Asset Data Management of Big Data Platform
Based on Collaboration Theory
ZHAO Yi LI Jin WANG Ying
(Library of PLA Information Engineering University,Zhengzhou Henan 450002)
Abstract: Based on the big data processing capabilities of the collaborative theory, this research has realized the fine storage and management of various digital resource metadata, and completed its integration with paper document resource metadata. In the meantime, the platform's metadata collecting and cleaning capabilities were used to provide the library with a constantly updated big data resource library. The data in the resource library is owned by the library, and the library can realize the management and use of various resources and improve the ability to control data.
Keywords: collaboration theory;big data;asset data;management
协同理论认为,自然界和人类社会都可以看作是一个复杂的系统。协同理论成为研究和理解复杂系统各元素协调统一、从无序到有序并发挥整体效能的重要方法论[1]。基于协同理论的大数据处理能力,图书馆可以实现各种资源元数据的精细存储和管理,同时利用平台的元数据采集和清理能力,为自身提供不断更新的自有大数据资源库,实现各类资源的管理和应用,增强数据控制能力。
1 概述
智慧图书馆以物联网技术、互联网技术和移动终端为基础,以资源数字化为前提。图书馆的未来发展方向是根据读者的需求打造不限制空间的新型图书馆,并不断改善读者的体验。智慧图书馆的核心要素是人与书聚在一起并相互联系,此外,用户可以随时随地使用图书馆。资产数据作为智慧图书馆系统重要的底层数据,对系统运行起着极其重要的作用。协同理论下的智慧图书馆服务对资产数据管理的要求越来越高,以此来保证系统稳定、健康地运行。合理管理资产数据,对于协同系统的实用性和可靠性起着决定性的作用。
2 基于协同理论的大数据平台资产数据管理
2.1 数字资源元数据管理
对图书馆资源元数据进行收集、整理和清理,实现了元数据的集成和精细化管理。资源包括各种常规商业数据库以及具有图书馆自身特色的数字资源数据库。管理颗粒度被细化到文章级别,这有助于从各个维度查看和管理元数据。类型覆盖图书、期刊、论文和视频等常规数字资源(仅限一次文献库,不包括引文、汇编等二次文摘库)[2]。
默认的元数据管理以数据库厂商为集合,人们可以查看数据库中完整的元数据详细信息。如果是动态连续出版物,如期刊,还可以按刊期进行浏览。另外,平台支持以学科分类进行元数据查看。同时,平台支持中图分类与教育部学科分类标注,可按其中一种分类体系对馆内资源进行组织管理与使用。其提供单一学科资源的各种维度分析报告,使人了解图书馆的各个学科资源配备情况。
元数据描述使用DC(都柏林核心,Dublin Core)標准,描述信息丰富,最高达到25个字段深度,包括基本的标题、副标题、作者、作者机构、出版单位、出版时间、封面、关键词、摘要、ISSN/ISBN、学科、数字对象唯一标识符(DOI)、来源和资源路径等。所有的元数据按设置的规则(机构前缀+数字编号)分配唯一的数字馆藏号。同时,平台也支持馆员的复杂检索操作[3]。
除了常规的元数据浏览操作,平台还支持普通的检索操作,包括对标题、年份、作者等信息进行查找。其支持对元数据进行常规新增、修改、删除、下架,允许图书馆对元数据的描述字段进行扩展,每种类型最多可以扩展10个字段。
同一文献的多个数据库来源元数据会进行去重合并,但是保留全部来源信息,使得数字文献也可以支持多副本的管理。合并的规则根据文献类型有所区分,例如,期刊会以标题、作者、刊名、期号和页面信息作为判定标准;图书会以书名、作者、出版社、年份和ISBN作为判定标准。在文献的合并过程中,平台会对数据质量进行自动清洗,保留质量较高的版本。
元数据以批次为集合进行收割与存储,并维持更新。对于常用的商业数据库,更新延迟为1~2周,也就是说,数据库厂商产品更新元数据后,1~2内就可以进入平台存储并应用。部分专业数据库的更新延迟保持在1个月内。平台可以根据图书馆的实际需求,调整更新延迟时间。
元数据的存储使用国际流行的Hadoop大数据平台。其可以稳定可靠地支撑百亿级的数据规模。
2.2 纸本书刊元数据整合
平台支持与图书馆现有纸书业务系统对接,实现纸本书刊数据整合。在平台上,人们也可以查看与管理纸书元数据。目前,纸书业务系统发展相对成熟稳定,馆员熟悉采编流程。所以,平台以集成的方式完成对传统业务的保留与数据整合,实现纸+电资源的综合数据仓库建设。
纸书元数据的集成方式有两种,根据纸书业务系统的配合程度,平台可以选择其一实现目的。推荐的模式是利用接口自动化同步数据。这需要纸书业务系统提供接口,接口访问的数据至少包括纸本书刊的文摘元数据和馆藏状态数据。平台通过每天定时从接口收割数据,进行纸书元数据的更新、仓储。这种模式完全不需要人工干预,程序自动化完成。接口的使用需要图书馆与其他厂商协调配合,这不包括在平台的功能或者费用之中。另一种模式是通过程序人工导入元数据。平台提供数据导入工具和数据匹配模板,可以快速地帮助馆员将纸本书刊的元数据导入仓库中。这种模式下,数据更新需要馆员定期操作,可以作为过渡的解决方案。
仓储后的纸本元数据管理颗粒度同样达到篇级,与数字资源元数据使用相同的字段描述存储。其在平台内与数字资源元数据进行去重合并,二者通过副本的属性保存各自来源的差异信息。整合后,图书馆可以在平台上集中管理馆内的全部资源元数据,提升资源管理效率。
2.3 元数据使用权限控制
平台内的各类文献资源允许图书馆设置详细的使用权限,其可以灵活控制资源的使用范围和使用场景。通过权限的分配,平台可以为不同的读者群体提供差异化的资源服务,同时保证服务内容的安全合法。通过应用场景的分配,其可以为不同的服务或者应用平台提供有针对性的资源内容,满足各类应用需求。
资源范围的分配可以指定数据库商、批次甚至是单篇文献,并为其指定可开放使用的读者范围,如某个类型的读者或者某个学院的读者,以实现灵活的资源使用权限划分。默认的资源权限为开放使用。同时,平台可以指定开放的使用场景,包括主检索、汇编应用、开发接口。为不同应用提供差异化的数据资源保障,可以使得图书馆的数据统一管理,但是服务平台的数据相对隔离。
人们可以通过后台操作,以批次为单位,对数据进行下架处理。下架后的数据只影响门户使用,读者不能查询浏览,但是不会影响馆员在后台的数据管理。针对已经授权使用的资源,可以进行屏蔽操作,以处理极少数不合适的内容,保障平台内容的合法性和政治正确性。屏蔽的内容不会让读者检索或者查看。屏蔽的颗粒度可以指定供应商更新批次、关键词或者单篇。
2.4 元数据查重与验收辅助工具
在元数据篇级的管理基础上,平台提供基于大数据分析平台的辅助管理工具,包括数据查重与数据验收工具。目前,图书馆采购的各类资源很多,其中不少商家的资源有一定的重复,数据查重工具可以帮助图书馆清楚了解这些资源的重复情况。数字资源的核查对于馆员来说是一项巨大的工作,检验数据库厂商提供的服务是否与合约相符是平台验收工具能够自动化完成的工作。
查重工具可以指定单个数据库的元数据,与资源库进行文献重复度的分析,也支持导入临时书目清单进行对比。待系统处理分析后得出结果,其可以列举出该数据库的独有元数据和与其他数据库重复的元数据清单,包括标题、作者、出版社和出版年份等,并支持按字段进行查询。另外,查重工具也会提供查重的图示分析报告,包括独有的数据学科分布、时间分布、重复的数据与哪些厂商数据的重复比例较高等,直观地展示结果。
查重结果可以用于内容编辑与修改,并支持导出到指定的格式,方便馆员将结果数据应用到其他业务中。
验收工具可以指定需要验收的书目清单或者数据库资源的批次,设置验收的方式和比例,平台就能自动对指定范围的资源进行内容与权限核实,完全不需要馆员的人工操作。验收机制主要是通过分析馆藏元数据来源路径,判断该条元数据是否正确和权限合法,是否与合同中描述的资源服务情况相符。
2.5 数据库厂商管理
对平台内元数据的来源信息进行管理,有助于图书馆以数据库为单位进行梳理。数据库厂商管理可以帮助图书馆梳理好资源的类型、学科、语言等属性,同时为读者提供数据库基本信息的介绍和各类数据库的导航索引。
管理的颗粒度分为两级,第一级是数据库所属厂商的信息,第二级为数据库信息。数据库信息包括名称、资源的文献类型、资源对应的学科、资源对口的院系、资源的语言国别、介绍、使用地址和注意事项等内容。这些信息的描述可以帮助图书馆深入地管理好数字资源,还可以为读者提供详细的数据库介绍,并提供按语言、类型、学科等维度划分的数据库查询导航,帮助专业读者使用数据库。
2.6 馆藏资源统计
在对馆藏元数据进行精細化管理的基础上,平台支持从数据库厂商、数据类型、主题分类等维度进行分析和查看。结果以图形或表格的形式显示出来。通过对库存的分析,人们可以直观地了解当前文献资料的储备情况,为图书馆提供文献支持,并为协助后续资源建设和优化结构提供数据支持。分析层面,平台可以比较各数据库厂商的数据总量、监控资源更新的次数和频率,便于图书馆了解电子资源的及时性是否得到保证、数据量的变化情况,从而反映数据库厂商的服务质量[4]。
3 结论
资产数据作为智慧图书馆系统的重要底层数据,对系统运行起着极其重要的作用。同时,资产数据的安全性也是智慧图书馆系统需要考虑和保障的重要内容。合理整合资产元数据,有助于系统各部分更加紧密地协同工作。
参考文献:
[1]孙守强.多元协同视角下智慧图书馆泛在智慧服务研究[J].图书馆,2019(11):52-57.
[2]汪艳玲,薛继红.高校图书馆线上服务平台之图书馆智慧门户的建设[J].兰台内外,2019(25):60-62.
[3]王飞跃,张智荣.新信息技术环境下高等学校智慧图书馆服务平台建设路径[J].内蒙古财经大学学报,2019(4):141-144.
[4]范兴丰.中国图书馆发展历程与智慧化发展趋势探析[J].江苏科技信息,2017(5):19-22.