APP下载

公共图书馆数据治理框架构建研究

2020-06-02

图书馆 2020年5期
关键词:框架图书馆资源

严 昕

(南京工业大学图书馆 南京 211816)

1 引言

数据是基础性战略资源,在国家信息化发展战略的助推下,公共图书馆的业务重心必将不断地向数字资源倾斜。面对数据迅速增长、数字技术蓬勃发展、科学社群全球化分布的现实背景,公共图书馆需要不断创新技术与管理手段来挖掘数据的潜在价值,继而以数据为核心实现发展目标。近年来,数据治理理论不断发展,具有显著的实践成效。国外“数据治理”应用发端于企业管理领域,随后围绕着政府、教育及其他领域的治理实践研究不断兴起。国内“数据治理”起步较晚,除传统领域外,也被广泛应用于决策支持、数据分析、风险评估、绩效考核等环节。当前,数据治理在图书馆的发展已有一些可供参考的现实案例,如英国格拉斯哥大学研发了DAF 数据资产框架,用于监测数据资源建设、分析数据资源利用[1];美国康奈尔大学实施嵌入式科研数据治理,将图书馆的用户服务和资源建设工作交由数据治理小组完成[2];新墨西哥大学图书馆主持实施的DataONE(Data Observation Network for Earth)[3]项目,要求图书馆开展科学数据服务,并对相关数据进行追踪、反馈。国内的图书馆数据治理研究成果极少,且主要集中在理论上,包括图书馆的职能创新、服务延伸以及对高校图书馆数据治理框架模式的研究等。

引入数据治理理论,有助于公共图书馆的创新发展与数据资源价值的充分发挥。基于上述背景,本文致力于构建一个公共图书馆数据治理框架,运用数据治理理论和方法,指导公共图书馆数据资源的建设、管理和应用,提高公共图书馆的决策水平和数据服务能力。

2 我国公共图书馆的数据特征及数据治理问题

2.1 数据特征

我国绝大多数公共图书馆已有数十年的发展历史,积累了海量数据资源,具有类型丰富、动态零散、多源异构、价值高密度低等显著特点。

2.1.1 类型丰富

借鉴国家数字图书馆对图书馆数据类型的划分,我们可以将其大致归纳为资源数据、用户数据、业务数据和管理数据等四类[4]。其中,资源数据包括纸质资源、电子资源等,是图书馆服务开展的基础;用户数据是核心,对用户数据的管理和分析,有助于明确用户的信息需求和服务需求,从而提高服务效能;业务数据包括纸本资源的采编流通数据、电子资源的使用数据、业务活动的日志数据以及咨询服务的相关数据等,记录了图书馆资源利用和服务开展的情况;管理数据包括人事、财务、数据商和上游产业链等数据,是图书馆运行的必要保障。

2.1.2 动态零散

在全球信息化时代,公共图书馆的数据呈现出不断累积和迅速膨胀的现实情况,所以资源数据表现出很强的动态性特征。公共图书馆每年购买、自建大量资源数据的同时,在服务、运行和管理中也会生成海量的用户、业务和管理数据。公共图书馆数据的零散性特点表现在:一方面资源数据多种多样,纸本资源、电子资源数据分散;另一方面业务数据分散在各个部门,并且在各业务系统之间有所交叉,关联数据将会随着业务的开展而不断涌现。

2.1.3 多源异构

从数据结构类型而言,公共图书馆数据呈现出多源异构的特点。传统公共图书馆的数据主要是纸本资源,以MARC 格式存储,标准统一,有利于数据共建共享。而在数字图书馆建设过程中,虽然数据库资源自身具有结构化特征,但是在互操作过程中,数据源范围广,会导致异构数据的集成。网络可获取资源也是数字图书馆的建设重点,而这些资源大多是以半结构化或非结构化的形式存在,且数量日趋增大。同时,公共图书馆的服务对象是社会公众,这决定了其资源种类的丰富性,如音频、视频等多媒体资源就是典型的非结构化数据。

2.1.4 价值高密度低

各级公共图书馆结合办馆宗旨目标和服务对象需求,收集、购买、存储资源数据,开展相应的文献服务、咨询服务等,以实现资源数据的价值。它的服务对象是社会大众,决定了其受益面较广。此外,大多数公共图书馆都藏有大量的(地方)特色资源,甚至是独一无二的稀缺资源,所以其价值高。然而,公共图书馆数据价值密度低的情况也确有存在:其一,从服务用户角度看,公共图书馆存在用户分散、类型复杂、需求多样等特点,导致资源利用范围有限;其二,从业务开展角度看,公共图书馆的数据分散在不同部门、不同系统,零散性是导致其价值密度低的重要因素。

2.2 数据治理问题

受制于基础条件、技术人才等因素,我国公共图书馆在数据资源建设、使用和监管等领域的发展不均衡,存在许多薄弱环节;面对不断增长的各种数据资源,在数据质量控制、数据价值挖掘、数据安全管控等方面,均有所不足。

2.2.1 数据资产意识不强

知识经济时代,数据即资产。虽然公共图书馆的公益性决定其主要提供免费的公共文化服务,不直接产生经济效益,但其产生的社会效益必然也会间接地促成一定的经济效益。此外,资源的购买成本和使用情况,一定程度上也将影响数据资源的价值高低。因此,公共图书馆应该将自身掌握的数据资源作为数据资产来管理,通过共享信息和提供服务等方式实现效益最大化。

2.2.2 数据管理水平不高

信息时代,公共图书馆的传统服务模式逐步改变,从各馆电子资源经费占比即有所显现。在各馆数据资源体量激增、数据类型复杂多变的背景下,传统的馆藏文献管理方法和手段已无法满足时代要求。多源数据的获取、处理、整合、存储和利用,均需要充分应用现代数据管理手段。而目前多数公共图书馆受资金、技术、人才等限制,普遍存在数据管理水平不高、信息系统平台集成度不高的问题,特别对于区、县级及以下公共图书馆而言,更是难以实现现代化管理。

2.2.3 数据价值挖掘不足

公共图书馆拥有大量的数据资源,而许多数据资源需要通过处理、分析以实现价值最大化。目前,公共图书馆在资源价值挖掘的探索中主要是采取对内进行资源优化配置和多系统整合,比如使用Aleph 系统实现自动化集成;对外提供用户个性化和智能化的服务,比如根据用户检索、借阅情况进行书目推荐服务等。公共图书馆(特别是区、县级及以下公共图书馆)对数据挖掘技术应用不足,大多是一些浅层的数据统计分析及可视化展示,且结果能应用于管理决策的较少。

2.2.4 数据安全管理堪忧

公共图书馆关注重点长期落脚于“传统安全”,即硬件设施安全、馆藏文献安全等,然而,在当前公共图书馆大力发展数字图书馆、移动图书馆的现实背景下,越来越多的数字资源、网络设备、移动阅读终端被纳入了图书馆管理范畴之中,造成数据安全、网络安全等问题日益凸显,多数公共图书馆却缺乏有效的应对策略和评估机制,例如数据冗余备份、异地灾难备份、拦截网络攻击、杜绝资源恶意下载等保障数据资源安全的举措。

3 数据治理理论及其适用性

3.1 数据治理的内涵研究

“数据治理(Data Governance)”起源于2004年H.Watson[5]提出的“数据仓库治理”概念,即决策支持系统中的重点环节。DAMA(国际数据管理协会)[6]的定义是“对数据资产管理实施权威、保证质量的综合活动”。DGI(国际数据治理研究所)[7]则认为,“数据治理旨在于决策执行背景中处理数据相关事宜”。IBM[8]的解释是,“数据治理是遵照公司企业相关要求对数据进行管理及监控的战略措施”。《数据资产管理》[9]指出,“数据治理的目标在于提高信息服务能力,实现信息需求,达到技术和管理的有机统一和完善”。笔者认为,数据治理是针对数据资产而开展的包括政策、技术、管理、控制等环节的整套工作流程,其关键在于控制数据质量,从而服务各环节的管理与决策。

3.2 典型的数据治理框架

自数据治理概念提出以来,数据治理理论已取得较大进展,许多组织机构提出了自成体系的数据治理框架或模型,具有代表性的有四种:①DAMA 框架,是由数据架构管理、数据开发、文档和内容管理等十大功能建构的数据治理功能框架,致力于数据管理的理论研究、实践应用及相关知识体系的构建[10]。②DGI 框架,是一个对数据治理相关活动进行分类、组织、交流的逻辑结构,分为“人员与组织结构、规则与约定规则、过程”三个方面,涉及十大要素。该框架使数据相关者发挥协同作用, 共同决定数据管理方式,最大限度地限制数据成本、降低安全风险、确保IT 价值增长[11]。③IBM 框架,将数据治理的要素分为产出、促成因素、核心领域和支持领域四组,包含了数据风险管理和规范、组织结构和意识、数据生命周期管理等11 个关键要素[12]。该框架已在多个国内外著名金融机构得到广泛应用。④我国“数据治理规范”国家标准于2019 年正式实施,包括了四个核心部分:顶层设计、数据治理环境、数据治理域、数据治理过程。该标准遵循国际标准研制思路,提出了具有中国特色的切实可行的数据治理规范及框架,为我国各行各业的数据治理提供了参考依据[13]。

3.3 数据治理对公共图书馆的适用性

3.3.1 政策导向的一致性

“数据治理”作为一个新兴的热点领域,符合国家大数据战略背景要求,满足国家治理体系和治理能力现代化的目标。公共图书馆是公共文化服务的重要环节之一,为解决存在问题、打破发展瓶颈、提高服务质量、扩大业务效益,需要创新性地引入相关治理理论。党和国家高度重视公共图书馆的建设发展,国家和各地区也相继出台了众多相关政策法规、建设规划。虽然在这些文件中没有直接提及“数据治理”的相关内容,但 “数据资源”“数据价值”“大数据”等相关词汇高频出现。因此,各级公共图书馆要解决发展不均衡问题,需要打破原有独立格局,从数据化、体系化、网络化的视角强化馆际资源合作治理,并且进一步加强与其他类型图书馆、文献信息中心、公共组织等之间的协调合作。

3.3.2 技术手段的一致性

随着技术的快速发展,图书馆资源的数字化、移动化特征日趋明显,数据技术手段在图书馆领域的应用与研究也越发深入。公共图书馆资源服务、业务活动得以开展的基础要素之一就是数据资源。但目前公共图书馆存在资源标准不一、系统建设分散、各级图书馆服务能力不均衡等现实问题。同时,信息技术在扩大服务应用场景和增加服务价值效益的同时,也导致数据量激增、数据风险提高等负面影响[14]。所以,无论是对已有资源的长期保存、网络资源的挖掘整理,还是对资源数据的标准化处理等,引入数据治理理论和方法,将对上述问题的解决提供有效帮助。

3.3.3 数据目标的一致性

数据治理与公共图书馆有着相同的数据目标,即尽可能地创造数据价值。当前,公共图书馆的可用数据资源在激增的同时,也呈现出利用率较低的现象,特别是在经济社会发达地区甚至存在下降趋势。数据治理本身不是目的,而是一种基于需求实现数据价值的手段,而公共图书馆的价值需求之一就是提升资源的有效利用率。因此,公共图书馆借鉴数据治理的方法,从完整的数据生命周期出发,对数据进行整体分析,挖掘和发现数据的隐藏价值,并在此基础上通过数据驱动创新服务,提高现有资源利用率。

4 我国公共图书馆数据治理框架的构建

公共图书馆数据治理框架必须符合我国公共文化及公共图书馆建设发展的战略规划要求。具体要素的选取参考了前文的典型框架,结合了我国公共图书馆的自身特点,遵循科学性原则,以《数据治理规范》国家标准为依据,构建一套完整的公共图书馆数据治理框架。

4.1 公共图书馆数据治理的原则

依据《数据治理规范》国家标准,公共图书馆的主要目标从“运营合规、风险可控和价值实现”[15]三个方面展开。

4.1.1 以运营合规为基础

第一,遵守《公共图书馆法》,时刻践行社会主义核心价值观,继承和发扬中华民族文化自信,有序开展收集、整理、保存资源等相关工作[16]。第二,遵守知识产权保护法,在数据资源收集及利用过程中,依法使用各类数据资源,并且积极监督违法不良行为。第三,遵循国家、地方出台的各项相关法律法规、政策性文件以及本馆所制定的有关规范性文件,进而有序开展各项业务活动,等等。

4.1.2 以风险可控为保障

风险可控是指在进行各项工作之前,对潜在的数据安全风险进行识别、预判等。对于纸质数据资源而言,重点是妥善保存(如防火、防盗等),《公共图书馆法》还针对古籍等特殊类型的文献资源给出了明确的专门措施要求[17]。对于电子资源来说,需要考虑数据全生命周期的各个环节所存在的不同的安全风险,有针对性地进行防范,保证其保密性、准确性、有效性等等。

4.1.3 以价值实现为核心

价值实现是开展数据治理的核心要求。数据治理关注的数据价值体系主要是数据流通、数据服务和数据洞察这三个方面[18]。公共图书馆通过数据流通实现数据共享价值,通过数据服务实现业务职能价值,通过数据洞察(即数据挖掘)实现数据增值价值。在实现数据价值时,公共图书馆需要认识到数据资源建设应该遵循自身规划,在尊重多样性的同时,切忌盲目的“大数据”思想;同时,需要加强对馆员信息素养和能力的培养,挖掘各项数据自身的隐藏价值及数据之间的关联价值。

4.2 公共图书馆数据治理框架

公共图书馆数据治理框架(如图1 所示)由顶层设计、治理驱动、治理范围和治理过程这四大部分组成。这四个组成部分既存在一定的独立性,又相互联系、相互作用,形成了一个相辅相成的公共图书馆数据治理有机整体。

4.2.1 顶层设计

顶层设计发挥指导作用,主要包括发展规划、组织构建和架构设计等方面。数据治理是一个系统工程,必须综合利用系统论的原理以及方法,统筹考虑数据治理每一个环节、每一项要素,集中考虑各类型数据资源,继而制定切实可行的数据治理目标方案。在这一过程中,我们需要强调几点:一是“各方面”主要指数据治理的内外环境,相关的理论、技术与工具等;二是“各层次”指各个层级的公共图书馆,即国家馆、省市馆、区县馆等不同层次;三是“各要素”指构成公共图书馆发展各环节中的每一项要素,包括数据、人员、基础设施、资金等。

图1 公共图书馆数据治理框架

4.2.2 治理驱动

治理驱动是指促进公共图书馆数据治理工作发展的关键要素,包括内外部环境两个方面。治理驱动因素促成了公共图书馆数据治理活动的展开。首先,治理驱动因素要求公共图书馆不断地创新发展,而数据治理活动能够带来创新;其次,驱动因素包含政策、资金、技术、人力等内外部因素,是开展顶层设计首要考虑的因素,也是决定治理过程是否能够顺利推进的关键因素;再次,这些驱动因素也会随着数据治理其他部分的开展及其价值的实现发生动态变化,带来新的治理需求。

4.2.3 治理范围

数据治理范围(或称为“治理域”)是数据治理的对象,主要包括数据标准、数据质量、数据价值和数据安全等内容。治理范围是开展数据治理的核心要素,它既是数据治理对象,也是数据治理目标。治理范围的选择、细化和治理目标的确定、执行,要充分分析和考虑当前公共图书馆数据资源的现状和内外驱动因素,为顶层设计和治理过程提供目标指向,并结合具体的治理过程、结果反馈等,进一步调整治理重点、细化治理标准、明确治理目标。

4.2.4 治理过程

数据治理过程是数据治理的实践环节,为管理层和相关数据业务人员提供实施数据治理的技术路线。数据治理过程所涉及的活动技术含量较高,考虑到现有技术、平台、人才等因素的限制,公共图书馆应在相关专业机构或企业的协助下开展数据治理。治理过程是实施数据治理的主要步骤和流程,可以通过内部反馈形成一个相对独立的自循环的子系统。首先,治理过程的实施以顶层设计为指导,又通过其反馈来促进顶层设计的修改和完善。其次,治理过程的顺利实施依赖于驱动因素,同时其实施也会促进驱动因素的增加。再次,治理过程的实施应围绕治理范围展开,同时其实施也会影响治理范围的重点选择和范围细化等内容。

4.3 公共图书馆数据治理的建设重点

笔者从数据治理视角,结合公共图书馆数据治理框架,对我国公共图书馆数据治理存在的问题进行反思,提出我国公共图书馆数据治理的建设重点内容。

4.3.1 成立数据治理小组

公共图书馆数据治理活动的展开,需由高层数据主管指导、数据专员具体实施,并鼓励基层业务馆员积极参与。公共图书馆数据治理框架顶层设计中的组织构建这一核心环节,就是针对治理小组提出的要求。一般按照数据治理的实施流程,可以将实施人员分为数据决策者、数据管理人员和数据利益相关者三类[19],他们具有不同的角色分工及岗位责任。在具体工作展开前,公共图书馆首先需要培养馆员的数据素养,包括遵循数据政策规范、提高专业的数据治理技术水平、构建全方位的数据治理知识体系、提升数据意识敏锐度等。数据管理人员必须具备基本的专业素质、完整的数据治理知识结构。而高层数据主管,也就是数据决策者,在数据治理过程中处于把控全局的重要地位。

4.3.2 促进跨机构合作

从资源数据建设看,公共图书馆有很大一部分的外购资源,包括数据库、电子图书等,也有图书馆逐步将编目、加工等工作外包给第三方公司。从用户数据管理看,公共图书馆利用微博、微信等自媒体扩展服务范围,大量的用户行为数据依靠合作方提供。在当前公共图书馆三大工程不断推进的背景下,公共图书馆与其他各类型图书馆、文献机构的资源共建共享程度空前提高,所以在数据资源构建时,必须依照统一的标准。因此,公共图书馆可以与出版社、数据商、科研院所等实现跨领域、跨系统的资源共治,形成优势互补,实现治理目标。在公共图书馆数据治理框架的治理范围中,提到了数据标准的建立和数据安全的保护,这在多机构合作中显得尤为重要。数据标准的统一,是机构数据合作的前提条件;而数据安全治理,依照数据分级进行分类,通过持续的安全分析评估,综合运用技术支撑和安全管理手段,确保数据在多机构间传递、使用的安全性。

4.3.3 开发统一系统平台

数据治理场景,必须要搭建系统平台作为支撑,是公共图书馆数据治理框架治理过程中的一项基础性工作。由于公共图书馆数据治理涉及的数据量大且类型复杂、参与人员多、业务范围广、服务内容丰富,所以对采集、存储、分析、应用要求较高。因此,公共图书馆必须搭建一体化的数据治理系统平台。首先,构建基础数据库,规范馆藏资源数据、业务数据、用户数据等。其次,利用权限管理工具对用户和管理员进行区分,利用数据维护工具实现数据质量控制,利用数据整合工具实现数据价值等。后台管理是数据治理统一平台的核心所在,主要包括数据质量管理系统、数据安全管理系统、数据生命周期管理系统等。最终,服务展示层是数据经过处理后直接面向使用者的重要环节, 也是获得使用者反馈的层面。用户可以通过不同的终端,以统一身份认证的方式访问并获取资源,并可提出个人服务需求。同时公共图书馆利用数据挖掘、分析等技术,通过服务展示层,向用户推送个性化服务。

4.3.4 加强评估与反馈

数据治理不是一蹴而就的短期项目,而是一个在治理、评估、反馈、再治理过程中不断循环的长期项目。无论是数据资源本身,还是针对数据资源的各种建设、管理和使用过程,其相关数据、技术、工具和手段等均在不断发生变化。因此,公共图书馆的数据治理也需要反复地通过评估、反馈来提高治理水平。笔者在前文构建框架时提出,要利用治理平台将数据治理贯穿于整个数据生命周期之中,而数据评估是其中的一个重要环节。公共图书馆数据治理的成熟度总体上可以分为初始级、可管理级、已定义级、量化级、优化级[20]。通过成熟度评估,我们可以评估公共图书馆数据治理活动现状及其水平,找出数据治理过程中存在的问题,根据一定的数据治理成熟度模型和指标进行系统全面的测定,按照数据治理框架对现有项目和工程进行整合,最终辅助决策者修改数据治理策略,并为决策提供依据。

5 结语

长期以来,公共图书馆在文化的传承与服务等方面具有不可忽视的作用。在现代信息技术的推动下,公共图书馆的建设和服务重心不断地向数字资源倾斜。在此背景下,如何更好地建设、管理和利用数据资源已然成为公共图书馆必须面对的问题和挑战。本文引入“数据治理”等相关理论和方法,构建了公共图书馆治理框架,为公共图书馆进一步实现数据运营管理、提升数据价值密度和保障数据安全可控带来了创新,以期为图书馆的数据问题提出一个有效的解决方案。

(来稿时间:2020 年2 月)

猜你喜欢

框架图书馆资源
基础教育资源展示
框架
广义框架的不相交性
一样的资源,不一样的收获
资源回收
图书馆
资源再生 欢迎订阅
WTO框架下
飞跃图书馆
一种基于OpenStack的云应用开发框架