高校图书馆数据治理研究分析
2022-08-24刘丹
文/刘丹
高校图书馆作为服务高校教学科研的信息中心,是典型的“数据集中”“以数据为核心资产和业务”的数据密集行业。目前,高校图书馆信息系统和资源建设已经发展到了一定阶段,数据积累也达到了相当规模,数据能否得到有效的治理和管理,关系着高校图书馆能否盘活数据资产,发掘其价值,并最终实现服务创新和价值创造。
一直以来,高校图书馆信息系统和资源建设重信息系统建设、轻数据管理,重数量、轻质量,重数字化、轻利用,这便导致数据孤岛、数据不一致、数据异构、数据污染、数据安全等问题普遍存在,给图书馆资源建设、服务创新、开放共享、安全合规、隐私保护等带来巨大挑战。深入研究图书馆数据治理,构建科学完善的数据治理体系,总结兼具指导性和实操性的数据治理方法论,能够促进图书馆数据价值的释放,支撑图书馆进行由数据驱动的管理决策和业务创新,推动图书馆向智能化、智慧化转型升级。
图书馆数据治理概述
部分学者将“图书馆数据”的理解等同于研究数据、科学数据、科研数据,而笔者认为图书馆数据的外延很广,所有在图书馆采购、生产、运行过程中产生的数据都属于图书馆数据。
在智慧图书馆建设背景下,业界以及国内外学者大多已经认识到了进行高校图书馆数据治理、数据管理、加强数据服务的重要意义,以及不断完善相关的理论,并进行相关实践的必要。
数据治理发端于企业管理领域,并且得到了长足的发展和广泛的应用,其大量研究成果和成功的应用实践可供图书馆行业借鉴。但图书馆作为一个组织,和其他企业组织相比,有共通性,也有特殊性。共通性在于图书馆和其他企业组织一样,也有业务运行和服务系统,也产生大量的业务运行数据、用户行为数据。特殊性在于文献资源服务是图书馆的使命,文献资源数据是图书馆数据中最重要的组成部分,而且由于行业特殊性,文献资源数据大多不在图书馆本地,而是分散在各个数据库商处。
笔者认为图书馆的数据治理研究可以分业务运行数据和资源数据两类,两者有较大区别:其一,其数据内容和数据状况不一样,业务运行数据包括图书馆的业务、服务、空间、用户等在图书馆运行过程中产生的数据,一般是结构化的数据,存储在图书馆本地,逐年稳定增长,而资源数据是指文献资源及相关数据,一般是半结构化和文本数据,只有极少量的数据在图书馆本地,并且飞速增长;其二,应用目标不一样,业务运行数据价值的发挥能有效支撑由数据驱动的管理决策和业务优化,有助于图书馆进行数字化转型,而资源数据价值的发挥能够为用户提供深层次、个性化、精准化、智能化的知识服务;其三,图书馆业务运行数据治理的研究可以充分吸取其他行业的研究成果和优秀经验,但图书馆资源数据治理的研究则需要立足资源数据本身的特点,并以资源数据服务为目标来进行综合研究。
高校图书馆数据治理理论研究
国内关于高校图书馆数据治理,以及数据管理与服务相关的研究并不多。以“数据治理”+“图书馆”为主题检索知网、万方、维普三大全文数据库,共搜到69 篇相关成果,大部分文章提及图书馆需要进行数据治理。顾立平、叶鹰、闫慧、吴丹、王芳、金波等学者在图情学科学术热点分析、学科未来发展的相关论述中都强调了数据治理在图情领域的必要性。总的来看,关于国内图书馆数据治理的相关研究可以分为四类:
1.对国内外数据治理现状的研究。这类研究主要分析国内外数据治理研究现状,旨在为图情领域研究数据治理提供参考。如刘桂锋等人全面梳理了国内外数据治理的理论探索、模型框架以及实践应用进展,并对国外4 个典型的数据治理模型进行了对比分析;张宁和袁勤俭对数据治理的概念、体系、内容和应用的相关研究进行述评;孙嘉睿对国内数据治理相关研究文献进行了系统梳理和分析;叶兰从评价维度的设置对比角度分析了7 个关于数据管理能力成熟度的模型。
2.对图书馆数据治理有关理论体系框架的研究。这类研究尝试构建图书馆数据治理的理论框架。如包冬梅等在文章中分析了图书馆数据的特点,并在DAMA、DGI等现有成熟框架的基础上,提出了我国高校图书馆数据治理框架CALib,从促成因素、范围、实施与评估3 个维度展现了高校图书馆数据治理的全貌;郑建明和孙红蕾设计了一个包括资源要素、技术要素、服务要素、主题要素、环境要素与治理要素等6 种理论要素的数字图书馆治理理论的理论框架;严昕以《数据治理规范》国家标准为参考,构建了一套公共图书馆数据治理框架,并指出公共图书馆数据治理的建设重点是成立数据治理小组、促进跨机构合作、开发统一系统平台,加强评估与反馈;刘桂锋等人通过半结构化访谈法,对国内外高校人员就科研数据治理认知进行深度沟通,并对访谈结果进行质性分析,提炼出模型构建要素,分为治理背景层、理论指导层、科研数据层、人员管理层、治理成效检验层;胡琳引入国际数据管理协会的数据管理知识体系,设计了图书馆数据资产建设框架和图书馆数据资产管理架构。
3.对图书馆数据治理实施路径的研究。
这类研究尝试指出图书馆数据治理的实施路径。如庞楠和薛卫双通过对图书馆数据生态系统的解构,给出了图书馆数字资源建设、数据周期管理的相关经验,以及通过完善相关制度,明确管理责任、创新图书馆的数据管理等发展建议;付博根据图书馆数据治理面临的问题,指出图书馆数据治理需要从意识培养、政策支持、标准制定、技术辅助、创新应用以及评估反馈等方面进行;王爱和李明伟指出公共数字文化数据治理应从国家政策引导、信息资源开拓、多样化数据处理及现代信息技术拓展服务功能利用等4 方面进行;李琳从数据意识、组织架构、制度体系、关键技术、资源平台等5 方面探讨了高校图书馆数据治理的路径。
4.对图书馆数据治理评价成熟度模型的研究。这类研究尝试构建图书馆数据治理成熟度评价体系。如秦中云从数据治理能力、数据资产生命周期、成熟度模型等级等3 个维度,构建了高校图书馆数据治理成熟度模型;吴锦池和余维杰从数据处理流程与图书馆数据治理构成要素两个宏观维度出发,构建图书馆数据治理能力成熟度模型。
国外关于高校图书馆数据治理,以及数据管理与服务相关的研究比较少。在WOS 和Scopus 数据库以“library”+“data governance/data management”为关键词检索后,得到的绝大部分文献是关于研究数据的,排除这部分文献后,发现实践相关的论述多于理论相关的研究。理论研究中比较有代表性的是英国格拉斯哥大学研发的DAF 数据资产框架,用于监测数据资源建设、分析数据资源利用。
此外,伊朗伊斯兰阿扎德大学图书馆尝试制定并实施数据治理战略,对该图书馆员工就数据质量、数据重用、数据标准、数据安全等方面的看法进行调查。
高校图书馆数据治理实践
图书馆在MARC 标准著录与DC 元数据标准控制、知识发现、知识可视化、知识安全控制中都进行了相应的数据治理活动,体现在数据的整理、加工、管理和服务工作,例如各图书馆对纸质资源的管理、电子数据库资源的管理,以及CALIS、CADAL 等全国性的图书馆联盟对某一特定类型资源的全国性管理等。
其中,资源数据在管理和服务方面的实践比较多,例如重庆大学于2016 年启动规划建设文献资产管理系统,实现了对文献资源的统一管理和服务;中国科学院文献情报中心于2018 年,推出对科技文献大数据进行采集、管理、挖掘和服务的慧科研平台;中国工程院推出中国工程科技知识中心,实现了对文献资源、数据资源、专家资源等多类型资源的统一管理和服务;上海交通大学推出的学科资源地图实现了对文献资源在期刊、图书层级的统一管理和服务;香港的7 所高校联盟借助Alma 系统实现了对文献资源的统一联合管理,包括纸质资源、电子资源、数字化资源;斯坦福大学图书馆、密歇根大学图书馆对馆内文献资源进行了统一管理,同样包括纸质资源、电子资源、数字化资源。
业务运行数据的管理和服务相对欠缺,部分高校图书馆在年底或是第二年年初会发布阅读报告或数据报告,对比或展示部分业务运行数据,我们可以从中一窥图书馆业务运行数据的管理和服务现状。谷诗卉通过统计这类报告中的数据指标,发现数据的粒度较粗,及时性也不理想,难以为图书馆管理和业务决策提供有效支撑。但从中可以看出,高校图书馆充分认识到了汇总和分析业务运行数据的重要性。就此方面,北京大学图书馆做了大量的尝试探索,实现了对业务运行数据的统一管理,能够提供按天、按月的运行数据报告,为图书馆的管理运行决策和业务工作优化提供决策参考和数据支撑。
总的来说,在智慧图书馆建设背景下,业界以及国内外学者大多已经认识到了进行高校图书馆数据治理、数据管理、加强数据服务的重要意义,以及不断完善相关的理论,并进行相关实践的必要。