高校图书馆数据中台建构研究*
——以中国矿业大学图书馆为例
2023-10-09李丕仕尹良伟
鲍 劼 李丕仕 尹良伟 王 静
(中国矿业大学图书馆,江苏 徐州 221116)
2020年4月,中共中央、国务院在《关于构建更加完善的要素市场化配置体制机制的意见》中提出,把数据作为与土地、劳动力、资本和技术并列的五大生产要素之一。2022年12月,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》,指出数据作为新型生产要素,是数字化、网络化、智能化的基础。2023年2月,中共中央、国务院印发《数字中国建设整体布局规划》,标志着数据已成为社会和经济发展的驱动力。以上政策表明数字中国全面建设时代的来临,数据要素的作用越来越大,要充分激活数据要素的潜能,为经济发展赋能。高校图书馆的数据作为我国海量数据的重要组成部分,为高校教学科研、科技创新提供强有力的支撑保障,充分发挥这些海量数据规模和丰富应用场景的优势,是图书馆当下的重要任务。资源系统分散孤立、数据缺乏治理,业务系统孤立是高校图书馆普遍存在的问题。数据中台提供了一种新的架构理念,实现数据的高效应用、共享和价值最大化,以及各业务系统的连接和交互[1]。笔者以中国矿业大学图书馆为例,探讨高校图书馆数据中台建设,以期实现资源统一管理、数据集中治理、业务系统高效交互,为高校图书馆建设赋能,推进高校图书馆智慧化发展。
1 数据中台内涵及图书馆数据中台研究现状
1.1 数据中台内涵
数据中台最早起源于芬兰的世界知名游戏公司Supercell,通过数据中台架构投入很少人力开发出全球热门的游戏[2]。2015年,阿里提出数据中台战略,对标国外“Data Lake”构建“大中台、小前台”组织机制和业务机制[3]。2018年,京东、百度、腾讯等公司陆续推出以“数据中台”为核心的组织架构,随之引发“数据中台”的研究热潮[2]。但是,目前对数据中台尚无统一定义,以下是几种有代表性的定义。定义1:数据中台是在政企数字化转型过程中,对各业务单元业务与数据的沉淀,构建包括数据技术、数据治理、数据应用等数据建设、管理、使用体系,实现数据赋能[4]。定义2:数据中台是主要为获取、分析、处理、存储、检索和传播一种或多种类型的数据而建立的组织[5-6]。定义3:数据中台是方法论+组织+工具的解决方案。其中方法论是OneID+OneModel+OneService;组织为从IT支撑到业务赋能的数据、技术、产品相匹配的人才结构,包含数据产品经理、数据研发、数据科学家等多角色;工具为采集、构建、管理、服务等[7]。定义4:数据中台是可复用的数据资产中心与数据服务中心,提供清洁、透明、智慧的数据资产与高效的数据能力,使业务数字化运营[8]。依据上述定义,笔者认为高校图书馆数据中台更趋近于一种基于全周期的数据处理中心,包括数据采集、存储、治理、挖掘、分析全流程,用数据实现用户服务,让数据应用到业务场景。
1.2 图书馆数据中台研究现状
通过网络和学术会议调研了解,宁波图书馆联合阿里云、袋鼠云打造一体化智慧服务平台[9],采集馆内业务和用户对象等数据信息,打通所有业务的数据孤岛;上海图书馆携手中国知网建立数据中台,实现数据统一管理;复旦大学图书馆与阿法迪公司联合打造数据中台,建立数据基座,实现“数入一库,数出一库”。
通过梳理中国知网数据库相关文献,截至2023年4月,以“数据中台”为检索词进行检索,得到相关文献1752篇;以“数据中台”+“图书馆”为检索词进行检索,得到相关文献24篇。分析发现,数据中台领域的研究文献自2018年以来直线上升,但有关图书馆数据中台的相关研究成果较少,主要集中在:从中台思维出发,探索释放海量数据资源更大价值、降低维护成本和提升快速创新能力的信息化解决方案[9];中台在图书馆领域的应用场景与建设方式,提出图书馆中台建设方法论[10];数据中台建设,根据服务对象的不同要求,支撑微服务程序的数据调用[11];通过支持向量回归(SVR)算法建立模型,并基于实验模型利用实际数据分析和预测验证中台架构的可行性[12];提出基于数据中台理念的高校图书馆数据服务模式[13]。可见,围绕图书馆数据中台建构,还缺乏相关技术框架及关键技术的研究。
2 图书馆数据中台的技术架构及关键技术
2.1 图书馆数据中台的技术架构
数据中台的目标是实现数据共享和数据价值最大化,其核心功能包括:对数据资产的高效管理,提高数据质量;对异构数据源进行标准化处理,提高数据共享交换性;让数据快速应用到各业务场景,提高数据价值;信息安全贯穿整个流程,保证中台数据和应用的安全。根据图书馆的实际情况和功能需求,充分考虑图书馆数据中台的存储能力、计算能力、数据交换能力、服务能力、扩展能力,采用主流的大数据技术框架,设计图书馆数据中台的技术架构(见图1)。
图1 图书馆数据中台的技术架构
图书馆数据中台技术框架设计包括6层架构,分别是:数据源、数据采集层、数据处理层、数据存储层、数据服务层以及终端。图书馆数据种类较多,主要包含关系型数据、非关系型数据、文本数据、爬虫数据、Binlog日志数据、还有部分物联网Iot数据。
数据采集层按数据的实时性,分为离线采集和实时采集。离线采集使用Sqoop和DataX相结合,结构化数据且数据量较大场景采用Sqoop,如馆藏数据、读者数据等;非结构化数据且数据量较小场景采用DataX。实时采集使用Flume或Kafka,如日志数据、系统监控数据、网站跟踪数据等。
数据处理层,当数据量较大时采用大数据计算框架MapReduce进行计算;当数据要批处理时选择Spark,且适合离线处理;实时数据计算处理时则选择Flink。机器学习一般采用Spark MLlib,其内置的算法包如随机森林、逻辑回归、决策树等,可以实现智能应用场景。TensorFlow和PyTorch属于AI平台,可以实现人脸识别、智能搜索、智能客服等。
数据存储层,其存储引擎基于Hadoop的HDFS分布式存储,达到数据多份冗余和充分利用物理层多磁盘的I/O性能。Hive是大数据广泛使用的离线数据存储平台,用于存储数据中台的全量数据,在建模阶段可以使用Hive SQL,Spark SQL进行数据处理和建模。
数据服务层的技术类似业务应用,主要基于开源Spring Cloud,Spring Boot,Spring Security等构建,使用标签构建、人物画像、可视化分析、知识服务等。终端层主要提供API接口与实现,使用Web客户端进行交互。
2.2 图书馆数据中台建设的关键技术
2.2.1 面向图书馆的大数据分布式处理技术
图书馆数据结构多样,分别有结构化数据、半结构化数据、时序数据、其他非结构化数据等,为解决数据的差异性,同时考虑图书馆高并发、高可用、稀疏性等大数据特征的技术要求,使用大数据分布式处理技术,分布式文件存储、计算资源管理调度、分布式运算框架,以支持图书馆数据的统一存储和处理。搭建数据仓库对结构化数据进行存储处理,可将SQL语句转换为MapReduce任务运行,方便利用熟悉的类SQL语言进行数据查询、汇总和分析;搭建列式数据库系统,对时序、非结构化、半结构化数据进行存储处理。
通过数据按位存储、数据分块及多节点跨机架备份提高数据处理的可靠性;在集群节点间分配数据,支持就近数据节点计算;计算引擎基于数据块MapReduce计算,算力可以横向扩展,提高集群系统扩展性。同时,存储系统要支持数据多个副本,并自动完成备份及补充备份。
2.2.2 基于流计算的数据采集技术
数据中台建设的首要任务是数据采集,面对海量的离线和实时数据,面对Hadoop,Oracle,MySQL,文件以及消息等多种数据源,需要ETL技术、分布式流数据处理技术和消息中间件技术相融合的基于流计算的数据采集技术。数据采集方式分为全量采集和增量采集。全量采集,即每一次采集所有数据,可以通过常见SQL语句导出,根据实际应用采集所需的数据。增量采集,即在全量采集的基础上,后续只采集修改、增加的数据,重点是要区分哪些是存量数据,哪些是增量数据。数据采集方式和方法描述见表1。
表1 数据采集方法描述
采集后数据需要通过数据校验手段来保障采集数据质量,应及时处理接口的变更和异常;对比、分析数据源与目标数据,进一步发现和解决在采集过程中产生的异常错误[14]。总之,数据校验是保障数据采集质量的重要手段。
2.2.3 基于可视化的自然语言分析挖掘技术
自然语言处理成为人工智能领域的一个热门研究方向。现有的自然语言处理系统功能较为单一,不能满足客户多元化需求。流程可视化的自然语言处理挖掘分析系统的建模和方法,可以实现高效自然语言分析挖掘,生成结构化数据,进行可用有效的知识图谱构建,可以在不进行编码的情况下进行自然语言分析挖掘并对已有的模型进行优化训练[15]。通过一系列可视化组件控制,进行自然语言的自动化流程处理,生成结构化的知识图谱。在流程处理上通过对可视化流程进行DAG图解析,优化高效地调用对应逻辑进行自然语言处理分析。在计算过程中,合理地分配系统中的CPU和GPU资源,大大提高自然语言处理的计算效率。通过可视化的图形化编程,大大降低自然语言处理的门槛。
2.2.4 基于任务可视化的Spark机器学习技术
机器学习模型的构建较为复杂,需要经过特征分析、模型训练、模型调优、模型导出、模型加载等,学习成本较高,每个模块都需要编码和调试,这对于图书馆领域在构建机器学习系统时需要很大的学习和时间成本。因此,可视化拖拽的Spark机器学习组件,可以将整个流程简化为图形化组件,包括输入、输出、分类、聚类、回归、关联、数据转换、知识构建等组件。针对某项具体的业务,拖拽组件,构建数据处理流程,降低引入数据挖掘系统的成本。
3 中国矿业大学图书馆数据中台功能模块构建
中国矿业大学图书馆于2019年12月启用新一代智慧图书馆管理系统[16],拥有数据量达220T,各应用系统、镜像数据库、自建数据库共64个。但存在以下问题:资源分散,没有统一管理的平台;数据缺乏治理,造成数据应用不准确;系统孤立,各系统间的交互效率低。针对上述问题,笔者设计了中国矿业大学图书馆数据中台功能模块(见图2)。
图2 图书馆数据中台功能模块
中国矿业大学图书馆数据中台功能架构分为4个模块,分别是:数据管理模块、数据治理模块、数据赋能模块和数据应用模块。
3.1 数据管理模块
数据管理模块主要实现图书馆数据的统一管理,核心功能包括元数据管理、数据源梳理、数据采集、数据存储和数据抽取。经过梳理,数据从来源角度主要分为6类,包括文献数据、行为数据、流通数据、资源数据、统计数据、网络数据等;从数据结构角度主要分为4类,包括结构化数据、半结构化数据、非结构化数据和时序数据等。针对多种数据源和多种数据结构,数据采集分为线上和线下批量数据采集和实时数据采集,对于网络数据可以利用网络爬虫工具进行采集。采集的数据利用Hadoop分布式文件系统进行存储,通过ETL进行抽取。数据采集节点将采集到的数据封装成消息发布到Kafka集群,流式数据处理集群(Storm/Spark Streaming/Flink)从Kafka集群获取数据并进行处理,将处理结果发送回Kafka;同时还可以在Hive数据仓库进行存储。
3.2 数据治理模块
数据治理模块主要目标是数据的规范生成和使用,其核心功能包括元数据管理、数据标签管理、数据清洗、数据质量管理、数据集成管理和数据安全。数据标签管理即分别从数据生成方式、数据主题分类、数据使用场景等构建一个标签体系,通过构建用户标签,可以形成用户画像,为用户数据的挖掘分析提供支撑。数据清洗,首先根据中国矿业大学图书馆的实际应用需求,制定相应的清洗规则,然后从数据源抽取所需的数据,按照数据清洗规则,进行异常检测、一致性检查等。同时,也要根据实际应用需求,制定相应的数据规范,如读者信息数据规范、元数据规范、行为数据规范等,按照设计好的规范的数据仓库模型,将数据加载到数据仓库中去。数据质量管理主要从数据的完整性、一致性、有效性、关联性、准确性多个方面制定标准规则,根据规则做数据质量分析、对比检查,并将检查结果进行处理。数据安全管理主要通过数据安全加密传输、数据脱敏、防范数据隐私泄露、访问控制、安全审计等多个办法,保障数据在“存、管、用”各环节的安全有效。数据治理整体架构如图3所示。
图3 数据治理框架
3.3 数据赋能模块
数据赋能模块主要包括数据挖掘、数据分析、智能搜索和聚类分组。图书馆的数据在经过采集、治理、存储之后,形成了图书馆的大数据资产,要发挥这些数据资产的价值,元数据再造,知识再造,就要运用大数据的挖掘分析技术、智能搜索、聚类分组等算法、技术,生产出数据资产的使用价值,为图书馆的服务赋能。数据赋能流程见图4。
图4 数据赋能流程
3.4 数据应用模块
数据应用模块包括智能推荐、用户画像、可视化展示和决策支持。通过标签系统,构建多维度用户标签,基于挖掘技术,形成用户画像,实现智能推荐。可视化展示的数据涉及图书馆系统管理与运营监控数据、读者行为数据、阅读关系数据、终端设备运行数据等。基于这些数据,进行挖掘分析,结果以可视化图形的形式展示出来,如柱状图、饼状图、散点图、热力图等可视化组件。决策支持主要通过建立指标库、专家规则进行机器学习,实现智能预测。
4 对高校图书馆数据中台建设的启示
面对海量、异构、多源、碎片化的图书馆数据,笔者研究并提出了中国矿业大学图书馆数据中台构建的关键技术和功能架构,对高校图书馆数据中台建设和实践能带来一些启示。
4.1 数据中台建设尚无统一模板,存在数据安全和隐私泄露问题
为实现高校图书馆的数字化转型,图书馆构建数据中台系统以满足不断变化的应用需求。但是,不同高校图书馆的应用需求不同,图书馆自身的应用需求也在不断更新迭代,目前还没有统一、规范的数据中台模板供使用,各高校图书馆需根据自身的业务发展需要,构建适合的数据中台并不断完善和发展。
数据中台建设的目标之一是解决系统孤岛,实现数据共享,打通数据壁垒,同时也不可避免地带来数据安全和隐私泄露的问题,因此,数据中台安全保护和隐私保护体系建设应该引起高度重视。
4.2 绝大多数高校图书馆缺乏经验丰富、成熟的技术馆员
数据中台建设环节涉及数据治理,数据清洗规则和数据规范制定还缺少行业标准,数据治理较为复杂,治理体系需要不断完善;同时,绝大多数高校图书馆缺乏解决相应问题的经验丰富、成熟的技术馆员。因此在数据中台建设过程中,需要借助第三方公司来高效地完成。目前这类数据管理、数据分析公司较多,应选择技术实力强、后续服务有保障、有成功案例的公司进行合作。
4.3 高校图书馆数据中台建设具有美好的前景
通过高校图书馆数据中台建设,可以实现高校图书馆数据资产的高效管理和价值利用;在数据爆炸式增长的时代,有效解决数据存储、管理和应用的问题;通过数据应用API实现数据价值最大化。数据中台能够更快速、精准地响应用户需求,为用户提供数据服务。此外,通过数据中台建设及数据应用,能促进相关馆员加强数据管理相关知识、技术的学习,提升自身专业素养,提升图书馆内团队协作能力、数据开发能力、运营能力,还可以加强图书馆馆员和第三方公司的协作能力,提升馆员的综合实力。
5 结语
大数据、物联网、云计算和人工智能时代的到来,传统的图书馆应用系统和数据管理应用方式越来越难以适应来自数字化和读者需求两方面的挑战。笔者以中国矿业大学图书馆为例,研究构建融合主流的大数据框架、技术,提供大规模数据存储、计算、处理能力的数据中台。数据中台的建设,保障数据传输、管理、应用过程中的安全高效,实现数据的采集汇聚、存储管理、共享交换和开发开放,通过中台提供的能力,实现大数据的深度分析、价值挖掘和合理应用。同时,提升图书馆精准服务水平、优化资源建设、实现科学管理。通过未来持续的研究,能够完善中国矿业大学数据中台构建,希望为高校图书馆数据中台建设的进一步研究提供有益借鉴。