APP下载

高校图书馆数据可视化表达研究
——以华东师范大学图书馆为例

2022-08-01于亚秀汪志莉

图书馆学刊 2022年6期
关键词:入馆馆藏可视化

程 静 于亚秀 汪志莉

(华东师范大学图书馆,上海 200062)

高校图书馆本身就是一个大数据的生产者。随着信息技术的高速发展,图书馆数字化与信息化进程不断加深,图书馆在这一进程中积累了大量的数据。其中包括读者记录、书目记录、馆藏记录、流通日志、馆藏统计报告、流通活动报表等,以及电子阅览室上机日志、研究室管理系统日志、自助文印系统日志、图书馆通道机进出馆日志等。数据的活力与价值在于数据交换中各类数据的联动,数据挖掘则透过事件的表象找到潜在的规律以及看似无关事物之间背后的联系,以此来洞悉未来[1]。图书馆数据具有多样性、复杂性的特点。如何对这些数据进行收集、提炼和挖掘,为图书馆的管理决策和服务提升提供数据支撑,成为图书馆数据服务的关键内容。而信息可视化表达为图书馆数据服务研究提供了新的视角。笔者以可视化为基础,重点探讨可视化技术在高校图书馆利用数据服务领域的研究应用,以期为高校图书馆的数据服务提供一定借鉴。

1 可视化概述

“可视化”(Visualize 或 Visualization)全称“科学计算可视化”,最早是在1987年美国国家科学基金会召开的“科学计算可视化研讨会”上提出的,经过30 多年的发展,可视化已经发展成为一个非常活跃的领域[2]。可视化是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来并进行交互处理的技术,它涉及计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域[3]。可视化能将信息和数据转化成便于人们感知的图形、图像、符号、颜色、视频和动画等,增强信息和数据的辨识度,大大加快了人们对信息和数据的处理速度。

可视化技术在数十年的发展过程中出现了很多研究名词,如科学计算可视化、数据可视化、信息可视化、知识可视化等。这些概念相互交错,并非完全独立的研究领域,相互之间都有密切的联系。笔者研究的数据可视化(Data visualization)是指借助计算机学、图形学的基本原理,将数据转化为静态或动态图像或图形,并允许用户通过交互手段控制数据的抽取和画面显示,将隐性知识显性化,从而便于人们分析、理解数据,从而挖掘出新的知识、发现新的规律[4]。高校图书馆作为典型的知识密集型组织,存储着大量数据。这些数据体量大、来源广、价值密度低,主要具有以下两个特点:①多源异构。随着计算机技术和网络大数据的不断发展,电子资源和网络信息资源逐渐成为图书馆馆藏资源的重要组成部分。这些资源来源多元,表现为不同类型、不同介质和不同格式,多以异构信息为主,包括系统异构、语法异构、结构异构和语义异构等。这也意味着信息可视化对象来源的多元。因此需要对数据进行统一形式的可视化呈现,实现多源异构数据的形象展示和综合分析,以契合用户的需求[5]。②结构化、半结构化与非结构化并存。在大数据背景下,图书馆的人文数据资源发生了重构。从开始的以Oracle、SQL Server、DB2 等关系型数据库进行管理的结构化数据,向半结构化和非结构化的数据扩展。结构化和半结构化的数据通常能用普通的XML模式来描述,非结构化的数据可以运用相应的非关系型数据库进行数据的管理。例如可以运用Dynamo数据库来管理键值数据,运用Hbase数据库来管理列存数据,运用OrientDB 数据库来管理图存数据,运用MongoDB数据库来管理文档数据[6]。

2 可视化的作用及意义

将可视化的理论、技术与方法应用到高校图书馆利用数据服务研究中,将隐性知识显性化,可以拓宽高校图书馆的服务渠道。可视化对高校图书馆利用数据服务包括3层层级递进作用:①信息表达功能。可视化具有一整套系统的理论和方法,为高校图书馆的数据资源提供一系列有效的可视化展示与呈现,减轻认知负担,从而提高信息传递的速度与质量。②数据的全局性展示。可视化通过分析框架、理论和模型能够压缩大量的信息,为海量数据资源提供全局可视化表达,实现资源整合、信息融合,有效解决信息时代读者面临的数据激增、信息爆炸等难题。③增强和帮助发现事物的本质。可视化技术通过各种图解手段构建和传达复杂信息资源,将隐性资源显性化、复杂数据简单化、抽象知识具象化,从而帮助读者更好地理解和应用这些数据资源,促进数据理解、实现数据的增值。

可视化对高校图书馆利用数据服务的意义主要体现在3 个方面:①直观、形象和易理解。视觉是人类最重要的感知,人脑所能接受的外界信息90%以上源于人眼的视觉感知[7],有效的视觉描述可以帮助人们浏览并理解数据中包含的信息,而高质量的信息图表能比文字更快速地被理解。通过合理的组织、创建数据结构以及提供有意义的数据描述,可以将数据转化为读者更容易理解的探索形式。②促进资源整合。可视化为高校图书馆的数据资源整合提供了一种途径,尤其是异构资源整合,利用可视化技术可将复杂数据集合以精简的图形、文字、数字相结合的方式展现,将资源聚合为一个可视化的关联知识网络,使读者快速了解数据所要展现的内容,认识并理解大量的信息。③促进资源的深度揭示和增值探索。可视化的目标是对事物本质的洞悉,而非可视化结果图像本身。通过图形、图像的视觉效果直观展示大规模的数据、信息和知识及其内部的特征和规律,将一些隐性的、不易被人发现的知识和信息显性化,有利于读者发现各种信息资源之间的关联和潜在规律,有效促进数据资源的理解、交互、利用和创新,为分析推理、发现规律和决策支持提供帮助。

3 数据准备

华东师范大学图书馆利用数据主要包含来自图书馆自动化系统中的读者记录、书目记录、馆藏记录、流通日志、馆藏统计报告、流通活动报表等,以及电子阅览室上机日志、研究室管理系统日志、自助文印系统日志、图书馆通道机日志、微信刷卡日志等。以上数据来源各异,除图书馆自动化系统外,还有电子阅览系统、研究室管理系统、自助文印系统、门禁系统等。通过数据清洗,删除冗余、不完整和噪声较多的不科学、不准确数据,将以上异构数据资源整合,统一导出到SQL Server数据库中进行处理,通过可视化技术将整合后的数据集统一展示。

经过整合的数据主要分为4 个部分:馆藏数据、借阅历史记录数据、读者个人信息数据、读者入馆记录数据。馆藏数据包括图书馆馆藏书目的具体信息,如馆藏代码、馆藏类型、馆藏地点、馆藏状态、馆藏记录号码、索书号、条码、编目日期、文献形态、题名、主要责任者、版本、ISBN 号等信息。将馆藏数据导出为馆藏数据库,数据库表结构见表1。

表1 馆藏库数据表结构

借阅历史记录数据记录了读者发生借阅行为的时间、馆藏记录号码、书目记录号码、借阅活动类型(借阅、归还、续借、预约)、读者号码(读者在自动化系统的唯一标识符)。将借阅历史记录数据导出为借阅历史数据库,数据库表结构见表2。

表2 借阅历史库数据表结构

读者个人信息数据记录了读者的姓名、学号、院系、读者类型(教师、本科生、研究生、硕士、博士等)、读者号码、建档日期、读者身份有效期限、通讯地址、电子邮箱等。将读者个人信息数据导出为读者数据库,数据库表结构见表3。

表3 读者库数据表结构

读者入馆记录数据来源于图书馆门禁系统,包括刷校园卡数据、刷微信入馆数据、刷脸入馆数据。将以上数据进行汇总,统一为读者入馆数据,包括读者学号、姓名、读者类型、入馆时间、门禁闸机号。将读者入馆数据导出为入馆数据库,数据库表结构见表4。

表4 入馆数据库数据表结构

4 数据挖掘与可视化呈现

高校图书馆服务对象主要为教师和学生,通过分析图书馆数据,能够为图书馆馆藏发展、藏书布局、流通借阅规则设置、服务人员配置提供参考;为读者提供更好的服务,更好地满足读者的需求。同时,通过数据分析与可视化呈现,能够展示读者的阅读倾向,为读者的阅读选择及学校相关工作提供有价值的参考。

4.1 读者借阅数据

通过读者借阅数据挖掘与分析,可以了解读者的借阅倾向,分析读者的借阅心理,构建精准化阅读推广体系,利用读者的借阅偏好主动推送相应的书籍[8],进一步推进以读者为中心、以读者需求为驱动的一体化服务[9]。读者借阅数据的挖掘分析主要包含每日借阅情况、各时段借阅情况、各类读者借阅对比分析、学校各院系借阅情况/倾向、中/外文借阅分类分布、从未借出馆藏分布情况、馆藏与借阅关系分析、馆藏总价与借阅总价对比分析等。

(1)每日借阅情况:1 个自然年内每天的外借人次及外借册数统计分析;

(2)各时段借阅情况:以小时为单位,分析1天24小时的借阅活动活跃程度;

(3)各类读者借阅对比分析:将读者分为本科生、研究生、博士生、教职工4 类,以年度借阅册数对各类读者的借阅情况进行量化、对比分析;

(4)学校各院系借阅情况/倾向:以学校各院系为单位,分析其借阅人数占总人数比例、人均借阅量、借阅馆藏类型分布等,并进行本科生、研究生和博士生3种读者类型的多维度对比分析;

(5)中/外文借阅分类分布:以《中国图书馆分类法》22 大类为分类标准,通过统计各类馆藏借阅记录数据进行中外文图书的借阅对比分析,进一步汇总得到总的借阅量,与可外借馆藏总量进行比对,以了解馆藏利用情况;

(6)从未借出馆藏分布情况:汇总1 个自然年内从未被读者借阅的馆藏数据,以《中国图书馆分类法》22 大类为分类标准,进行各分类之间横向对比及与有借阅记录的馆藏的纵向对比;

(7)馆藏与借阅关系分析:将全部馆藏分为有借阅记录的馆藏、可外借但从未被借出馆藏、不可外借馆藏3 类,通过汇总历年记录进行量化分析,进行横向与纵向对比研究;

(8)馆藏总价与借阅总价对比分析:以馆藏文献的采购价格为指标,以《中国图书馆分类法》22大类为分类标准,对比分析本年度内各类馆藏采购总价与年度被借阅馆藏总价,从文献价格的角度,以直观的形式对文献购置(新增馆藏)与利用(借阅馆藏)情况做以对比。

以2020 年度华东师范大学图书馆24 小时借阅活动分析为例。借阅活动包含借出、归还、续借和预约4项。具体算法为:以一个自然年为分析周期,将借阅历史库该年度内每天各时段的借阅活动分类汇总,得出本年度内各时段平均借出、归还、续借、预约册数,最后进行可视化呈现(见图1)。总体来说,上午 9-10 点、中午 12-13 点、下午4-5 点、晚上9-10 点借还活动比较频繁,借还曲线中波峰之间的差值减小;预约与续借主要通过网上自助办理,晚上10 点闭馆到早上8 点开馆期间续借次数占所有续借的8%,预约占1.7%。可视化图表直观展示了图书馆的借阅高峰,将近几年的高峰时段数值进行汇总分析。便于图书馆了解读者的借阅行为及习惯,对于合理配置服务人员,及时整理归架图书资料,提高馆藏资源使用率,具有重要的意义。

图1 2020年度24小时借阅活动

4.2 读者入馆数据

通过分析读者入馆数据能够了解读者利用图书馆的行为轨迹,为图书馆常态管理和突发事件应对机制的完善提供有效数据支撑,提升高校图书馆的科学化管理水平[10]。另外,不少高校也将读者入馆次数作为考核学生和学院学风的重要参考依据。读者入馆数据的挖掘分析主要包含总入馆情况、每日入馆人次统计、各类读者入馆情况、各院系读者入馆比例。

(1)总入馆情况:以一个自然年为分析周期,将经各种途径刷卡入馆(校园卡刷卡、微信扫码、刷脸等)的人员汇总,以学号/工号为唯一身份标识进行人数统计,最后与历年数据进行比对分析;

(2)每日入馆人次统计:将本年度内每日到馆人次数据进行横向比较,开展入馆人次统计规律研究;

(3)各类读者入馆情况:将读者分为本科生、研究生、博士生、教职工4类,以到馆人次对各类读者进行对比分析,然后以人次信息为基础,计算具体到馆人数,结合各类读者总数,得到各类型读者到馆比例,从而对不同类型读者的入馆行为进行研究;

(4)各院系读者入馆比例:以学校各院系为单位,分析本科生、研究生和博士生3 种读者类型到馆人数占总人数比例,并以此为依据,可进行多维度的对比分析。

以2020年度华东师范大学图书馆每日入馆人次统计为例。以一个自然年为统计周期,通过进出图书馆闸机验证数据可以分析出每日进入图书馆的读者人次。具体算法为:入馆数据库中每条记录对应1次入馆行为,将入馆日期字段进行分类汇总,得到图书馆每日入馆人次信息(见图2)。从可视化图表中可以清晰地看出一年内各时段到馆的高峰和低谷,最大入馆人次曲线呈现多个峰值,对应着2020新冠肺炎疫情防控、新生开学、学生返校、国庆假期和即将期末考试等非常规情况与常规教学环节。开展高校图书馆入馆人次统计规律信息研究,能够帮助图书馆预测人员流动及活动导向,根据需求进行常态化管理;同时,对设置于单体建筑内的高校图书馆而言,为其完善突发事件室内人员应急疏散预案提供了数据支撑。

图2 2020年度每日入馆人次统计

4.3 读者利用图书馆数据

近年来,图书馆投入大量人力、物力进行空间资源建设,以期能够为读者提供更好的服务。除传统的读者到馆、借阅数据外,图书馆还有大量空间资源利用数据和网络服务数据。例如馆内电子阅览室上机数据、研讨室使用数据、自助文印使用数据、微信刷卡入馆数据、刷脸入馆数据、馆藏目录检索日志数据等。以研讨室利用情况分析为例,研讨室是近年来兴起的图书馆空间改造项目之一,作为可以容纳团队学习与讨论的信息共享空间,是深受读者欢迎的学习研究场所[11]。华东师范大学图书馆于2013 年向读者开放研讨室,使用情况如图3 所示。由图3 可以直观地看出研讨室的预约使用率呈现波动上升的趋势,体现了图书馆空间改造的效果;通过使用人次与人数的落差对比,进一步揭示出使用人员多为固定的部分读者群体。通过细化图书馆空间资源利用情况,分析读者使用规律,能够及时了解设备使用情况,探知读者的实际需求,从而为图书馆的工作方向提供指引。

图3 华东师范大学图书馆研讨室历年使用情况

5 结语

高校图书馆利用数据挖掘的最终目标是服务本校读者。通过具体的数据可视化表达实例,阐述了数据可视化技术在高校图书馆的应用。能够直观地了解馆藏文献的利用情况,掌握学生利用图书馆及其阅读倾向,建立读者知识需求模型,为读者的阅读辅导及图书馆相关工作提供有价值的参考;对图书馆管理而言,则可以为馆藏发展、藏书布局、流通借阅规则设置、馆员配置提供真实数据,为图书馆的自身发展乃至学校发展做出决策分析,从而为读者提供更好的服务,更好地满足读者需求[12]。

猜你喜欢

入馆馆藏可视化
基于CiteSpace的足三里穴研究可视化分析
思维可视化
阅读推广视角下高校图书馆新生入馆教育研究
河南一高校学生排千米长队进图书馆
馆藏几件残损《佚目》书画琐记
基于CGAL和OpenGL的海底地形三维可视化
博物馆的生存之道:馆藏能否变卖?
“融评”:党媒评论的可视化创新
知还印馆藏印选——古印篇
基于体验式学习的高校图书馆入馆教育新模式