APP下载

基于可视化分析的学生图书借阅行为研究

2017-04-12陈凤

常熟理工学院学报 2017年2期
关键词:可视化图书分析

陈凤

(常熟理工学院信息化办公室,江苏 常熟 215500)

基于可视化分析的学生图书借阅行为研究

陈凤

(常熟理工学院信息化办公室,江苏 常熟 215500)

根据人的认知心理和分析决策活动的渐进特点,将可视化技术与商业智能相结合,利用学生、图书管理等系统所积累的大量数据,从多个主题多个维度入手,研究高校学生图书借阅行为.构建了学生图书借阅行为可视化分析系统,对系统的可视化结果进行了分析,研究了高校学生图书借阅的行为特征.实际应用证明,系统能够为管理者、领导者提供更加直观、易懂、科学的决策支持.

可视化;数据仓库;商业智能;决策支持

1 引言

1.1 问题的提出

随着信息技术在高校的应用和数字化校园的发展,一方面,图书信息管理系统为管理层提供了有效的支持,在一定程度上提高了查询、统计等业务的工作效率,但对学生借阅行为理解不够,对决策层支持不足.另一方面,长期积累的海量数据用传统的数据分析工具显得力不从心.以往图书的决策大多采用调查问卷、专家咨询、电话问答等传统的人工方式,依靠经验来制定规划和策略,这些方法无法及时、全面、客观地反映现实情况.因此如何有效地分析数据,深刻理解学生借阅行为,辅助领导层做出科学的决策,成为高校图书管理亟需解决的问题.

可视化在商业智能(Business Intelligence简称BI)中的运用,既缩短了决策者获得认知的时间[1],也把对数据的定量分析与定性分析紧密结合在一起,形成易于决策者认知的信息表现形态,帮助人们有效地监控海量数据,为人们分析、理解数据,找出规律提供了强有力的手段.我们将数据仓库、联机分析处理(On-Line Analytical Processing简称OLAP)与可视化技术相结合,构建学生图书借阅行为可视化分析系统,目的在于用更易于理解的方式分析学生借阅行为,为图书管理者提供必要的信息服务,为学生管理者提供科学辅助.具体来说,一方面,对图书采购、推荐、流通,以及优化馆藏结构、满足读者需求、平衡经费分配等提供有效的决策支持,使图书管理具有快速的反应能力,能够及时跟上教学、科研的需要,进一步促进学校学科、专业等建设,提高图书管理服务水平.另一方面,通过结合学生基本信息及其他在校活动信息对图书借阅数据加以分析,发现和预测一些问题,正确引导学生的心理和行为动向,辅助学生管理.

1.2 可视化分析

传统的数据表示方式仅是一些趋势性和数据间的简单比较,不能向决策者全方位地展示信息.与之相比,可视化是把数据、信息和知识转化为可视的表现形式的过程,用形象的图形来表达抽象的数字信息[2-3].充分借鉴了“一图胜千言”的思想,也就是说,传统的数据分析可能需要对上百页的数据进行排序,可视化分析只需要用一幅图片就能说明同样问题.可视化方法使决策者能够快速和直观地发现有趣的模式,洞察蕴含的信息并用于决策部署.

从应用实践来看,决策本身就是一个复杂、渐进的反复过程,而可视化分析方法恰好蕴含了渐进的特点,并且其分析过程符合决策者的认知心理[3].国际数据公司(International Data Corporation简称IDC)和数据仓库协会对已经实施商业智能解决方案的客户进行调研后,得出80%商业智能的客户发现可视化是必须的结论[4].因此,将可视化技术引入到决策分析中,有利于降低决策者思考、判断的负担,有利于决策者将注意力集中用于分析决策[5-6].

2 学生图书借阅可视化分析研究与实践

2.1 学生图书借阅可视化分析系统体系结构

图书借阅可视化分析系统的设计思路如下:根据需求确定决策主题,将来自图书、学生等业务管理系统和数据文件的原始数据经过SSIS(Microsoft SQL Server Integration Services)工具抽取、清洗、转换并加载到数据仓库中,并对应各个主题形成数据集市;利用SSAS(Microsoft SQL Server Analysis Services)工具创建多维数据立方体(CUBE)和可视化数据分析模型[7-9],结合OLAP技术合理选择可视化工具;对可视化分析结果加以分析、验证、调整,运用SSRS(Microsoft SQL Server Reporting Services)等前端展示工具生成可理解易交流的报表、图形和分析报告等,以最佳的形态揭示数据的价值,传递决策信息.

图1 学生图书借阅可视化分析系统体系结构

图2 图书借阅分析主题

图书借阅可视化分析系统体系结构如图1所示,大致分为数据预处理和可视化分析两个阶段,由基础数据层、数据分析层和信息展示层组成.可视化使决策者能够参与数据分析的整个过程,但鉴于对技术能力的要求,无论是数据预处理阶段,还是决策模型和图表选型,决策者通常都不会直接参与,因此,可视化结果的可读性、易于理解性就显得更为重要.

2.2 确立图书借阅分析主题

在对图书借阅数据进行可视化分析之前,确立如图2所示主题:包括学生管理、图书馆管理和教科研服务,并将各个主题细划,如学生管理主题分为阅读偏好、借还频率、借阅规律、与学习成绩的关系及学生基本情况的影响.限于篇幅,我们仅以部分主题为例展开分析.

2.3 SSAS

对比IBM、ORACLE、MS的产品,经过长期的实践和验证,我们选择了微软的BI组件,这是因其具有齐全易用的数据分析模型和商业智能计算.以分析图书借阅与学生成绩的关系为例,构建数据源视图,为学生基本信息表、院系部门表、学生成绩表、图书借阅表、图书分类表、存放地等建立关系;形成多维数据集CUBE,如图3所示,确立了学生成绩、图书借阅量、图书价格等度量值,构建了院系部门、学生基本信息、图书类别、借阅时间、馆藏地、图书来源等分析维度,分析者能从多角度全方位地研究学生的借阅行为,并且作为OLAP之后的分析结果图,分析人员可以根据主题需求查看可视结果,通过调整数据源、度量值和维度,修改计算值等方式使设计满足需要,为最终形成可视化结果做准备.

图3 图书借阅多维数据集

2.4 创建可视化分析模型

对于一个复杂的问题,在制定和解释决策时,相比数字或规则,图像更加能够提供生动的印象.因此我们需要研究哪种可视化技术最适合所研究的数据,以便向决策者有效地传递准确和重要的信息.

以研究学生成绩与图书借阅的潜在关系为例,关联规则用于鉴别哪些实体或者元素很可能在某些情况下共同出现,并能够发现一些模式.用户需要提供一个有趣程度的定义,可以采用支持度和可信度的形式.用户采用支持度和可信度的形式来定义有趣程度,支持度(概率)表示了一个组合在所有的数据中出现的频率,比如英语成绩优秀且英语类书借阅量大,占所有学生读者借阅量的比例.可信度(重要性)表示的是规则中同时出现的概率除以规则左边出现的频率,如英语成绩优秀且英语类书借阅量大的概率占英语成绩优秀的比例,基于上述规则,构建了如图4所示的图书借阅量与学生成绩的分析模型.

图4 图书借阅量与学生成绩分析模型

3 学生图书借阅可视化结果分析

可视化方法的选择依赖于所分析数据的特征和潜在结构,同时还依赖于所分析问题的角度[8].不同的可视化方法适用于不同的问题,比如探索学生成绩与借阅行为的内在联系,考虑学号、课程、成绩、书名、图书类别等的数据特征,经过数据预处理装载到探索型数据集市形成业务数据集,选择散点图展示分析结果.

图5 图书借阅量与学生成绩的关系散点图

在散点图中,仅根据记录的数值描绘出相应的数据点而不添加任何的线段或条状体.当需要观察和评估两个或者更多连续字段之间的关系时,通常选择散点图.除了可以显示是否存在某种关系外,散点图还能够显示这种关系的强弱程度.通过将数据集中不同字段描绘在图形中,我们可以分析各种因素和条件对于问题的不同影响.散点图不能对因果关系进行验证,但是会提供一些可能的方法做进一步的分析.当有时间序列字段的时候,通常不会使用散点图,由折线图来取而代之.如在分析学习成绩与借阅行为之间的关系时,成绩作为散点图纵坐标轴上的结果字段,最高成绩位于图形最上方.借阅数作为横坐标轴上的潜在原因字段,其字段值从左向右增加.

从图5中可以看到,图例分布密集程度较均匀,可见学生的图书平均借阅量与平均成绩间并不存在有效的关联,换言之,学生借阅书籍的多少与成绩的好坏间并没有绝对的因果关系.成绩的好坏与其原有的基础、自身条件、学习习惯、学习兴趣等诸多因素有关,并且借阅大量与学科无关的书籍并不有益于提高专业知识及成绩,所以所借阅书籍的类别也应作为一个参考点.另外,在网络时代,知识获取方式呈现出多样性,除了传统的纸质书籍,学生也可以通过门户平台、论坛、APP等便捷快速的渠道来阅读,数字化阅读方式突破了传统纸质阅读不支持互动和多媒体内容的局限,给图书管理和服务带来了新思路,如不定期的向学生推送与其专业相关的好评书籍、经典书籍和最新书籍等,对学生的借阅方向适当加以引导;购入电子书籍和多媒体资料、建设电子阅读平台、开发APP等新型阅读方式来拓展学生获取知识的途径,更好地帮助学生学习,真正发挥图书馆作为学生第二课堂的价值.

当然,工具的选择往往并不唯一,存在多种形式或方法.在为数据分析选择合适的可视化工具时,需要将所选图形的可读性、容易理解程度以及目标用户都考虑在内.根据应用环境、工具的优缺点和分析数据的类型,缩小挖掘工具的范围.通过试验、比较来判断最适合的工具[11-14].如在分析学生阅读偏好时与所在学院、专业、性别、年龄等的关系,以及在借阅某些书刊时是否也同时借阅另外一类读物,用面积图来表示这些因素的影响大小,用散点图表示同时借阅两种书刊的情况;在分析学生借阅规律时,用估计算法来预测哪类图书会在何时受欢迎,以折线图来展示随时间变化的情况等等.

图6 馆藏结构与图书借阅率

图7 学生阅读类型偏好

可视化分析阶段的第二步是对数据分析的结果进行可视化的评估,同时对所生成的可视化图形进行分析.观察和操作在预测型或者描述型数据挖掘工作基础上创建的二维或三维可视化模型,了解并验证在数据挖掘算法中发现的有趣的信息和模式,用可视化工具和技术分析图形,判断从中得出结论是否能回答决策者最初提出的问题.SSRS工具对由SSAS所生成的CUBE、挖掘模型加以可视化查询、展示,它具有丰富多样的图表和方便的查询功能,能够很好地满足数据分析及辅助决策的需求.图6~图9给出了图书借阅分析部分主题分析的部分结果图表.

从图6可以看到逸夫馆文学借阅室116室的图书借阅率在所有馆藏借阅室中最高,而书目的平均价格偏下且册次偏少.相对而言,古籍阅览室和工具阅览室平均书价偏高,与借阅率形成反差.由此可见,文学类书籍受到学生读者的普遍青睐,另外,分析借阅率相对较低的古籍和工具书不受欢迎的深层原因,古籍书本身的难读难理解是重要因素之一,而工具书类则应结合科技发展的时代因素.

从图7可以看到,学生偏爱文学读物,工业技术次之,而语言文学类读物的人均借阅数也较高.结合现实情况来看,文学读物不受专业限制,人人能读,我校理工科学生占多数,工业技术的受欢迎度偏高较为合理,计算机等级考试也是其阅读借阅的动力,而语言文学则与外语类考试息息相关.

图8 学生借阅日期规律

图9 各类别图书采购年度趋势

从图8中可以看到,3月和9月为借阅人数最多的月份,其后开始呈现递减的趋势,2月、7月和8月为借阅低谷.这是因为3月和9月为春、秋季开学初,2月、7月和8月为寒暑假,大多数的学生在开学初的学习热情最为高涨,并且新学期要将所借的图书归还后重借,所以借阅量为学期中最高;而学期末人均借阅册数的峰值则又说明临近假期学生有借阅大量书籍过寒暑假的现象,另外学期末是集中考试阶段,在该阶段大多数学生要准备考试,所以借阅人数出现下降趋势.

从图9中可以看到,购入图书的册次趋于平稳,2004年建馆初期将历年图书一次性编入,平均书价逐年上升与物价的上扬有关,各类别图书的购入趋势与总体趋势略有差异,书价的浮动也为总体上升,但各类别间的趋势并不一致.各类别图书的年度购入量和价格趋势与借阅趋势结合分析,对于书籍的合理购入,资金有效投入和资源的合理配置均具有指导意义.

通过可视化结果分析,可以看到学生图书借阅行为具有以下规律:①学生学习成绩的好坏与借阅量无必然关系,但与阅读偏好存在一定程度的联系;②学生图书借阅的数量总体呈现出波状曲线,与学生的学习积极性相关.③同一个学生在不同的学习阶段呈现出不同的阅读倾向,随年级的增长发生变化,与学校的教学计划和课程安排有一定的联系;④学校的专业设置,确定了学生的阅读倾向.学生的借阅行为在总体上呈现良性的、理智的趋势,基本上围绕所学专业来阅读相关的图书;⑤学生个体差异较大的阅读量,反映了学生的不同阅读偏好,纸质阅读不再是学生阅读的唯一途径,可以通过多渠道获得;⑥学生的阅读倾向带有明显的目的性和一定的功利性,学习本专业知识、完成学业是阅读的首要目的.

总体来说,定性定量的可视化图表与实际相结合,能够帮助人们对某些现象做出合理的解释[15],甚至扭转一些常见的认识误区,从而进行科学的判断并寻找有效的解决方法,促进管理、辅助决策,使学生能更好地利用图书馆藏,最大限度的发挥图书馆在高校教育中的辅助作用.如根据学生的阅读偏好,组织形式多样的读书活动来激发读书兴趣,科学地平衡各类目书籍的借阅量,提高资源利用率;根据学生的阅读心理和阅读需要,制定合理的采购计划,提高馆藏图书的质量,优化馆藏结构;根据总体借阅量的下降,增加新的媒体阅读方式,打破传统的纸质阅读的局限和弊端,优化借阅环境;根据学生的阅读行为,采取不同的服务方式,有针对性加以引导,将专业学习与课外学习有效结合,提高学生专业知识的同时拓展学生知识面;根据图书借阅率,确定图书复本量并科学设置各类馆藏地;根据学生的借阅日期规律,增加高峰时间段的服务,调整开放时间,提高图书馆管理水平和服务质量等.

4 结论

本文根据认知心理和决策过程的特点,将可视化与商业智能相结合,构建了图书借阅的可视化分析系统.重点对图书借阅可视化分析阶段展开了研究,从分析结果来看,可视化的引入使得决策分析更加科学合理,与传统的决策分析相比,缩短了分析人员与决策者的沟通时间,降低了数据分析的难度,提高了信息的可读性及易懂性.对图书借阅数据的可视化分析为图书馆管理提供了有效的决策支持信息,优化了馆藏结构,满足了师生员工的需求,也为学校的专业设置、课程安排提供了参考.

[1]腾东兴,王子璐,杨海燕,等.基于交互式可视化组件的分析决策环境研究[J].计算机学报,2011,34(3):554-565.

[2]BATAGELJ V,MRVAR A.Pajek:Analysis and visualization of large networks[C]//.MUTZEL P.Graph Drawing Software.Berlin:Springer,2002:8-10.

[3]耿学华,傅德胜.可视化数据挖掘技术研究[J].计算机应用与软件,2006,23(2):85-87.

[4]SOUKUP T,DAVIDSON I.可视化数据挖掘[M].朱建秋,蔡伟杰,译.北京:电子工业出版社,2004:44-46.

[5]NORTH C,SHNEIDERMAN B.Snap-together visualization:A user interface for coordinating visualizations via relational schemata[C].Palermo:Working Conference on Advanced Visual Interfaces(AVI’00),2000:128-135.

[6]CARD S K,MACKINLAY J D,SHNEIDERMAN B.Readings in Information Visualization:Using vision to Think 1st ed[M]. San Francisco:Morgan Kaufmann,1999:42-45.

[7]蔡伟杰.可视化数据挖掘技术研究及实现[D].上海:复旦大学,2002:14-17.

[8]孙泳.联机分析处理和可视化技术研究[D].合肥:中国科学技术大学,2003:19-30.

[9]陈伟.商业智能中的数据可视化研究[D].合肥:合肥工业大学,2010:34-35.

[10]陆玉昌,彭清涛.关联规则挖掘技术及发展动向[J].计算机工程,2000,26(9):4-6.

[11]THOMAS J J,COOK K A.Illuminating the Path:Research and Development Agenda for Visual Analytics[M].Piscataway,N. J.:IEEE-Press,2005:89-92.

[12]吴淼.基于数据挖掘技术的图书馆借阅记录分析研究[D].西安:西安电子科技大学,2011:10-11.

[13]刘琳.基于数据挖掘的学习成绩与图书借阅关系研究[J].华北科技学院学报,2010,7(4):117-120.

[14]黄兰,郭志敏,习万球.利用聚类技术对图书馆读者社群的研究分析[J].计算机工程与设计,2007,28(22):5552-5555.

[15]KEIM D,ANDRIENKO G,FEKETE J-D,et al.Visual analytics:Definition,process,and challenges[C]//KERREN A.Information Visualization.LNCS 4950.Berlin:Springer,2008:154-175.

A Study on College Students’Borrowing Behavior Based on Visual Decision Analysis

CHEN Feng
(Informalization Office,Changshu Institute of technology,Changshu 215500,China)

According to the progressive characteristics of human cognitive psychology and decision-making activities,the author of this paper built a library visual decision analysis system with the visualization technology and business intelligence.The paper provides a system architecture and algorithm.It discusses the visualization results and verifies them in practice.The verification results indicate that the system can support the library managers and leaders in making intuitive,understandable,and scientific decisions.

visualization;data warehouse;business intelligence;decision support

TP399

A

1008-2794(2017)02-0055-13

2016-06-06

陈凤,工程师,硕士,研究方向:数据仓库,数据挖掘,E-mail:hhitcf@163.com.

猜你喜欢

可视化图书分析
基于CiteSpace的足三里穴研究可视化分析
思维可视化
隐蔽失效适航要求符合性验证分析
图书推荐
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
欢迎来到图书借阅角
电力系统不平衡分析
班里有个图书角
电力系统及其自动化发展趋势分析