数据分析在高校图书馆的应用
2021-03-18杨婷婷马致明
齐 航 杨婷婷 马致明
一、引言
高校图书馆是大学的信息集散地之一,馆内存放着各种科类书籍,是大学中存放书籍科类最全、数目最多的地方,也是学生除了宿舍和教室以外出入最多的地方。在图书馆中,每天都有学生出入借阅书籍,从而产生大量的数据。这些数据记录着学生出入图书馆时间以及借阅书籍信息,隐含着学生的行为习惯、书籍流通的规律等。对图书馆内记录的数据进行分析总结,从分析结果中可以推测出学生借阅书籍的规律、读书习惯和需求等,分析结果能够使图书馆更好地服务学生,向学生提供更有参考价值的书籍,为高校的人才培养、科学研究提供更加可靠、有参考价值的数据应用。
二、数据分析
1.数据分析概述。数据分析即通过恰当的研究方法对收集的大量数据进行详细的分析研究,从分析的结果中得出有用的信息,对分析结果进行概述和总结。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广[1]。数据分析的目的是从大批看似毫无关联的数据中筛选和提取有用信息出来,找出研究对象的内在规律。
2.数据分析流程。(1)数据收集。根据研究的需要收集与研究相关的数据。(2)数据处理。对收集的数据进行筛选和提取,从收集的数据中,根据研究问题的需要对数据进行筛选,删除无用和冗余的数据。(3)数据分析。采用适合的方法对数据进行分析,发现数据中存在的新特征,挖掘并验证数据之间潜在的关联。(4)数据展示。根据数据分析出来的结果,挑选出最适合展现数据的方式,表格或者图形等能够一目了然地发现数据之间存在的规律。(5)编写报告。数据分析的最后一步即编写报告,将数据分析的结果进行汇总。一份优秀的报告需要一个明确的主题、清晰的目录、图文并茂的描述数据、结论和建议。
3.数据分析方法。数据分析方法分为两种,一种是统计分析方法,另一种是数据挖掘方法[2]。根据分析目的的不同,选择不同的分析方法,得出的结论也会有所不同。(1)统计分析方法。①描述性统计分析。描述性统计分析是通过图标或数学方法, 对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法[2]。②关联分析。又称关联挖掘, 通过分析由定性变量构成的交互汇总表,从大量数据中发现项集之间有趣的关联和相关联系[2]。③回归分析。回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法[2]。④因子分析。因子分析是指研究从变量群中提取共性因子的统计技术,即从大量的数据中寻找内在的联系从而减轻决策困难的分析方法[2]。⑤方差分析。方差分析又称 “ 变异数分析 ” 或 “ F 检验 ” ,用于两个及两个以上样本均数差别的显著性检验[2]。(2)数据挖掘方法。①分类分析。分类分析是基于数据中某些相同的特点将数据划分为不同的类型。分类分析的目的是将数据库中的数据映射到某类别中。分类算法一般有决策树、贝叶斯分类等。②聚类分析。对数据库中的数据进行分组,使得相近的数据为同一组,相异数据为不同组,通过分组识别出数据之间的差异。③关联规则。在数据库中某一数据项发生的同时,另一数据项也随之出现,即描述隐藏在数据之间的关系规则。④回归分析。数据挖掘中的回归分析主要是多元线性回归和逻辑斯蒂回归,后者多在数据化运营中使用[2]。多元线性回归主要用于概括一批自变量的变化导致一个因变量的变化,反映数据中因变量和自变量之间存在的关系。
三、数据分析在高校图书馆的应用
图1 数据分析在图书馆中的应用模型
1.理论应用。在大学里,除了宿舍和教室这些必经之地外,学生去的最多的地方便是学校图书馆。高校图书馆存在意义和价值很多,并不只是简单为学生们提供知识信息,给教师们提供参考文献,而是在于对高校文化建设的支持和辅助,为高校精神文化建设提供源源不断的动力支持,使大学精神能够得到延续和传承[3]。
数据分析主要分为数据采集、数据处理、数据分析和数据应用,图1 所展示的是数据分析在高校图书馆应用的模型,不同阶段对应着不同的作用。
数据采集是将学生一卡通内学生的个人信息(如学生的年级、性别、专业等)、学生借阅书籍的信息、图书的信息、学生进出图书馆时间等这些数据进行采集并保存到数据库。
数据处理即对采集的原始数据进行增、删、改、查。原始数据中会有过于偏差没有参考性的数据,研究人员需要删除这些冗余的数据。同时因为分析的目的不同,需要的数据也不同,对数据的提取也不相同。例如,分析不同专业学生之间借阅书籍类别的差别,则提取学生专业信息、学生借阅书籍类别的信息进行分析即可。数据处理通过对数据的转换、整合、提取,为下一步的数据分析提供更有效、可靠的数据。
数据分析是利用大数据技术对海量数据进行存储和分析[4]。根据分析的要求,提取与之相关的数据,采用不同的分析算法对数据进行分析,通过对数据之间潜在关联的挖掘,充分体现数据的价值。例如,分析学生借阅书籍类别之间存在的关联,可采用Apriori 算法计算书籍之间存在的联系。
数据展示与应用即根据数据分析结果对数据进行不同的展示,通过图表或文字等能充分展现数据的方式将数据分析结果、研究主题展现出来。例如,分析图书馆中每年学生借阅在各书籍类别中占有的比例,可以采用饼状图充分展现出各个类别书籍借阅量的不同,分析结果也可作为下次采购书籍的参考依据。
2.实际应用。高校图书馆每日会有大量的学生借阅书籍,这些数据是重要的信息资源,学校可以借助先进的技术手段从这些数据中分析出有用的信息。例如,分析每年哪类课外书籍被借阅次数最多,可以看出该校的学生阅读倾向,为下次采购书籍提供有力的依据;分析不同学科学生借阅图书之间存在的差异,根据不同学科之间的差异确定下次购买书籍的种类,推动学生全面发展,主动完善知识结构;分析不同种类之间会同时被借阅的概率,从中发现不同种类书籍之间存在的关联,合理规划书籍的摆放等。
对借阅书籍的统计分析是了解书籍流通与学生需求变化的重要方法,根据学生的不同借阅情况来决定下次购买书籍时不同种类的书籍占有的比重,借阅量大的书籍便是学生需求多的书籍。文献[5][6]中,在该校图书馆中学生借阅最多的书籍是文科类,文科类书籍在该校学生阅读中最受欢迎,需求最多,因此学校采购书籍时可以加大文科类书籍占比,为学生提供更多的课外书籍。
在文献[6]中,理科学生对文科知识的涉及远远大于文科学生对理科知识的涉及程度,文理科学生在学习上的互逆性存在着差异。从理科生借阅文科书籍可以发现,学生的借阅行为更多源于阅读兴趣,同时也兼顾学业的需要。无论是理工科还是文科类的学生,都会借阅文科类书籍,管理人员可以将文科类书籍放置在方便学生查找的地方,方便馆员管理的同时,也节省了学生查找书籍的时间。
不同科类书籍之间也存在一定潜在借阅的关联,文献[7]中发现,学生借阅马克思主义与语言类书籍的同时还借阅文化类图书,表明这三类学科存在很强关联关系。图书馆管理人员在摆放书籍时可以考虑将这三类图书放在同一区域,方便图书馆工作人员对图书进行管理,也便于学生借阅。
月份不同借阅书籍的数量也存在着差距,从文献[8]中可以看出,学生在开学季和考试周借阅书籍数目比平时要大,以专业课为主,此时可以考虑适时向学生推荐与专业相关的图书资料。文献[8]中还分析出,各学院每个年级所借书籍的种类大致相同,不同年级的借阅量不同,高年级借阅专业课的书籍要大于低年级的借阅数量。可见,随着专业课增多学生借阅的书籍也越来越专业化。学校在采购书籍时应该以本校所开设的专业为基础,所购买专业课的书籍以本校教授的专业为主,本校学生多的专业书籍应占有较大的比重。
学生进出图书馆时间也存在一定规律,考试周时学生会比平时去得更早,离开图书馆的时间更晚,因为学生需要复习,准备期末考试,所以在图书馆学习的时间会比平时长。
图书馆对于高校教育和学生学习都十分重要,一个好的图书馆可以成为高校的 “ 知识门面 ” ,强化高校的文化知识建设效率,为学校的科学研究做好铺垫;引导学生在校期间的阅读方向,提升学生阅读质量,提高学校的人才培养水平;给学生的阅读提供一种文明热情、和谐融洽以及催人奋进的环境,帮助学校的文化传承不断创新。因此,图书馆的整体质量十分重要。
提高图书馆的整体质量,不仅仅是拥有丰富的馆藏资源,更需要学校根据学生的需求科学采购并且合理地摆放书籍,根据时间段的不同调整开馆时间等各个环节都不容忽视。对图书馆记录的数据进行分析,从分析结果中得出学生阅读书籍的倾向、借阅规律等,能更科学、深层次地采购和管理书籍,掌握馆内现有藏书的配置比例,更好地优化藏书结构,为下次馆内购买书籍提供坚实的理论依据,使得馆内的整体管理与服务更加完善。
定期对图书馆的记录书籍流通、学生行为信息的数据进行分析,能够及时掌握馆藏书籍的实际使用情况和学生的需求情况,采取有力措施,使得图书馆整体管理不断完善,馆内书籍得到更好的使用,藏书的质量不断提高。