基于大数据聚类的读者借阅图书内在需求研究
2021-07-24郑云涛沈晶晶徐真真
郑云涛 李 萍 沈晶晶 徐真真
(1.浙江农林大学图书馆,浙江 杭州 311300;2.浙江农林大学农业与食品科学学院,浙江 杭州 311300)
近年来,随着信息时代的到来和数字化图书馆的兴起,大学生可以通过手机和互联网获取大量知识资源,这就导致纸质图书的借阅规模持续下降以及图书资料应用模式和使用方式的不断变化,这对图书借阅行为研究提出了新的挑战。现阶段,为了提高图书馆阅读推广工作的实效性以及增强阅读推广工作的可持续性[1],须深入调查多层次读者的借阅倾向,分析读者的借阅心理[2],逐步形成精准化阅读推广体系,利用读者的借阅偏好主动推送相应的书籍[3],并进一步推进以读者为中心、以读者需求为驱动的一体化服务[4]。该文主要以浙江农林大学本科生纸质图书借阅信息为例,通过实证研究高校大学生纸质图书读者群借阅行为的内在需求,为研究大学本科生的借阅行为偏好提供参考。
1 数据采集、预处理及分析工具
从学校图书馆的图腾管理系统数据库导出近五届毕业生的读者信息和图书借阅记录,为保护读者隐私和学校图书馆管理系统的知识产权,读者信息表选取的关键字段仅为读者号、性别、专业、入学年份和学院,图书借阅记录选取的关键字段仅为题名、馆藏号、索书号和借书日期。研究人员筛选出东湖校区四年制本科应届毕业生的借阅记录(不含独立学院、专升本、退学、转学、休学、延长学制和五年制的学生),最终得到15 205 名毕业生的529 975 条有效借阅记录。
数据预处理是整个聚类挖掘中最为基础的环节,数据预处理的质量直接决定了聚类分析的效果[5]。该文整合了借阅记录和读者信息,得到了43547 条读者借阅信息。其后,为了保证A 类~Z 类借阅量的连续性,根据SPSS(Statistical Product and Service Solutions,最常用的社会科学统计软件之一)的箱型图、PP 图和回归曲线分析等对数据进行多次修正,修正后图书大类借阅量呈正态分布或近正态分布;后期实践结果证实了上述预处理的有效性。
2 借阅需求初步分析
读者阅读需求的抽样调查分析结果表明,读者有非常广泛的阅读需求。王哲将读者购买图书目的归纳为学术研究、工作需要、休闲娱乐、提高个人素质和涵养、复习备考与其他六种目的[6]。邓香莲认为大学生出于学业发展、未来职业需求以及休闲娱乐等动机,有专业学习、兴趣爱好、社会交往以及休闲娱乐等各种需求[7]。由此可见,不同研究者对读者借阅区需求的分类差别较大。
该校22 个大类图书借阅量统计结果揭示了学校本科生的整体借阅需求。从图 1 可以看出,读者借阅的I 类文学图书最多,占总借阅量的27.59%,后面依次为T 类(15.7%)、H 类(13.62%)、J 类(10.83%)以及K 类(5.95%),体现了休闲娱乐、专业和英语借阅的需求。
3 读者群借阅内在需求分析
从借阅实际来看,读者借阅图书时,往往会同时借阅其他大类的图书,而不仅仅只借阅某个大类的图书。那么仅对图书大类做分析,就割裂了读者的借阅需求,只体现了图书的借阅特征而不是读者的借阅特征。为了更加精准地了解各个读者的借阅需求,需要对读者进行聚类,研究各个聚类的读者群图书借阅的特征,并深入挖掘借阅的内在需求。
3.1 萃取综合决策因素
常用的22 个大类借阅量聚类容易形成局部最优解。该文创新性地采用了萃取因素,并根据权重选择了最为主要的8 个萃取综合决策因素作为聚类的考虑范畴,保证了主要聚类的精准度,使主要聚类的读者范围最大化;且萃取的综合决策因素更侧重考量读者内在需求,能更好地体现不同聚类读者需求变化。
22 个大类图书借阅量效度检验结果显示KMO 值为0.850(SPSS 软件的KMO 检验,KMO 值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析),Bartlett 的球形检验大约卡方值为32 144.796,df 值为210,Sig值为0.000,适合作因子分析。df和Sig值反应了是否适合做卡方分析,df值是最大值的平方与最小值的平方的差值,Sig值是相应的概率,后面使用的Sig值均体现了相应的概率,一般Sig值小于0.05 表示分析检验是有效的。
选取综合决策因素成分矩阵图中数值超过0.5 的图书大类作为综合决策因素的主要需求指标,并辅助考量借阅记录中图书题名,萃取了8 个综合决策因素并命名如下。
3.1.1 因素1
语言表达因素成分矩阵图中,I 类图书指标值为0.775,H 类图书指标值为0.637,K 类图书指标值为0.558。分析读者借阅的图书题名,I 类图书以中国文学为主包括部分经典名著,可能主要满足了读者的休闲娱乐需求;H 类图书以四六级考试为主,后面依次为托福、剑桥、雅思、考研等英语图书,之后有部分日语图书,说明读者可能以完成学业目的为主,并可能有更高的层次需求;K 类图书以人物传记和旅游图书为主。3 个图书大类有其共同点,都是与提高语言表达能力有关的图书,可能兼顾了读者休闲娱乐的需求,因此萃取为语言表达因素。
3.1.2 因素2
财经因素成分矩阵图中,F 类图书指标值为0.719,C 类图书指标值为0.711。分析借阅图书题名,F 类为经济类图书,C 类主要借阅了管理类和组织类图书。因为组织能力、管理能力和经济能力均为与财经相关的能力,因此萃取为推测为财经因素。
3.1.3 因素3
动植物养护因素成分矩阵图中,Q 类图书指标值为0.748,S 类图书指标值为0.648;分析读者借阅的图书题名,Q 类和S 类主要借阅了植物栽培、植物养护、生态保护、动物养殖等图书,故萃取为动植物养护因素。
3.1.4 因素4
设计修养因素成分矩阵图中,J 类图书指标值为0.687,T 类图书指标值为0.685;分析读者借阅的图书题名,主要借阅了工程和艺术的交叉领域图书,如工业设计、建筑设计等图书,既包括了工业技术需求,又包括了设计需求,故萃取为设计修养因素。
3.1.5 因素5
环境学因素成分矩阵图中,P 类图书指标值为0.729,X类图书指标值为0.693;从借阅图书题名来看,大部分为地理、地貌、地球和测量图书,故萃取为环境学因素。
3.1.6 因素6
兴趣爱好因素成分矩阵图中,E 类图书指标值为0.704,Z 类图书指标值为0.515;从借阅图书题名来看,为军事类和未解之谜图书,在该校无相关专业,故萃取为兴趣爱好因素。
3.1.7 因素7
职业发展因素成分矩阵图中,D 类图书指标值为0.502;从借阅图书题名来看,包括了法学、政治和公务员相关图书,图书的共同点凸显了读者对毕业去向的考量,故萃取为职业发展因素。
3.1.8 因素8
交通运输因素成分矩阵图中,U 类图书指标值为0.902;从借阅图书题名来看,主要包括了交通工程、汽车工程、桥梁工程等图书,故萃取为交通运输因素。
这8 个萃取的综合决策因素即是读者借阅图书考量最多的8 个借阅内在需求因素。
3.2 萃取因素聚类
所谓聚类就是物以类聚,即将物理或抽象对象的集合分成相似的对象类的过程聚类的目的是将相似的事物分类归为同一个簇,使同簇中的事物相对于某些变量来说是彼此相似的,而簇与簇之间却是有显著差异[7]。
集群分析并没有根据事先明确定义的类别进行分类,读者群是根据读者的相似性形成集群,而集群的意义也是需要事后解读结果才能得知的。对8 个萃取因素经过类簇数从3到12 的二阶聚类和K-均值聚类效果比对后,发现K值设定为8 的时候,轮廓值最大为0.798,聚类效果最佳。选择K值为8 做K-均值聚类,结果如图2 所示(这里的K值是指从n个样本中随机抽取k个,作为最初的类中心,数字没有单位;一般经过多次迭代,会找到最适合的类中心。一般用模块值和轮廓值进行相应聚类检验轮廓值是判断聚类效果的一个函数,值没有单位)。
聚类后,需要从技术角度分析,主要综合考虑聚类的群内相似度、群间相似度及相对均匀程度判断聚类分群效果的稳定性和结果分布的合理性。该文采用了判别分析、单因子多变量变异数分析和单因子变异数分析3 种分析Sig值均为0.000,说明8 个聚类在0.05 水平上存在显著性差异,说明了聚类结果的合理性。
通过聚类的变异数分析可得,Sig值均为0.000,说明8个类簇对影响因素考虑侧重点有显著不同,即说明萃取因素聚类的合理性和有效性。各类簇读者中,认为影响因素均值≥60 为主要考虑因素,影响因素均值介于50~60 为次要因素。从图2 的影响因素均值来看,类簇1 主要考虑的是因素4 和因素6;类簇2 主要考虑的是因素1;类簇3 主要考虑的是因素5、因素3 和因素1;类簇4 无主要考虑因素;类簇5 主要考虑的是因素7、因素8、因素3 和因素2;类簇6 主要考虑的是因素4 和因素1,类簇7 主要考虑的是因素3;类簇8 主要考虑的是因素2。
影响因素结果表明,读者借阅借阅图书考量的因素往往超过一个,是多因素综合考量的结果。
3.3 读者群图书借阅种类分析
以读者借阅历史数据为基础,利用聚类分析的方法对读者群体进行细分,基于不同属性依据进行聚类可以分别获得基于不同角度的读者类型群体。以读者借阅图书类型作为属性依据,聚类结果能够清晰地揭示读者群体的需求结构[8]。聚类后,将聚类结果标记在读者借阅信息上,统计8 个类簇读者群的22 个大类借阅量和借阅人数,计算生均借阅量并做雷达图,结果如图3 所示。
统计结果表明,8 个类簇均包括了所有专业的读者,与专业统计分析结果对比,发现该聚类方式明显优于专业分析统计,更能体现出各个聚类的读者差异。
从图3 可以看出,8 个类簇均具有鲜明的特点,在借阅种类上体现了显著差异。类簇1 借阅范围最狭窄,仅大量借阅了T 类图书;类簇2 中大量借阅了I 类和H 类图书;类簇3 中O 类图书借阅量最高;类簇4 图形类似于类簇2,但其借阅总量低很多;类簇5 中D 类图书借阅量最高;类簇6 中J 类图书借阅量最高;类簇7 中S 类图书借阅量最高,类簇8 中F 类图书借阅量最高。共有的特征是I 类图书均占有较高的比例,在各类簇图书大类借阅量中均处于前五的位置,表明文学类图书几乎在所有读者中受欢迎[9];在类簇2 中最受欢迎,而在类簇1 中受欢迎程度最低。
3.4 读者群借阅内在需求分析
3.4.1 读者群借阅共性需求
获取每个类簇中的全部借阅图书题名,题名数量多位于3 万~11 万。对题名进行特殊符号如“《》”、“—”等删除处理后统计词频,取各个类簇中前100 的高频词分别形成词云,结果如图4 所示。
图4 中可以发现,8 个类簇中有一些共有词云。
首先,字体最大的3 个高频词为“教程”、“英语”和“大学”,图书类别统计结果表明读者借阅最多的H 类语言类图书为H3 常用外国语并在各个类簇类别排行榜中处于前五的位置,反映了各个类簇读者都对常用外国语尤其是英语的需求。
其次,图3 表明8 个类簇读者借阅了大量I 类文学图书,其中以I2 中国文学为最,在图书类别统计表中均处于前五的显要位置;在图4 中未有显著表现,说明大学生对文学类图书阅读需求虽然较高,但对人文经典的阅读需求较低,未形成明显的共性特征[10]。
再者,8 个类簇中均出现了较大地“设计”字样,借阅了较多地J2 绘画图书,说明读者对提高美术素养的需求。
最后,8 个类簇中均出现了较小地“传记”字样,借阅了较多地K8 人物传记图书和旅游类图书,说明读者开拓视野的需求。
3.4.2 读者群借阅特性需求
除了上述4 种共同的需求,各个类簇读者还表现出迥异于其他类簇的个性需求。
类簇1 词频最高的是“设计”,其次是“建筑”、“景观”和“技术”。图书类别统计结果表明借阅量排前三位的是TU建筑科学、TP 自动化技术、计算机技术和TS 轻工业、手工业、生活服务业,体现了读者对建筑、计算机科学和工业设计方面知识的需求。
类簇2“英语”词频最高,其次为“大学”、“词汇”、“考试”、“教程”和“四级”。图书类别统计结果表明借阅量排前三位的是中国文学、常用外国语和欧洲各国文学,说明读者在词汇记忆、考试等方面有强烈地需求,体现了文学尤其是外语的需求特征。
类簇3 词频最高的依次为“英语”、“大学”、“数学”、“教程”、“考研”和“习题”,读者大量借阅了常用外国语、数学和中国文学图书,体现了读者对英语和数学的强烈需求。
类簇4 为借阅量非常低的读者,各个专业各个年级的读者均有,占读者总数的一半以上,体现了对英语和美术等需求。
类簇5 词频最高的依次为“英语”、“考试”、“教程”、“大学”、“设计”、“案例”、“考研”、“司法考试”和“公务员”,图书类别统计结果表明借阅量排前四位的是法律、中国文学、常用外国语和政治,体现了读者对考研、司法考试、考取公务员等考试的强烈需求。
类簇6 词频最高的依次为“设计”、“英语”、“教程”、“艺术”、“大学”和“摄影”,读者大量借阅了绘画、中国文学、工艺美术和艺术理论图书,体现了读者对艺术学的强烈需求。
类簇7 中“设计”、“英语”和“技术”词频接近排在前列,其后为“植物”、“园林”、“教程”和“栽培”,读者大量借阅了中国文学、园艺和古生物学,体现了植物栽培特征。
类簇8 兼具了类簇3 的考试特征和类簇5 的考研特征;又出现了独有的“营销”“经济学”等字样,虽相对其他类簇独有特征不够显著,但也说明了其独有的经济学和管理学特征。
4 读者群借阅内在需求时间嬗变
纸质图书借阅行为抽样调查研究表明,随着年级的增加,读者的阅历的变化,兴趣爱好可能随之迁移[10]。基于此,该文研究读者群随年级增长发生的借阅需求不断变化。
在借阅总体上,2015~2019 届毕业生生均借阅结果显示,随着年级增长借阅量在持续走低,从大一的生均借阅量14.3册下降到大二的13.0 册再降到大三的12.0 册最后降至大四的7.5 册图书。借阅种类各年级有所不同,大一借阅量最多地依次为I 类、T 类和H 类;大二借阅量最多地依次为I 类、T 类和J 类,其中I 类小说借阅量显著下降,T 类和J 类等图书显著上升;大三与大二借阅量基本持平;大四各大类图书借阅量均显著下降。
具体到8 个类簇上,统计各个类簇读者不同年级的生均借阅量。结果表明,每个类簇中22 个大类借阅量有变化,并且与总体借阅量变化有显著差异。获取每个类簇中不同年级借阅的全部图书题名,对题名经过处理后统计词频,并取排名前10 的高频词进行对比。两者结合分析,能够更加精准地分析出借阅需求随着年级增长发生的变化。
类簇1 生均借阅量达到了20.4 册,主要借阅了T 类、J类、I 类和H 类等4 个大类图书。借阅图书题名前十高频词来看,高频词由大一的设计初步到大二的室内设计到大三的城市规划反映出,学生对于园林建筑等工程类专业规划设计专业知识逐渐加深的过程。
类簇2 生均借阅量仅为12.1 册。主要借阅了I 类文学、H 类语言、K 类地理和B 类哲学图书。借阅图书题名前十高频词结果表明,英语、词汇、教程和考试贯穿了全程;从词汇变化来看,从四级到专业四级到考研再到雅思,体现了英语专业知识逐渐加深的过程。
类簇3 生均借阅量达到了22.4 册。主要借阅了O 类数学、H 类语言、I 类文学、R 类医药、T 类工业技术和B 类哲学。借阅图书题名前十高频词结果表明,数学、英语、习题贯穿全程;高频词结果表明,从大一的高等数学到大二的数理统计和概率论再到大三的高等数学,表明该类簇读者对数学和英语的强烈需求。
类簇4 不活跃,读者数占各专业读者数的30%~60%,占读者总数的52.02%。每学年生均借阅量仅4.3 册,主要借阅了I 类图书和T 类图书,其中T 类图书从大一到大三持续显著增长,到大四有显著下降。借阅图书题名前十高频词结果表明,设计、英语、词汇贯穿全程。该分析结果说明读者对专业知识的需求逐渐增高。
类簇5 生均借阅量达到了20.9 册。主要借阅了D 类政治法律、H 类语言、I 类文学、R 类医药、T 类工业技术和B类哲学图书。借阅图书题名前十高频词结果表明,英语和考试始终如一;其余的高频词变化较大,体现出该类簇读者大一主要学习英语和数学,到大二学习刑法和民法,大三侧重于司法考试、公务员考试和考研,大四则明显偏重于公务员的申论考试。
类簇6 的活跃度最高,生均借阅量达到了27.8 册图书,但同时也是涉猎图书种类最少的一个类簇。主要借阅了J 类艺术学、I 类文学、T 类工业技术、K 类历史、H 类语言和B类哲学图书。借阅图书题名前十高频词结果表明,设计、教程贯穿全程;其余高频词从大一的色彩、平面素描到大二的创意、技法到大三的艺术创作,体现了艺术学专业知识逐渐增强的变化过程。
类簇7 生均借阅量达到了27.8 册图书,主要借阅了S 类农业科学、I 类文学、Q 类生物科学、T 类工业技术和H 类语言图书。借阅图书题名前十高频词结果表明,植物、园林、设计、技术和英语贯穿全程;其余高频词从图鉴到昆虫到栽培搭配生物化学,体现了动植物专业知识需求的转变过程。
类簇8 生均借阅量达到了16.3 册图书。主要借阅了F 类经济、I 类文学、H 类语言、B 类哲学和C 类社会科学图书。借阅图书题名前十高频词中,英语和教程贯穿全程;其余高频词从大一侧重于英语和数学,到大二转变为经济学和会计学,大三的心理学和营销,大四的营销、SPSS,体现了经济学学习注重实践的特点。
上述分析表明,各个类簇读者总体上持续关注了教辅材料、文学和英语。除了类簇4,其他各个类簇的专业图书借阅量均高于I 类图书借阅量,意味着活跃人群更注重专业需求。结合各类簇图书题名分析表明,随着年级增加,专业相关图书和毕业去向相关图书总体上呈逐年上升趋势,而其他大类图书总体上呈现逐年下降的趋势;并且专业图书内容逐渐深化。
5 结论
任何专业的读者均包括四类读者群体,不活跃读者、I类活跃读者、专业活跃读者和考研考公出国读者。
与专业相关的图书以及与毕业去向相关的图书随着年级增加其借阅比例呈上升的趋势,表明读者的借阅行为在总体上呈良性发展的趋势。
读者有4 个共性需求:1)专业习需求。2)文学需求。3)英语需求。4)绘画需求。
数据采集仅以农林院校为例,但张恒[11]的图书借阅排行榜表明,虽然不同高校各个类簇的读者的比例也不同,但读者群体的属性基本一致。从这一点来说,该文的研究结论适用于我国大部分双一流高校、部属高校和省属高校。