基于数据挖掘的高校图书馆读者服务的研究
——以延安大学为例
2020-04-09王小娟
王小娟
(延安大学图书馆,陕西延安716000)
随着数字化、智慧化[1]的发展,尤其是数据库技术的发展,各行业数据量都在飞速增长,如何提高海量数据的利用率成为各行业的重点研究方向。高校图书馆作为高校师生最大的学习阅读源,也是每所大学教育培育人才的重要场所,近年来,高校图书馆在智慧化的发展下更加注重以人为本的服务理念,多角度、最优化的服务于读者,为读者提供多方位、主动服务模式,读者服务[2]越来越受到图书馆界的关注。高校读者数据日益增加,面对如此庞大、不完全、冗余数据,如何从中提取有价值的数据是目前很多高校图书馆的研究趋势。图书管理系统虽然可以采集读者基础数据,但是还未能实现对读者数据的一个挖掘、分析以及预测。数据挖掘技术[3]在此背景下应运而生,借助于数据分析挖掘软件[4],获取专业与借阅量[5]、借阅量与读者、类别与借阅量等数据之间的关联性,不但为读者提供主动推介服务,而且可以为学科建设提供数据支撑,还可以为高校图书馆搬迁中保留院系读者提供全方位服务,使图书资源更加合理化。
1 读者数据准备工作
1.1 K-Means聚类算法及挖掘工具
K-Means算法[6]即K-均值算法,首先给定一个K值,其中K值的取值是经过多次尝试以聚类效果最好为准,其次应用迭代[7]来实现聚类,根据K个聚类中心,将周围的数划成K个族,每次迭代中重新计算中心,得到均值作为下一次迭代的参考值,当目标函数越来越小时,聚类的效果就会越好。将所有聚类数据分为K个类,使数据按照相似性原则被分成新的类型,同一类型的数据尽可能具有一定相似性,不同类数据间数据相似度较低,文章将K-Means聚类算法应运到图书馆读者流通数据中,为大量读者分类,发现读者其兴趣群,然后进行分析。采用了当下较为流行的、可视化效果良好的IBMSPSS Modeler数据挖掘工具[8]实现K-Means聚类之后的分类。
1.2 Apriori关联规则算法及开发平台
Apriori关联规则算法[9]是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。主要是挖掘数据中项集之间的相互关系,当两个及两个以上的数据存在一定的规律称之为数据之间的关联规则,通常采用支持度和置信度[10]两个参数来度量关联程度,其公式为:支持度(support):support(A=>B)=P(A∪B),表示A和B同时出现的概率。置信度(confidence):confidence(A=>B)=support(A∪B)/support(A),表示A和B同时出现的概率占A出现概率的比值。使用关联规则算法对从高校图书馆管理系统中提取大量读者借阅记录数据进行挖掘,可以通过Apriori关联规则算法分析专业与借阅量、读者与借阅量之间的关系。本文采用强大的数值计算软件MATLAB软件平台实现[11-12]Apriori关联算法。
1.3 数据来源
高校读者数据蕴含着很多有价值的信息,基于好多高校读者数据未能进行挖掘、分析,尤其在大型的搬迁过程不,不能很好地分配图书资源,导致纸质图书利用率较低。本文数据来源于延安大学2012年至2019年七年的读者数据,通过图书馆管理系统将这期间的所有读者数据按照专业、类别、类名和借阅量导出,初始数据合计为6690条,去除借阅量为5以内的数据,合并后合计为3215。表1为按照借阅量降序排序后部分导出有效数据。
表1 部分导出数据
2 数据挖掘实施
首先对采集到的基础数据进行清洗、处理[13],图1为数据清洗[14]流程图,本次主要提取数据为借阅量和读者专业信息,无效数据为数据中专业数据填写错误或者空的数据,噪声数据[15]为对于挖掘数据无影响的数据和挖掘无关的属性,比如借阅量特别低的数据和专业类别相同的借阅量进行合计。
本文基于MATLAB数据处理软件实现数据清洗,执行结果为清洗合并后的有效数据为2225条。部分代码如下:
[AB]=xlsread(data_path);
D(3)=[];
B(1,:)=[];
B(:,4)=[];
n=length(A);
fori=1:n-1
forj=i+1:n
if strcmp(B(i,1),B(j,1))&& strcmp
(B(i,2),B(j,2))&& strcmp(B(i,3),B(j,3))
A(i)=A(i)+A(j);
A(j)=0;
end
end
end
C=all(A==0,2);%找到标记过重复的行返回索引行向量
A(C)=[];
B(C,:)=[];
B(:,2)=[];
xlswrite(data_path,D,2);
xlswrite(data_path,B,2,′A2′);%存储新的数据
xlswrite(data_path,A,2,′C2′);
利用IBM SPSS Modeler数据分析软件得到K-Means后进行Apriori关联规则,经过多次尝试,迭代次数为100,K=4的时候聚类[16]效果最佳。具体流程如图2所示:
聚类后对四类数据进行分析发现总共有四类读者,图3为每一类读者占总借阅量的百分比。体现借阅量与读者类型的一个关系,主要代码如下:
A1=xlsread(data_path,1);
A2=xlsread(data_path,2);
A3=xlsread(data_path,3);
A4=xlsread(data_path,4);
J1=sum(A1(:,1));
J2=sum(A2(:,1));
J3=sum(A3(:,1));
J4=sum(A4(:,1));
J=J1+J2+J3+J4;
G1=J1/J
G2=J2/J
G3=J3/J
G4=J4/J
y=[G1G2G3G4];
bar(y,0.5);
gridon;
S={′第一类总数′,′第二类总数′,′第三类总数′,′第四类总数′,′第一类比例′,′第二类比例′,′第三类比例′,′第四类比例′}
T=[J1J2J3J4G1G2G3G4]
xlswrite(′导出.xls′,S,1,′A1′);
xlswrite(′导出.xls′,T,1,′A2′);
xlabel(′读者类型′),ylabel(′总借阅量比例′);
title(′读者类型与借阅量关系′);
saveas(gca,′读者类型与借阅量′,′png′)
利用K-Means算法根据2012年至2019年读者类型与借阅量的聚类状态,以上分析了每类读者的借阅趋向,C执行的结果即为四类读者都会去借的书的类型,通过分析发现四种读者中每一类读者都会去借阅′I′、′O′类图书,主要代码如下:
[AB1]=xlsread(data_path1,1);
[AB2]=xlsread(data_path1,2);
[AB3]=xlsread(data_path1,3);
[AB4]=xlsread(data_path1,4);
D1=B1(:,2);
D2=B2(:,2);
D3=B3(:,2);
D4=B4(:,2);
C1=intersect(D1,D2);
C2=intersect(D3,C1);
C3=intersect(D4,C2)
所用到的书的类别执行结果为14种,代码如下:
[AB]=xlsread(data_path,3);
C=B(:,2);
n=length(unique(C))-1;
str=[′书的类名一共有′,num2str(n),′种′];
disp(str);
执行结果
3 读者数据挖掘结果分析
本次研究主要考虑到高校新校区搬迁过程中大部分图书需要搬迁至新校区,但老校区依然有预留院系情况,本次以延安大学搬迁预留学院为例进行数据分析,以此数据为依据,研究预留读者的兴趣书,为其合理留书保障读者的需求。延安大学图书馆此次搬迁过程老校区预留院校为化工学院、医学院、生科院、教科院。相关预留专业有临床医学、麻醉学、医学检验技术、医学影像学、过程装备与控制工程、化学、化学工程与工艺等专业。共有相关数据229条。由于这部分读者数据不多,为了正确分析每一类数据,这部分数据并未去除5以内的数据。
首先按照上述方法经过多次尝试K=3聚类效果最好,对每一类读者的概率统计后分析,部分代码如下:
A1=xlsread(data_path,1);
A2=xlsread(data_path,2);
A3=xlsread(data_path,3);
J1=sum(A1(:,1))
J2=sum(A2(:,1))
J3=sum(A3(:,1))
J=J1+J2+J3;
G1=J1/J
G2=J2/J
G3=J3/J
y=[G1G2G3];
bar(y,0.5);
gridon;
执行结果如下:
J2=25424
J3=25229
G1=0.43720764863393
G2=0.28247947290646
G3=0.28031287845961
每一类读者占总量的比例如图4所示,通过K-Means算法进行聚类,将读者按照借阅量规律分为三类,第一类借阅量总数为39350,占总借阅量的43.72%;第二类借阅量总数为25424,占总借阅量的28.25%;第三类借阅量总数为25229,占总借阅量的28.03%;借阅总量达90003。
按照分析这部分数据以后,书类名一共有11种,专业一共有26种.
在第一类中,读者倾向于借阅I、K、H、D、T、G大类的图书,其中医学检验技术占的最多,其次是生物技术、应用化学、麻醉学、医学影像学等。该类读者对文学类、历史类、工业技术类、政治法规等图书更感兴趣。
在第二类中,读者倾向于借阅K、D、O、H、I、J大类的图书,其中园林专业占的最多,其次是生物技术、医学检验技术、生物科学、临床医学等。该类读者对历史、地理类、政治法律类、数理科学和化学类、文学类等图书更感兴趣。
在第三类中,读者倾向于借阅T、I、F、O、G、K大类的图书,其中能源化学工程专业占的最多,其次是临床医学、化学工程与工艺、护理学等。该类读者对工业技术类、文学类、经济类等图书更感兴趣。
以上分析了每类读者的借阅趋向,通过分析发现三种读者中每一类读者都会去借阅′G′、′H′、′I′、
′K′、′T′类图书,虽然这几类图书与专业联系性不大,但是读者都会去借阅。综上所述此次搬迁过程中预留的四个学院相关的专业,除了相关的专业书外还需要预留的图书类型有历史类、地理类、政治法规类、工业技术类、文学类等书籍。
4 结束语
本文通过K-means和Apriori算法对延安大学近七年的读者借阅信息进行采集、处理、分析。首先以所有读者为研究对象对全部读者数据挖掘分析,其次根据本次搬迁过程中预留专业进行细致分析,最终得出结论,为高校图书馆纸质图书搬迁过程中预留部分院系图书资源分配方面提供有力数据依据,提高了图书利用率。