APP下载

聚类分析算法在图书管理系统中的应用分析

2017-11-06彭燕

卷宗 2017年29期
关键词:图书馆

彭燕

摘 要:文章首先对聚类分析算法的含义进行了简明扼要的概括,并对“聚类”、“簇”等聚类分析算法涉及的重点词汇进行了说明,然后又介绍了聚类分析算法——K-均值算法,和以该算法为基础所延伸出的改进算法,最后通过理论与实际相结合的方式,以圖书、读者这两个图书管理工作主体为切入点,对图书管理系统中聚类分析算法的实际应用进行了分析,希望本文所讨论的内容能够在某些方面为图书管理工作的开展提供参考或帮助。

关键词:图书馆;聚类分析算法;图书管理系统

随着科学技术的进步,各图书馆在对图书进行管理时应用的系统与之前相比也出现了相应的变化,将聚类分析算法应用其中已成为大势所趋。通过实践能够发现,在图书管理系统中对聚类分析算法进行合理应用,不仅能够对读者前往图书馆的主要目的加以了解,还能够以读者需求为导向,对服务工作进行相应的优化,除此之外,在采购图书资源时,工作人员也具有了更加科学、系统的参考依据。由此可以看出,本文所研究课题具有一定的现实意义。

1 聚类分析算法的概述

作为数据挖掘领域应用频率极高的技术之一,聚类分析计算的关键在于“聚类”。聚类指的是将抽象或是物理对象集合转化为由类似对象组成的簇的全过程;对作为数据对象集合而存在的簇而言,同一簇所包含的对象往往存在高度的一致性,不同簇所包含的对象则具有高度相异性,这是需要人们准确掌握的内容[1]。只有对上文所提及的内容进行了解和掌握,才能准确、科学的应用聚类分析算法,也才能保证对数据分布特征进行深入的挖掘和掌握。

现阶段,聚类分析算法已经被广泛应用在诸多领域中,例如,模式识别、图像分割、数据挖掘等。在商务领域,聚类分析法主要被用于对客户信息进行分析,保证人们能够发现潜在客户群体,并在购买模式的辅助下对客户群体具有的特征进行刻画。除此之外,聚类分析算法还能够被应用在对挖掘算法进行预处理的过程中,例如,人们可以应用该法对某些数据进行聚类,然后再以所得出结果为基础,开展相应的研究或是处理工作,保证工作质量和效率均能够得到应有的提升。

2 聚类分析算法——K-均值算法的概述

2.1 K-均值算法

作为聚类分析法中相对典型的划分方法,K-均值算法的本质为迭代聚类算法,通过在迭代过程中对簇集成员进行不断移动的方式,保证理想簇集的得出。通过实践能够发现,K-均值算法具有的优势主要体现在简单和快速这两个方面。在应用该法展开计算时,需要将对象划分为n个簇,并保证每个簇所包含对象具有高度相似性,另外,不同簇所包含的对象应当具有高度相异性。但是通过实践发现,K-均值算法受初始值影响较大,也就是说,如果初始值不同,运行效率也会随之发生变化。因此,想要保证运行效率的有效提升,相关人员以K-均值算法为基础提出了相应的改进算法。

2.2改进算法

通过对K-均值算法的应用过程进行分析能够发现,如果能够在数据分布相对密集的区域中心处对初始聚类中心进行选择,那么,位于该中心周围的数据,便能够被划分至最近类当中,聚类收敛的速度自然能够得到提升,迭代次数也会因此而减少。也就是说,以数据分布特点为主要依据,对初代聚类中心进行选取是十分重要的。想要保证针对数据分布情况所开展分析工作的全面性和科学性,必然需要花费更多的时间。根据数据具有的随机分布这一特点可以看出,聚类数据应当位于数据均值周围,除此之外,对数据分布进行评价需要应用到的指标还包括标准差,因此,改进算法和K-均值算法最大的区别体现在对初始聚类中心进行选取的方面,改进算法在选取初始聚类中心时,需要应用到的数据包括均值和标准差。

可根据实际情况在1……n的范围内进行选取[2]。通过实践能够发现,与K-均值算法相比,改进算法在准确率和计算效率方面都具有十分明显的提升,因此,下文所开展研究工作应用的均为改进后的聚类分析法。

3 图书管理系统中,聚类分析算法的实际应用

3.1 图书数据的聚类分析

在应用聚类分析算法对图书进行聚类分析时,需要应用到的数据包括图书流通总次数以及图书当年流通次数,也就是说在开展相关分析工作前,工作人员首先需要对上述数据进行调查。图书聚类分析的结果能够对图书借阅频率的高低进行准确、直观的呈现,工作人员便可以在此基础上对符合图书利用情况、读者需求情况的决策进行制定,并对馆藏资源以及布局加以优化。图书聚类分析步骤具体如下:

3.1.1对数据进行预处理

通过实践能够发现,对数据进行预处理时需要花费挖掘全过程约70%的成本和时间,由此可以看出,想要保证数据挖掘工作的高效开展,关键在于对数据预处理工作的质量和效率进行提升。完整的数据预处理工作分为四个步骤,分别是数据的清洗、集成、转换和消减。

在应用聚类分析法对数据进行预处理时,需要工作人员对数据主要属性进行重点关注,正常情况下,主要属性不应当出现空值的情况,若在实践过程中发现有某些属性出现空值,则需要参考挖掘内容和表的属性,及时对空值进行相应的填充。具体来说,在对图书数据进行聚类分析时,需要应用到的分析属性包括图书流通总次数以及图书当年流通次数,如果图书馆中存在某些从未被读者借阅过的图书,那么这两个字段就为空值,在实际处理的过程中,工作人员应当用0对空值处进行填充,保证工作的顺利进行[3]。除此之外,如果需要挖掘的数据分散于数据库的不同表内,工作人员还需要对数据库字段进行整合,并形成完整的表,这样做的目的在于保证运行效率能够得到一定程度的提高。

3.1.2应用聚类分析算法对图书数据加以分析

在对图书数据进行聚类分析前,工作人员首先需要对聚类个数进行设置,在本文中,聚类个数被设置为3,分别代表具有较高利用率、中等利用率和较低利用率的图书,然后再应用上文所介绍的改进算法,针对图书借阅次数展开聚类挖掘工作,得出相应的聚类情况和统计结果。此时,工作人员便可以将聚类分析结果作为主要依据,从3个聚类中对图书群体存在的共性特征进行分析,明确对图书利用率产生影响的主要因素,为后续关联规则的挖掘工作奠定良好基础。endprint

3.2 读者数据的聚类分析

在应用聚类分析算法对读者进行聚类分析时,需要应用到的数据为读者对图书进行借阅的次数,也就是说,工作人员在掌握读者借阅次数后,便可以开展相应的聚类分析工作。

3.2.1对数据进行预处理

应用聚类分析法对读者数据进行聚类分析的步骤与图书数据分析相同,本文不再赘述,具体参考上文。

3.2.2应用聚类分析算法对读者数据加以分析

在对读者数据进行聚类分析前,工作人员同样需要对聚类个数进行设置,本文将聚类个数设置为3个,分别代表了活跃读者、一般读者以及不活跃读者,然后再通过对改进算法加以应用的方式,针对读者所借阅图书的数量展开聚类挖掘工作,得出相应的聚类情况和统计结果。通过对计算结果进行分析能够发现,不同类型读者的图书利用情况存在着十分明显的差别,此时,工作人员便可以对原有的借阅标准进行改进,增加活跃读者能够借阅的图书数量,减少不活跃读者能够借阅的图书数量,这样做不仅能够对不同读者具有的需求进行最大限度的满足,还可以在一定程度上使图书利用率得到提升。

除此之外,工作人员还可以将统计结果作为主要依据,针对不同读者制定相应的服务计划,对活跃读者具有的借阅习惯进行分析,并推荐符合活跃读者需求的图书;对不活跃读者则可以进行相应的问卷调查,了解导致他们较少借阅图书的原因和需求,在此基础上对馆藏资源进行优化,这样做能够使不活跃读者的借阅次数得到相应的增加。

4 结论

通过对上文所叙述的内容进行分析能够看出,文中所应用聚类分析算法是以K-均值算法为基础所延伸出的改进算法。将改进后的算法应用在对图书进行管理的系統中,能够对图书数据以及读者数据进行准确、高效的聚类分析,工作人员则可以通过对统计结果进行分析的方式,了解图书馆内现有图书的利用率以及读者的需求和爱好,再以此为基础开展相应的图书管理工作,则可以取得事半功倍的效果。

参考文献

[1]丁丽,詹林,孙高峰,马健.数据挖掘技术在高职院校图书管理中的应用[J].绥化学院学报,2013,3306:121-125.

[2]肖健,刁洪祥.聚类分析算法在数字图书馆中的应用研究[J].当代图书馆,2013,03:14-17.

[3]张卫东.基于多维度属性权重优化的FCM聚类算法的图书管理数据聚类研究[J].农业图书情报学刊,2016,2806:50-57.endprint

猜你喜欢

图书馆
去图书馆坐坐
图书馆
图书馆里送流年
夜间的图书馆
图书馆里的小惊喜
图书馆 Library
图书馆