基于FP—Growth算法的高校图书馆数据分析与对策研究

2018-10-29林晓霞刘敏杨晓东

软件导刊 2018年8期

林晓霞刘敏杨晓东

摘要：高校图书馆数据日益增加，为了更好地利用海量图书馆数据，加强图书馆自身建设、满足读者需求，基于山东科技大学图书馆数据，利用FP-Growth算法进行学科间关联分析、借阅图书分布分析、借阅量分析及图书流通量分析，并提出相应对策。结果表明，基于FP-Growth算法对图书馆数据进行关联分析，可以及时发现隐藏的规则和信息，为图书馆建设提供决策支持，提高图书利用率，更好地满足读者需求。

关键词：

关联规则；FP-Growth算法；高校图书馆；流通量

DOIDOI：10.11907/rjdk.181994

中图分类号：TP391

文献标识码：A 文章编号文章编号：1672-7800（2018）008-0198-04

英文摘要Abstract：With the increasing number of data in university libraries， in order to make better use of the huge data to strengthen the library construction and meet the needs of readers. Based on multi-dimensional data of Shandong University of Science and Technology library， this paper uses the FP-Growth algorithm to conduct the association analysisbetween the disciplines， borrowing book distribution analysis， borrowing volume analysis and book circulation analysis， and proposes corresponding countermeasures. The results show that the correlation analysis of library data can discover existing rules and information in time， provide decision support for library construction， increase the utilization rate of books and better meet readers' needs.

英文關键词Key Words：association rules；FP-Growth algorithm；university library；liquidity

0 引言

随着信息化的高速发展，高校图书馆资源日益增多，读者需求不断提高。目前，国内外高校图书馆为了加强自身建设，更好地满足读者需求、辅助教学科研，采用关联规则技术对图书馆数据进行分析。关联分析技术能够反映读者需求及目前图书馆存在的问题，从海量数据中挖掘隐含的规则和信息[1-4]。

国外较早把关联分析技术应用于图书馆数据分析。如库伯[5]对加州大学数字图书馆使用记录进行分析，掌握了读者行为差异；Kovacevic 等[6]对读者搜索历史进行分析，提出高校图书馆个性化推荐服务。Ahmad[7]通过对图书馆事务日志数据分析，挖掘了影响读者行为的因素。国内2004年以来开始将关联分析应用于高校图书馆如徐淑琴[8]在对图书馆数据分析的基础上，明确了读者阅读倾向，并提出了相应的采购策略；侯蕾[9]通过对山东大学医学图书馆图书借阅数据进行统计分析，掌握了读者阅读趋向，提高了读者服务质量；李宏运[10]基于FP-Growth算法对枣庄学院图书馆管理系统进行分析，提出了优化馆藏的建议。以上研究虽然一定程度上改善了图书馆建设，但目前还没有较全面的研究。

本文将关联规则技术与高校图书馆建设工作结合，运用FP-Growth算法从多维角度分析图书馆数据，通过发现学科间的规则、图书分布分析、借阅量分析、流通量分析等，为图书馆工作人员提供决策建议，更好地发挥高校图书馆在高校中的作用，满足读者需求。

1 FP-Growth算法

FP-Growth算法是一种关联规则算法[11-14]，2000年由Han等学者提出，与其它关联分析算法相比，该算法具有多种优点，目前被广泛地运用于多个领域。

1.1 相关概念

频繁项集：如果项集的支持度超过用户给定的最小支持度阈值，则称该项集是频繁项集[16-17]。项目个数为k，则该项集为k-项集。

关联规则由支持度和置信度共同约束，支持度和置信度越高，关联规则越强。

1.2 算法步骤

FP-Growth算法主要有两个步骤：

（1）构造频繁模式树（Frequency Pattern-Tree， FP-Tree），扫描数据库D，计算每一项支持度。如果该项支持度大于设定的最小支持度，则把该项作为频繁项保留在数据库中，并且按支持度大小顺序排列，再分别读取每一条事务并映射到 FP-tree的路径上，如此重复，直到数据库中的每条事务都在FP-Tree上形成完整路径，FP-Tree即构造完成。为了方便遍历FP-Tree，创建项头表。

（2）挖掘FP-Tree中所有频繁项集。该操作是算法核心。在挖掘FP-tree 时，按照叶子结点到根结点的顺序搜索FP-tree，并且依次为结点创建条件模式基，根据创建的条件模式基构建条件模式树，挖掘频繁模式，进而得到频繁项集。

FP-Growth算法步骤如图1所示。

1.3 FP-Growth算法优点

（1）与其它关联规则技术相比，FP-Growth算法通过FP-tree 数据结构对原始数据进行压缩，只需扫描原始数据库两遍，运行效率较高。

（2）不需要产生候选集，减少了产生和测试候选集需要的时间。

（3）FP-Growth算法性能比较稳定，即使最小支持度降低，所需时间也不会发生突变性增加，而且该算法对于不同长度的规则有很好的适应性。

（4）与其它关联规则算法相比，FP-Growth算法在硬件的开销小于其它的算法。

本文根据具体情况设定支持度和置信度，得到满足最小支持度和最小置信度的规则，即得到的定性定量信息对图书馆建设工作给予一定的数据支持，使高校图书馆加强自身建设，更好地服务于高校教学科研工作和读者。

2 基于FP-Growth算法的高校图书馆数据分析及对策

本文选取山东科技大学图书馆的借阅数据，将数据范围尺度定位于7 197 名学生的借阅记录，数据时间跨度为2012年9月-2017 年7月，共100 986条借阅记录，涉及283 568本图书。校图书馆数据包括读者信息表、借阅记录表、图书信息表，本文基于读者维、图书维、借阅维3个维度挖掘隐含的规则和信息。

中图分类法是我国图书馆普遍采用的分类法[18-20]，共5个基本部类、22个大类，每大类分别用一个大写字母表示，根据图书不同属性，每大类下又分成若干类。本文只保留分类号的第一位，进行22类图书中存在的隐含关系的关联分析。

将读者信息表、借阅记录表、图书信息表进行处理。读者信息表的专业和学院信息对关联分析非常重要，因此对单位进行空值检测，填充空缺值。剔除借阅记录表中对分析无用、冗余的数据，删除异常值，简化数据表以提高运算速度。同时检测图书信息表中的中图分类号，填充空缺值。根据需要，将各表进行数据集成，再从多方面对山东科技大学图书馆数据进行关联分析。

2.1 学科关联分析

关联分析需要设置最小支持度和最小置信度，经反复测试，设置最小支持度为30%，最小置信度为80%，获得图书间的关联规则，部分规则如表1所示。

从表1可以看出，各图书类之间有隐含的关联关系，如在置信度最高的一条规则中：[A，H]→[G]的支持度为67.8%，借阅A（马克思主义）与H（语言）的同时还借阅G（文化）类图书，置信度为95.5%，即A（马克思主义）与H（语言）、G（文化）三类学科中存在很强的关联关系。[T]→[G]的支持度为14.1%，即借阅T（工业）的读者还会借阅G（文化），说明该类学科间也存在关联关系。

教研部门可据此找到学科下一步发展方向。同时，图书馆管理人员可以把关联性强的图书放在同一区域或同一书架上，既方便图书馆工作人员对图书进行管理，又可方便读者借阅。

2.2 被借阅图书分布分析

对借阅记录数据表进行关联分析，统计各类图书被借阅次数，关联分析结果如图2所示。

由图2可以看出，T类书籍借阅最多，借阅次数高达25 367次，其次是I类、F类，此三类是读者频繁借阅的图书种类。最少借阅的是V类、U类、S类，被借阅次数非常少。可以发现目前高校图书馆存在图书借阅严重不匀的问题。学生借书具有专业性，基本上以借阅专业类图书为主，所以图书借阅种类与本校区专业也有一定关系，本校区有信息系、经管系、文法系，因此T类、I类、F类图书借阅较多。

在图书采购时，图书馆应与本校专业相结合，综合各专业教学计划，精准定位预购置的图书，加大T、I、F三类图书采购比重。除了本专业课程必备书籍外，学生还借阅大量和考试相关的资料，比如计算机等级考试、四六级英语考试、会计考试、司法考试等，因此图书馆还可适当增加此类资料的采购。

2.3 借阅量分析

借阅量能够反映图书馆的作用，对山东科技大学2013-2016年的图书借阅量进行统计分析，分析结果如图3所示。

根据分析结果可以看出， 2013年借阅量达到24 758册，2014年借阅量为22 754册，2015年为19 083册，2016年的借阅量仅14 441册，2016年纸质图书的借阅量只有2013年的58%，图书借阅量呈逐年下降趋势。

为提高图书馆纸质文献借阅率和读者阅读兴趣，高校图书馆应积极采取措施，改善服务水平，提升读者满意度，增强读者到馆借阅文献的意愿，改善借阅量逐年下降的现状。

2.4 图书流通量分析

图书馆馆藏中存在很多未被借阅的图书，造成严重资源浪费。未被借阅图书比例如图4所示。

由图4可以发现很多图书未被借阅，其中，T、F、I类未被借阅的书最多，资源浪费非常严重。由于技术更新换代较快，入藏图书由于陈旧过时或利用率低等原因失去了使用价值。比如，T类图书技术更新换代很快，图书很容易过时，导致该类图书利用率极低，所以该类图书资源浪费最严重。

图书馆要与时俱进，及时补充新书、更新图书、及时剔除老、旧、残及过时书籍。相对于文科类图书，如I（文学）类，往往具有很大的收藏价值，不易过时，可以在馆藏中加以保留。

3 结语

本文以读者借阅记錄、图书信息、读者信息等多维数据为基础，利用FP-Growth算法发现隐含的关联规则，找出目前图书馆存在的隐含问题，并提出相应对策，对加强建设图书馆，满足读者需求具有重要意义。但在图书挖掘时，只精确到一级类目，没有细分图书分类，在后续的研究工作中将进一步提高挖掘精度，更精确地为高校图书馆分析隐含的的问题，提出更切实可行的建议。

参考文献：

[1] 崔妍，包志强.关联规则挖掘综述[J].计算机应用研究，2016，33（2）：330-334.

[2] 张玺.数据挖掘中关联规则算法的研究与改进[D].北京：北京邮电大学， 2015.

[3] 陈淑英，徐剑英，刘玉魏，等.关联规则应用下的高校图书馆图书推荐服务[J].图书馆论坛，2018，38（2）：97-102.

[4] SAHOO J， KUMAR DAS A， GOSWAMI A. An efficient approach for mining association rules from high utility itemsets[J]. Expert Systems With Applications， 2015，42（13）：5754-5778.

[5] COOPER M D. Usage patterns of a web-based library catalog[J]. Journal of the American Society for Information Science and Technology， 2001，52（2）：137-148.

[6] KOVACEVIC A. Using data mining to improve digital library services[J]. Electronic Library， 2010，28（6）：829-843.

[7] AHMAD P， BROGAN M.The E-book power user in academic and research libraries： deep log analysis and user customisation[J]. Australian Academic & Research Libraries， 2014，45（1）：35-47.

[8] 徐淑琴.基于读者阅读倾向的高校中文图书利用统计与分析——以宁夏师范学院图书馆为例[J].图书馆理论与实践，2014（10）：26-28.

[9] 侯蕾.基于借阅数据分析的读者阅读倾向及服务对策[J].图书馆学刊，2012，34（12）：90-92.

[10] 李宏运.关联规则挖掘在图书馆管理中的应用[D].上海：华东师范大学，2009.

[11] ZENG Y ，YIN S Q，LIU J Y，Research of improved FP-growth algorithm in association rules mining[J]. Scientific Programming， 2015，3：9-16.

[12] 娄书青.并行FP-growth关联规则算法研究[D].长沙：电子科技大学，2016.

[13] 厍向阳，张玲.基于Hadoop的FP-Growth关联规则并行改进算法[J].计算机应用研究，2018，35（1）：109-112.

[14] WANG C H，LI Z，YU X. Using fuzzy FP-Growth for mining association rules[C].2017 International Conference on Organizational Innovation， 2017：1-5.

[15] 雷雪麗.FP-growth数据挖掘算法的研究[D].西安：西安理工大学，2016.

[16] 姜云龙. 基于数据挖掘的高校大学生读者阅读趋向研究[D].长春：东北师范大学，2016.

[17] 章志刚，吉根林.一种基于FP-Growth的频繁项目集并行挖掘算法[J].计算机工程与应用，2014，50（2）：103-106.

[18] 孙毅芳.基于数据挖掘的图书馆推荐系统的设计与实现[D].济南：山东大学，2017.

[19] 石雨晴.基于中图-专业分类映射的高校图书馆图书推荐方法的研究与实现[D].沈阳：辽宁大学，2017.