关联规则数据挖掘技术在图书管理中的应用
2014-06-20蒋冬生
摘 要:本文以仪征技师学院图书馆数据为例,通过对借阅信息的数据挖掘,生成一些且有指导意义的信息,证明算法的可行性。
关键词:关联规则;数据挖掘;图书管理
数据挖掘技术在商业领域中的成功应用,给图书馆带来了很大的启发,图书馆的特点是巨大的图书量,不同年龄、不同专业的读者,研究领域也不同。这使读者对图书馆提出了不同特性的个人要求。如何满足读者的需求,提高读者满意度,优化图书馆的馆藏,合理对图书进行布局,从而更好地为读者服务,是一个值得研究的问题。
数据挖掘技术的运用可以有效的帮助图书馆逐步规范管理流程,帮助图书馆扩大业务范围、提高服务水平、加强内部管理。
1 数据挖掘任务
采用关联规则对图书流通数据进行挖掘的任务主要是通过对读者借阅历史信息的分析,发现两方面的规律性。
(1)发现读者的特性与阅读习惯的联系。检索读者不同的特征,如性别、年龄、专业等方面对借阅图书的影响,最后发现有什么特点的读者往往借什么类型的图书,这对以后的读者借阅具有很好的指导意义。
(2)发现不同书籍在图书库中的联系。例如,如果半数以上的的读者借阅书籍A,往往也会随带借阅书籍B,从这个现象中我们可以统计书A与B间的借阅关系,当出现下一个读者也借阅A时,管理员可以根据统计结果推荐书B。并且在书籍管理时,管理员可以对书A和书B的集中放置,合理安排,从而给予借阅者最直接的指导,此举对提高馆藏书的借阅量也大有裨益。
2 数据处理
根据数据挖掘对数据的需要,提取 2011年第二季度(4~6月)内所有仪征技师学院读者借阅的信息。读者借阅的基本数据是通过读者信息表、图书信息表、借阅历史表中数据进行汇总得到的,具体格式包括Readers(读者信息表)、Books(图书信息表)、Book_Lend(借阅历史表结构)三类,Readers主要参数有R_Code(读者编号)、R_Name(读者姓名)…,Books主要参数有B_NO(索书号)、B_Name(图书名称)…,Book_Lend主要参数有Lend_Date(借书日期)等。
(1)数据的选取
这里将读者信息表、图书信息表、借阅历史表三个表格合并成一个读者借阅事务表(Reader_T),然后放入SQL Server中进行导入和提取,然后使用JDBC-ODBC桥将数据导入到图书馆数据挖掘系统里。
(2)数据的预处理
通过选取就得到了初步的目标数据,但里面还含有一些缺失的、不完整的数据,而且有些数据可能存在着前后不一致的问题,即有噪声,要进一步进行加工处理。
(3)数据转换
数据转换是对数据进行标准化处理,首先找到特征的数据表示,然后将数据转换或合并成一个适合数据挖掘的描述形式。数据转换包括以下内容:平滑处理、聚集处理、抽象处理、标准化处理。
3 实际挖掘过程
由于我们学院的图书馆是根据《中国图书馆分类法》分类的。因此可以只选取表3-1中借阅图书的书号属性,再对读者借阅信息表进行挖掘,就可挖掘出图书的22个基本大类之间的隐性关联情况和各类图书的使用情况。将其他不用的属性删除,只保留读者编号(学号)及借阅图书种类属性,对源数据表进行修改,使它由多维的数据表变成单维的数据表。
最后,我们将读者学号这一参数进行删除,就可以得到单维的读者借阅信息数据表,根据实际情况,我们将最小支持度设置为30%,最小置信度设置为80%,用FP-growth算法来对该表进行挖掘。
4 读者借阅关联规则挖掘算法
由于读者可以多次借阅,每次借阅的数量都可能不同,为了分析读者的借阅关系,本文以借阅数据表里最早的借阅时间为开始时间,最近的一个借阅结束时间为分析的截止点,在分析时间区间里以两个星期为一个时间段,对于一个读者在一个时间段内所借的不同图书为一个事务,分析时间区间里所有读者的借阅信息组成的事务为挖掘的事务数据库DBLend,主要参数如下:R_Code(读者借书编号)、Period_id(借阅时间段)、B_NO(索书号)。
通过对DBLend的挖掘就可以得到有关借阅信息关联规则。挖掘借阅信息关联规则的算法:算法:借阅信息关联规则挖掘,输入:DBLend 、minsup、minconf,输出:借阅信息关联规则。
Open DBLend alias DBL
FrequentItemSet fis=FP-Growth(DBL,minsup) //用FP算法得到频繁项集
RegualtionRule rr=generate_rule(fis,minconf) //计算置信度,得到关联规则
Return rr
在生成关联规则后,可以根据DBLend里的B_No找到对应图书的有关信息,通过B_No的上卷操作可以得到有关图书的类别信息,也可以用于对学科之间的关联分析。
5 挖掘结果及结论
对借阅信息表挖掘最大频繁项集,从挖掘的结果可以看出,T(工业技术)、I(文学地理)、E(军事)等几类图书是借阅较为的种类,支持度都超过 48%。T类图书借阅量之所以这么高,这与仪征技师学院的自身特点有关,因为我院主要的两大专业就是机电、汽车,而男生比例也比女生要高,所以,E类借阅量也高。因此在图书馆中,这五类图书间有很强的关联度。所以在对本学院图书馆的藏书进馆时,可以考虑将以上五类图书集中管理,这样无论从读者查找还是从管理人员管理的角度来说都较为合理。同时也可加大这五类图书的采购量。
参考文献:
[1]蒋冬生.数据挖掘技术在中职院校图书管理中的应用研究.[D].扬州大学,2013
[2] (美)Jiawei Han 等著,范明等译.数据挖掘:概念与技术(第3版). 机械工业出版社2012.