基于数据挖掘技术的专业图书书目受众定位研究

2016-01-13蔡晓君

安庆师范大学学报(自然科学版) 2015年2期

关键词：关联规则数据挖掘图书馆

蔡晓君

(泉州师范学院图书馆，福建泉州 362000)

基于数据挖掘技术的专业图书书目受众定位研究

蔡晓君

(泉州师范学院图书馆，福建泉州 362000)

摘要：采用数据挖掘技术，对图书馆管理系统中读者借阅记录进行深入分析和挖掘，建立了读者阅读书目模型，利用模型推荐与读者借阅行为密切相关的阅读书目。实例证明，该模型具有可操作性，可以激发读者借阅行为，促使图书馆资源合理地分配，从而提升了图书馆服务质量。

关键词：图书馆；模型；数据挖掘；关联规则

随着信息时代的到来，数据呈爆炸式增长，海量的资源使图书馆用户陷入了“资源迷茫”。作为客观主体，图书馆用户在选择资源时，只能凭借自身的经验、个人的兴趣爱好，选择的结果存在着很大的偏差。另一方面，用户在利用图书馆资源过程中会产生诸如用户基本信息、读者借阅信息等有价值的数据，然而这些数据却没有得到充分有效地利用，仅被收集存储在图书馆管理系统中。图书馆正陷入“数据丰富，知识匮乏”的矛盾中。

数据挖掘技术作为一种新兴的知识发现手段，已经广泛应用于商业销售、信息管理以及知识发现等领域，发挥着越来越重要的作用。将数据挖掘技术应用于图书馆读者阅读书目受众定位上，通过收集、整理读者的借阅行为，建立关联分析模型，主动向读者推荐与其以往借阅行为相匹配的图书阅读书目，可以激发读者的借阅行为，有效地引导读者进行深层次地阅读研究，从而提升图书馆服务质量。

1数据挖掘基础理论

1.1数据挖掘

数据挖掘(Rata Mining，简称RM)，又称数据库中的知识发现，就是从大量的数据中发现出人们事先不知道的但又是潜在有用的信息和知识的过程[1]。发现的过程是由若干挖掘步骤所组成，而数据挖掘阶段只是其中的一个主要步骤。整个知识挖掘的主要步骤有[2]

数据清洗：清除噪声数据和与挖掘无关的数据。

数据集成：通过某种方式将多种数据源进行组合。

数据转换：将各种不同类型的数据转换为易于进行数据挖掘类型的数据。

数据挖掘：利用智能的方法提取数据的模式和规律知识。

模式评估：对挖掘出的各种模式的知识进行评价，筛选出有价值的知识。

知识表示：利用各种可视化的手段对筛选出的知识进行表示，转换成人们易于理解的知识。

1.2关联规则算法

关联规则是形如X⟹Y,解释为“满足X中条件的数据库元组也满足Y中的条件”。通常用支持度(support)和置信度(confidence)两个概念来理化事物之间的关联规则。支持度描述了两个项目集合同时发生在所有事务记录中出现的概率，表示为Support(X⟹Y)=P(X∪Y)。置信度描述了在X发生的情况下，Y发生的条件概率,表示为Confidence(X⟹Y)=P(Y︱X)。支持度是对关联规则重要性的衡量，支持度说明了这条规则在所有事务中有多大的代表性，支持度越大，关联规则越重要，如果支持度太小，则说明相应规则只是偶发事件，在实践中，偶发事件很可能没有使用价值[3]。置信度是对关联规则的正确率的衡量，如果置信度太低，那么从X就很难可靠地推断出Y来，置信度太低的规则在实践应用中也没有太大用处。有些关联规则的置信度虽然很高，但支持度却很低，说明该关联规则实用的机会很小，因此不重要。

关联挖掘的任务就是要挖掘出数据集中的强关联规则，强关联规则就是指满足用户指定最小支持度(min-support)和最小置信度(min-confidence)的关联规则。强规则X⟹Y对应的项集X∪Y必定是频繁项集，频繁项集(X∪Y)导出的关联规则X⟹Y的置信度可由频繁集X和X∪Y的支持度计算获得。

2读者阅读书目模型的建立

研究读者借阅行为发现，读者在借阅图书时具有很强的偏向性，表现在读者借阅某本图书时，更渴望阅读了解同类型的图书。比如读者借阅《数据挖掘概念与技术》时，对《大数据时代》可能更感兴趣，两本图书同时借阅的可能性非常高，且借了《数据挖掘概念与技术》，对后者的需求也非常大。因此，对读者借阅行为进行深层次的挖掘，发现强关联规则，找出读者感兴趣的图书推荐给读者,具有很大的意义。本文运用系统学建模方法，通过设定模型的应用目的，分析模型应用环境和约束条件、影响因素以及变量的相关性完成模型的构建。

构建模型的目的，其一是找出强关联规则的图书组合，通过调整服务，提高读者用户的黏性，防止读者流失，确保读者的保有量；其二是筛选出未被图书组合覆盖的读者用户群体，分析该读者用户群体的阅读行为和阅读倾向，发现潜在的用户群体，通过调整图书馆服务，发展新的读者。

模型的应用环境，模型的构建目的是为了提高高校专业图书的借阅量和有效的流通量，达到读者和专业图书间的良性循环，因此应用的环境就是高校的专业图书馆。

模型的约束条件，约束条件是模型应用的条件和基础。图书馆是否建立独立的各专业类图书区域以及各个专业类藏书水平，包括各个专业类图书的细化分类量是否丰富以及各个细化分类下图书的藏书规模程度，分类量和藏书规模程度愈高，数据就越精准越具有区分度；图书馆借阅管理系统中数据库的管理水平，这里的管理水平指读者信息与读者借阅信息的丰富程度，读者的个人信息及其相关借阅信息越丰富越翔实，那么可供数据分析挖掘的材料才真实有效；读者良好的阅读借阅行为习惯，读者的借阅行为是否为自发性或需求驱动性，这种行为同读者个人的信息内容的匹配性约束影响了模型运用的真实性。

模型的影响因素及变量的相关性，从图书馆角度分析的影响因素有图书馆规模、图书馆藏分布情况、各专业类馆藏图书数量和质量、图书出入库管理水平、图书开放借阅有效借阅时间等；从读者的角度分析的影响因素有年龄、性别、所学专业、专业年级、学历层次、图书借还周期、每次借阅图书数目、借阅各专业类图书数量等；从图书角度分析的影响因素有图书摆放位置、图书作者、图书磨损程度、图书的页码厚度、图书尺寸、图书出版年份、图书内容的专业性程度、图书阅读的难易度等。

下面给出该读者阅读书目定位模型的分析计算模型：

1) 设置最小支持度Smin和最小置信度Cmin。

2) 对读者借阅行为进行关联分析，分析计算出各种图书组合的支持度S和置信度C。

3) 筛选出支持度满足于最小支持度Smin，置信度满足于最小置信度Cmin的强关联规则X⟹Y。

4) 从读者样本数据中定位出借阅了图书X，而未借阅图书Y的用户群体R1。

5) 发现潜在的用户群体，找出均未借阅图书X，Y的用户群体R2。

6) 根据不同的用户群体，制定不同的图书推荐策略：针对用户群体R1，改变该群体的借还流程，在其借还图书X时，向其推荐图书Y；对于用户群体R2,发现其图书组合的支持度满足于给定的最小支持度Smin，但置信度没能满足给定的最小置信度Cmin，说明X⟹Y图书组合被用户群体接纳的可能性较高，用户有借阅X，Y的潜在可能，但其关联强度不高，因此需要通过改变服务策略，增强其关联强度。

3实例分析

本文所运用的实例数据分析除给定某一具体应用环境或约束条件以外，其余的应用环境或约束条件均假设为同一水平。给定应用环境为某普通全日制本科高校图书馆，给定的约束条件为计算机专业类图书，读者为大三年级本科在校生、借阅月平均10本以上、非首次借阅图书。

3.1提取和整理数据

数据挖掘的成功很大程度取决于数据的数量和质量。从大量的读者数据中找到与分析问题有关的样本数据子集，这样可以减少处理的数据量，同时样本子集需具有典型的代表性[4]。此外，为了保证数据的完整性和一致性，需对其中存在的噪声数据进行处理。从图书管理系统中抽取5 000条计算机专业的大三读者信息，将其中读者信息中读者属性缺失、借阅活跃度很低或首次借阅图书的读者剔除，不足5 000条记录的再将其补足。同时，取出这5 000名读者的借阅书目。

3.2数据转换

将读者数据和读者借阅数据合并成一张表，该表的记录纬度分别为读者Did、其余纬度为读者借阅图书Bid，读者有借阅该图书为1，未借阅该图书表示为0，具体表现为表2。

表2　读者借阅信息

3.3数据挖掘

设定最小支持度即Smin=4%，Cmin=80%，按照读者阅读书目定位模型的计算步骤，从表3中获得满足最小支持度和最小置信度的强关联规则《Java从入门到精通》⟹《Java面向对象编程》。按照该强关联规则，从5 000名样本群体中筛选出两类用户群体R1，R2，R1={借阅了《Java从入门到精通》，尚未借阅图书《Java面向对象编程》}，R2={《Java从入门到精通》，《Java面向对象编程》均未借阅}。根据不同的用户群体R1，R2采取不同的图书推荐策略。

表3　样本空间计算机专业图书组合频繁项集的支持度和置信度

针对用户群体R1，采取的图书推荐策略为在其归还图书《Java从入门到精通》时，通过图书管理系统主动向用户推荐图书《Java面向对象编程》。统计发现用户群体R1达到1 051人，运行图书推荐策略一个月后，有956人借阅了《Java面向对象编程》，推荐有效率达90.9%，增加了用户的保有量。针对用户群体R2，其与强关联规则产生的图书组合《Java从入门到精通》和《Java面向对象编程》具有很好的匹配性，用户群体R2是潜在的用户群体，具有良好的发展性。图书馆采取的推荐策略为主动推荐，将图书《Java从入门到精通》与《Java面向对象编程》通过邮件将两本图书的相关信息发送给读者。统计发现用户群体R2有1 325人，该类用户群体收到邮件后，有1 171人表示对这两本图书有借阅的意向。

3.4挖掘结果的分析

利用数据挖掘技术建立读者借阅书目模型，找出读者借阅习惯的规律。通过总结这些规律，可以对图书馆资源进行有效合理的分配，改进图书馆服务策略。

1) 增加读者对图书馆资源的兴趣。通过分析读者的借阅记录，发现很大部分读者属于零阅读群体，或者借阅活跃度很低。图书馆需要改变以往坐等读者上门服务的意识，主动地引导读者利用图书馆资源，树立以“读者需求”为中心的服务理念。针对不同的用户群体开展特色服务，如信息推送，根据每个读者的特定需求，进行信息筛选，将资源传递至用户指定的位置，增加读者利用图书馆资源的热情。

2) 优化图书馆管理系统。现有的图书馆管理系统大部分仅向读者提供图书借还功能，因此可以改善和提高传统图书馆管理系统的借还模式，增加图书推荐模块，在借还过程中向读者推荐与读者阅读行为相匹配的阅读书目，刺激读者阅读习惯，有效地增加了单位读者的数据价值以及增加图书馆的借阅量。

3) 合理地改善图书馆馆藏分布。根据对读者阅读习惯进行深层次的挖掘发现，某些分类的图书具有较强的关联性，如计算机类和数学类。借阅数学类的读者，往往对计算机类的图书感兴趣。因此在安排图书分布时，可以借鉴相关图书类别的关联性，适当的调整图书的摆放位置，将具有强关联规则的图书摆放在一起。

4) 提高服务器运算能力。经研究发现，关联分析计算的时间复杂度依赖可被借阅图书的数量，假设图书N本，计算复杂度需N(N-1)，所以数据挖掘的准确性和精确性依赖于计算机的计算能力。因此需改善图书馆硬件环境，配置性能好、速度快、容量大的服务器和磁盘阵列系统。

4模型存在的缺陷和需进一步说明的问题

本文中除给定的应用环境和约束条件外，其余参数均假设为无差异的同水平状态，对于模型的应用效果和计算分析所得结果的准确度存在一定的偏差，比如图书馆规模、馆藏分布情况、读者的阅读欲、图书的磨损程度和页码厚度都会对读者和借阅特定图书的匹配性产生影响，而这部分数据在此模型中无法具体量化作为运算的参数；文中用于计算判断的最小值支持度和最小置信度未能根据具体的计算公式分析得到，而是参照样本空间在所有数据中的比重直接给定，虽然有一定的依据但不够严谨。

模型运用系统论理论分析建立并给定具体的计算方式，通过具体的数据样本空间进行实例的验证，证明了模型具有良好的可行性，得到了实验性成果。模型是否能按照应用环境和约束条件进行普遍性运用，需对模型的泛化性能做进一步研究。模型需具有普遍的适用性和不依赖于具体数据空间的情况下，模型的使用价值才能体现出来，可以通过将模型运用于其他不同专业或不同年级的样本空间进行实例计算分析评估模型的普遍适用性能。

参考文献:

[1] Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].范明,孟小锋,等,译.北京:机械工业出版社,2012.

[2] 刘强.案例数据挖掘中的聚类算法研究[D]. 合肥:合肥工业大学,2010.

[3] 沈斌.关联规则技术研究[M].杭州:浙江大学,2012.

[4] 赵红,王俊英.基于数据挖掘的读者关系管理[J].图书馆工作与研究,2012(01):45-47.

Research on Professional Books Bibliography Audience

Positioning Based on Data Mining Technology

CAI Xiao-jun

(Library of Quanzhou Normal University, Quanzhou 362000, China)

Abstract:Using the data mining technology, this paper makes in depth analysis and mining of readers' borrowing records in the library management system, and establishes the reader reading model. The model recommends the readers professional books bibliography which is closed to the readers' behavior. The example proves that the model is operational and can stimulate readers' borrowing behavior. Also it can promote the rational allocation of library resources so as to improve the service quality of library.

Key words:library, model, data mining, association analysis

文章编号：1007-4260(2015)02-0054-04

中图分类号：TP391

文献标识码：A

作者简介：蔡晓君，女，福建泉州人，研究生，泉州师范学院图书馆助理实验师，主要从事数字图书馆研究。

收稿日期：2014-10-13 2014-09-24