大数据挖掘在高校图书馆个性化服务中应用研究

2019-04-13冯磊

图书馆学刊 2019年1期

冯磊

（山西大学商务学院图书馆，山西太原 030031）

大数据挖掘（Data Mining）作为处理海量数据的技术手段，得到越来越多人的重视。它可以从大量、无规则、有噪声、模糊的数据源中去挖掘隐藏其中、不易为人所知的有价值的信息[1]。传统数据往往以EXCEL表格来进行存储，之后借助数学统计分析软件（如SPSS、STADA、SAS、DPS 等）进行深入分析。随着信息时代的发展，高校图书馆产生的数据往往不能以传统结构化手段进行存储保存，它往往具有多维特点，数据不单单以普通的数字来表示，更多地以视频、音频、图像、日志等形式来体现，给数据分析带来极大难度。而且这些数据具有低价值密度，隐藏于背后的内在逻辑不容易被挖掘，给数据分析带来困难。与此同时，高校图书馆面向的服务对象为上万名学校师生，只有提供个性化服务才能让资源得到最大化利用，才能充分节省师生的宝贵时间，让他们能够在最短的时间内找到所需要的图书资源。因此，在当下高校当中有必要将大数据挖掘引入到图书馆个性化服务当中，充分提高图书馆的运行效率。

1 大数据挖掘在图书馆的应用层面

图书馆个性化服务中包括以下几个方面：①图书馆文献参阅使用状况，馆藏图书的流通情况，对目标图书或文献的实际需求；②对文献查阅者信息登记、信息搜索记录的保存、师生获取目标图书的所需时间；③图书馆师生借阅图书的时间、空间分布情况，图书基本情况的反映与掌握；④图书馆针对师生实际需求的图书推荐、新上架图书的推送、图书服务的优化升级。通过对这些信息的获取，图书馆个性化服务才能获取基础数据，为大数据挖掘奠定坚实的数据基础。借助Hadoop 分布式系统基础架构，通过HDFS 和mapReduce 为海量数据提供存储和分布式运算。其中，为更好地实现对数据的挖掘与获取，采用大数据常用的数据算法，可以高效地完成数据信息获取与挖掘。最后，根据得出的结论为全校师生提供最为优质的个性化服务方案。

2 个性化服务的大数据挖掘实现流程

对高校图书馆个性化服务的挖掘，必须要形成数据挖掘的科学体系结构，获取最终个性化服务的目标。

2.1 确定大数据挖掘的目标。

在进行大数据挖掘之前，首先要确定数据挖掘的业务问题，确定好数据挖掘的目的[2]。例如，图书馆要想获取全校师生对图书文献类型的需求情况，就需要给大数据挖掘提供馆藏图书的几个大类，让大数据从中挖掘出符合自己需求的结论。这样，大数据挖掘才更有针对性，使挖掘出的内容更好地服务最终需求。

2.2 用户基本信息的准备

全校师生使用图书馆的基本信息都可以借助图书系统来完成。首先，师生在使用图书馆时，通过RFID 技术将个人信息反映在系统当中。同时，师生在图书馆参阅图书或者文献时，耗费时间、查阅图书类型、借阅图书科目、读者的专业、身份证明（学号、身份证号、教师编号）、距离上次借阅图书间隔等等多维度的信息都可以获取。具体信息如图1所示。

图1 图书馆个性化服务的信息获取与目标实现

在获取完整的数据信息以后，就需要借助大数据挖掘算法对数据进行深入挖掘[3]。首先，在大数据挖掘算法中选择面向属性的归纳算法对数据进行分类，获取所有属性的数据集合。例如，在高校图书馆个性化服务中产生的数据可以分为用户数据集合、图书文献数据集合、借阅检索图书记录数据集合等，这样有效降低大数据的维度与数据挖掘的难度。其次，要对分类好的数据集合剔除异常数据，可以降低数据挖掘的难度和挖掘结果的不准确性。最后，要利用大数据算法来对不同数据需求进行深入挖掘，提高大数据挖掘的速率和效率。

2.3 大数据挖掘文献图书使用效率

高校图书馆个性化服务最重要的一环就是图书文献的使用状况，涉及内容有图书借阅、图书归还、某类图书被借阅的频率、借阅图书的时间等信息。因此，大数据挖掘需要对这类数据资源进行深入挖掘，把握图书使用的内在逻辑[4]，根据实际需求来制定个性化服务的决策信息，优化图书馆的服务质量。

首先，图书借阅情况的挖掘。在图书馆数据库当中，通过SQL 语句获取某类图书的借阅情况。例如Select*from book where book=“类型”group by User.professor，这样图书馆可以将数据库保存的所有该类图书的借阅情况返回给数据挖掘对象。在查询出对象按照用户的专业进行统一排列。接着，我们要建立借阅图书与借阅时间的关系，清晰地掌握读者在利用图书馆集中的时间段，便于及时调整图书馆开放时间和增添图书管理者的决策，为读者提供更为优质的服务。通过用户的id、图书编号id 和该类图书编号id 来建立“用户-时间”“图书-时间”的关系，通过系统记录的开始时间与归还时间、应需归还时间来记录该图书在某位读者保留的时间。并且用户可以借阅多本图书，这些图书在读者的使用时间状况同样可以记录下来。这样，我们就以时间为基准来判断某个专业、某位学生对图书的使用情况，进而可以对图书借阅产生的数据进行深入挖掘。图书借阅情况的挖掘如图2所示。

图2 图书借阅情况挖掘实现流程

其次，确定图书馆个性化服务的挖掘方向。在获取到图书借阅、文献搜索、使用时间等数据后，为更好地提供个性化的服务，需要我们确定数据挖掘的方向：①以专业、性别、年级来建立数据挖掘的体系架构，掌握该类学生对个性化服务的需求；②通过对用户搜索、借阅图书过程中产生数据集的挖掘，明确读者需求的分布特性，更好地指导图书馆决策信息的制定；③建立以时间尺度为变量的数据集合，确定用户需求高的时间阶段，从而调整图书馆开闭时间的规律。这样，通过对个人、时间和图书3 个维度的挖掘，让图书馆个性化服务有了科学的方向，更好地为读者提供优质的服务。图书馆个性化服务的挖掘方向如图3所示。

图3 图书馆个性化服务的挖掘方向

3 大数据挖掘在高校图书馆个性化服务的运用

数据挖掘技术只有在高校图书馆中得到充分应用，才能更好地满足图书的个性化服务的需求，让图书服务更为贴心、优质。在数据挖掘算法当中，笔者通过总结分析读者对图书馆的需求，提出应用决策树算法来高效处理海量的数据信息，以KMeans 算法合理划分读者，让服务覆盖更多的读者群体；以SVM支持向量机算法深入挖掘不同读者的个性需求，实现对读者未来图书需求的科学预测，从而指明图书馆服务的方向。

3.1 应用决策树算法高效处理个性化服务中的海量信息

高校图书馆产生的海量数据具备低价值密度的特性，给决策信息制定造成很大难度。如何从海量、低价值密度数据中把握读者实际所需，更好地为他们提供服务，是我们当下图书馆服务者需要充分考虑的。解决这一问题，决策树算法优势突出，能够用计算机对数据进行处理。决策树算法处理海量数据如图4所示。

图4 决策树算法对大数据处理流程

首先对海量的数据进行离散化处理，将繁复错乱的数据集合划分成若干子集合。这样，让连续的集合转变为计算机能进行分析的数据。接着，子集合以某个特征属性来相互区分的，特征值相互之间可能存在相同或者相似的特性，需要利用决策树的剪枝功能来对数据进行剪枝，将一些无效或者相同的数据集合进行整合，以有效降低数据挖掘的难度。再经过决策树算法对数据的处理，显著降低数据的维度，提高数据挖掘的效率，能够准确把握住当下所有读者对图书的整体需求。利用决策树算法服务读者主要体现在两个方面：第一，能够全面海量地获取读者个性化服务的信息，并且将这些内容精简化，剔除无效数据量，让挖掘样本更能体现出整体读者的需求。例如，决策树算法图书属性、用户属性、时间属性等数据集合M分裂成N个子集，接着通过信息增益方法将子集的样本信息进行增益，丰富大数据挖掘的内容与信息。此时，图书馆可以准确地把握读者的实际所需，对某些潜藏着的、不显著的内在规律挖掘出来，让这些表面看似毫无规律的数据进行排列组合，转变成有内在联系的数据集合。第二，有针对性地提炼有效信息。数据挖掘是将有用信息挖掘出来，显著改变大数据低价值密度的特性，提高数据挖掘的准确度。而决策树算法剪枝技术，正好将决策树低于0.5的枝剪去，保留高价值密度的数据集分支。通过不断剪枝最终形成科学的数据集合，让数据挖掘更为准确。

3.2 K-Means算法深入挖掘读者个体需求，提供针对性的图书服务

每位读者由于其专业、学科、个人喜好、空暇时间的差异性，对图书需求也就存在差异性。要想让图书馆更好地为每位读者服务，就需要做到“专职服务”。K-means 算法恰好可以做到“按人服务”的目标，它围绕某个或者某类读者群体来进行数据挖掘，归纳出他们之间所具备的共同点和相似之处，从而得出每个读者的具体图书需求，指导图书馆按需提供服务。K-means算法挖掘读者个体需求的流程如图5所示。

图5 K-means算法挖掘读者个体需求

K-means 算法基于均值“中心对象”为目标，通过不断地聚类和计算均值，让标测度函数（该函数判定数据集是否可继续划分）逐渐收敛，最终得到具体的数据集合，明确这些读者对哪类图书的需求等。K-means算法优势在于其对数据集合进行深度聚类，让数据群体不可再分，这样该类数据集合具备的特征正是我们数据挖掘所要得到的内容。例如，在对读者搜索记录、借还书记录、专业、年级和同等专业学生数据的挖掘时，借助K-means 算法，参照方差最小的原则，计算每位读者组内的均值及各数据距离均值的距离L，参照L 最小原则来将初始化的分类数据进行重新细化，通过不断的迭代累积计算直至函数收敛并满足方差最小的原则，最终将图书需求划分为不可分割的集中类型。这样，我们就能明确哪类读者对哪些图书有需求，他们在什么状况下会借阅图书。同时，K-means 算法可以合理划分需求级别，明确不同类型读者对某项图书需求的程度，从而针对各类读者推送与之相适应的图书，真正做到为每位读者个体来提供有针对性的图书服务。

3.3 SVM支持向量机算法预测读者个性化服务需求，科学指导图书决策的制定

图书馆个性化服务不仅仅要服务于当下，同时还要建立长远的服务机制，通过科学合理的数据预测来获取读者未来的图书需求，及时调整和改善服务策略，从而满足未来读者的个性化需求。SVM支持向量机是有监督的学习模型，它凸出优化问题，将符合整体特征的数据集合进行回归分析，建立合理预测未来读者需求的数学模型。这样，通过输入时间序列函数，就能达到对读者需求的科学预测，指导图书服务方向的变革。SVM 支持向量机预测读者个性化服务的流程如图6所示。

图6 SVM支持向量机预测读者个性化需求

SVM 支持向量机对读者预测主要通过Linearly Separable SVM将两个数据分离开来，选择合适的支持向量和构造分割面，以各数据点最近原则来处理数据，最终得到的结论更好地符合其内在逻辑。例如，在高校图书馆个性化服务中分析哪类专业的人才对《统计学》需求程度高时，通过SVM 根据Kernel原理将原始数据投射到高纬度特征空间，将线性不可分的数据集合，这样能够快速确定各专业在该类图书中所在比重，并且可以将需求定位到个人，以根据师生未来图书需求制定科学的决策。这样，只有把握未来读者的所需，才能让图书馆个性化服务更具人性化、科学化和高效化，促进图书馆的服务优化升级。