基于数据挖掘的智慧图书馆文献资源个性化推荐方法

2024-03-28孙玲玉

信息记录材料 2024年2期

孙玲玉

（沈阳工学院辽宁抚顺 110000）

0 引言

智慧图书馆也被称为数字化图书馆，拥有格式丰富、增长快速的文献资源［1］，包括电子期刊、论文等，具有高价值、低密度的特点［2］。人们对智慧图书馆内的文献资源的查找需求日益增长，但是容易受到信息过载等问题影响，造成信息检索迷失，在面对大量相似资源时难以通过有效的检索算法进行筛选［3］。研究人员设计了几种文献资源个性化推荐方法。其中一种是考虑学术社交网络的智慧图书馆文献资源个性化推荐方法［4］，以特定用户视角搜索扩展，计算推荐相似度，实现资源个性化推荐。另一种是基于深度学习的智慧图书馆文献资源个性化推荐方法［5］，使用自编码器提取用户特征，预测用户偏好，实现资源个性化推荐。大多数智慧图书馆文献资源个性化推荐方法使用向量空间模型（vector space model， VSM）获取资源推荐特征权重［6］。然而，这种方法容易受到文献表现形式变化影响，推荐准确率较低，不符合检索要求。本文基于数据挖掘设计了一种智慧图书馆文献资源个性化推荐方法［7］。

1 智慧图书馆文献资源数据挖掘个性化推荐方法设计

1.1 基于数据挖掘构建文献资源个性化推荐用户模型

在智慧图书馆文献资源个性化推荐的过程中，如果涉及的数据总量较大，处理难度也会增加，从而影响推荐效果。数据挖掘技术利用计算机在线处理数据，进行高效检索，获取推荐目标。本文基于数据挖掘技术构建了图书馆文献资源个性化推荐用户模型。

在智慧图书馆文献资源推荐用户建模时，考虑了用户的浏览记录及浏览信息等，并深度挖掘这些信息，提取符合用户需求的偏好特征，提高推荐用户模型的适配度。用户模型构建有几个步骤：首先，采集用户的基本浏览和反馈信息，挖掘用户的兴趣特征，其次，将提取的特征处理展示，生成初始的用户模型，最后根据用户的动态变化更新，满足用户需求的动态变化。

本文设计的方法明确了用户推荐模型的数据来源，然后进行用户兴趣信息收集。用户兴趣信息包括显式信息和隐式信息。显式信息根据资源的推荐引导关系让用户打分，再将结果存储在数据库中。数据的整体可靠性较高，不存在明显的数据噪声，结构化明显。在获取显式信息的过程中以用户为基础，执行真实信息反馈，增加信息的真实度。隐式信息在不影响用户的状态下自动收集而成，包括用户的历史点击记录、搜索内容等，有效借助数据挖掘方法确定用户的潜在特征要点，使其满足文献资源的推荐要求。

常规的个性化推荐用户模型具有不同的表示方法，包括向量空间模型表示、用户项目矩阵表示等。本文针对不同用户构成的个性化推荐向量，选取用户评分矩阵表示法。该方法可以满足海量文献资源的推荐要求。因此，在实现个性化推荐之前，需要预先提取文献资源的特征，流程图如图1 所示。

图1 文献资源的特征提取流程

由图1 可知，对文献资源进行特征提取首先需要对不同的文献数据进行预处理，包括数据清洗、转换等。接下来进行分词调整，计算特征词的权重占比。最后，筛选出最高权重特征词，生成文献资源特征提取模型。

智慧图书馆内部的数据维度较高，处理难度较大。本文设计的方法使用余弦处理法降低了维度灾难问题，进行特征匹配处理，计算余弦值r如公式（1）所示。

式（1）中，ui为文献资源中筛选的高权重词向量，vj为权重较高的特征词向量。基于此，计算匹配度sim，如公式（2）所示。

式（2）中，P、Q分别为文献特征词向量，Pi、Qi分别为点筛选出的权重较高的不同特征词。结合计算的匹配度进行文献资源个性化推荐筛选，挑选匹配度较高的文献推荐给用户。

1.2 设计智慧图书馆文献资源个性化推荐算法

本文设计的个性化推荐算法属于融合算法，即利用关联规则推荐算法获取频繁项目集，根据用户的偏好状况协同过滤推荐，提高推荐效果。智慧图书馆文献资源个性化推荐算法示意图如图2 所示。

图2 智慧图书馆文献资源个性化推荐算法

由图2 可知，根据上述的个性化推荐算法在推荐的过程中可以获取频繁项目集，计算其置信度，生成相应的个性化规则，再生成用户－项目评分矩阵，获取推荐列表，输出有效的推荐结果。

在文献资源个性化推荐的过程中，计算文献资源的信息增益值，生成有效的个性化推荐评价函数IG（t），如公式（3）所示。

式（3）中，P（c）为某个词的占比，P（CJ）为推荐空间含有推荐词的概率。根据上述生成的个性化推荐函数，根据文献资源的词语与类别关系确定推荐资源的相关性，生成的互信息MI如公式（4）所示。

式（4）中，P（t cj）为含有关键词文档在资源中的占比，P（t）为不含有关键词文档出现的概率。结合互信息及推荐评价函数，生成的智慧图书馆文献资源个性化推荐算法TF － IDF如公式（5）所示。

式（5）中，fki为文献资源中关键字出现的频次，fzi为普通文献出现的频次，N为需要训练的推荐资源量，nk为含关键字的资源量。有效分析待推荐资源的文档内容，获取不同词向量的综合推荐函数，再按照基础权重顺序获取文档的特征项。如果在推荐过程中出现TF 值过高问题，难以判断词语代表的文档类别，需要进行IDF 处理，调整词语的分布关系，保证最终的推荐效果。

2 实验

2.1 实验准备

本文选取LDA 平台作为实验平台，选取某高校智慧图书馆作为研究对象。该智慧图书馆内部包含多种类型的文献资源。为了降低实验难度，在实验前预先对不同类型的文献资源进行排序，随机抽取相应的实验资源。在实验过程中，使用Python 对实验数据进行深度分析，结合jieba、gensim 进行词向量推荐。设置的参数参考Word2Vec.在开始实验后，将符合实验要求的文献数据存放至实验集合中，随机抽取遍历文献，合并语料库，使用相应的公式计算最终的实验结果。实验采用Java 作为开发语言，结合Eclipse 辅助开发，运行实验脚本文件。本实验的数据库表结构及关联性示意图如图3 所示。

图3 实验数据库表结构及关联性

由图3 可知，受客观条件限制，获取的实验结果可能存在一定的偏差。本文为了提高实验结果的准确性，使用推荐文献库进行综合处理，保证智慧图书馆中的重复、冗余文献资源接近真实标准。

本实验采用平均推荐准确率指标来衡量实验方法的有效性，设计的智慧图书馆文献资源个性化混淆矩阵如表1 所示。

表1 智慧图书馆文献资源个性化混淆矩阵

根据智慧图书馆文献资源个性化推荐混淆矩阵，设计平均推荐准确率Pr计算式，如公式（6）所示。

式（6）中的相关参数均与表1 对应，Pr越大，平均推荐准确率越高，推荐效果越好；Pr越小，推荐效果越差。

2.2 实验结果与讨论

分别使用本文设计的推荐方法、考虑学术社交网络的智慧图书馆文献资源个性化推荐方法以及基于深度学习的智慧图书馆文献资源个性化推荐方法进行推荐，使用式（6）计算3 种方法在不同类型资源下的资源平均推荐准确率，实验结果如表2 所示。

表2 实验结果

由表2 可知，本文设计的推荐方法在不同类型资源下的资源平均推荐准确率均较高，应用考虑学术社交网络的智慧图书馆文献资源个性化推荐方法以及基于深度学习的智慧图书馆文献资源个性化推荐方法在不同类型资源下的资源平均推荐准确率相对较低。实验结果证明，本文设计的推荐方法效果好，具有可靠性，有一定的应用价值。

3 结语

数据库内部存储的互联网信息数据类型丰富，总量较多，如何快速获取所需的数据信息逐渐成为目前的重要问题。智慧图书馆是一种数字化文献资源存储中心，在大数据背景下，人们的资源获取需求急速增长，但文献资源的检索、获取难度相对较高。为解决上述问题，需要设计一种有效的智慧图书馆文献资源个性化推荐方法。常规的推荐方法缺乏合理的推荐模型，本文基于数据挖掘设计了一种全新的智慧图书馆文献资源个性化推荐方法。实验结果表明，设计的推荐方法推荐效果较好，具有准确性，为降低智慧图书馆文献资源查找难度作出了一定的贡献。