基于兴趣分布及特征向量的协同过滤在书籍推荐算法中的应用

2019-10-21刘莉

科学与财富 2019年7期

刘莉

摘要：本文研究在书籍推荐过程中，用户兴趣分布及特征向量的计算其与最近聚类中心的轨迹距离，并根据每个聚类中心计算属于该聚类的数据之和，对每个节点的累加数据和进行合并求和，判断 sum 和是否小于阈值，通过函数计算来完成更新聚类中心的操作，直到算法收敛或完成迭代从而输出聚类中心和聚类结果。通过实验证明了该研究算法的可行性和有效性。

关键词：书籍推荐;兴趣分布;特征向量;协同过滤

0 引言

随着信息化数字图书馆时代的来临，对于图书馆书籍的管理研究工作更加侧重于新技术应用和开发上。目前，世界上针对于书籍管理的研究内容主要集中在书籍推荐的效果中，利用书籍对比关系进行定义和定位，将更多地书籍相关信息内容融合到书籍本体中，造成了书籍推荐研究的复杂关系。因此，在图书馆的书籍管理中，如何获取书籍的相关信息进行分析并作出合理的评价及推荐成为书籍管理研究领域的一个难点。

书籍推荐被视为图书馆服务工作的重点，书籍推荐质量的好坏直接关系到图书馆服务质量。本文在书籍推荐系统中融入协同过滤算法来提升书籍推荐效果，建立的书籍推荐模型以书籍本体构架，在模型中引发触发机制进行信息搜集、处理和过滤，并据此向用户推荐书籍。本文研究重点在于用户偏好模型表征用户兴趣的准确度和对潜在兴趣的挖掘度直接决定了资源推荐的准度和广度等问题上，通过将本体感知因子形成的特征向量形成数据集，从而实现了并行算法结构处理过程。通过设置本体感知因子的特征向量以确定容量及结构范围，形成的初始化特征因子会被定义在局部结构内进行分析和学习能力，针对每个数据分片，计算其与最近聚类中心的轨迹距离，并根据每个聚类中心计算属于该聚类的数据之和，对每个节点的累加数据和进行合并求和，判断 sum 和是否小于阈值，通过函数计算来完成更新聚类中心的操作，直到算法收敛或完成迭代从而输出聚类中心和聚类结果。经过实验的测试过程证明了本文研究内容的准确性和有效性均能满足当前书籍推荐的需要。

1 书籍推荐模型

书籍推荐系统主要由图书信息库、推荐引擎和数据库三大部分组成。其中，信息库储存着是用户与系统的基础信息，用户可以看到自己曾经感兴趣的书籍和个人信息等内容，同时系统也会自动化地给用户推荐一个书籍列表;推荐引擎是实现个性化推荐最重要的模块，系统会根据用户信息，根据用户兴趣和书籍信息进行书籍推荐，当用户进行评分，产生行为数据后，采用协同过滤算法来实现个性化推荐。

书籍推荐模型的建立是依据与书籍相关知识内容的关联产生的，这里的书籍信息和用户信息被分别列为本体的感知因子，针对各类信息内容又会呈现出更多地感知因子，因此基于本体的感知因子因为聚类过程相互独立且每次迭代相同任务，所以会形成庞大的粒子团，而随着任务粒度增加，计算时间也相对越长。由于感知因子的数据对象彼此独立，计算每个数据对象所属的聚类，随着聚类迭代次数增加，需要不断更新聚类中心。针对以上情况，本文提出基于协同过滤算法，就是有效地支持迭代运算，提高算法效率[1-3]。

2用户兴趣分布变化函数

2.3 评估标准

本文运用召回率（Recall）α，准确率（Precision）δ，，召回率α 与准确率δ 的调和平均值（F-Measure） F ，平均绝对误差（MAE）η 来评估实验结果。预测项感知因子分集合。平均绝对误差 MAE 越小，推荐质量越高。

2.4实验结果

为了对本文研究的协同过滤算法的推荐效率和推荐准确度进行分析，采取了以下几组实验：

（1）对比算法在不同聚类下的平均绝对误差 MAE 值、召回率 Recall 及 F-Measure 值，进而判断算法所选择的聚类参数值 K;

（2）对比基于协同过滤算法与加速运行的推荐效率。利用算法分别将用户特征项目划分成若干粒子群，同时，运用协同过滤推荐算法于每次迭代的每个粒子群中，并且计算平均召回率和 MAE 值。

协同过滤算法在测试过程中的运行轨迹，得到的推荐结果的召回率。其中，以圆心作为准确率靶标项，距离靶心越近则准确率越高，而偏离靶心的轨迹则为被干扰的因子项，在经过修正后回到纠偏轨迹则被标记为修正因子，也是影响召回率的主要参数内容。

经过测试过程的数据体现在坐标靶项中，轨迹在正常测试过程中，开始阶段随着聚类数增加，算法的 MAE 值下降速度最快，当聚类数为338 时，算法的 MAE 值才出现粒子群偏移问题，随着聚类数增加，MAE 值也逐渐呈现出偏离过大的趋势，说明目标用户的MAE值初定在338的聚类范围内，推荐精度保持在最佳状态。协同过滤算法在不同迭代步数下推荐结果的召回率。当迭代步数在15左右时，各种情况下推荐结果的召回率基本都取得了最大值。

与目标用户进行相似度计算的用户数会随之减少，算法的推荐准确度也不会下降。从加速运行轨迹中的参数值来分析，假定不考虑随机因素的影响，随着聚类数的增加，加速运行算法的轨迹与常规速度轨迹基本相同，其运动轨迹的偏差数值也与协同过滤算法匀速运动的数值成正比，这也证明加速过程的优化算法效果明显。

3总结

本文研究的协同过滤算法经过测试获得了较高的精准度，并且召回率控制在合理的范围内。通过海量数据进行实验，在模拟环境下并行化执行算法测试，从降维运行轨迹可以看出，数据计算时间并未随着数据集规模而增加，读、写操作优势逐渐变得明显，这充分体现了基于内存计算模式在时间开销上的巨大优势。同时，在验证本文研究算法的加速比，在数据集加速达到了算法的阈值1时，在处理初始阶段通信节点间的通信使得时间消耗增加，而随着数据集的增加，加速比则逐渐提高，这充分体现了协同过滤算法的优势。

参考文献：

[1]基于遗传算法的聚类与协同过滤组合推荐算法[J]. 冯智明，苏一丹，覃华，邓海.计算机技术与发展. 2014（01）.

[2]混合协同过滤个性化推荐算法研究[J]. 黄琼，冯军焕.计算机光盘软件与应用. 2014（04）.

[3]基于协同过滤的个性化选课推荐与评论系统[J]. 周泽宇，王春玲.信息记录材料. 2018（10）.

[4]A content-collaborative recommender that exploits WordNet-based user profiles for neighborhood formation[J] . Marco Degemmis，Pasquale Lops，Giovanni Semeraro.User Modeling and User-Adapted Interaction . 2007 （3）.

[5]Afelder and silverman learning styles model based personalization approach to recommend learning objects. BIROL CILOGLUGIL，MUSTAFA MURAT INCEOGLU. Computational Science and Its Applications-ICCSA . 2016.

[6]基于用戶的协同过滤算法的改进研究[J]. 苏林宇，陈学斌.软件. 2017（04）.

[7]一种基于自适应近邻选择的协同过滤推荐算法[J]. 彭玉，程小平.电脑知识与技术. 2016（16）.

[8]基于项目评分预测的混合式协同过滤推荐[J]. 盈艳，曹妍，牟向伟.现代图书情报技术. 2015（06）.

[9]一种基于向量空间模型的模糊本体映射方法[J]. 张凌宇，陈淑鑫，张光妲，吕洪柱.计算机应用研究. 2014（05）.