大数据环境下的图书馆个性化推荐研究

2023-09-23周雅文

科技资讯 2023年18期

关键词：个性化图书图书馆

周雅文

(武汉职业技术学院图书馆湖北武汉 430000)

1 大数据技术在图书馆的应用

1.1 图书馆基础工作中的应用

1.1.1 在资源采购环节中的应用

图书馆每年的资源采购经费往往都是有限的，要想让分配的资金满足图书馆的发展需求，发挥其最大的使用价值，如何去使用它们是一个非常困难的问题，而大数据技术可以在一定程度上解决这个难题。在图书馆进行资源采购的过程中，可以通过大数据技术收集和分析有关用户需求和偏好的信息。对这些数据进行处理之后，就能根据分析结果开展图书馆资源采购工作，更合理地选择资源，将有限的资金使用在用户更需要和更偏爱的资源上，避免资金浪费，让经费效益最大化，提高读者对图书馆的满意度[1]。其中，采购资源不仅包括纸质资源，也包括数字资源如电子书、数据库等。

1.1.2 在文献流通服务和参考咨询服务中的应用

对人力资源有限的图书馆来说，可以以月度数据为基础，在时间序列模型中进行数据分析，找到流通量变化的规律和对流通量变化产生影响的因素，通过以上分析更合理地安排人员，设计更好的流通部门日常运作表。另外，在图书馆的参考咨询服务中，也可以利用数据的搜集和挖掘技术，改变过去传统的参考咨询模式。工作人员可以学习专业的检索知识，并熟悉数据软件的操作，帮助读者快速检索到其所需要的信息资源，提高读者满意度。

1.2 读者服务工作中的应用

1.2.1 读者分类研究

开展读者分类研究有助于图书馆更好地进行读者个性化服务，将读者有效区分后，可以更具针对性地为读者提供资源。图书馆通过数据挖掘技术收集用户的特征、属性等，建立一个包含读者详细情况的数据库。通过数据分析工具对收集到的读者信息分类，根据性别、年龄、受教育程度、所学专业等将读者划分为不同类别。对于具有不同特征的读者，根据他们的分类情况，选择适当的服务措施。

1.2.2 读者需求研究

虽然不同类型、不同属性读者的阅读需求有较大的差别，但同一类型的读者往往有着共同的特点，其阅读需求的结构是有序的。图书馆可以从这个角度出发，制定相关推荐规则，满足读者的需求，也可以开展图书馆个性化推荐服务[2]。

1.3 图书馆系统框架的构建应用

1.3.1 图书馆信息推送

图书馆可以利用数据挖掘技术收集用户的相关信息，利用相应的计算机软件对收集到的信息，如用户的年龄、受教育程度、阅读偏好等进行归纳分析。将各类型读者区分开来，并总结各个人群的特点，有针对性地推送各个群体感兴趣的资源。通过信息推送，不只能为读者提供他们所需要的资源，还可以将具体的资源细化，拆分到文章的某个段落、某个词语，使读者的个性化推荐更精细化，让用户在使用图书馆时有全新的智慧体验，真正实现大数据在图书馆中的应用。

1.3.2 建立新型图书馆资源框架

在大数据时代，每天都会产生成千上万的数据信息，为了应对互联网上广泛的信息资源和图书馆用户的深层需求，可以利用大数据技术为数字图书馆创建一个新的框架[3]。新框架应秉持将数据作为图书馆的中心这一理念，不同于传统图书馆只包含纸质馆藏，数字和网络馆藏也应被采集，包括文本信息和图像视频信息。在这种不同于传统的资源框架内，图书馆的信息收集和相应的服务能够通过具备语义关系的大数据组织和检索技术来改善。

2 图书馆个性化推荐服务

2.1 个性化服务流程

个性化服务流程主要有4 个步骤：首先是数据采集，将读者的行为数据、标签属性数据、社交网络数据等收集起来；其次对这些数据进行清理、转换、过滤、抽取等初步的处理；再次通过数据挖掘、特征匹配、建模等技术对预处理后的数据进行分析；最后利用分析出来的数据给出个性化推荐列表。

2.2 图书馆个性化服务的必要性

图书馆的个性化推荐服务要利用好图书馆自身的优势，通过对读者在图书馆产生的数据进行归纳分析，总结出其感兴趣的资源，并向其推送[4]。具体来说，可以通过数据处理工具，对用户在图书馆的借阅、检索、下载等行为数据，以及用户的个人属性数据，如所学专业、受教育程度、爱好等进行收集处理。再利用算法工具对这些数据进行分析，通过这些数据展示的信息向用户推荐其真正感兴趣或是对其有用的资源，减少他们检索和搜集信息的时间，同时还能更好地利用图书馆的资源，避免了因用户检索不全面而造成的资源浪费，提高资源利用率。

2.3 个性化服务的特点

2.3.1 高效性

高效性是指图书馆通过个性化推荐服务，帮助读者快速找到满足他们当下需求的信息资源。在信息繁杂的大数据时代，要想从图书馆海量的资源中找到对自己有价值的信息，势必会消耗大量时间，也是变相的资源浪费。图书馆个性化推荐服务，减少了用户在检索信息资源过程中的时间消耗，并可能推荐给他们更专业的结果，提高资源利用率和读者满意度，实现图书馆个性化推荐服务的价值。

2.3.2 全面性

全面性是指图书馆在做个性化推荐时，推荐结果所包含的内容范围要广，尽量不遗漏信息且不能只考虑传统馆藏的纸质文献，数字资源应该也包含在个性化推荐结果中，这样可以为读者提供更全面的信息，便于他们之后的工作和学习。同时，用户还能更全面地利用图书馆资源，提高资源使用率。

2.3.3 时效性

时效性是指相同的事物在不同的时间范围内影响不同，如新闻就需要在第一时间报道才有价值，这就是它的时效性。对于图书馆资源同样如此，读者来图书馆查找资料时，通常都希望获取当下有价值的资源。另外，读者需求也在不断改变。因此，个性化推荐系统要不断收集新的数据和读者行为信息，为读者推荐最新的资源，同时根据读者的行为数据，更新推荐类别，为他们推荐最有效的信息，提高读者满意度。

2.3.4 多元性

图书馆在做个性化推荐时，应该将读者与读者区分开来，对于多次来馆的读者可以根据其过往数据推荐图书；对于初次来馆的读者可以根据其职业、年龄、专业等推荐适合他们的图书。另外，为了满足读者的多元化需求，推荐平台可以设置多种端口，比如PC端、手机端；发送形式也可以多种多样，微信公众号推送、网页推送、邮件或短信推送等，满足不同读者的不同需求。

3 个性化推荐算法设计

3.1 算法选择

为了达成较好的推荐效果，最关键的一点就是推荐算法的设计，算法的程序和运行结果关系到推荐的结果是否精确，能否满足读者需求。

目前，协调过滤算法是所有推荐算法中应用最广泛和最成功的一种算法，其类型多样，很多电商平台已经在使用这种算法。相比其他算法，其优点在于不需要太多专业知识，对于机器难以自动进行内容分析的信息，也能得到比较好的推荐效果，其最大的优势是易于实现，能够很简单地应用到个性化推荐服务中。这种算法一般可分为两类：基于项目的协同过滤和基于用户的协同过滤。

3.1.1 基于项目的协同过滤

基于项目的协同过滤在运行中，是将现有项目的受喜爱程度作为依据。其基本思想是：如果知道了目标用户对某一项目的评分，就能够预测其他具有高相似度的类似项目，并向用户推荐一组具有最佳评分的类似项目。因为如果很多人对某一个物品有类似的评级，那没有接触过该物品的人也可能对该项目具有类似的评级。以某播放平台为例，影片a和影片b都被用户A和用户B所查看，并且给出的评分较高。同时，用户C也看了影片a，因为用户A、B都看了影片a、b，并且给出较高评分，这表明两部电影的相似性高，喜欢电影a 的人可能也会喜欢电影b，所以可以把影片b 推荐给已经观看过影片a的用户C。

基于项目的协同过滤具有较高的稳定性，能够提前进行相似度计算，为深入的在线计算节省时间，因此能更快地生成推荐列表，提高效率。

3.1.2 基于用户的协同过滤推荐

基于用户的协同过滤推荐是在用户之间的相似性基础上进行的。它的工作原理是首先在用户评分数据的基础上识别与目标用户具有相同兴趣的用户，随后在该组用户的项目清单中找到评分高的、目标用户尚未使用的物品，生成推荐列表。同样以某播放平台为例，用户A 喜欢看影片a、影片b、影片c，用户B 喜欢看影片a、影片b，两人喜欢看相同的电影，说明用户A和用户B 具有较高的相似性，那么可以考虑向用户B 推荐不在他播放列表中的电影c[5]。

考虑到图书馆的图书数量庞大，而每个读者只会使用有限的图书，因此用户行为矩阵相较图书（项目）矩阵而言比较稀疏，正因为矩阵是稀疏的，进行用户相似度计算时要容易一点，为用户做推荐也会更加简单一点。

因此，本文选取基于用户的协同过滤推荐算法来实现个性化推荐服务。

3.2 实现协同过滤算法的流程

基于用户的协同过滤算法可以简单概括为以下两步：（1）收集数据，并对数据进行简单处理，通过数据分析，找到与目标用户A 相似的用户B；（2）根据相似度计算向目标用户A推荐图书，简单地说，就是将相似用户B喜欢的而用户A没有借阅过的图书推荐给用户A。

下面以具体的例子来演示协同过滤的流程。首先收集数据生成一个读者-图书评分矩阵，用一个5×5的评分矩阵记录读者对图书的评分，矩阵共有5 行5列，分别表示5 个读者和5 本图书，矩阵中的数值表示读者对图书的评分，具体如图1所示。

图1 读者-图书评分矩阵

给读者推荐图书首先要知道读者对图书的评价，从读者-图书评分矩阵中可以知道读者对图书的喜爱程度与读者之间的相似度。图1 显示了5 个读者对于5本书籍的评分情况，在这里可以将满分设为10分，从读者对图书评分的高低可以了解用户对书籍的喜爱程度，分数越高，说明对这本书籍越喜欢。

以图1为例，要想知道是否应该把书籍e推荐给读者A要经过以下两个步骤。

首先，根据图1中的数据计算出读者A和其他4位读者的相似程度，找出与读者A最相似的读者；这里由于列举的数据较少，与读者A 相似的用户数量可能不会很多，但在真实推荐系统中，相似用户数量可能会是一个大的集合。

其次，根据上一步计算出的与读者A 相似度较高的n个读者对书籍e 的评分情况来考虑是否将该书籍推荐给读者A，若相似用户对书籍e 的评分较高，则推荐；反之，不推荐。

这里，重点介绍一下相似度的计算，因为相似度的计算对最终的推荐有直接影响，若相似度的计算较为准确，最后的推荐结果也会比较有效；反之，可能推荐一些读者不感兴趣的书籍，影响用户体验。本文使用余弦相似度来衡量用户之间的相似性。余弦相似度通过计算两个向量之间的角度来确定它们之间的相似性，余弦值越接近于1，即角度越接近于0度，余弦相似度就越高，这意味着两个向量也就越相似[6]。

余弦相似度的计算公式为

上述公式计算了用户X和用户Y之间相似度，其中n是指被评价的项目的数量，Xi是用户X对项目i的评价，Yi是用户Y对项目i的评价。

以图1 中的数据为例，计算读者A 和读者B 的相似度：

在实际推荐过程中，就可以采取上述方法，计算读者之间的相似度，选取与目标读者喜好相近的读者，推荐图书。由于现实生活中读者数量较多，与目标读者相似度高的用户可能是一个群体，而不是单个的用户，因此实际推荐结果如下：若K 代表一个与读者A 相似的读者群体，那么推荐给读者A 的书就是K 中所有读者借过的、而读者A还未借过的图书。

3.3 算法缺陷及改进

图书馆内信息资源数量庞大，在借阅系统中，同时被多位用户借阅的图书数量不多，这就会导致读者对图书的评分分布比较分散，通过评分矩阵很难找出相似的用户，而相似用户的数量与准确度将直接影响到最后的个性化推荐效果[7]。如果两位读者都阅读了同一类目下不同的两本图书，他们本应当被归为具备相同的图书偏好，然而，用经典的协同过滤算法来推算他们之间的相似度时，由于不是同本书籍，可能认为两个用户不具有相似性，但目前图书馆所使用的藏书体系，对书籍是有明确分类的。这时，如果用图书类别（如中图法中界定的分类）来代替单个图书就可以避免这种情况，在同种图书类目下更容易查找到兴趣相似的读者。

因此，对算法进行改进，将读者对图书的评分，替换为读者对某类图书的评分。由于很难获得读者对某类书的评价，所以本文通过读者的历史评分记录，建立读者在不同图书类目下的评分矩阵，计算读者对某一类目图书评分的平均值，将此作为用户对该类书的评分。