基于文本聚类的用户聚类在推荐系统中的应用

2016-08-07刘源耿瑞焕

大科技 2016年25期

关键词：鹤壁余弦相似性

刘源耿瑞焕

（鹤壁汽车工程职业学院鹤壁 458030）

基于文本聚类的用户聚类在推荐系统中的应用

刘源耿瑞焕

（鹤壁汽车工程职业学院鹤壁 458030）

协同过滤是推荐系统中最重要的技术之一。随着电子商务用户和商品数目的增加，在商品空间上用户评分数据极端稀疏。本文提出一种基于文本聚类的用户聚类方法，对用户评论做文本聚类处理，再经过余弦相似性度量，得到用户聚类，最终做出推荐。实验结果表明，该方法可以反映用户的真实兴趣，有效的解决了稀疏性问题。

协同过滤；稀疏矩阵；文本聚类；用户聚类

目前，个性化推荐的应用日益广泛，已成为Web2.0时代的核心技术。本文提出一种基于文本聚类的用户聚类方法，对用户的评分做出预测，在一定的可靠性前提下解决了矩阵的稀疏性问题，提高推荐质量。

1 相关工作

文本聚类根据文档的某种联系或相关性对文档集合进行有效的组织、摘要和导航，方便人们从文档集中发现相关的信息。

协同过滤推荐算法基于这样一个假设：

假设1：如果用户对一些项目的评分比较相似，则他们对其他项目的评分也会比较相似。

基于用户的协同过滤算法整个过程可以分为以下三步：

步骤1：找出目标用户的最近邻居，首先采用用户-项阵Rm，n表示用户评分信息，其中m行表示m个用户，n列表示n个项目，Ri，j表示用户i对项目j的评分值。

步骤2：计算用户相似性，找出最近邻居。

相似性度量方法有余弦相似性、修正的余弦相似性和相关相似性3种，我们选择相关相似性方法。

相关相似性：设经用户i和用户j共同评分的项目集合用Iij表示，相似度 sim（i，j）为：

步骤3：根据相似用户对同一商品评分相近的假设为目标用户做出推荐。

2 基于文本聚类的用户聚类方法

本文本文提出一种基于文本聚类的用户聚类评分预测算法，以填充稀疏矩阵Rm，n。整个算法分为两部分。

2.1 离线部分（用户聚类）

（1）选取聚类中心用户i；

（2）用余弦相似性度量计算得出同用户i相似性最高的h-1个用户与用户i组成以i为中心，模为h的用户簇NSi。

2.2 在线部分（评分预测）

若目标用户i已经在离线阶段生成用户簇NSi，则只需将离线时获得的用户簇NSi中所有的h个用户平均评分作为目标用户评分预测，填充矩阵 Rm，n。

2.3 理论依据

文本聚类将聚类在一个文本簇的评价的所有发出者（用户）认为为一个用户簇Cluster。用类似于用户-项矩阵Rm，n的用户-簇矩阵Sm，k来表示用户与用户簇簇的关系：

表1

当目标用户i不同时，NSi也会不同，将个别用户单独为中心进行聚类有更高的精确程度。这种聚类可以理解为预处理运算，它的实质是通过对文本聚类得到第一次用户簇Cluster1～Clusterk，由于这个簇并不是我们需要的用户簇NSi，所以我们需要进一步计算，以得到的用户簇Cluster1～Clusterk作为维度进行余弦相似性的计算得到用户簇NSi。

3 实验结果及分析

3.1 数据集的选择

用户簇-文本簇的关系同论文引用的关系非常相似：每篇引用者论文都可以考虑为一个用户，每篇被引用论文都可以考虑为一个文本簇。最终选用了一份关于论文引用的数据集，数据集包括了629814篇论文和3021489个引用关系，由于数据集提供者已经将外部引用关系删除，所以这里所提到的引用，均指内部引用。因此这个数据集可以抽象为一个图，图中论文作为一个顶点，引用作为一条边。将入度最高的12596个顶点的作为被引用论文，将从这些顶点出发的边全部删除；剩下的50385个顶点作为引用者论文，将从进入这些顶点的边全部删除。若将这些边看做无向的，则图变成一个二部图。它的关联矩阵即为Sm，k矩阵。其中被引用论文为Cluster，引用者论文为User。

3.2 验证过程

（1）记成功次数 Ns=0，Nf=0。

（2）随机抽取值为1的项，将其置0。

（3）根据矩阵 Sm，k求出用户 i的用户簇 NSi。

（4）遍历NSi中除了i以外的所有用户，统计他们属于Clusterj的数量，如果超过了NSi的规模h的一半，则Ns+1，否则Nf+1

（5）反复进行步骤2-步骤4，进行k次。得到最终的Ns和Nf。成功率=

3.3 验证结果及分析

由表2可以看出，当h=15或20时，精度达到了0.61以上，可以认为本文提出的基于文本聚类的用户聚类方法能够可靠的反应用户的兴趣聚类情况，当抽样次数k＞5000次时，精度基本稳定。