协同过滤算法在位置推荐上的运用

2020-04-07王森林勤花

发明与创新·职业教育 2020年2期

王森林勤花

摘要：随着信息技术的普及与移动互联网的发展，用户每年都会产生海量的数据，目前我们已经进入了大数据时代。面对海量数据，如何寻找感兴趣的信息已经成为困扰用户的问题。由于每个人的兴趣爱好不太相同，使用一个大众版的排行榜并不能满足每个人的需求。位置推荐算法就是在大量数据作为支撑的情况下，对用户进行相似性计算，最后根据相似用户的签到地点做出推荐。本文主要通过经典的协同过滤方式实现一个位置推荐算法。

关键词：海量数据;位置推荐;协同过滤

随着移动互联网的兴起，用户可以方便快捷地记录当前的位置坐标，产生了许多有名的软件，比如微博、forsqure、ins等。Foursquare作为位置信息服务的巨头，目前積累了超过80亿的签到数据，全球每天都有用户使用该软件用来分享他们的生活。通过这些位置社交软件，用户对他们去过的地点进行签到，同时可以分享视频、音乐、图片等信息。本文以新加坡签到数据为例，对经典的协同过滤算法进行了位置推荐方面的实现。

一、相关知识

（一）基于位置的社交网络

基于位置的社交网络（Location-Based Social Networks，简称为LBSN）是在社交网络的基础上融合了位置服务的一种新的社交模式。这种新的模式不仅将用户和用户进行了联系（这种联系包括同学、同事、家人等），也将用户与地点进行了联系，形成了一个更加深层次的社交网络。随着智能手机的广泛运用，用户可以随时通过GPS定位自己的位置，这种基于位置的软件也越来越广泛地被人们使用，因此产生了大量的基于位置的软件，foursqure就是其中之一。

（二）Foursquare

Foursquare是Dennis Crowley于2009年在美国创立的基于用户位置信息的网站，用于使用户方便深入了解当地，并可对当地景点或餐厅等进行评分。目前已在全球积累了海量的用户。

二、协同过滤算法

（一）协同过滤算法公式介绍

相似的用户往往会有相同的兴趣，因此位置推荐算法常用的方式是先计算出每个用户的相似用户，再根据相似用户对相关地点进行推荐。

推荐算法中最经典的就是协同过滤算法。假设用U表示与当前用户最相似的用户组，用L来表示用户签到的地点集合，则是指某个用户（这里用i表示）在某个地点（用j来表示）进行签到的概率，则该概率的计算公式如公式3-1所示：

这里的表示是用户在是否曾经去过地点j，值零表示该用户未曾去过j，有值说明该用户去过。是指用户K和用户i之间的相似性，具体计算公式如公式3-2所示：

（二）协同过滤算法在LBSN上的运用

下面通过一个小实验来说明基于位置的协同过滤推荐算法是如何工作的，假设的值只能是0和1。1代表去过该地点而0代表没有去过，具体的签到矩阵如表1所示。

通过表1可知，用户A去过景点B、景点C，用户B则去过景点A、景点D。通过协同过滤算法，首先需要用公式3-2算出用户两两之间的相似性，以用户A为例：

最终可算出用户相似性矩阵如表2所示。通过用户两两之间的相识程度，可以找到每个用户最相似的N个用户，通过最相似的N个用户的签到情况即可进行推荐，即使用公式3-1计算用户在某个地点的签到可能性，很明显签到可能性最好的地点就是我们最终的推荐结果。

以用户A为例，假设采用最相似的两个用户进行位置推荐，则用户A最相似的用户是B和C。通过公式可以算出：