APP下载

基于社交网图和兴趣标签的协同推荐算法

2015-03-27王庆福吕小刚

成都工业学院学报 2015年4期
关键词:图谱标签社交

王庆福,吕小刚

(辽宁行政学院 a.信息技术系;b.公共管理教研部,沈阳 110161)

基于社交网图和兴趣标签的协同推荐算法

王庆福a*,吕小刚b

(辽宁行政学院 a.信息技术系;b.公共管理教研部,沈阳 110161)

为了提高用户对社交平台的粘性,通过用户的社交关系网来丰富用户的兴趣标签。以微博为例,用户的关注用户可以对用户的内容推荐进行协同性过滤,用户的关注用户的重要性受到自身粉丝数的制约,综合用户兴趣标签和用户社交网络图完成对用户推荐内容的协同过滤。以Last.fm数据作为测试数据集,实验结果表明:改进的算法能够较明显地提高推荐的准确度,从而表明融入用户社交关系网进行内容推荐对于提升用户的平台粘性具有一定的作用。

用户社交网络;兴趣标签;协同过滤;用户身份加权

目前,社交平台和电商平台上都有针对用户的个性化推荐部分,即根据用户的兴趣和其他特征对用户进行相似好友、相似新闻、相似商品等的推荐[1]。因此,提高对用户推荐内容的准确性,改进用户的体验,从而提高用户对平台的粘性,提升用户对平台的满意度,对平台有着非常重要的意义。

对于用户的推荐方法,目前有:1)基于协同过滤的个性化推荐方法。此类方法需要找到与用户具备相似兴趣或者有共同特征的用户,但此类方法在具有共同特征的用户收集上较为不便,难以对共同特征进行规范化和量化的定义;同时,此类方法对于共同特征用户稀疏的问题不好解决,对于用户推荐内容的准确率不好保证[2]。2)基于用户兴趣的推荐方法。此类方法针对用户的兴趣特征进行推荐,但需要解决用户兴趣稀疏和用户兴趣的动态变化[3]等问题。

本文针对用户个性化内容的推荐,将用户的兴趣标签进行规范化和结构化,采用兴趣图谱的方式来构建用户兴趣,同时对用户的兴趣标签进行量化定义。结合用户交属性,用户在社交平台上存在关注用户,可以通过关注的兴趣标签和关注用户的权威度进行协同过滤,关注用户的权威度可以通过其粉丝数总和来反映。通过用户兴趣标签和用户社交关系图的关注用户进行综合过滤,提高用户内容推荐的准确率。

1 用户兴趣结构化

对于互联网用户而言,用户兴趣是隐式的。用户在商品评论、网页浏览等方面都可以隐式地反馈出用户的兴趣特征。因此需要从用户的行为中提取用户的兴趣特征,并将兴趣特征进行结构化[4]。

用户在进行网页浏览时会留下与用户相关的诸多信息,比如:登录用户会被记录个人信息和网页浏览记录;非登录用户的浏览记录可以通过IP地址来标志。提取用户兴趣时,可获得4类常用的信息(通称为浏览历史):历史、书签、页面内容和访问日志。浏览器通常会保留用户当前和以往会话中的请求记录。全局历史存储了访问页面的标题、URL(Uniform Resoure Locator,统一资源定位器)、最初访问时间戳、最近访问时间戳、截止时间戳、URL访问的次数。通过浏览历史记录可以初步认定访问频率高的网页为用户的较高兴趣。书签服务提供了用户对感兴趣站点的快速访问,用户通常将自身经常需要访问或者感兴趣的网页内容以书签的形式加以存储,其中的URL可认为是用户很感兴趣的内容站点。

采用当前通用的兴趣图谱分布方式对用户的历史浏览行为进行归类。通过对用户浏览日志的分析,对用户的每种浏览行为进行兴趣分类,将抽象的用户行为表征为规则化的兴趣标签。

2 用户兴趣图谱构建

用向量空间模型表示用户的兴趣,其中每个维度对应用户的某一兴趣标签。每个兴趣标签被赋予一定的权值,以表示用户对该兴趣标签的偏好程度。以用户在该类型内容上停留时间的比例定义兴趣标签的权值w:

(1)

假设用户具备如下几种兴趣标签:Set={“internet”,“education”,“movie”,“music”,“book”,“travel”}。通过式(1)得到用户在每种兴趣标签下的w,如表1所示。

表1 用户兴趣标签下的兴趣权值

根据表1中用户的兴趣标签情况,将每个兴趣标签作为一个向量维度,w为该维度上的坐标点,中心点为坐标原点,连接坐标原点和各个维度上的坐标点构建用户的兴趣图谱,如图1所示。

图1 用户兴趣图谱

用户的兴趣是动态变化的,因此用户兴趣图谱也应该是动态变化的,需要根据用户兴趣的动态变化来调整图谱结构,设定兴趣图谱更新周期为T。

3 改进的协同过滤算法

基于兴趣标签和用户社交网络图的协同推荐算法主要融合了用户兴趣标签与推荐内容相似度,并使用用户社交关系图对推荐内容进行协同过滤。

3.1 兴趣标签与推荐内容相似度

根据用户的兴趣标签,可以获得基于用户兴趣标签与内容之间的相关度,然后根据相关度的高低对用户进行推荐[5]。将推荐内容向量化,即C={c1,c2,…,cn},其中每个向量维度对应一个兴趣维度,c1为每个兴趣维度上的权重值:

(2)

其中:ni为该兴趣标签词在C中出现的次数;Σknk为C中所有兴趣标签词出现的次数之和。

将用户的兴趣图谱以向量的方式加以结构化表示为I={i1,i2,…,in},i1表示每个兴趣标签对应的权重。通过向量空间余弦相似度(Cosine Similarity)计算方法,可以得到用户兴趣和推荐内容之间的相似度Simi→c:

(3)

3.2 兴趣标签和用户社交网络图的协同过滤

用户在社交网络平台上可以关注其他用户,关注人当前的兴趣偏好在很大程度上会影响当前用户的浏览选择。重要社交用户的兴趣特征更容易影响用户的浏览习惯。关注人的兴趣偏好也可以通过兴趣标签得以反映,因此,应考虑关注人的重要性。

在社交网络中,用户的重要性可以通过关注人的多少来反映。当某个用户被众多用户所关注,那么该用户在社交网络平台上就具有较高的知名度,该用户的浏览兴趣和浏览习惯就更能影响到普通用户。定义用户被关注的次数(即用户的粉丝数)为用户的重要性F。用户A的关注用户列表为U={u1,u2,…,un},得到基于社交网络图的用户兴趣量化表示:

(4)

根据式(4),达到基于关注用户兴趣标签协同过滤效果,对于用户的关注用户而言,每个关注用户的兴趣标签也各不相同,需要对用户的每个关注用户做一次兴趣标签到推荐内容的相似度计算并进行平均化,得到基于用户关注的社交用户和推荐内容之间的相似度Simu→c:

(5)

综合Simi→c和Simu→c,得到推荐内容与用户之间的总体相似度Sim:

Sim=α×Simi→c+(1-α)Simu→c

(6)

其中:α为比例系数,表示基于兴趣标签的相似度比例。

4 实验

以Last.fm作为实验数据集[6]。Last.fm是一家音乐网站,其用户已经达到4 000万人次,遍布世界190多个国家。Last.fm数据集通过对用户和用户间关系进行梳理,将用户表征为节点,用户和用户之间的关系表征为边,整个数据集以csv格式组合。数据示例如表2所示。

表2 Last.fm数据示例

Last.fm数据集定义每首音乐作者为artist,同时也会为该作者创作的歌曲编订标签词。针对本文算法,首先需要确定式(6)中α的取值。设用户兴趣的兴趣维度为N,得到用户兴趣维度和α不同取值时的平均绝对误差(minimum average error)Ema,如图2所示。

图2 不用兴趣维度下α取值各异对应的Ema

由图2可知,当N=4,α=0.6时,本文算法的Ema达到最低,说明在该情况下本文算法的性能较好。N=5时,Ema变化相对较为平滑;N=3时,Ema的数据变化相对较为明显,可见N=5时,数据稳定性较好。当N值偏大时,用户的兴趣维度过于分散,导致最终对内容的过滤过于稀疏,Ema过大。本文所选取的N=5是一个比较合适观测的值。

设定α=0.6,分别比较基于本文算法(GIA)、基于用户兴趣标签的内容推荐算法(UIA)和基于共同兴趣用户的协同推荐算法(CIA)在内容推荐时的Ema,如图3所示。

图3 3种算法在内容推荐时的Ema

由图3可知,UIA算法和CIA算法在N=6时Ema达到极低值。相对而言,当共同兴趣数目重合较多时,这2种算法较准确;当N值过大时,同样会出现图2所示的情况,兴趣维度过大而导致内容筛选过于稀疏使得Ema偏高。

5 结语

本文通过分析用户在社交网络中社交关系,通过关注人的协同过滤和用户自身的兴趣标签进行推荐内容筛选,将用户的兴趣以兴趣维度为单位构建兴趣图谱;对于社交关系用户,综合考虑社交关系用户自身的影响力和兴趣标签,加权之后对推荐内容进行过滤。实验以Last.fm为测试数据集,实验结果表明:本文算法能够较好地提高推荐内容的准确度。

[1] WANG C Q, SU H Y, ZHU Y, et al. Distributed collaborative filtering recommendation model based on two-phase similarity [J]. Future Communication, Information and Computer Science, 2015, 28(1): 123.

[2] LV H,YU G,WU G. Celebrity endorsement problem on social media: formulation, analysis and recommendation algorithm [J]. International Journal of U-and E-service, Science and Technology, 2015, 8(1): 357-370.

[3] ZHANG W, YU L. Hybrid personalized tag recommendation algorithm design and evaluation[C]// Management of e-Commerce and e-Government (ICMeCG), 2014 International Conference on. IEEE, 2014:61-64.

[4] WANG Q X, GONG L, HE N Q.A recommendation algorithm for multiple e-commerce sites [J].Applied Engineering Sciences, 2014, 13(2):1.

[5] YU S, CHEN D, LI B, et al. A personalized recommendation algorithm based on interest graph[C]// Systems and Informatics (ICSAI), 2014 2nd International Conference on. IEEE, 2014:933-937.

[6] CHANG N, TERANO T. Development of a hybrid recommendation approach based on item content and user social influence[C]//Information Management and Management Engineering, Hong Kong,2015:29.

Research on Collaborative Recommending Algorithm based on Social Network and Interesting Tag

WANGQingfua*,LVXiaogangb

(a.Information Technology Department; b.Public Administration Department,Liaoning School of Administration, Shenyang 110161, China)

Through user’s social network, user’s interest tags could be showed much more enough in order that improving the dependence of platform. As an example of micro-blog, the importance of followed users would be affected by following number, the user’s recommending content would achieve the collaborative filtering both from user’s interesting tag and user’s social networking graph. The experimental results on an open dataset of Last.fm show that the improved algorithm could obviously improve the recommendation accuracy.

user social network; interesting tag; collaborative filtering; user identity weighting

10.13542/j.cnki.51-1747/tn.2015.04.007

2015-10-10

王庆福(1979— ),男(汉族),辽宁盘锦人,讲师,研究方向:计算机网络与数据库技术,通信作者邮箱:wangqingfu2011@163.com。 吕小刚(1983— ),男(汉族),辽宁沈阳人,讲师,硕士,研究方向:信息管理、电子政务。

TP391

A

2095-5383(2015)04-0022-03

猜你喜欢

图谱标签社交
社交牛人症该怎么治
聪明人 往往很少社交
绘一张成长图谱
社交距离
你回避社交,真不是因为内向
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
标签化伤害了谁