基于信任关系的微博信息个性化推荐算法
2016-10-21闫龙
闫龙
摘 要 微博巨大的用户数量和飞速增长的海量信息带来了微博“信息过载”问题。而目前多数研究主要是解决微博用户关系网络中的用户推荐问题,对于微博信息的推荐还没有行之有效的解决方法。针对上述问题,提出了一种基于微博用户信任关系的微博信息推荐算法,将微博用户关系数据结构化处理并计算用户间信任程度,基于TF-IDF计算微博信息与用户的话题相关度,结合上述因素对用户的微博信息列表进行TopN推荐。实验表明,该方法能够有效解决微博中的“信息过载”问题,提高用户的信息获取效率。
【关键词】微博信息推荐 信任度 话题相关度 信息过载
微博的興起,成为Web2.0 时代一个具有代表性的网络现象,它让人们通过虚拟的网络来获取海量实时的信息,但正是由于用户获取的信息是海量的,从而出现了一个很严重的问题,就是 “信息过载”问题。“信息过载”是指过量信息同时呈现使用户很难从中获取对自己有用的部分,使得信息使用效率降低。推荐系统作为解决信息过载问题的重要手段,是当前解决社交媒体中信息超载问题的最有效的方法之一[1]。
本文的主要工作如下:
(1)利用微博中的社会化标注计算用户相似度,并计算用户信任度。
(2)针对微博特点,提出了MB-StreamRank算法,结合用户信任度、微博信息与用户的话题相关度、用户对微博的操作权重以及时间衰减因素,对用户微博信息进行个性化排序,给出TopN推荐结果。
(3)通过在腾讯微博实际数据集上进行实验,MB-StreamRank算法显示出较好的微博信息推荐性能。
1 微博数据特征描述
微博结构信息是指用户关系结构信息,包括用户关注和粉丝信息,如图1所示。
定义1:使用有向图定义微博中的用户关系,其中是顶点集合,代表所有用户,是边集合,中任一有向边表示用户关注,而定义了边的权重,用来表示对的信任程度。
定义2:对于任意节点,定义为顶点指向的顶点集合,即用户关注的用户集合;定义为指向顶点的顶点集合,即用户的粉丝集合。
定义3:定义带权重的有向图为转发关系图,集合中的任一边表示用户转发了的微博信息,其权重定义了用户转发用户的微博的次数。定义有向图为关系图,集合中的任一边表示用户了,其权重定义了用户用户的微博信息数目。
2 MB-StreamRank微博信息推荐算法
2.1 基于TF-IDF的话题相关性计算
Term Frequency-Inverse Document Frequency(TF-IDF)权重[2]是一种广泛使用的对于简单TF值进行改进的权重值。IDF是它的改进部分。TF-IDF在简单的TF值上,乘上一个项目文档频度的倒数,作为向量的权重。TF-IDF降低了那些停顿词对权重的影响。
2.2 用户行为时间衰减
2.3 结果
基于微博用户信任关系的MB-StreamRank算法是通过对用户信任程度、用户相似度和时间衰减等因素的考量,从而获得对用户微博信息的个性化排序,得到其TopN推荐结果。
3 实验与分析
3.1 数据集及预处理
本文以腾讯微博为实验平台,利用其开放平台提供的API,采集了以2012年10月18日为起点的三个月的的数据,并将采集到的数据分为4类:
(l)用户信息,包括用户ID、昵称、地址等;
(2)微博结构信息,即用户的关系数据,包括用户的关注列表和粉丝列表;
(3)微博信息,即用户的微博信息列表;
(4)转发及评论列表,即采集到的微博信息的转发及评论列表。共采集了1251个用户的关注结构信息以及约合625541条微博。
3.2 推荐算法评价方法
实验一:确定用户信任度的加权系数
为了确定用户信任度的加权系数,分别对且(精度为0.1)的84种可能取值情况对算法进行测试(时间衰减因子取值0.5)。为了更好地进行测试,本文从采集到的微博结构信息中人工筛选了100位用户及其关注和粉丝信息。以9:1的比例进行训练和测试,并反复进行7次,测试信任度计算结果的值。其中为给用户提供的推荐信息,是测试集中的真实数据,即用户微博列表中用户感兴趣的信息(用户已转发或评论的微博信息)。
3.3 实验三:时间衰减因子
为了确定时间衰减因素中的衰减因子,本文从采集到的微博信息中人工筛选了50位用户及其能够获取到的微博信息中的20000条数据,反复7次以9:1的比例进行训练和测试,计算推荐结果的值。实验结果表明,当衰减因子=0.6时,取得最大值0.0586。因此,针对本文的数据集,衰减因子取值为0.6。
4 结束语
通过在采集到的腾讯微博数据集上进行实验,验证了算法效果。但由于算法部分内容复杂度较高,所以算法还未能做到海量信息实时推荐。目前采取的是定周期离线推荐,这也是下一步要研究的一个重要问题。
参考文献
[1]P.Resnick,H.R.Varian.Recommender systems,Commun.ACM,vol.40,iss.3, pp.56-58,1997.
作者单位
陕西省咸阳市渭城区清泰街邮局 陕西省咸阳市 712000