基于SNS的微博个性化推荐系统研究与设计
2019-11-19方勇杨佩诗黄培金张芳芳
方勇 杨佩诗 黄培金 张芳芳
【摘 要】文章介绍了SNS及推荐系统的相关概念,阐述了系统使用的关键技术,对SNS环境下的微博个性化推荐系统进行了总体设计和需求分析。
【关键词】SNS;微博推荐系统;协同过滤
中图分类号: G250.76;TP391.3 文献标识码: A文章编号: 2095-2457(2019)25-0038-002
DOI:10.19694/j.cnki.issn2095-2457.2019.25.017
Research and Design of Personalized Recommendation System for Microblog Based on SNS
FAGN Yong YANG Pei-shi HUANG Pei-jin ZHANG Fang-fang
(City College of Dongguan University of Technology, Dongguan Guandong 523106, China)
【Abstract】This paper introduces the related concepts of SNS and recommendation system, expounds the key technologies used in the system, and carries out the overall design and requirement analysis of personalized recommendation system for microblog in SNS environment.
【Key words】SNS; Microblog Recommendation System; Collaborative Filtering
0 引言
近年来,随着互联网的发展,社会性网络服务(SNS)规模逐渐变得越来越大,微博是其中一种非常流行的社会化网络产品,成为人们共享信息的网络平台。由于社区的开放性与广泛性,信息爆炸的问题日益严重[1]。用户在网络社区中的角色要求不再是简单的信息接受者与传递者,而是信息管理者,希望能获取具有价值性的信息。如何对SNS中庞大的用户信息进行数据挖掘,获取用户的兴趣,提供个性化推荐服务功能,将是SNS社区发展的重要方向。
1 关键技术介绍
现在SNS社区应用进行的好友推荐一般是根据用户的共同好友数进行推荐。结合SNS社区特点,解决SNS社区现在所存在的两个问题,即信息价值下降和人际交互强度减弱。结合微博推荐系统的特点,本项目采用以下推荐技术。
1.1 协同过滤的推荐
协同过滤(Collaborative Filtering)[2]是推荐系统中应用最早和最成功的技术之一吗,分为user-base ,Item-based ,model-base 三种方法。系统将采用协同过滤算法user-base。
根据Pearson公式求出用户间的相似度
1.2 短文本的分类技术
传统的KNN、SVM[3]、神经网络、朴素贝叶斯法、统计法算法不能满足以信息量大、数据特征稀疏、含有大量未登录词为特点的短文本分类要求。本项目将结合多重经典文本处理方法来解决短文本分类问题,改进传统的文本分类技术数据集倾斜问题、短文本高维度问题、短文本稀疏性问题。其处理流程如下:
在文本预处理阶段,用VSM方法把样本特征向量化,其中使用TF-IDF来计算词的权重问题。在特征项抽取阶段,在本系统中采用了词和类别的互信息量进行特征项抽取的判断标准,其算法过程如下所列:
而P(W)同上面的计算公式相同,只是计算词在所有训练文本中的比重,其中,为全体训练文本数。
step three:对于该类中所有的词,依据上面计算的互信息量排序。
step four:抽取一定数量的词作为特征项,具体需要抽取多少维的特征项,目前无很好的解决方法,一般采用先定初始值,然后根据实验测试和统计结果确定最佳值,一般初始值定在几千左右。
step five:将每类中所有的训练文本,根据抽取的特征项,进行向量维数压缩,精简向量表示。
2 总体设计与需求分析
2.1 总体功能构架
基于SNS的微博个性化推荐系统功能结构图如下图(图2)所示,包括微博及广告推荐、社區发现及核心交际圈推荐。
2.2 应用功能模块规划
(1)数据抓取模块:直接调用API从微博的服务器端获取数据储存在本地数据库中。需要抓取的数据包括:用户转发过的微博,用户的好友关系,微博的信息等,需要储存在本地数据库的数据包括:用户的好友关系。
(2)挖掘模块:分为四个模块,为:社团发现模块、中文分词模块、中文短文本分类模块、协同过滤模块。社团发现模块是用于在人际网络图中利用社团发现算法挖掘出用户的核心交际圈。协同过滤模块是根据用户的兴趣特征即兴趣标签[4]所喜欢的程度进行协同过滤处理,找出用户对新的兴趣标签所喜欢的程度。其目的是在兴趣相近的人中找出用户可能该兴趣的标签,即增加用户的兴趣特征。
(3)表现形式模块
本模块在本项目中至关重要,因此一个应用是否吸引人一般情况下首先是依靠其界面是否吸引人,推荐结果后的表现形式分为两个子模块:核心交际圈的表现形式和微博推荐的表现形式。核心交际圈的表现形式。其是为了给用户方便查看自己的核心交际圈,采用微软开发的人立方应用的界面。
3 结语
本文对社会环境下的微博个性化推荐系统进行了总体设计和分析,阐述了系统使用的关键技术。随着推荐算法的改进,大数据的发展,微博个性化推荐系统的推荐精度和实时性将会大幅度提高。
【参考文献】
[1]张瑞,金志刚,王颖.一种基于混合粒度的微博用户标签推荐模型[J].计算机科学,2016(43):192.
[2]高晓波,方献梅.融合用户兴趣与信任的微博推荐[J].软件导刊,2018(8).
[3]邵先磊.社交网络专业领域社区关键技术研究与应用[D].北京邮电大学,2015.
[4]项亮.推荐系统实践[M].人民邮电出版社,2012.