基于社交网络的推荐系统研究
2020-07-14蔡崇超许华虎
蔡崇超 许华虎
摘要:近年来,基于社交网络的推荐系统随着社交媒体和大数据的蓬勃发展,逐渐成为推荐系统重点研究方向。将社交网络用户社会化属性信息和评论内容与深度学习等技术结合,可有效解决传统推荐系统数据稀疏和冷启动等问题。首先回顾传统推荐系统常用方法,介绍社交网络推荐系统主要流程和基本框架,然后介绍最新相关研究方向和应用情况,最后对基于社交网络的推荐系统发展趋势进行分析与展望。
关键词:推荐系统;社交网络;深度学习;矩阵分解;协同过滤
DOI: 10. 11907/rjdk.192186
开放科学(资源服务)标识码(OSID):
中图分类号:TP301
文献标识码:A
文章编号:1672-7800(2020)001-0046-04
0 引言
随着移动互联网的发展,大众社交方式不断变化,以微博为代表的社交媒体扮演了越来越重要的角色,作为一种弱关系社交网络,其重要特点是信息快速传播与分享。2018年底,新浪活跃用户达3.92亿,用户在使用社交网络的过程中产生了大量数据,由于数据量庞大,用户很难快速定位到感兴趣的信息,因此如何从海量数据中挖掘出用户真正感兴趣的内容成为业界关注焦点。
针对互联网出现信息过载的问题,推荐系统根据用户访问信息、关注内容等进行综合判断,从而在新闻、影视等领域向个人提供信息推荐。用户可加速融入社区,社交网络可基于推荐内容形成社区,增强社交网络粘性,继而提高产品打开率。
1 传统推荐系统研究现状
协同过滤算法是推荐系统经典算法[1-3],早在20世纪已引起学者诸多讨论,随着亚马逊、Netflix等互联网巨头崛起,推荐算法在工业界的应用也越来越广泛。推薦算法利用用户与项目之间的二元关系,基于用户历史行为记录发现用户可能感兴趣的项目。
1.1 协同过滤推荐算法
协同过滤推荐算法分为两种,即基于用户的方法与基于模型的推荐方法。其中基于用户的算法通过计算用户之间的相似度[4],找到与目标用户最相似的用户进行预测。如李琳等[5]将评分矩阵和评论文本相融合提高推荐质量。基于模型的推荐方法首先利用评分数据估计模型参数,然后利用已训练好的模型对评价进行预测。常用的数学模型包括贝叶斯网络模型、隐语义模型、潜在因子矩阵模型、基于概率的矩阵分解方法等[6-9]。
1.2 基于内容的推荐算法
基于内容的推荐系统将评分与评论结合,通过对用户发表的内容评论进行用户偏好性估计,进而提高推荐系统准确率。Ganu等[10]发现社交网络中不同的评论文本包含不同层面信息,对针对用户和内容在不同层面上互相权衡从而产生评分的过程进行了研究,并将评论文本的情感分析加入推荐系统提高预测精度[11-12]。
1.3 混合推荐算法
混合推荐算法以一种算法为基础,同时融合另一种推荐算法。Wang等[13]通过融合用户信任度与评分相似性,提出一种新的推荐算法。随着社交网络的崛起,用户产生的数据不再局限于内容。用户社会关系、位置信息、标签等数据均可作为推荐系统模型参数,由此产生了基于社交网络和情景感知的推荐方法。
1.4 基于项目的推荐算法
基于项目的过滤推荐算法可有效缓解数据稀疏情况,首先计算项目之间的相关性,然后根据项目相似性估计用户对未评分项目的评分分数,在该过程中利用相似性度量方法计算目标用户的最近邻居[14-15j。
1.5 传统推荐算法面临的问题
传统推荐算法在初期主要用于电子商务商品推荐,如亚马逊、阿里巴巴、京东、百度等互联网公司通过分析用户购买行为和购物喜好等内容为用户推荐相关联的产品。随着Facebook、微博、twitter等社交媒体的兴起,推荐内容不再局限于商品,而需综合考虑,将传统推荐技术应用于社交网络时往往出现3个问题:①冷启动问题。在传统的电子商务信息系统中,用户对商品的评分十分关键,但在社交网络中,不存在显式的打分系统,因此社交网络推荐系统存在冷启动问题;②数据稀疏问题。对于大规模社交网络,注册用户数量、内容信息量往往是天文数字,若利用U ser-ltem协同过滤算法,则该矩阵数据量非常庞大,在这个数据量级上进行协同过滤计算效果往往不尽如人意;③传统推荐需在训练集上构建大规模用户特征模型,这往往导致训练时间长、计算复杂性高。
2 基于社交网络的推荐系统
推荐系统最初主要是帮助电子商务网站向客户提供商品信息和建议,使得用户在决定购买哪些商品时,由其协助客户完成购买流程。社会化推荐系统则不然,社会化推荐系统是网络发展到一定程度的必然。首先是推荐对象不同,基于社交网络的推荐系统将用户社会关系、位置关系、情感分析等主观内容作为重要的影响因子引入推荐系统,从而使得基于社会化推荐系统和传统推荐系统在特征信息出现很大不同;其次目的不同,社会化推荐系统不再单纯地推荐商品、电影、餐饮信息,还在推荐中覆盖了社团、立场信息、情感网络等更加主观的内容。由于推荐系统特征变量与推荐内容均发生了变化,所以推荐系统的相关方法也发生了变化。
基于社交网络的推荐系统研究是社会化网络理论中一个重点研究领域[16],主要集中在推荐用户、推荐内容、推荐社区3个大方向。
针对社交网络推荐系统的研究积累了丰硕成果,大致可分为3种:推荐用户、推荐内容、推荐社区。整体流程为:
(1)数据采集。通过爬虫或系统提供的API采集数据,包括用户基本信息(位置,学历,性别,年龄等)、用户和用户之间的关注信息、用户和内容之间的关系、用户和社区之间的连接信息、用户和话题之间的关注信息。
(2)构建评分矩阵。为解决推荐系统冷启动的问题,可以构建用户一用户之间的评分矩阵、用户一项目之间的评分矩阵。
(3)根据社交网络推荐系统特性,采用深度学习、影响力模型等多种技术生成推荐结果。社交网络基本推荐流程如图1所示。
3 常用社会化推荐技术
社会化推荐系统生成技术在原有推荐技术的基础上深度融合了用户社会化信息进行系统推荐,本部分介绍目前推荐效果较好的社会化推荐技术。
3.1 基于注意力机制的社交网络推荐算法
传统社交网络推荐算法更重视用户选择,如用户打分高低,忽视了用户关注点及注意力。因此Sarwar等[14]提出了一种同时考虑用户注意力与喜好的概率模型HTPF,通过将该理论应用在4个数据集上发现,在社交网络推荐系统中,用户社交关系往往扮演着比用户内容喜好更重要的角色,HTPF模型研究人员在构建模型的过程中将4个变量作为参数,分别是用户活跃程度、用户打分习惯、用户影响力与内容质量。
在社交网络中,用户发布的内容主题随时间发生变化。如Song等[18]构造了一种基于动态注意力图的神经网络模型,利用RNN动态描述用户行为,基于注意力图的神经网络算法根据用户当前感兴趣的内容形成用户影响力。该方法首先根据用户当前兴趣学习用户表现形式,通过注意力机制、利用图神经网络将用户表现形式和其他用户表现形式进行融合,将组合表现形式用于内容推荐系统,以此提高推荐系统性能;Sun等[19]提出了基于RNN的ARSE模型,该研究认为用户喜好是由其发布内容的动态关注点与静态关注点共同决定的,因此分别构建了两个基于RNN的注意力机制神经网络模型。
3.2 基于深度学习的社交网络推荐方法
在传统基于社交网络的推荐系统中,需考虑用户与内容、用户与用户两个矩阵之间的关系。由于用户在社交网络中往往有多种特征,如用户标签、用户位置、用户不同时间段发布的不同主题内容,因此在整个训练过程中,很难用一个统一矩阵表示用户与内容之间的关系。Fan等[20]提出的深层对抗社交推荐系统( Deep Adversarial Social Rec-ommender Svstem)引入深度学习中的对抗网络模型概念,通过引入一个双向映射方法在社交信息和内容信息之间进行信息转移,利用对抗性学习动态生成“困难”的负样本,了解两个域之间的双向映射,最终得到更好的用户与项目表示。
在推荐系统的研究中,数据稀疏性始终是一个共性问题,Pan等[21]通过深度学习中的降噪自动编码机(DAE)解决该问题,通过构建一个基于信任感知的协同去噪自动编码器(Trust-aware Collaborative Denoising Auto Encoder,TDAE),利用评分矩阵与用户信任关系进行深度学习,利用两个叠加去噪自动编码器从评级和信任数据中学习高阶相关性。实验结果表明该方法可有效改善数据稀疏性问题。
3.3 跨领域推荐系统
彭舰等[22]指出在线社交网络跨平台推荐可以有效缓解冷启动问题。本文通过引入逻辑回归思想,融合多平台用户特征,将用户在各平台推荐结果进行拟合,并通过微博和知乎两个平台进行测试。
目前在交叉领域推荐系统的研究中,往往认为用户是全覆盖的,在实验过程中,该假设被证实是不现实的。因此Wang等[23]提出了一种新的方法Neural Social Collabora-tive Ranking(NSCR),该方法无缝集成用户一信息域和用户一用户域,通过引入部分重叠用户(bridge users),将两个领域的信息进行融合形成交叉领域,从而提升推荐系统性能。同时,该系统也有局限性。首先信息领域较为单一,在实验过程中仅以旅游网站点评信息作为数据源;其次社交领域数据较依赖Facebook和Twitter平台,并不具有普适性。但是该文提出的方法为相关研究提供了很好的研究思路。
3.4 基于矩阵分解的社交网络推荐系统
在社交网络领域,研究人员往往针对某一件商品或某一个话题构建用户一主题矩阵,由于数据量较为庞大,因此该类矩阵往往面临数据稀疏性问题。
通过矩阵分解技术,可将用户一主题评分矩阵分解为用户潜在因子矩阵与主题潜在因子矩阵,通过计算两者内积得到用户对主题的预测评分值。首先通过矩阵分解将评分矩阵R分解为两个低维用户特征矩阵P与主题特征矩阵Q的乘积,分别将用户与主题潜在因子矩阵表示为pi、qj,通过计算所得的内积pigj可反映出用户与主题之间的相互作用,从而用于预测缺失评分。
Curini等[4]在传统矩阵分解模型的基础上,通过融合用户发布内容主题的情感倾向( Sentiment)、主题数量(Vol-ume)、主题内容客观程度(Objective),提出了基于SVO模型的用户推荐算法。该算法引入SVO模型构造用户一主题评分矩阵,解决了社交网络中用户无法对主题内容进行打分的问题。在准确率、多样性、新颖性和覆盖率4个方面与传统推荐算法进行对比,证明该方法效果更佳。
3.5 社交网络推荐算法在不同领域的应用
Jiang等[24]列举出了社交网络推荐研究进展:①社交网络中各个领域都是相关联的,包括信息领域、用户领域、社交领域;②信息领域分布是不均匀的;③社交网络数据存在稀疏性问题;④社交领域的内容不断发生变化。
为解决数据稀疏等问题,本文综合考虑社交网络的多特征特点,如用户标签、位置信息等影响因子,将其加入到社交网络中,并提出了一种基于迁移学习的跨领域推薦算法( Hvbrid Random Walk,HRW),进行领域知识学习。
杨晓夫等[25]提出了一种基于电子病历的医生推荐模型。该模型以电子病历作为研究对象,将朴素贝叶斯模型作为分类器,根据电子病历中的诊断、症状等信息构建医生一疾病矩阵与疾病一患者矩阵。实验结果表明,该医生推荐模型可提升患者就医感受,提高传统电子病历系统应用价值。
冯永等[26]提出一种融合社交因素与评论文本卷积网络的汽车推荐模型(SCTCMAR)。该模型首先引入偏好相似度计算模型,然后构建卷积神经网络学习社交网络中的汽车评论文本隐特征,并采用矩阵分解技术进行模型计算,最终完成推荐模型构建。
4 基于社交网络的推荐系统研究展望
社交网络的蓬勃发展为推荐系统的研究提供了发展方向与前进动力,同时作为推荐领域较为新颖的发展方向,也面临着许多挑战。
(1)基于不同社交网络的跨领域融合。社交网络平台规模在变大,但数量在变小。用户在不同社交网络平台上发布的信息种类繁多,如餐饮类、影视点评类、购物类、在线视频类等信息。国内互联网公司由于产品线众多,如果可通过深度学习等技术构建深度学习模型,实现跨领域信息融合,将同一个公司不同领域和平台的数据进行统一处理,可有效解决推荐系统常见的冷启动问题。
(2)深度学习技术与基于注意力机制的融合发展。目前基于注意力机制的深度学习技术在计算机视觉等领域取得了巨大成功,利用注意力機制分析社交媒体用户关系网络的研究也取得了极大进展,因此将注意力机制与基于社交网络的推荐系统融合是下一步技术发展突破口。
(3)现有方法与其它技术的融合。人工智能技术发展迅速,传统推荐方法具有可解释性、简单等优势,如何利用深度学习技术进一步挖掘社会化推荐系统中用户之间的关系、用户与内容之间的关系、社群之间的关系,构建更加有效的深层神经网络模型是未来重要发展方向。
5 结语
互联网已高度融入社会生活,随着数据的不断增多,需要推荐系统帮助用户筛选和过滤信息,解决信息过载问题。推荐系统在早期发展过程中基于协同过滤等算法在电子商务领域应用广泛。随着社交网络的发展,传统技术已无法解决冷启动、数据稀疏、大数据等问题。在社会化推荐系统的研究中,研究对象有很多特点,如用户社会属性多样性、用户关注主题的变化性、跨领域社交媒体数据可转化性、时间因素等。根据这些特点,研究人员提出了多种新颖的研究方法。本文从社会化推荐系统原理和流程着手,对当前一些关键技术主要流程、基本框架进行了总结和分析,并对该领域未来发展进行了展望,以期为相关研究人员提供参考。
参考文献:
[1] HERLOCKER J L,KONSTAN J A,BORCHERS A,et al.An algo-rithmic framework for performing collahorative filtering[C].22nd An-nual International ACM SIGIR Conference on Research and Develop-ment in Information Retrieval, 1999: 230-237.
[2]SARWAR B M,KARYPIS G,KONSTAN J A,et al.Item-based col-laborative filtering recommendation algorithms[C].Proceedings of the10th international conference on World Wide Web, 2001: 285-295.
[3]LINDEN G,SMITH B,YORK J.Amazon. com recommendations:item-to-item collaborative filtering [Jl. IEEE Internet computing,2003 (1):76-80.
[4]FELTONI GURINI D,CASPARETTI F, MICARELLI A,et al.Tempo-ral people-to-people recommendation on social networks with senti-ment-based matrix factorization[J].Future Ceneration Computer Sys-tems, 2017, 78:430-439.
[5]L1 L, LIU J H,MENC X F,et al.Recommendation models by exploit-ing rating matirx and revieW text [J]. Chinese Journal of Computers,2018,427(7):131-145.
[6]FAN C, LI Y, YAO J.A latent variable Bavesian network recommenda-tion model for product scoring prediction[C]. The 2nd IEEE Ad-vanced Information Management, Communicates. Electronic and Au-tomation Control Conference( IMCEC). 2018: 971-975.
[7]HOFMANN T Latent semantic models for collaborative filtering [J].ACM Transactions on Information Systems, 2004, 22(1):89-1 15.
[8]KOREN Y.Factorization meets the neighhorhood:a multifaceted col-lahorative filtering model[C].ACM SIGKDD International Conferenceon Knowledge Discovery&Data Mining, 2008: 426-434.
[9]MNIH A,SALAKHUTDINOV R R.Probabilistic matrix factorization[C]. Advances in Neural Information Processing Systems, 2008:1257-1264.
[10]GANU G,ELHADAD N. MARIAN A. Bevond the stars: improvingrating predictions using review text content[C].International Work-shop on the Web and Databases, 2009,9:1-6.
[11]MUKHERJEE S, BASU G,JOSHI S. Incorporating author preferencein sentiment rating prediction of reviews [C]. Proceedings of the22nd International Conference on World Wide Web, 2013: 47-48.
[12]FAN M,KHADEMI M. Predicting a business star in Yelp from its re-views text alone [J]. https://arxiv.org/ftp/arxiv/papers/1401/1401.0864.pdf.
[13] WANG M, MA J.A novel recommendation approach based on us-ers' weighted trust relations and the rating similarities[J]. Soft Com-puting, 2016, 20( 10): 3981-3990.
[14]SARWAR B,KARYPIS G,KONSTAN J, et al. Item-based collabor-ative filtering recommendation algorithms[C].The lOth InternationalWorld Wide Web Conference, 2001: 285-295.
[15]邓爱林,朱扬勇,施伯乐.基于项目评分预测的协同过滤推荐算法[J].软件学报,2003 .14(9):1621-1628
[16] 孟祥武,刘树栋,张玉洁,等.社会化推荐系统研究[J].软件学报,2015,26(6):1356-1372
[17]CHEN J, WANG C, SHI Q, et al. Social recommendation based on us-ers'attention and preference[J]. Neurocomputing, 2019, 341: 1-9.
[18]SONG W. XIAO Z, WANG Y, et al. Session-based social recommen-dation via dynamic graph attention networks[ DB/OL]. https: //arxiv.org/pdf/1 902.093 62.pdf.
[19]SUN P. WU L, WANC M. Attentwe recurrent social recommendation[C]. The 4lst International ACM SIGIR Conference on Research&Development in Information Retrieval, 2018: 185-194.
[20]FAN W, DERR T. MA Y. et al. Deep adversarial social recommen- dation[ DB/OL].https: //arxiv.org/pdf/1905.13 160.pdf.
[21] PAN Y,HE F, YU H. Trust-aware collaborative denoising auto-en-coder for top-N recommendation [DB/OL]. https://arxiv.org/pdf/1703.01760v2.pdf.
[22] 彭舰,王屯屯,陈瑜,等.基于跨平台的在线社交网络用户推荐研究[J].通信学报,2018(3):147-158.
[23]WANG X. HE X, NIE L. et al. Item silk road: recommending itemsfrom information domains to social users[C].Proceedings of the 40thInternational ACM SIGIR conference on Research and Developmentin Information Retrieval. ACM. 2017: 185-194.
[24] JIANC M. CUI P, CHEN X. et al. Social recommendation withcross-domain transferable knowledge [J]. IEEE transactions onknowledge and data engineering, 2015, 27(11):3084-3097.
[25] 楊晓夫,秦函书。基于电子病历利用矩阵乘法构建医生推荐模型[J].计算机与现代化,2019 (6):81.
[26]冯永,陈以刚,强保华.融合社交因素和评论文本卷积网络模型的汽车推荐研究[J].自动化学报,2019,45(3):518-529.
(责任编辑:江艳)
作者简介:蔡崇超(1983-),男,上海大学计算机工程与科学学院博士研究生、湖州职业技术学院物流与信息工程学院讲师,研究方向为自然语言处理、社交网络、人工智能;许华虎(1968-),男,上海大学计算机工程与科学学院教授、博士生导师,研究方向为人工智能、大数据、图像处理。