引入用户情感偏好矩阵的ItemCF算法研究
2019-07-08岳强郭强李仁德
岳强 郭强 李仁德
摘 要:传统基于物品的协同过滤算法(ItemCF)利用物品间的相似性为用户提供个性化推荐,然而该方法仅考虑了评分数据,而未关注用户情感偏好。基于从评论中的emoji表情提炼出的用户情感偏好,提出一种引入用户情感编号矩阵的ItemCF算法。该方法利用物品共现矩阵与用户情感偏好矩阵计算物品相似度,进而进行个性化推荐。根据某在线互联网教育实证数据集的实验结果表明,该方法相比于传统基于物品的协同过滤算法,在准确率和召回率上都有所提升,在Top1-5推荐均值上分别提高了0.02和0.03。
关键词:推荐算法;ItemCF;用户情感偏好;emoji表情
DOI:10. 11907/rjdk. 182557
中图分类号:TP312
文献标识码:A文章编号:1672-7800(2019)006-0056-04
Abstract: The traditional item-based collaborative filtering (ItemCF) algorithm makes use of similarity between items to make individual recommendation to users. However, ItemCF only considers rating data and does not pay attention to usersemotional preferences. Based on user emotional preferences extracted from emoji expressions in reviews, an ItemCF algorithm with user emotional numbering matrix is proposed. This method uses the item co-occurrence matrix and the users affective preference matrix to calculate the item similarity, and then carries on the personalized recommendation. Experimental results on an online Internet education data set show that the proposed method outperforms the traditional item-based collaborative filtering algorithm in terms of accuracy and recall, and improves by 0.02 and 0.03 respectively on the average of Top1-5 recommendation.
Key Words: recommendation algorithms; ItemCF; user emotional preferences; emoji exprersions
0 引言
推薦是解决当今互联网信息过载问题的主要途径之一[1],为此国内外众多专家、学者们研究了各类推荐算法。其中,协同过滤(Collaboration Filtering)推荐是目前应用最广泛的个性化推荐算法[2]。其核心思想是,利用目标用户的相似用户对特定物品的评价,产生该用户对此物品的评价预测[3-5]。协同过滤算法的最大优点是对推荐对象没有特殊要求,能处理电影、音乐等难以进行文本结构化表示的对象[6-7]。但协同过滤算法存在评分数据稀疏性等问题,并且只考虑了用户评分数据,却忽略了用户本身的情感偏好[8]。
与此同时,emoji表情已成为当今世界人们相互沟通的一个必不可少的工具[9-10],几乎所有社交平台都在广泛使用emoji表情符号[11-12]。Novak等[13]认为emoji表情是用于表达情感和想法,并将情感可视化的一种符号;Vidal等[14]研究发现,在推特上12 260条关于早餐、午餐和晚餐的推文中,emoji表情比文字更频繁地用来表达用户情感。对emoji表情的分析与研究是未来的趋势[15],为此本文尝试从评论的emoji表情中提炼出用户情感偏好,提出一种引入用户情感偏好矩阵的ItemCF推荐算法。通过提取评论中的emoji表情,依据情感分成积极、中立和消极3类,并分别给每类情感赋予不同权重;然后计算不同类emoji表情数量的加权和以表征用户情感,构建出用户情感偏好矩阵;最后利用物品同现矩阵计算物品间的相似度,进而进行个性化推荐。
1 情感计算
本文采用某在线互联网教育中的用户评论数据集,评估本文算法的性能。该数据集包含2017年1~3月间共1 324 501条用户评论记录,其中用户评论是指用户在选择过的某一社团刊物(下文简称为“社刊”)上发表的评论,一个用户可对某一社刊进行多次评论。本文定义上述实证数据为原始数据,在原始数据中不难发现用户会在社刊上发表带有emoji表情的评论。经统计可知,有emoji表情评论记录的社刊占所有社刊数量的89%。
1.1 emoji表情提取
在计算用户情感之前,需要对原始数据进行数据清洗与emoji表情提取。首先删除不含emoji表情的评论记录;其次,用户在评论中发表的不同emoji表情数量通常不大于3种,为防止用户灌水,即在一条评论中发送很多不同的emoji表情,删除表情种类多于3种的记录;接下来考虑到极少社刊拥有的用户数小于3个,其中拥有用户数为1的社刊,唯一一个用户为社刊创刊者,为保证社刊品质,删除拥有用户数小于3个的社刊记录。
本文定义原始数据在经过上述3个步骤后保留下来的数据为筛选数据。为了获得更稠密的数据,本文在筛选数据上构造了投影网络[16],即将某用户评论过某一社刊视作一个新单元节点,若与其它单元节点存在相同用户或社刊则产生连边。最后,在投影网络上应用k核分解[17]。实验中k取最大值3 442,便可得到最核心的单元节点。
从上述最大k值所对应的单元节点中,保留用户和社刊信息,并分别定义该部分用户与社刊为核心用户和核心社刊,再从筛选数据中筛选出包含该部分核心用户与社刊的评论数据,即筛选后的评论数据是由核心用户对核心社刊所发表的包含emoji表情的评论数据,本文定义该部分数据为实验数据。至此,数据清洗及emoji表情提取工作全部结束。
1.2 用户情感计算
经过数据清洗,得到15 370条数据记录。在这些记录中共提取出126种emoji表情,并由7名志愿者将所有表情主观地分成3类,分别为:积极、中立和消极。为了检验志愿者主观分类结果的一致性,避免出现某个志愿者胡乱分类的情况,本文对分类结果进行了Krippendorff's alpha检验[18]。当Alpha值大于基准值0.6时,表明不同志愿者分类结果间的差异是可以被接受的[19]。文中实验的Alpha值为0.706 9,大于基准值0.6,所以志愿者的分类结果是可取的。之后,对7名志愿者的分类结果取众数,即获得相应emoji表情的所属分类。
4 结语
emoji表情已成为互联网时代必不可少的元素之一,是人们表达情感的重要载体。通过分析海量emoji表情信息,可以了解用户情绪状况、对某个社会现象的观点,以及对某款产品的偏好等。本文从用户情感角度入手,将emoji表情引入到ItemCF推荐算法中,但推荐效果依赖于评论中emoji 表情转化成用户情感的准确性。因此,未来工作可对文中emoji表情进行更加细致的分类,使提炼出的用户情感更为精确,从而提高推荐效果。
参考文献:
[1] 刘建国,周涛,郭强,等. 个性化推荐系统评价方法综述[J]. 复杂系统与复杂性科学, 2009, 6(3): 1-10.
[2] 周军锋,汤显,郭景峰. 一种优化的协同过滤推荐算法[J]. 计算机研究与发展,2004, 41(10): 1842-1847.
[3] 邓晓懿,金淳, 韩庆平,等. 基于情境聚类和用户评级的协同过滤推荐模型[J]. 系统工程理论与实践,2013,33(11): 2945-2953.
[4] 熊聪聪,邓滢,史艳翠,等. 基于协同过滤的美食推荐算法[J]. 计算机应用研究,2017,34(7):1985-1988.
[5] 邓爱林,左子叶,朱扬勇. 基于项目聚类的协同过滤推荐算法[J]. 小型微型计算机系统,2004,25(9):1665-1670.
[6] 罗辛,欧阳元新,熊璋,等. 通过相似度支持度优化基于K近邻的协同过滤算法[J]. 计算机学报, 2010,33(8): 1437-1445.
[7] 荣辉桂,火生旭,胡春华,等. 基于用户相似度的协同过滤推荐算法[J]. 通信学报,2014,13(2):16-24.
[8] 马宏伟,张光卫,李鹏. 协同过滤推荐算法综述[J]. 小型微型计算机系统,2009,30(7):1282-1288.
[9] 赵屹星垚. Emoji表情中的受众心理研究[J]. 设计艺术研究, 2016,6(1):46-49.
[10] 金芊芊. Emoji表情符号的艺术价值[J]. 常州工学院学报:社科版,2017,35(3): 52-55.
[11] 杨莞桐. 青年群体emoji表情符号使用情况调查与研究[J]. 人间,2016,217(22):17-19.
[12] TANG D, QIN B, LIU T. Document modeling with gated recurrent neural network for sentiment classification[C]. Conference on Empirical Methods in Natural Language Processing,2015: 1422-1432.
[13] NOVAK P K, SMAILOVI? J, SLUBAN B, et al. Sentiment of emojis[J]. PloS one, 2015, 10(12): e0144296.
[14] VIDAL L, ARES G, JAEGER S R. Use of emoticon and emoji in tweets for food-related emotional expression[J]. Food Quality & Preference, 2015, 49(6): 119-128.
[15] 許雅. 移动社交语境下Emoji表情的传播态势与功能探究[J]. 新媒体研究,2016, 2(8): 24-28.
[16] J?SCHKE R,MARINHO L,HOTHO A,et al. Tag recommendations in folksonomies[M]. Knowledge Discovery in Databases:PKDD 2007. Springer Berlin Heidelberg, 2007:506-514.
[17] BATAGELJ V, ZAVER?NIK M. Generalized cores[J]. arXiv preprint cs/0202039,2002.
[18] KRIPPENDORFF K. Agreement and information in the reliability of coding[J]. Communication Methods and Measures,2011,5(2): 93-112.
[19] HAYES A F. SPSS macro for computing Krippendorff's alpha[J]. Retrieved September, 2006, 6(4):17-20.
[20] 项亮. 推荐系统实践[M]. 北京:人民邮电出版社,2012.
(责任编辑:黄 健)