基于商品属性与用户聚类的个性化服装推荐研究
2015-12-15艾黎
艾黎
〔摘 要〕淘宝网作为电子商务时代最大的网上零售平台,为用户提供越来越多的商品与服务的同时,也出现了信息过载等一系列问题。鉴于此,本文提出了基于商品属性与用户聚类的个性化服装推荐方法,通过用户个人信息与对商品的评价,计算用户之间的相似度,进行聚类分析。与此同时,将商品化整为零,通过商品属性来计算商品的相似度,得到top-N相似列表。以此,综合商品与用户两者的权重值,实现为用户提供个性化的商品推荐,解决用户面对信息过载的难题,为用户节省精力,提高用户的购物体验。针对某一淘宝网店铺,本文提出了适合的混合推荐算法,并通过搜集实际数据进行了实证研究,对推荐结果进行准确性评价。
〔关键词〕个性化;商品属性;用户聚类;混合推荐
DOI:10.3969/j.issn.1008-0821.2015.09.031
〔中图分类号〕F71336 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0165-06
〔Abstract〕As the largest online retail platform in the era of e-commerce,Taobao provides users with more and more goods and services,but it also has a series of problems such as information overload.In this view,the paper proposed a personalized clothing recommendation method based on commodities attributes and users clustering.According to users personal information and his or her comment of the commodity,the paper could calculate the similarities between users,then divide them into different clusters.Meanwhile,the paper described the commodity as a set of attributes and calculate similarities of the products.Then the paper got a list of top-N similar products.With the weights of commoditys similarities and user comments,it provided users with personalized commodity recommendations,solving the problem of information overload.Its aimed to save energy,improve the users shopping experience.Take the example of one Taobao shop,empirical research is carried out by collecting the actual data to evaluate the precision of hybrid recommendation algorithm.And the results were not bad.
〔Key words〕personalization;commodity attribute;user clustering;hybrid recommendation
随着信息技术与互联网规模的发展,中国网民数量急剧增加,截至2014年12月底,我国网民数量达到649个亿[1]。互联网的用户基础,给电子商务提供了发展的温床。近10年来,电子商务呈现迅猛的发展态势,中国即将进入全民网购的时代。根据艾瑞咨询发布的网络购物市场数据[2],2014年中国网络购物市场交易规模达到28万亿,增长487%,占社会消费品零售总额的107%。但是,随着越来越多的商家进入电子商务行业,在线销售市场更加的纷繁复杂。面对商品信息海洋,消费者在选购商品时需要采集、搜索大量的信息,才能做出最终的选择。
信息过载问题使得消费者在进行网络购物时,需要花费甚至多于在实体店购物的时间与精力,这在很大程度上将会打击消费者的网购信心。为了节省消费者的购物精力,提高消费者的决策效率,电子商务网站的推荐系统应用而生。个性化推荐技术就是根据消费者的历史行为数据,预测消费者的兴趣爱好,并向消费者推荐其可能感兴趣的商品或服务,例如亚马逊网站的书籍推荐系统,虾米网站的音乐推荐等。
作为亚洲最大的网络零售商圈,截至2013年,淘宝网拥有近5亿的注册用户数,每天有超过6 000万的固定访客,每天同时在线商品数已经超过了8亿件,为消费者提供海量商品与服务的同时,也面临着严重的信息过载问题。尽管,目前淘宝网也有实现简单的个性化推荐的功能,不过更多的是为商家营销服务。针对商品的个性化推荐问题,很多学者进行了研究,基于客户聚类的商品推荐[3],根据客户的浏览、点击、收藏行为进行聚类,实现推荐;或是根据用户对商品的评分矩阵,进行协同过滤推荐[4]。
1 研究现状
个性化推荐是建立在海量数据挖掘基础上的智能推荐平台,以帮助电子商务网站为用户提供个性化的购买决策支持与信息服务。一个完整的推荐系统主要包括3个模块:用户模型、推荐算法与推荐输出[5]。其中,用户模型,主要指通过收集用户的各方面信息,如基本人口统计信息、行为信息,以提取出能够描述用户的属性信息,并将用户实体以结构化的形式表示出来。目前,用户模型的表示技术主要包括:n维向量空间模型、神经网络、用户-评分矩阵、案例、本体论5种形式[6]。endprint
根据国内外的研究成果,推荐算法可以主要分为:基于内容(Content-based,简称CB)、协同过滤(Collaborative Filtering,简称CF)和混合推荐[7]。
基于内容的推荐算法,是信息资源领域的主要研究内容。该算法通过分析资源或是商品的内容属性,计算商品、资源之间相似度。根据用户过去选择过的商品,从推荐商品中选择属性值相近的商品作为推荐结果。这一推荐技术首先分析并提取推荐对象中的内容信息,建立推荐对象的档案,和用户模型中的偏好档案进行匹配,相似度高的就可以作为推荐结果[8]。例如,虾米音乐会根据用户收听过、收藏的音乐,分析出喜欢的音乐风格、类型、歌手等特征,再根据此推荐具有相同特征的音乐。基于内容的推荐(CB)实现原理简单、直观,结果易于理解,不需要具备专业行业知识。而且,目前在信息研究领域,对文本的特征提取技术比较成熟,但是,对于互联网时代涌现的各种多媒体信息,技术支持还有待提高。此外,基于内容的推荐,只能根据用户历史偏好进行推荐,不能很好地发现用户的新兴趣。
相对来说,协同过滤算法是目前使用比较广泛的新一代推荐技术。它基于用户-评分矩阵来研究用户的兴趣模型:对同一项目评分相似的用户,具有相类似的偏好。因此,对于任意一个用户,首先可以根据其对项目的评分找到具有相似偏好的用户。然后,根据相似用户对其他项目的评分,预测该用户对新项目的喜好程度,形成推荐结果。早在1992年,John Riedl和Paul Resnick开始创建基于协同过滤技术的新闻推荐系统GroupLens。该系统收集用户对文章的评分,并预测用户对其他文章的喜好程度。这是最早的自动化协同过滤系统推荐引擎之一。协同过滤(CF)算法能够很好的应用于复杂、非结构化推荐对象,如电影、视频等。而且,它并不依据推荐对象的内容,推荐结果具有多样性,能够较好的挖掘出用户的兴趣动向[9]。
综上所述,单个推荐算法都具有各自的优点与局限,无论是基于内容的推荐还是协同过滤都会存在冷启动的问题。当有新用户出现时,系统较难获取用户的偏好信息,也就无法为其提供精确的个性化推荐。混合推荐算法在一定程度上能够避免两种算法的局限,最常使用的就是协同过滤与机器学习算法相结合。
由于商品种类的复杂性与非结构化,商品推荐存在各种适应性的问题,各大电子商务网站的商品推荐技术也不尽相同,更有很多学者对这一问题展开研究。商品推荐主要可以概括为两大类:基于单一推荐算法或是推荐技术与数据挖掘技术的结合。C2C在线拍卖兴起之时,李雪峰、刘鲁等提出基于协同过滤的拍卖商品推荐(2006)[10]。汲业、陈燕等引入知识工程的树状表示法,将商品推荐中的三要素转化成描述树进行表达,建立基于Prolog语言知识库模型的个性化推荐(2010)[11]。温廷新、唐小龙等提出基于商品内容与基于用户协同过滤的混合模式网络超市商品推荐(2013)[12],其中商品的内容特征提取太过宽泛,只有商品的外在属性值如价格、重量、销售量等。
2 理论基础与模型
鉴于上述对推荐算法的研究分析,针对服装商品,本文提出基于商品属性内容与用户聚类的混合推荐模式。根据服装商品的分类以及用户在选购服装时考虑的因素,提取商品的属性特征,构建商品的模型。与此同时,采集用户的基本个人信息如身高、体重、地区、性别等与历史购买服装的评价。通过分析评价,得出用户对商品哪些属性比较看重,并将这些属性特征纳入用户模型。
实现混合推荐模式的过程如图1所示:
(1)对于任何一个进入店铺的用户,根据用户浏览的商品,基于商品属性利用KNN函数找到最相近的TOP-N推荐候选集;
(2)基于构建的用户模型,进行K均值聚类,得到用户所属的类;
(3)求出该用户与类中其他用户之间的相似度,将相似度作为权重值赋给用户对商品的评分,综合用户的评分与权重值,对推荐候选集商品,进行喜好排序,得到最终的推荐列表;
(4)若判断用户为新用户,则可以在步骤3中根据用户所属类,直接给出推荐列表。
图1 混合推荐流程图
该混合推荐模式的创新点在于,对用户的购物评价进行分析,抽取出用户的购物偏好属性,并将属性偏好加入用户模型,更加生动、真实的描述一个用户实体。通过对用户的聚类,找到偏好相似的用户,能够很好地解决新用户的冷启动问题。虽然,该推荐过程中,也涉及用户-评分矩阵,但并不依赖该信息得到推荐结果,而是作为一个提高推荐精准度的方式。
21 KNN算法
KNN算法相似近邻的算法包括,固定数量的近邻(KNN)与基于相似度的近邻(Threshold-based Neighborhoods)。这里本文我们采用的就是前者,固定数量的近邻,其中K就代表我们抽取的相似近邻的数量。根据服装行业商品的属性描述以及选购经验,提取出商品的属性特征,构建商品的档案,用一个N维向量来表示,形式如{key,value}。对于任意两个商品,分别用向量x,y表示,通过向量之间的余弦相似度,来度量商品的相似性。
其中,K表示商品模型中的属性特征的数量,相似度越大,两个商品的共性就越大。
依次计算其他商品与目标商品的相似度,并按照相似度值的高低排序,K个最相似的近邻,得到top-N推荐结果。
22 K均值算法
K均值算法是典型的基于距离的聚类函数,采用距离作为评判相似度的标准,认为距离越大,两者之间的相似度越小。同样的,我们根据用户的基本信息与商品评价,提取用户的属性特征,用一个N维向量来表示。对于任意两个用户,分别用向量m,n表示,两者间的距离采用欧几里的方式测量:
d(m,n)=∑kj=1(uj,m-uj,n)2
(2)
其中,K表示用户模型中的属性特征的数量。进行K均值聚类时,首先从用户群中随机选取K个质心,计算用户到各个质心的距离,并把该用户归于距离质心最近的类,完成初步的聚类。然后,分别计算K类中的平均值,将平均值的点作为新的质心。迭代上面两步进行聚类,直到质心不变或是变动的幅度小于一定的阈值,函数结束。根据欧几里得距离,利用下面的公式转换为相似度。endprint
sim(m,n)=11+d(m,n)
(3)
3 实证研究
本文的研究对象为特定用户推荐个性化的服装商品,目前淘宝网也有类似的功能推荐,如“看了又看”、“掌柜推荐”等,个性化不够明显,只是根据关键词的简单关联推荐,推荐结果不够精确。鉴于此,我们将对这一问题进行改善研究。
31 商品属性提取
针对服装这一特定推荐对象,查找服装行业相关的类目信息,不同类目下的服装商品属性特征具有一定的差别。此外,通过研究服装消费者的行为特点,从消费者的角度,找到最能描述商品的属性,并摒除一些冗余的属性特征。
王文兴通过分析服装消费者行为特点,对价格与非价格因素综合定量分析,得到结论:在互联网的环境下,影响女性服装消费的非价格因素主要包括服装的材料、品牌以及时尚[13]。梁建芳、 李筱胜等以女性网购消费者为研究对象,通过调查问卷方式,对网购群体、购买的服装类别以及影响其购买的决策因素进行了统计分析。在分析在线服装选购的主要影响因素中,作者发现947%的网购消费者首先会关注产品特征,其次才是商家属性和信用风险。产品属性的关注度由高到低依次为:服装的款式、质量、色彩、价格、品牌、潮流和产地[14]。鉴于此,我们对商品提取以下几个属性:宝贝描述、宝贝颜色、尺寸、风格以及适合的人群、季节等信息。其中,我们将颜色、尺寸、版型、适合年龄与季节这几个属性设置为尺度变量,属性值之间存在着程度大小之分,图案、面料与风格设置为分类变量,属性值之间没有大小之分。
色彩是人类感知的第一要素,也是吸引视觉感知的重要元素之一。色彩能够激发人们的心理反应,并激发着人们对色彩的审美和商品的购买欲望和消费欲望。色彩学上根据心理感受,把颜色分为暖色调(红、橙、黄)、冷色调(青、蓝)和中性色调(紫、绿、黑、灰、白)。色彩的偏好与人的心理性格紧密相关,每个人都会有自己比较偏好的色彩系[15],如表1所示。
32 用户建模
许明李在传统的购买行为相关理论的基础上,从经营者的角度获得影响消费者网上购买服装的因素。自有平台B2C经营者认为人口统计特征、相关群体都会对网络购物产生影响[16]。对于消费者来说,在选购服装时合身是最重要的因素,即使再好看的衣服,若是不合身,消费者也会放弃购买。因此,我们对用户提取基本人口特征信息,包括用户名、身高、体重。通过分析服装消费者在选购服装时注重的服装属性特征,我们从评价中提取用户所购买商品的尺寸颜色信息,以及店铺中用户对商品的评价信息,包括评价等级、评价内容,如宝贝有无色差、是否合身等。其中,体重、身高、是否合身、有无色差、购买的颜色等属性全部都为尺度变量,属性值有着程度大小之分,如表2所示。
33 结果与评估
为了验证算法的准确性,利用网页数据采集软件Gooseeker采集淘宝网上一家名为“柚子美衣”的店铺所有的服装信息和用户信息。根据,前面提取的商品、用户特征属性,进行数据处理,可以将数据存储为3张数据表:商品信息表、用户信息表和用户评分表。
331 结果展示
选定编号为1的用户进行检验,根据前面提取的商品属性,该用户浏览的商品表示为item(01,1,1,0,1,0)。将该商品输入最近邻KNN算法中,通过方法KnearestNeighbor(Listlist,double[] vec,int k)计算出K件最相似的商品。
取K=10,输出10件与该商品最相近的商品,也就是初始的推荐列表,如表3所示。
对输入的用户进行聚类,经过多次迭代后,函数结束。得到用户所属类为2,计算类中各个用户与指定用户的相似度,如表4所示。
用户对商品会有一个评分,将用户相似度作为权重值赋给商品评分,计算得到加权后的商品评分。按照评分的高低对初始推荐列表进行排序,得到最后的推荐结果。其中,编号为55的商品,加权分为0,是因为用户的类中没有用户对该商品有过评分,如表5所示。
332 评估
绝大多数的推荐系统都利用准确度评价推荐算法的好坏,假设用户可以对商品反馈喜欢或是不喜欢,那么准确度可以定义为推荐算法中预测的商品,用户喜欢的商品数所占比例。由于系统实际应用不同,评价指标缺乏标准化。现在已有的准确度指标主要有:预测准确度、分类准确度、排序准确度、距离标准化指标等[17]。
文中主要采用分类准确度来评估推荐系统,其中分类准确度包括两个评估指标,分别为准确率(precision)与召回率(recall)。准确率是指在系统的推荐列表中,用户喜欢的商品数所占的比率;而召回率是指推荐列表中用户喜欢的商品数占用户所有喜欢的商品数量的比率,如表6所示。
我们都希望推荐系统的准确率与召回率两者越高越好,但是,precision与recall指标两者在一定情况下是相互矛盾的。因此,本文采用综合指标F-Measure来评估。F-Measure是precision与recall的调和加权平均。
F1=2prp+r
(5)
通过设置推荐商品数N的不同,得到推荐系统在一系列推荐实践下的评价指标准确率、召回率以及与F1的值。以此来验证推荐系统的稳定性与持久性,排除偶然的因素。如下是推荐商品数N—F1曲线,如图2所示:
图2 评价指标F1
我们可以看到虽然随着推荐的商品数的变动,评价指标F1的值一直稳定在04~06之间,没有很大的波动。可以说,该推荐算法是比较稳健的。
4 结论与展望
采用基于商品内容与用户聚类的混合推荐,能够很好地解决推荐中的冷启动问题。实现个性化的推荐,在提高用户购物体验的同时,也能为商家增强消费者粘性。在以后的研究中,可以进一步研究丰富用户的特征信息,建立更加全面的用户兴趣偏好模型。本文使用的用户特征信息,主要还是用户的人口特征信息,并没有涉及用户对商品属性的需求特征。未来,可以基于用户对商品的评论内容,对其进行文本分词处理,提取用户对商品属性的需求的关键词,并赋予一定的权重,以此得到更加丰富的用户特征模型。进一步提高个性化推荐系统的精准度。endprint
参考文献
[1]三川.CNNIC发布第35次《中国互联网络发展状况统计报告》[J].中国远程教育,2015,(2):31-31.
[2]张晶.关注两会:聚焦电商未来发展[J].物流技术:装备版,2015,34(3):18-22.
[3]唐晓波,樊静.基于客户聚类的商品推荐[J].情报杂志,2009,28(6):143-146.
[4]黄光球,靳峰,彭绪友.基于兴趣度的协同过滤商品推荐系统模型[J].微电子学与计算机,2005,22(3):5-8.
[5]肖蕾.点餐平台推荐系统模型设计[J].漳州师范学院学报:自然科学版,2013,(2):32-35.
[6]吴丽花,刘鲁.个性化推荐系统用户建模技术综述[J].情报学报,2006,25(1):55-62.
[7]杨博,赵鹏飞.推荐算法综述[J].山西大学学报:自然科学版,2011,(3):337-350.
[8]曾艳,麦永浩.基于内容预测和项目评分的协同过滤推荐[J].计算机应用,2004,24(1):111-113.
[9]王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7):66-76.
[10]李雪峰,刘鲁,张?.基于协同过滤的在线拍卖商品推荐[J].计算机工程,2006,32(23):18-20.
[11]汲业,陈燕,屈莉莉,等.基于Prolog语言的商品推荐知识库模型[J].计算机工程,2010,36(22):10-12.
[12]温廷新,唐小龙,马龙梅.基于混合模式的网络超市商品推荐方法[J].现代情报,2013,33(12):45-51.
[13]王文兴.服装网络营销策略研究[D].上海:东华大学,2010.
[14]梁建芳,李筱胜.电子商务环境下女性服装消费行为分析[J].浙江理工大学学报,2011,28(5):728-733.
[15]郭东.论个人形象设计中的色彩设计与性格的关系[J].美与时代:上半月,2009,(3):11-14.
[16]许明李.服装消费者网上购买行为影响因素研究[D].上海:东华大学,2012.
[17]刘建国,周涛,郭强,等.个性化推荐系统评价方法综述[J].复杂系统与复杂性科学,2009,6(3):1-10.
(本文责任编辑:郭沫含)endprint