基于评论的商品推荐数据挖掘技术研究与实现
2016-05-14王福江魏振钢
王福江 魏振钢
摘 要传统的推荐技术主要依据用户以及商品的基本信息和历史记录,对于商品和用户的特征很少描述。本文提出了基于评论的商品推荐技术,首先获取商品评轮的特征集和用户评价的特征集,计算商品和用户之间的特征匹配值,根据特征匹配值的大小来实现商品的推荐。
【关键词】商品推荐 数据挖掘 研究
1 引言
常用的推荐技术包括:基于内容的推荐、协同过滤与推荐、基于关联规则推荐、基于效用推荐等。这些推荐技术通过搜集用户信息、商品信息以及浏览购买记录等,建立用户兴趣模型并借助不同的推荐技术实现商品推荐。但用户需求随着时间推移不断变化,受限于兴趣推荐的质量很难进一步提升推荐结果。
文献提出了一种产品特征提取算法提取产品特征,文献研究评论的意见倾向识别方法。本文提出基于特征匹配值的商品推荐算法,通过对评论进行文本挖掘,计算商品和用户的特征匹配值找到商品和用户特征方面的联系,实现商品推荐。
2 基于评论的商品推荐技术流程
在基于评论的商品推荐技术架构中如图1所示,首先数据预处理模块将数据进行基本的处理,生成标准格式数据;评论挖掘模块将处理后的评论利用自然语言处理方法进行特征提取挖掘;在推荐计算模块中,根据规则得到初步的结果集;在推荐选取模块中,根据商品选取规则选取符合要求的商品,最后通过浏览器展现给用户。
评论挖掘过程中,利用ICTCLAS分词系统对评论进行分词,将结果分别进行特征提取,利用HowNet计算用户和商品的所有特征值,然后计算用户和商品之间的特征匹配值,根据特征匹配值生成推荐结果集,最后将推荐结果展现给用户。
4 基于评论的推荐技术挖掘方法
根据上节给出的商品推荐流程,我们将推荐模型的挖掘方法分为以下六个步骤:
Step1:使用ICTCLAS中文分词系统对评论进行分词处理,把评论划分为词条。
Step2:通过语义相似度计算合并语义相近的词,选取语义相似度sim(M,N)>0.5的词进行合并,然后使用知网HowNet建立商品和用户的特征词词典。词语语义相似度的计算公式如下:
(1)
M和N表示任意两个产品或用户特征属性,common(M,N)表示两个特征属性之间的相同性,log p(common(M,N))表示特征属性M和特征属性N两者之间的相同性所需要的数据量大小,log p(description(M,N))表示完整的描述M和N所需要的数据量大小。
Step3:建立特征描述词汇的情感词词典,对情感词进行赋值,例如描述手机的价格特征赋值有如下四种表述:
价格:很贵(-4)、贵(-3)、便宜(3)、很便宜(4)
Step4:通过情感词词典的赋值表,对商品和用户的所有特征值进行计算:
(2)
商品或用户的特征值P(p1,p2,...pn),gi表示特征p的某一特征值,n表示特征p所有特征值的数量。
Step5:对于商品的特征集合g(g1,g2,...gn)和用户的特征集合t(t1,t2,...tn)通过公式(1)计算商品和用户的特征相似度,取sim(g,t)>0.5得到商品P和用户Q的特征相似度集Sij(i代表商品第i个特征,j代表用户第j个特征)。对特征相似度集进行特征匹配度计算:
(3)
Step6:根据用户和商品的基本信息划分群组,计算该用户群组和所有商品群组之间的特征匹配值L,选择特征匹配值排名靠前的商品对用户进行推荐。
5 实验与分析
本文下载了亚马逊1000条商品和用户的数据,选取多于10个字符的评论数据,得到了用户g20160001和选取的部分群组商品特征匹配值表如表1所示。我们将选取特征匹配值得前五对用户进行推荐。
经过对比推荐结果与用户的历史购物记录,推荐商品基本满足了用户的购物趋向,当评论数据越多时候推荐商品的结果越趋向用户的兴趣。
另外,通过对结果研究发现,用户和同一个兴趣趋向商品的特征匹配值随着评论数量的增多而减小,最后趋向于某一值。因此,对于推荐商品而言评论数量越多推荐结果就越准确。
6 结论
传统的推荐模型需要建立用户兴趣集,本文提出基于评论的推荐技术,结合自然语言处理、特征评分文本挖掘等方法,建立特征匹配度表。这种基于评论的商品推荐,更符合消费者网络检索信息的思维习惯,可以与其它商品推荐方法互为补充,更加准确的向消费者推荐所需商品,帮助企业实现精准营销.
创新点:本文首次将评论进行分类,分别对商品评论和用户评价进行挖掘。依据特征值的计算结果提出了特征匹配度的定义以及计算方法。特征匹配度值的大小表明了商品以及用户之间的一种关联,值越小表明了两者之间的联系越大。
参考文献
[1]刘平峰,聂规划,陈冬林.电子商务推荐系统研究综述[J].情报杂志,2007(9):46-50.
[2]Hu M and Liu B.Mining and summarizing customer reviews.In Proc.of KDD04,168-177.
[3]李实,叶强,李一军.中文网络客户评论的产品特征挖掘方法研究[J].管理科学学报,2009,4(2):142-152.
[4]CHRYSANTHOS DELLAROCAS.The Digitization of Word of Mouth: Promised and Challenges of Online Feedback Mechanisms[J].Management Science,2003,10(49):1407-1424.
[5]HUM,LIU B.Mining Opinion Features in Customer Reviews[C].In AAA I,2004:755-760.
作者单位
中国海洋大学信息科学与工程学院 山东省青岛市 266100