APP下载

一种混合推荐系统的设计与应用

2010-09-14刘旭东葛俊杰叶长国

泰山学院学报 2010年3期
关键词:子类关联服务器

刘旭东,葛俊杰,叶长国

(1.烟台职业学院信息工程系,山东烟台 264670;2.泰山学院信息科学技术学院,山东泰安 271021)

一种混合推荐系统的设计与应用

刘旭东1,葛俊杰1,叶长国2

(1.烟台职业学院信息工程系,山东烟台 264670;2.泰山学院信息科学技术学院,山东泰安 271021)

针对B2C网上购物的实际背景和要求,设计了一个运用多种技术相结合的个性化推荐系统模型,这种推荐模型既能有效解决单独关联规则推荐不适合同类产品推荐问题,又能有效解决协同过滤算法不适合异类产品推荐问题;既能有效处理电子商务中产品种类和类别层次繁多的产品推荐问题,又能加快推荐速度,在电子商务系统中具有良好的推荐效果和应用价值.

个性化推荐系统;协同过滤;关联规则;电子商务

0 引言

随着电子商务的兴起与发展,人们的商务理念也发生改变,经销商和客户之间通过互联网进行交易,节省了大量的费用和时间.目前电子商务在线购物的成功很大程度上取决于用户与计算机的交互[1],取决于用户的购物经验.而利用网页推荐技术可以有效地帮助企业分析从网上获取的大量数据,发现隐藏在其后的规律性,提取出有效的信息,进而指导企业调整营销策略,给客户提供动态的个性化的高效率服务.目前,网页推荐技术已经被广泛地应用在国内外的各大电子商务网站之中,如Am azon、EBay、CDNOW、MovieFinder以及Joyo、BOL等,都不同程度地应用了各种形式的推荐系统[2].推荐系统是建立在客户以前的在线购物行为和个人兴趣资料基础上的,是一种用来个性化网站的有效方法,其本质就是个性化推荐方法的设计.电子商务购物网站中推荐方法的选择与设计需要考虑以下两方面的因素:第一,推荐算法的运行速度问题,尤其对在线推荐这一点非常重要;第二,推荐结果既要考虑到不同类/子类商品的推荐,又要考虑同类商品的推荐问题.

针对上面两个要求,结合B 2C网上购物的实际背景,本文设计了一种能切实提高电子商务网站产品实际购买量的推荐系统模型,克服了目前各种推荐系统所应用算法的不足,在电子商务系统中取得了良好的推荐效果.

1 推荐系统架构

本文提出的电子商务推荐系统架构如图1所示,该推荐系统是一个B/W/S(浏览器/W eb服务器/数据库服务器)三层结构,W eb服务器包括WWW服务器和应用服务器.它包括以下4个部分:

(1)前端用户

系统前端是基于浏览器的用户端,用户可在家或办公室等任何时候通过输入用户名和密码后便可登录企业的电子商务网站,浏览网页,或是购买商品,所有信息都可经WWW服务器收集并保存在后台数据库服务器中.

图1 电子商务推荐系统架构

(2)WWW服务器

WWW服务器的作用主要有两个,一是负责收集前端用户的个人信息资料,并存储于数据库服务器中,同时也负责把应用服务器端产生的推荐结果生成动态网页呈现给用户.

(3)数据库服务器

数据库服务器主要包括用户交易数据库和用户资料数据库,其中交易数据库存储用户每次的购买详细记录;用户资料数据库存储了用户的个人资料,如姓名、年龄、职业等,还有通过网络数据挖掘方法等获得的用户兴趣信息等.在实际中,还可根据推荐方法或推荐系统的需要,增加其它数据库,如用户评价数据库等.

(4)应用服务器

应用服务器是电子商务推荐系统最核心的部分,其中最重要的功能模块就是购物个性化推荐模块.前端与WWW服务器相连,后端与数据库服务器相连,其作用是提取数据库服务器中的用户资料库和交易数据库中的数据,经数据预处理后,为用户做出个性化推荐,包括商品子类层次上的关联规则推荐和子类所属产品范围内的协同过滤推荐,前一部分工作可以离线进行,后一部分工作要求在线适时进行,总体可以为用户作出适时的个性化推荐.

相对其它的推荐方法,该组合推荐方法有以下几个优点:①关联规则在商品子类层次进行,提高了关联规则的发现速度,也加快了商品子类的推荐速度,使推荐算法对于在线推荐变得更为可能;②协同过滤在一个子类范围内进行,候选推荐项目的内容属性上相对更为集中,更适合协同过滤推荐的应用场合,使协同过滤推荐更为准确;③由于只在一个子类或部分子类所属范围内进行,加快了协同过滤推荐的速度,使协同过滤在线适时推荐变得更为可能.

2 系统关键技术

本系统主要运用两类推荐算法相结合:基于关联规则的推荐算法和协同过滤推荐算法.

2.1 基于关联规则的推荐算法

关联规则是数据挖掘中的一种主要挖掘技术,它是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识,其挖掘算法的基本问题是:给定一个交易数据库D,产生支持度和可信度分别不小于用户给定的最小支持度(m in_sup)和最小可信度(m in_conf)的强关联规则.该问题可以分解为两个子问题:(1)求出D中满足最小支持度的所有频繁项集;(2)利用产生的频繁项集,生成满足最小可信度的强关联规则.

基于关联规则的推荐算法可以分为离线的关联规则推荐模型建立阶段和在线的关联规则推荐模型应用阶段[3].离线阶段使用各种关联规则挖掘算法建立关联规则推荐模型,这一步比较费时,但可以离线周期进行;在线阶段根据建立的关联规则推荐模型和用户的购买行为向用户提供实时的推荐服务,使用关联规则推荐算法产生top-N推荐的算法步骤如下:

(1)使用关联规则挖掘算法(本文采用典型的Ap riori算法[4])对交易事务数据库D′(将用户购买商品组成的事务交易数据库D经数据预处理,转化为商品所属子类层次上的事务数据库D′)进行关联规则挖掘,得到满足最小支持度阈值m in_sup和最小可信度阈值m in_conf的所有关联规则,记为关联规则集合R;

(2)搜索关联规则集合R,找出该用户u支持的所有关联规则集合Ru,产生候选推荐集Su;

(3)从候选推荐集Su中删除用户u已经购买过的商品子类,并选择可信度最高的前N个项(记为Si,i=1,2,…,N)作为推荐结果返回给当前用户u.

2.2 协同过滤推荐算法

协同过滤作为目前最成功的推荐算法被广泛地应用,其目标是根据具有相似偏好的用户的观点向目标用户推荐新的商品[5].它首先找出和目标用户最相似的用户即最近邻居,然后根据最近邻居对项目的评分预测目标用户对项目的评分,产生相应的推荐列表.

主要分为三个步骤:矩阵表示、邻居形成和产生推荐.

(1)矩阵表示

用户评分数据可以用一个m*n阶矩阵A(m,n)表示,m行代表m个用户,n列代表n个项目,第a行第j列的元素Raj代表用户a对项目j的评分.

(2)邻居形成

用户相似性数据可以用一个m*m阶矩阵w(m,m)表示.首先得到用户a和用户i评分过的所有项目,然后计算出用户a和用户i之间的相似性,度量用户间相似性的方法有许多种,主要包括如下三种方法:余弦相似性、相关相似性以及修正的余弦相似性.这里采用修正的余弦相似性来进行度量,记为

其中,Ia,i表示用户a和i共同评分过的项目集合,Ia和Ii分别表示用户a和用户i评分过的项目集合,ra,c和ri,c分别表示用户a和用户i对项目c的评分,分别表示用户a和用户i对项目的评分.根据相似性计算的结果,直接找出与用户相似性最高的前N个用户作为最近邻居.

(3)产生推荐

“最近邻居”集产生后,可计算用户对任意项的兴趣度和Top-N推荐集.设用户a和相应的已选项集Ia,对任意项j(j Ia)的兴趣度按下式计算:

3 推荐过程

在经关联规则推荐得到的前N个用户最感兴趣的商品子类后,就可以在这N个商品子类所属的产品范围内利用协同过滤给出具体的产品推荐,具体做法有两种:

(1)在所有推荐子类所属的产品范围内采用协同过滤方法进行推荐,也就是在Si(i=1,2,…,N)范围内一次性采用协同过滤方法进行推荐.(2)在每个子类所属的产品范围内用协同过滤推荐.

假设对每个子类Si(i=1,2,…,N),得到Q个产品推荐,记得到的推荐集合为Ii=﹛Ii1,Ii2,…, IiQ﹜,同时记每个产品的预测分分别为P(Ii1),P(Ii2),…,P(IiQ).

再根据下列策略得到最后推荐:

(1)子类平均推荐:对所有P(Ii,j)(i=1,2,…,N;j=1,2,…,Q)从高到低排列,选择其中最高的作为推荐.

(2)子类加权推荐:由于用户对经关联规则得到推荐子类具有不同的偏好,所以对每个P(Ii,j)(i= 1,2,…,N;j=1,2,…,Q)加权用户子类Si的偏好程度.假设用户对子类Si偏好权重为w(Si)(权重可以是经关联规则推荐时计算所得到的可信度,也可通过用户在子类Si上的历史购买情况来刻划),计算Fij=w(Si)P(Ii,j),并依据Fij(i=1,2,…,N;j=1,2,…,Q)的高低选择最高的前N个商品作为推荐.

4 结束语

近几年来,随着电子商务的蓬勃发展,商家竞争日趋激烈,为了尽可能将网站的浏览者转变为商品的购买者,同时提高电子商务系统的交叉销售能力,对顾客提供个性化的服务成为必然需要,电子商务推荐系统应运而生.同时,关联规则作为数据挖掘的主要方法之一,也引起了人们越来越多的关注.文中在对关联规则和协同过滤进行研究的基础上,提出和设计了一种基于产品子类层次上的关联规则和子产品范围内的协同过滤推荐组合模型,该模型大大提高了系统的运行效率和质量,在实际应用中取得了较好的推荐效果.

[1]余力.电子商务个性化推荐若干问题研究[D].北京:北京航空航天大学,2004.

[2]邓爱林,朱扬勇,施伯乐.基于项目评分预测的协同过滤推荐算法[J].软件学报,2003,14(9).

[3]刘晓波.基于关联规则的电子商务商品推荐系统研究[J].中国市场,2008,17(52).

[4]曹月芹,林枫,陈国浪.基于Ap rio ri分类事务库关联规则算法[J].计算机系统应用,2009,18(4).

[5]J.L.Herlocker,J.A.Konstan,L.G.Terveen,etal.Evaluating co llabo rative filtering recomm ender system s[J].ACM Trans.Information System s,2004,22(1).

Design and App lication of Recomm endation System Based on Hybr id Technology

L IU Xu-dong1,GE Jun-jie1,YE Chang-guo2
(1.Departm entof Info rm ation Engineering,YantaiVocationalCo llege,Yantai,264670; 2.Schoo lof Information Science and Technology,Taishan University,Tai’an,271021,China)

A ccording to the background and requestof the B 2C on line shopp ing,one kind of personalized recomm endation system is designed.This k ind of recomm endationm odel,no ton ly so lves the sam e c lass p roduct recomm endation to which association ru le is not suit and different class p roduct recomm endation to w hich co llaborative filtering is not suit,but also imp roves recomm ending speed which is very key for on line recomm endation.Therefore,it greatly achievesgood recomm ending resu ltsand app lication value in E-Comm erce.

personalized recomm endation system s;co llabo rative filtering;association ru le;E-Comm erce

TP311

A

1672-2590(2010)03-0030-04

2010-03-18

山东省教育科学“十一五”规划课题(2008GG068)

刘旭东(1976-),男,山东龙口人,烟台职业学院信息工程系讲师.

猜你喜欢

子类关联服务器
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
卷入Hohlov算子的某解析双单叶函数子类的系数估计
通信控制服务器(CCS)维护终端的设计与实现
“一带一路”递进,关联民生更紧
奇趣搭配
Java类的继承
中国服务器市场份额出炉
智趣
面向对象的多版本传感器观测服务模式匹配方法
得形忘意的服务器标准