基于Web挖掘的电子商务推荐系统研究
2013-09-27姚琪
姚琪
(常州信息职业技术学院,江苏常州213164)
目前电子商务发展迅猛,已有在线购物、网上银行、在线支付结算系统、电子票据等多种类型电子商务形式,网络在线购物已成为生活的一部分。如何通过网络更加深入地了解客户需求和购物的行为特征,成为电子商务企业提高盈利、提升客户忠诚度所必须考虑的重要问题。数据挖掘技术的发展、应用给这个问题的解决带来了可靠的方案,它为正确的商业决策提供强有力的支持和可靠的保证。
Web挖掘是数据挖掘技术在Web上的应用,是以从网络上挖掘有用知识为目标。它将传统的数据挖掘技术与Web结合起来,并综合运用统计学、计算机网络、数据库与数据仓库、可视化等众多领域的技术,从而发现更多有效的、新颖的、潜在的有价值的信息。Web挖掘技术的发展提升了电子商务推荐系统在企业运营中的应用价值。
电子商务推荐系统的定义是:“利用电子商务网站向客户提供商品信息和建议,帮助客户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”[1]。可以说,电子商务推荐系统是企业基于Web站点个性化一对一的营销服务模式而产生。因此,推荐系统的结构模型和算法设计对电子商务企业的营销会有直接影响。
1 推荐系统结构模型设计
电子商务推荐系统要实现的用户个性化推荐功能,其面临的关键问题是需要对大量注册和非注册用户的行为特征进行深层解析。推荐系统的整体结构模型设计是基于Web挖掘技术的个性化推荐服务合理性和精确性实现的前提条件。本文研究的电子商务推荐系统结构模型如图1所示,该系统由离线部分和在线部分两大模块组成。
从系统结构模型可以看出离线部分由数据预处理、模式识别等四部分组成,在线部分主要由推荐引擎和用户会话组成。
1.1 离线部分数据挖掘
离线部分的Web数据挖掘包含数据收集、预处理、模式识别、模式分析四个关键部分。
1)数据收集
Web数据挖掘的对象是用户数据。用户在访问电子商务网站的时候,会在Web服务器上产生相应的数据记录,这些记录主要存放在Web服务器的日志中。Web日志记录也就是电子商务推荐系统离线数据挖掘主要的数据来源。
2)数据预处理
Web服务器日志保存了客户完整的文件访问记录,其中既包含了有效信息,也包含了与挖掘任务不相关的日志属性或冗余的日志记录。数据预处理工作主要是对用户访问日志进行数据清理,以形成完整的、正确的、满足挖掘需求的数据。数据预处理过程通常包括数据清理、用户识别、会话识别、路径补充、事务识别等。
3)模式识别
模式识别也叫模式挖掘或模式发现,它是离线部分数据挖掘的重点也是难点部分,推荐系统挖掘性能的优劣关键在于挖掘算法设计的合理性。在这一阶段系统主要是利用各种挖掘算法从预处理数据中分析出可以理解的信息和知识。常见的挖掘算法有关联规则分析、序列模式分析、路径分析、分类规则分析、聚类分析等。
(1)关联规则挖掘
关联规则挖掘即是利用关联规则挖掘隐藏在数据间的相互关系。例如利用该技术挖掘出访问某一商务平台的Web用户中有“85%的客户在一次购买活动中,购买商品A并同时购买商品B的信息”[2]。利用这种挖掘技术能够帮助电子商务企业制定有效的市场营销策略。
[38] Hearing Before the Senate Foreign Relations Committee Subcommittee on Asia Hearing on Maritime Territorial Disputes in East Asia, July 15, 2009.
(2)路径分析
路径分析即是通过对用户访问路径模式的分析,得到客户频繁访问的路径(链接),即热门路径[3]。利用路径分析结果,可以给电子商务企业明确哪些是用户关注的热点区域,即可在这些区域加大广告投放。
(3)序列模式分析
序列模式分析即是在有序的事务集中找到一组数据项之后出现另一组数据项的内部事务模式,也就是挖掘出用户会话集之间有时间序列关系的模式。利用序列模式分析能预测客户的访问模式和访问目标,挖掘客户的兴趣点。
(4)分类规则
分类规则就是通过分析已有示例数据库中的数据,为每一个类别做出准确的描述或建立分析模型或者挖掘出分类规则,通常是开发一个属于特定组的数据项的配置文件,然后用这个文件对新增到数据库的数据进行分类。
(5)聚类分析
聚类分析包括用户聚类和页面聚类两种,其目的就是把具有相似特征的用户或数据项汇聚成一类,便于企业对未来市场制定策略。
模式分析是指采用合适的技术和工具,对挖掘结果展开观察、选择、分析,并把发现的规则、模式和统计值转换为知识[4],经过一定标准的筛选后得到有价值的信息模型,从而来指导实际的电子商务行为。常用的模式分析方法有OLAP法、知识查询法和信息过滤法。
1.2 在线部分数据挖掘
在线部分数据挖掘就是通过跟踪用户当前会话信息,同时调用离线部分Web挖掘的特征库,然后综合计算生成推荐集,进而实现为用户提供实时、有效的个性化推荐服务。
在线数据挖掘具体过程是:当某个用户浏览电子商务网站时,会话管理器负责与该用户通信,将捕捉到的当前用户会话信息(user session)传递给推荐引擎,推荐引擎将该信息与由离线部分挖掘生成的特征库进行合并计算,生成推荐结果集,然后将该结果提交给站点服务器,站点服务器通过站点发布器将推荐结果集发送到用户客户端,并展现在用户的浏览器中,从而完成个性化推荐服务工作。其中的推荐引擎是基于Web挖掘的电子商务推荐系统在线部分的关键部件。个性化推荐以超链接的形式将推荐结果添加到用户当前会话的页面中,从而提高兴趣商品被购买的可能性。
将离线挖掘和在线实时数据挖掘整合的系统结构模型,相比传统仅依靠离线数据挖掘的体系结构设计具有明显的优势。离线挖掘部分可充分利用系统空闲进行计算,在线挖掘部分由于只需扫描一次离线挖掘生成的序列事务特征库,而且在线挖掘算法也仅针对部分相关结构,因此,整个推荐系统框架实时开销少,效率高,具有较好的可扩展性。
2 电子商务推荐系统核心算法
电子商务推荐算法是整个推荐系统的核心,计算的效率和计算结果的精度影响着推荐系统的整体性能。当前常用的电子商务推荐算法主要有:基于关联规则的推荐算法、基于效用的推荐算法、协同过滤推荐算法以及组合推荐算法等,各个算法都有优缺点,仍在不断的完善和改进。目前电子商务行业中采用最多的还是基于关联规则的推荐算法、协同过滤推荐算法以及组合推荐算法。
2.1 基于关联规则的推荐算法
关联规则就是支持度和信任度分别满足用户给定阈值的规则[5]。利用关联规则可从Web日志数据中挖掘出能够有效地对各数据之间的关系进行描述的一系列模式。关联规则推荐算法的技术优点在于便于发现用户新兴趣,且不需要用户输入相关信息,另外对非注册用户也有效,其计算的推荐结果可信度比较高。
关联规则算法有多种,主要是针对寻找频繁项目集和利用频繁项目集产生所需的强关联规则展开设计。因此,关联规则算法的核心是基于两个阶段频繁集思想的递推算法[6]。关联规则经典算法有Apriori算法,但随着研究和应用的不断深入,该算法的缺点也越来越明显。例如当存在大量的长模式、频繁模式或者最小支持阈值较小时,Apriori算法将花费较大的开销来处理数目特别大的候选项集;另外该算法需多次扫描事务数据库,会导致I/O负载加大。基于Apriori算法的缺陷,研究者提出了很多改进型算法,主要有数据分割法、散列法及采样法,其目的都是为降低算法开销和I/O负载。
2.2 协同过滤推荐算法
协同过滤推荐算法所要实现的是通过分析用户兴趣,在用户群中找到与指定用户相似(兴趣)的用户,综合这些相似用户对某一信息的评价建立该用户的行为模型,通过行为模型分析预测该用户对此信息的喜好程度。
协同过滤推荐算法主要有两类:一是基于用户的协同过滤推荐算法,二是基于项目的协同过滤推荐算法。目前仅采用单一的协同过滤推荐算法在实际应用中较少,通常采用混合式协同过滤推荐算法。利用协同过滤推荐技术在不需要熟悉相关领域知识的基础上便于发现用户新兴趣,且自动化程度较高,并且随着历史数据积累增加,推荐性能也会逐步提高。
3 结束语
随着Web挖掘技术的发展,电子商务推荐系统得到了强有力的技术支撑,极大地推动了电子商务行业的发展。当前我国电子商务推荐系统的理论研究还无法满足电子商务发展的需求,还有很多问题需要解决。如何通过Web数据挖掘优化推荐算法,如何降低系统开销,如何提高推荐服务效能等问题,都是影响电子商务营销的重要因素,该领域的很多问题还有待进一步深入研究。
[1]Kosala R,Blockeel H.Web Mining Research:A Survey[J].SIGKDD Explorations-Newsletter of the ACM Special Interest Group on Knowledge Discovery and Data Mining,2000.
[2]丁金龙.基于Web数据挖掘技术下的个性化信息服务[J].现代情报,2010(3):67-75.
[3]李献礼.电子商务网站Web数据挖掘系统设计[J].西南师范大学学报(自然科学版),2007(8):103-106.
[4]潘钧.一种有效的Web使用挖掘体系结构[J].扬州大学学报(自然科学版),2005(5):40-43.
[5]杨风雷,阎保平.Web用户行为模式挖掘研究[J].微电子学与计算机,2008(11):146-149.
[6]黄颖.改进的Apriori算法在电子商务推荐系统中的应用[J].计算机与数字工程,2012(8):35-38.