国内电子商务个性化推荐研究进展:核心技术
2017-05-18孙雨生张晨任洁朱礼军
孙雨生+张晨+任洁+朱礼军
〔摘要〕本文从用户兴趣建模、推荐机制、信息资源管理三方面阐述了国内电子商务个性化推荐研究进展:用户兴趣建模研究用户兴趣模型表示、初始化、进化;推荐机制按实现方式分协同过滤推荐、基于内容推荐、基于规则推荐、基于知识推荐、基于效用推荐、基于人口统计推荐、混合推荐;信息资源管理研究集中在数据挖掘和存储。
〔关键词〕电子商务;个性化推荐;研究进展;用户兴趣建模;推荐机制
DOI:10.3969/j.issn.1008-0821.2017.04.024
〔中图分类号〕TP399;G202〔文献标识码〕A〔文章编号〕1008-0821(2017)04-0151-07
Research Development of E-Commerce Personalized
Recommendation in China:Core TechnologySun Yusheng1,2,3Zhang Chen1Ren Jie1Zhu Lijun2
(1.School of Economics and Management,HuBei University of Technology,Wuhan 430068,China;
2.Information Technology Support Center,Institute of Scientific & Technical
Information of China,Beijing 100038,China;
3.Collaborative Innovation Center of Regional Industiral Ecology Development,
HuBei University of Technology,Wuhan 430068,China)
〔Abstract〕The authors revealed research development on e-commerce personalized recommendation in china from three aspects:users interest modeling,recommendation mechanism,information resource management.Users interest modeling explore the representation,initialization and evolution of users interest model;According to the way of implementation,recommendation mechanism can be divided into collaborative filtering recommendation,content-based recommendation,rule-based recommendation,knowledge-based recommendation,utility-based recommendation,demographic statistics-based recommendation and hybrid recommendation;research on information resource management was concentrated on data mining and storage.
〔Key words〕e-commerce;personalized recommendation;research development;user interest modeling;recommendation mechanism
随着互联网应用普及和电子商务迅猛发展,用户个性化需求日益凸显,客观需为其个性化推荐商品和服务。由此,电子商务个性化推荐应运而生,其基于所获取用户需求、兴趣爱好、网络行为等提取特征[1]并构建用户兴趣模型,动态发现用户潜在、个性需求并选择推荐机制匹配候选商品[2],提供个性化主动信息、商品服务以提高用户满意度、商品销量。
本文以知网、万方的学位论文、期刊论文库及维普的期刊论文库为信息源,以“电子商务”、“个性化”、“推荐”为关键词组合在题名中检索相关文献(截至2016年8月11日,从知网获硕博论文73篇、期刊论文91篇;从万方获硕博论文80篇(新发现17篇)、期刊论文90篇(新发现3篇);从维普获期刊论文95篇(新发现8篇),合计192篇文献),从用户兴趣建模、推荐机制、信息资源管理角度阐述国内电子商务个性化推荐研究进展。
1电子商务个性化推荐核心技术研究进展
1.1用户兴趣建模
1.1.1模型表示
国内用户兴趣模型表示多用基于向量空间模型法[3](较复杂且精度不够高[2,4-6])、基于神经网络法(依赖模型学习所用神经网络类别和算法,适用范围窄且难理解[6])、基于案例法(反映用户短期兴趣[4-5])、基于用户-项目评价矩阵法(难反映兴趣变化[4])、基于本体法(可重用共享知识但无法避免本体设计问题[4-5,7])、基于决策树法、基于简单贝叶斯概率模型法、基于关键词法、基于语义网络法,此外还有基于加权矢量模型法、基于类型层次结构模型法、基于目录结构法等[7]。
1.1.2模型初始化
主要是用户兴趣数据采集及处理,涉及兴趣学习技术(如TF-IDF、贝叶斯分类、决策树、神经网络、聚类等[4])。
1)兴趣数据采集
獲取与用户特征、兴趣或活动相关信息,遵循增量式、协作性、简单性原则[7],方式有显式、隐式[5-6]、混合式(融合隐式、显式采集优点[6])[4,7]。
显式采集信息由注册信息、评分、文本评价[6]、显式样本集、目标陈述[4]等组成,简单直接、准确[5,7]、学习速度快[4]但需用户确知兴趣且参与(多不成立),无法收集全面真实数据[5-8],即使用户提供真实兴趣,单独显式采集难描述用户对项目复杂感知和反应[4],为此,代其锋[5]、蒋罛[7]认为应告知用户个性化推荐概念、作用、原理以激励其参与。
隐式采集信息由服务器端(日志,记录用户IP、ID及访问(时间、URL)、浏览[4,6](浏览时间)、检索[9]、购买等行为)、客户端数据(包括用户请求帮助、页面停留时间、访问项目次序、浏览、点击、保存、操作时间[2,7]等[4])组成。此外,代其锋[5]、蒋罛[7]认为包括反复行为、标记行为、操作行为、浏览路径、消极行为。优点是不增加用户负担且动态获取海量数据(可能有冗余,计算成本和复杂度较大)[4,6];缺陷是缺乏控制(随机、不确定)[5,7],需解决基于用户导航行为的长、短期兴趣[4]区分问题。
2)兴趣数据处理
主要是数据预处理和兴趣度量化。前者先预处理Web日志和用户评分[10](先净化数据并识别用户、会话、路径、事务,再分词、计算特征词权重及提取特征词集,特征化、聚类事务集[11]),得出用户访问情况以便量化兴趣度。对于后者,李凤慧[12]用(浏览时长/总浏览时长)×(网页字节数/总信息数)量化兴趣度(指标分用户访问频率[13]、持续访问时间[14]、最近访问时间[15])[4];安芳[15]、张黎黎[16]用阈值法量化兴趣度;李熠[17]用购买次数量化兴趣度;杨永亮[18]基于时间衰减因子,用对商品发生行为时间间隔量化兴趣度;王伟等[19]预处理文本评价(用Core-NLP包词性(POS)标记提取特征并用WordNet计算与种子词相似度以同义分组;给出并综合用户对各意见词的积极性、消极性、客观性值形成意见值)形成特征-意见值对,量化兴趣度;邓晓懿[20]基于支持度、置信度框架量化规则兴趣度;刘晶等[3]基于虚拟个体关联、情景关联、行为关联模块量化规则兴趣度。
1.1.3模型进化
1)进化内容
用户兴趣模型随用户活跃度、兴趣变化,基于用户显隐式反馈、兴趣衰减自适应进化[4,7,9,16],主要包括兴趣项目和兴趣度:前者基于用户注册、反馈信息提取兴趣项目(生成并合并显、隐式兴趣项目向量)并排序[7],张建伟[11]基于交易事务链接前后Web页特征词变化进化用户兴趣;后者基于用户评分修改[7]、阈值比较判断是否进化。
2)进化方法
现有模型进化方法常按固定频率更新,动态跟踪、高效获取用户兴趣变化能力有限,影响模型精度。李晓昀[4]提出信息增补法(基于用户反馈进化,分直接增补法(不剔除不再感兴趣项目,有精度不高、存储空间浪费问题)、权重调整增补法(性能受新信息选择方法、增量影响))、自然进化法(按生态系统优胜劣汰法进化,需针对性设计适应度函数和染色体编码法)和神经网络法(调整网络连接权重自适应进化,须以神经网络为学习法);杨静[9]、张黎黎[16]提出主动进化法(更新兴趣项目并调整权重、次序,维护知识分类体系及资源类型目录)和基于用户反馈自动进化法(胡一[1]、蒋罛[7]又根据显式、隐式分直接进化(影响浏览,参与者有限)和间接进化法(基于浏览行为、日志挖掘等));杨永亮[18]基于用户行为指纹算法(哈希处理用户行为记录并通过记录权重随时间衰减模拟兴趣进化)进化;蒋罛[7]提出线性衰减法进化(兴趣度衰减到零时淘汰项目);俞正骄[21]递进挖掘序列模式间兴趣度进化基于规则推荐中用户兴趣。
1.2推荐机制
电子商务个性化推荐核心及性能直接决定因素,由推荐引擎基于用户会话、推荐机制,推荐离线挖掘结果和动态内容(链接、广告、文本、商品、服务等[8])[22],主流推荐机制(按实现方式分类)优劣势见表1。
1.2.1协同过滤推荐
研究最多也最成功[23-24],又称社会过滤、协作过滤、合作过滤[10,14],算法分析用户对商品评价(点击、购买历史[21])、兴趣度,发现兴趣相近用户、关系相似项目,基于近邻历史偏好进行推荐[2,4,7-8,10,17,20-21,23,25-29,32,35],主要研究近邻方法和基于项目、用户特征评级的潜在因素模型,分基于记忆(分基于用户、基于项目)、基于模型两类,对比见表2,代表系统为Tapestry、Ringo/Firefly、GroupLens/Netperceptions、Movielens[23]。
1.2.2基于内容推荐
用机器学习法学习用户信息(兴趣[27]、需求等)和已评价商品特征[36](通過项目属性定义特征并基于数学模型[27]用特征值表示候选项目和用户兴趣模型[2,4,6,8,10,17,21,24-25,28,31-35]),用自然语言、人工智能、概率统计、数据挖掘、机器学习、邻居函数分析等技术计算用户与项目相似度[21]进行推荐[27]并基于用户反馈进化用户兴趣模型。常用推荐方法有基于商品特征分类[31]、基于商品关联、基于文本[21]分类、基于语义法[27],此外,王星[24]按用户兴趣模型表示分基于向量空间模型、基于关键词分类、基于领域分类和基于潜在语义索引等推荐法;代表系统有Personal WebWatcher、LIBRA、LyricTime、SIFTS、Letizia、InfoFinder、Newsweeder、WebMate、WebACE等。
表2协同过滤推荐类型对比
基于记忆(内存)基于用户基于项目基于模型比较对象用户项目用户依据启发规则、用户-项目评分矩阵用户行为模型目的预测目标用户未评分项目评分预测目标项目评分预测目标用户评分相似性计算用户相似性项目相似性无方法统计学、相似性计算、最近邻统计学、机器学习、数据挖掘
1.2.3基于规则推荐
基于所选规则前件(用户己购商品或兴趣[4,5,17,25,28,35])个性化推荐规则后件(推荐对象)[2,21,24]。规则由用户定制或基于用户关联关系[27]挖掘[4](基于用户事务数据库,挖掘满足最小支持度及可信度的关联规则[17,23,27,35]),代表系统有WebSphere、BroadVi2sion、SurfLen、ASARM[2]。
1.2.4基于知识推荐
用基于案例推理、数据挖掘[23,27]技术挖掘项目间关联知识进行推荐,按所用知识形式(如功能知识(满足特定用户需求且可解释需求和推荐间关系[2])、用户信息(支持推理知识结构[4-5,25,33,35]或详细用户需求表示))分数据库知识发现、基于案例推理、知识推理[23]。
1.2.5基于效用推荐
计算商品对用户效用(基于商品属性分值和效用函数权值分析内容、K均值得出效用函数并随用户兴趣动态调整[37])[34],用受限滿足技术匹配用户需求和项目[2,25,30,33]进行Top-N推荐并评估效果[25,35,37],核心是用效用函数代表用户兴趣模型。
1.2.6基于人口统计推荐
基于用户显式属性分类用户,结合人口统计信息进行推荐[25,27,30,35]。
1.2.7混合推荐
综合各推荐方法优势提升推荐性能,较成功是协同过滤推荐与基于内容推荐组合[17,25],难点是组合对象选取方法及组合方式[31],组合方式有加权[17]、变换[28]、混合[6]、特征组合、层叠、特征扩充[17,31]、元层次性[29,32-33,35]。此外,杨永亮[18]提出时间敏感物质扩散算法(计算资源间相似度时考虑资源属性、流行度随时间变化)并与基于项目协同推荐算法混合;用最长公共子序列算法计算用户相对次序下行为最长序列以度量用户消费轨迹相似度,提取并计算基于时间敏感用户间非公共兴趣列表对用户兴趣贡献度,与基于用户协同推荐算法线性加权混合。
1.3信息资源管理
主要分数据采集、挖掘、表示、存储、更新,主要管理用户[26]、项目、推荐过程产生信息。
1.3.1数据采集
现有研究集中在用户特征显式、隐式采集(通过网络爬虫[2]采集信息、分析日志,获取用户浏览内容、行为信息)。对于采集内容,李婷[10]、马瑞敏等[28]认为有用户信息(注册、评分)、商品属性;汪亭廷[23]、辛勤芳[26]认为有用户背景知识、评论、反馈及行为(网站访问、购物[23])等;刘晶等[3]从移动端流式采集网络、视频、传感等数据;刘庆华[35]认为有概念、关联规则、时间序列模式、最频繁购物路径。此外,商品信息多用人工录入、系统导入、自动设备采集等方式。
1.3.2数据挖掘
电子商务数据挖掘主要针对Web数据,多通过关联规则、分类[31]离线挖掘以支持在线推荐,前沿是基于本体的语义Web挖掘[34]。
1)Web数据挖掘
基于海量、复杂Web信息(多半结构化[1,8]、不完整、有噪声)、异构数据库环境[1,13],通过分析用户习惯、兴趣,基于其心理变化,通过挖掘算法发现蕴涵、未知、有潜在应用价值、新颖、易理解及非平凡模式过程(用于指定挖掘任务,如描述所挖掘数据一般特性、预测[38]趋势和行为、检测偏差、支持决策[1]),常用人工智能、计算语言学、信息学、统计学等领域知识[13,32],按挖掘对象分Web内容(文本、多媒体)挖掘、Web结构(超链接、内容、URL)挖掘、Web使用记录(日志)挖掘[1,8,11,13,22,32,38](三者可融合)[38],挖掘流程见表3。此外,宋伟国[14]用数据仓库处理、集成与装载、分析数据以支持数据挖掘;刘蓓琳[30]用降维、稠密化和标准化方法预处理数据。
2)关联规则挖掘
分频繁项集发现、关联规则生成[20,33,38],后者支持商业决策(广告、商品推荐)、网站商品陈列调整,算法有Apriori、改进Apriori、AprioriTid、DHP、FP-tree、Tree Projection等[9,10,14,21,23,29,34]。
3)分类挖掘
基于机器学习法,用分类器(基于训练集产生并随训练集动态变化,可离线进行)分类对象[10],常见类型见表4(还有决策树、SVM等)。为更好推荐,需将目标用户分到与其较相似用户所在簇[32];黄莹[29]、陈晓红[32]基于与簇相关度加权目标用户与所在簇关系强度[10,13];王海超[38]提出用聚类离线预处理最近邻算法以缩小计算范围、分布计算、提高寻找相似簇性能、推荐扩展性[38]但质量不太高。
1.3.3数据表示
主要表示用户、商品信息。杨静[9]、安芳[15]、张黎黎[16]基于商品信息(分类、编码)、用户信息提取商品属性、用户属性并用特征向量表示。
1.3.4数据存储
用数据库[6]工具构建资源库存储用户及商品、推荐过程信息,分静态、动态数据库,核心是电子商务元数据,含数据存储、分类、被访问信息等。此外,丁建军[6]分别用数据库、分布式文件系统存储显式、隐式采集的用户兴趣。
1)用户数据库
即存储用户基本、行为信息,包括用户ID、用户名、密码、姓名、性别、年龄、出生地[27]、教育背景、兴趣、收入、工作单位、住址、邮箱[28]、电话、有效期、级别[39-40],上次登录时间、购物记录、商品评分(含用户ID、商品ID、评分、时间戳[28])[16]等。此外还有管理员数据库[36]。
2)商家数据库
含商品(库存)、商家、订单等信息表[25],商品及商家数据涉及商品ID、名称、品牌、简介[28]、规格、价格、状态、上架时间、更新日期、售后服务、库存、操作员ID、备注、商家信用度[9,26-27,35,40]等。陈健[36]认为库存信息表涉及项目ID、商品ID、当前库存量、提醒阈值、最近一次入库量、最近一次入库时间、操作员ID、备注等;汪亭廷[23]认为订单信息表涉及订单ID、用户ID、商品ID、名称、价格、数量、总额、评分、姓名、电话、地址、是否支付、当前状态、状态变更时间、操作员ID、订单结束时间、备注等。
3)推荐处理类数据库
涉及规则库(存储规则、概念模式等,支持推理)[40]、推荐场景库(支持任务分解)、推荐算法库(存储推荐算法及组合,支持算法求解[25])、用户兴趣模型库[26]、随机数据库(记录过程性信息及获得方式(用户回答(注意次序)、推理(需解释))[41]。此外,单明[39]、汪亭廷[23]认为推荐规则信息表包括推荐内容表(推荐ID、规则ID、商品ID、当前状态、状态变更时间、备注[39])和推荐规则表(规则ID、状态、年龄、性别、工作、条件、结果、兴趣、支持度、置信度、备注[23,39]);刘丽峰[40]、罗亚[41]认为需存储专家知识、产生式规则、商品数据和咨询记录(描述为系列参数(规则特性、参数[40]、函数、上下文特性)并以对象-属性-值(值、取值可信度、参数被跟踪次数)形式存储)。
1.3.5数据更新
用户兴趣更新主要基于用户兴趣模型进化机制实现,商品信息主要通过数据库自带程序自动更新[14]。杨静[9]、安芳[15]、张黎黎[16]跟踪用户访问行为以更新用户信息库;辛勤芳[26]挖掘隐式评分等修改用户评分并存入数据库,触发推荐系统调用推荐算法,基于新信息更新用戶兴趣模型库、推荐模型。
2结束语
综上,本文从用户兴趣建模、推荐机制、信息资源管理角度阐述了国内电子商务个性化推荐核心技术研究进展:现有研究集中在推荐机制,其余两者需加强;用户兴趣建模研究用户兴趣模型表示(多为表示方法)、初始化(多为用户兴趣采集、处理)、进化(多为进化内容、方法);推荐机制按实现方式分协同过滤推荐、基于内容推荐、基于规则推荐、基于知识推荐、基于效用推荐、基于人口统计推荐和混合推荐;信息资源管理研究集中在数据挖掘(多为关联规则、分类挖掘)、存储(分用户、商家、推荐处理类数据库)。
下一步,笔者将系统分析国内电子商务个性化推荐系统体系架构与技术实现研究成果,以供相关研究与系统实现参考。
参考文献
[1]胡一.基于大数据的电子商务个性化信息推荐服务模式研究[D].长春:吉林大学,2015.
[2]蔡斌强.电子商务个性化推荐研究[J].中国电子商务,2013,(24):18-19.
[3]刘晶,李妍,侯会茹.移动电子商务多源关联个性化推荐架构[J].情报理论与实践,2014,37(4):98-100.
[4]李晓昀.基于隐性反馈的个性化自适应电子商务推荐系统研究[D].衡阳:南华大学,2008.
[5]代其锋.基于电子商务的个性化推荐研究[D].合肥:中国科学技术大学,2011.
[6]丁建军.面向电子商务个性化推荐系统的Web数据挖掘应用研究[D].杭州:浙江理工大学,2015.
[7]蒋罛.电子商务个性化推荐系统研究[D].长沙:中南大学,2010.
[8]何志敏.基于数据挖掘的电子商务个性化推荐算法的研究及应用[D].贵阳:贵州大学,2011.
[9]杨静.电子商务中个性化推荐模型的研究[D].天津:天津师范大学,2007.
[10]李婷.基于用户兴趣与合作的个性化电子商务推荐系统研究[D].哈尔滨:哈尔滨工业大学,2007.
[11]张建伟.基于WEB文本挖掘的电子商务网站个性化推荐研究[D].淮南:安徽理工大学,2014.
[12]李凤慧.基于用户浏览行为挖掘的电子商务个性化推荐系统[J].潍坊学院学报,2004,4(2):66-67,71.
[13]李明晶.基于Web挖掘的电子商务个性化推荐系统研究[D].北京:北京交通大学,2008.
[14]宋伟国.基于CF的个性化电子商务推荐系统研究[D].兰州:兰州大学,2010.
[15]安芳.电子商务个性化信息推荐服务的研究[D].北京:对外经济贸易大学,2006.
[16]张黎黎.电子商务个性化推荐模型研究[D].重庆:重庆大学,2009.
[17]李熠.引入信任的二部图电子商务个性化推荐算法改进研究[D].成都:电子科技大学,2015.
[18]杨永亮.基于时间敏感的电子商务个性化推荐方法研究[D].哈尔滨:哈尔滨工程大学,2015.
[19]王伟,徐平平,王华君,等.基于概率回归模型和K-最近邻的电子商务个性化推荐方案[J].湘潭大学学报:自然科学版,2016,38(1):97-100,119.
[20]邓晓懿.移动电子商务个性化服务推荐方法研究[D].大连:大连理工大学,2012.
[21]俞正骄.面向电子商务个性化推荐的序列关联挖掘研究[D].天津:河北工业大学,2015.
[22]易明.基于Web挖掘的电子商务个性化推荐机理与方法研究[D].武汉:华中科技大学,2008.
[23]汪亭廷.美味网电子商务个性化推荐系统的设计与实现[D].成都:电子科技大学,2014.
[24]王星.个性化推荐系统在电子商务网站中的应用研究[J].商,2013,(7Z):156-156.
[25]张晓敏.电子商务个性化推荐系统中协同过滤技术及应用研究[D].重庆:重庆大学,2007.
[26]辛勤芳.电子商务个性化推荐系统研究[D].泉州:华侨大学,2012.
[27]翟烁.基于协同过滤的电子商务个性化推荐的研究与分析[D].北京:北京工业大学,2015.
[28]马瑞敏,卞艺杰,陈超,等.基于Hadoop的电子商务个性化推荐算法——以电影推荐为例[J].计算机系统应用,2015,24(5):111-117.
[29]黄莹.经济昆虫电子商务系统的实现与个性化推荐技术研究[D].昆明:昆明理工大学,2007.
[30]刘蓓琳.电子商务用户个性化推荐技术接受影响因素研究[D].徐州:中国矿业大学,2011.
[31]朱岩,林泽楠.电子商务中的个性化推荐方法评述[J].中国软科学,2009,(2):183-192.
[32]陈晓红.面向电子商务的个性化推荐技术研究[D].扬州:扬州大学,2007.
[33]吴昕方.基于特征的个性化电子商务网站推荐系统的研究与实现[D].上海:华东师范大学,2006.
[34]邹晶晶.基于大数据的电子商务个性化商品推荐方法[J].电子制作,2014,(10):97-97,96.
[35]刘庆华.个性化推荐技术及其在电子商务中的应用[D].南昌:南昌大学,2008.
[36]陈健.基于个性化推荐的旅游移动电子商务平台设计研究[D].武汉:湖北工业大学,2015.
[37]鲍丽倩,陈思璇.基于效用理论的电子商务个性化推荐[J].科技情报开发与经济,2011,21(24):150-153.
[38]王海超.基于Web挖掘的电子商务个性化推荐技术研究[D].赣州:江西理工大学,2010.
[39]单明.基于个性化推荐的电子商务推荐系统的设计与实现[D].长春:吉林大学,2014.
[40]刘丽峰.刍议基于专家系统的电子商务个性化推荐技术[J].电子技术与软件工程,2015,(10):191-191.
[41]罗亚.基于专家系统的电子商务个性化推荐技术[J].制造业自动化,2012,34(10):100-102.