基于Web挖掘的物流信息平台个性化推荐研究
2015-05-30赵影
[摘 要]针对物流信息平台信息资源日益增多、访问和检索越来越难的问题,本文提出了将个性化推荐服务应用于物流信息平台的构想。构建了一个基于Web挖掘的物流信息平台个性化推荐系统框架,对系统中涉及的用户兴趣建模、Web使用挖掘、Web内容分类等关键技术进行了讨论。
[关键词]Web挖掘;物流信息平台;个性化推荐
[DOI]10.13939/j.cnki.zgsc.2015.20.019
1 引 言
随着网络技术的发展,网络已经成为人们获取信息的一个重要途径。为了提高物流服务的运作效率,各种类型的物流信息平台纷纷建立。一般认为,凡是能够支持或者进行物流服务供需信息的交互或交换的网站,均可视为物流信息平台。物流信息平台汇集了物流行业各方面的信息,通过Web页面发布大量的物流资讯、物流人才、货运信息、物流服务等内容,给用户提供了获取更快捷、更便宜的物流服务的手段。然而,随着物流信息平台整合信息资源种类和数量的增多,如何让用户在访问网站时更准确、更快捷地获得自己需要的信息,是物流信息平台发展面临的一个问题。而目前来说,物流信息平台通常是以系统内搜索引擎或检索工具帮助用户检索网站信息,但是大多数检索功能缺少主动性,没有考虑用户的兴趣偏好和用户间的差异,所以无法满足用户对信息的个性化需求,物流信息平台亟待改进其服务质量。
借鉴电子商务网站个性化服务的应用,个性化推荐服务可以作为物流信息平台提高服务质量的一个有效途径。个性化推荐服务是根据用户的信息需求、兴趣或行为模式,将用户感兴趣的信息、产品和服务推荐给用户,这样就可以避免用户花费较多的时间进行信息筛选,使用户在更短的时间内更准确地获得自己真正感兴趣的信息。
实现个性化推荐,关键是获知和描述用户的个性特征以及兴趣偏好。考虑到物流信息平台是通过Web页面发布大量的信息和服务资讯,用户的访问情况可以很容易地反映出其个性特征和兴趣偏好,因此对于物流信息平台的个性化推荐服务可以通过Web挖掘技术来实现。
2 基于Web挖掘的物流信息平台个性化推荐系统
2.1 系统基本功能
个性化推荐系统的基本功能是:通过分析用户对Web访问的规律,寻找行为模式相似的用户,形成虚拟用户社区,并建立用户兴趣库,在对Web内容挖掘的基础上,将符合用户兴趣的信息资源(包括新闻、供求信息、物流服务等)推荐给当前用户。同时,利用系统建立的用户兴趣库,当用户输入关键词进行检索时,将用户检索的结果按用户的兴趣程度排序,将用户最有可能关注的信息或服务提供给用户。
2.2 系统体系结构
该系统的体系结构主要由三个部分组成:数据采集及预处理、生成推荐模型与在线推荐部分。如图1所示。
图1 基于Web挖掘的物流信息平台个性化推荐系统体系结构
数据预处理模块负责从Web服务器日志、Web使用记录等中提取、分解、合并、转换相关的数据,供数据挖掘、偏好分析及推荐引擎使用,为实现个性化推荐任务提供必要的数据。为保证提供数据的准确性,因此该模块一般要经过数据清洗(数据净化)、用户识别、会话识别、路径补充、事务识别等过程。
模式生成是指用于个性化推荐的推荐模型的生成,该阶段是推荐系统的主要部分,主要负责建立用户兴趣库和虚拟用户社区。该工作框架基于聚类算法。挖掘、创建模式数据库是一个循环往复的过程。该阶段也是离线进行,为在线实时推荐提供支撑。
在线推荐是根据用户的访问情况,将其与系统挖掘生成的模型进行匹配,找到与当前用户行为相似的虚拟社区,按照该虚拟社区用户的兴趣库实时地为用户进行在线推荐。通常采用的推荐方法为用户登录时以页面的形式给出推荐页面,也可将推荐内容发送到用户邮箱中。针对用户群建立的虚拟用户社区,可将相同的信息推荐给同一社区中的所有用户。
2.3 系统的技术实现思路
个性化推荐服务以Web内容挖掘为支撑,首先对物流信息平台上出现的物流信息进行分析,提取出关键词;根据关键词确定该资源所属的类别,对用户兴趣中对应类别的权重达到设定阈值的用户进行推荐。
个性化检索服务的工作主要是对检索结果进行2次处理。将页面内容按标题提取关键词后,根据关键词将内容归为某一类,然后根据用户的兴趣,将检索结果按与用户兴趣匹配程度从大到小排序后,再提供给用户。
3 系统关键技术
3.1 Web使用記录数据的处理
Web使用记录是用户兴趣及虚拟社区建立的关键。它所包含的内容主要来源于两个方面:一方面是Web服务器日志记录,另一方面是用户在客户端操作的记录。前者可直接从服务器日志文件中获得,但数据量庞大,需要经过数据清洗(数据净化)、用户识别、会话识别、路径补充、事务识别等一系列预处理过程;后者则必须通过对用户的浏览操作进行跟踪记录,可在网页上增加对用户下载、保存等与兴趣程度相关操作的记录,用小型代理的形式实现。
3.2 Web内容挖掘中页面内容的表达与分类
在个性化推荐及个性化检索服务中,首先要对待处理的资源进行分类。若考虑整个页面的内容,则虽然能得到精确的内容表达,但对正文进行处理费时太多,所以采用对标题进行关键词提取,再根据关键词进行分类的方法。分词采用分词软件完成。页面分类工作流程如图2所示。
图2 Web页面分类工作流程
分类算法有决策树分类、贝叶斯分类、基于遗传算法的分类等。该系统采用KNN分类算法。分类过程中,将训练页面及测试页面经过标题提取及分词后,形成相应的矢量。
3.3 用户兴趣的表示
用户兴趣根据用户对Web进行访问的各种浏览行为进行挖掘而得。一些典型的操作,如用户下载、较长时间的浏览、添加至收藏夹等行为,反映出用户对相关内容感兴趣。用户兴趣采用向量空间描述,形如{(A1,W1),(A2,W2),…,(An,Wn)}。Wi取值范围为[0,1],Wi值越大,说明相应的兴趣度越高。如,某用户的兴趣向量空间为{(货源,0.8),(车源,0.2)},说明该用户在货源关键词上的兴趣值为0.8,而在车源关键词上兴趣值为0.2,兴趣度较低。用户兴趣的向量空间中,每个关键词对应的权重是动态变化的。当用户进行相关内容的下载、长时间浏览等操作时,权重增加(增加至1时不再递增);若长时间未进行相关内容的浏览操作,则权重值减少。设定一个阈值,当某一关键词对应的权重低于该阈值时,将相应分项从向量空间中去除,同样,当某一新增关键词的权重高于该阈值时,要在向量空间中增加对应分项,使向量空间反映出用户兴趣的实际变化情况。
3.4 虚拟用户社区的建立与维护
虚拟用户社区的建立采用聚类的方法,将用户聚合在不同社区中。常用的聚类算法有基于划分方法、基于层次方法、基于密度方法、基于网格方法等。该系统采用较为简单的K平均划分方法进行聚类处理,设聚类后簇的数目为K,具体操作步骤是:①随机选取K个对象作为初始的K个簇的质心;②将其余对象根据其与各个簇质心的距离分配到最近的簇,再求新形成的簇的质心;③上述迭代过程不断重复,直至目标函数最小化。
为简化算法,选择最能体现用户兴趣的网络访问活动进行分析。主要考虑以下用户行为:下载资源、浏览资源。分别构建下载和浏览行为的相异度矩阵,再通过聚类算法生成虚拟用户社区。
首先构建下载行为的相异度矩阵。将下载活动表示为(userid,KJ),其中userid为用户标识,KJ为下载的资源号以及下载时间。以在一段时间内用户下载相同资源的相同程度为基础,构建相异度矩阵。如,有10个物流信息资源,编号分别为1~10,在同一段时间内用户A、B下载资源的情况为:A下载的资源集合为(1,2,5,7),B下载的资源集合为(1,2,4),A下载资源中与B相同的比例为50%,B與A相同的比例为66%,综合考虑,得A、B两个用户下载资源活动的相近程度为58%,则相异度为42%。经过处理后,得到用户下载情况的相异度矩阵。
然后构建浏览行为的相异度矩阵。用户的浏览行为与其兴趣的相关程度在很大程度上取决于浏览时间,即用户对某个页面浏览时间越长,说明该用户对页面的兴趣度越大。在以浏览行为为评价对象进行用户相似性聚类时,除了考虑用户浏览页面的相同程度之外,还应考虑浏览时间。为方便处理,将浏览时间按长短分为若干个等级,如浏览时间在1min之内,1~5min,5~10min,10min以上等。以用户在一段时间内访问相同页面时间长度等级的差异情况为主,构建相异度矩阵。
分别对上述2个相异度矩阵采用K平均划分方法进行聚类,也可以将2个相异度矩阵合并,然后进行聚类处理。合并时可以加上一定的权重,如侧重浏览行为,则对浏览情况的相异值乘上一个较大的系数B(0
用户的兴趣是动态变化的。相应的虚拟社区应根据用户的兴趣变化而变动。若某个用户的兴趣发生变化,某类兴趣值下降至设定的阈值,则将该用户从相应的社区中删除;若用户某类兴趣值增加至设定的阈值,则将该用户加入到对应的社区中。对新用户经过一段时间的浏览行为跟踪后,分配至合适的社区中。
4 结 论
随着物流信息平台整合资源和信息的增多,用户访问网站及时获取所需信息的难度越来越大,而大多数物流信息平台所具备的搜索功能又缺乏主动性。本文主要针对网站的普通用户获取信息的问题,将电子商务的个性化推荐技术应用其中。主要以Web挖掘技术从用户的浏览行为间接地获取用户兴趣进而完成个性化推荐。系统中所用的算法只是选用了相关挖掘算法中比较典型的,具体选用算法还可以进一步研究。
参考文献:
[1]赵影.基于Web使用挖掘的个性化推荐服务研究[D].大连:东北财经大学,2009.
[2]张红霞.基于Web挖掘的电子商务个性化推荐系统[J].辽宁工程技术大学学报(社会科学版),2009,11(6).
[3]陈基漓,牛秦洲.Web挖掘在农业信息网站个性化服务中的应用[J].安徽农业科学,2008,36(35).
[4]李宏基.物流服务平台中推荐系统的框架设计[J].科技传播,2010(10).
[5]Han JW,M Icheline Kamber.数据挖掘:概念与技术[M].范明,孟小峰,等,译.北京:机械工业出版社,2001.