基于用户行为的网站推荐系统模型
2011-09-06吴俊杰刘耀军赵月爱
吴俊杰,刘耀军,赵月爱
(太原师范学院计算机系,山西太原 030012)
0 引言
如何识别用户的喜好,是 Web个性化[1]的关键技术。通过精确匹配由用户访问兴趣建立的项目/对象模型,可有效地解决信息超载的问题。然而,用户的行为识别是一个复杂的过程,它涉及到各种搜索参数之间的关系。在用户行为建模方面,从服务器日志中获得的隐式数据更可靠,因为它反映了在各自网站的查询中用户的实际需求。然而,这些数据的问题是多维度的,如日期、时间、使用的操作系统、浏览器和其他细节。检索它们之间的关系是一个复杂的过程。传统的方法使用两个多维数据建模技术、欧氏距离或余弦相似度措施,但是,以往的研究表明[2],在高维空间中,聚类的属性选择不同会产生相当大的差异。在这项研究中,我们建议使用TSM(张量空间模型),这是更高的三维数据建模工具,以有效地挖掘用户的信息,包括在每个维度上的用户访问兴趣。
1 相关的工作
TSM的使用已经成为流行,其多维数据建模和推论的能力已得到认可[3,4]。使用TSM Web挖掘和相关工作正处于起步阶段。TSM已广泛使用在化学计量学[4]。利用点击流数据来定位个性化网络搜索可以有效地进行Web挖掘[5]。最近,提出了ptucker(潜变量概率模型),它具有学习依赖性结构的能力。TSM使用降维HOSVD,已用于个性化的音乐和标签推荐体系,研究人员使用TSM创建基于标签的推荐模型。最近的工作是TSM的集群。不同于先前讨论的这些方法,我们将单个用户的行为模型化,组成张量,然后使用这种模式,根据用户最受好评的兴趣提出建议。
2 提出的方法
我们遵循传统的符号[4,5],标量采用小写字母,向量采用一维数组,矩阵采用两维数组。张量可以用下式n阶方阵表示
构建用户喜好模型中最关键的任务就是在每个维度上寻找相关特性,可以分为三个步骤是:(1)模型的构建(利用原始数据构建张量),(2)模型分解(寻找突出特性和不同特性之间的潜在关系),(3)重建模型(从每个维度中寻找相关特性)。
第1步,模型的构建:创建张量模型之前要进行数据预处理,包括删除不必要的属性或特征的数据集。要做到这一点,可进行分组、分节。对每个用户的会话数据进行分析。会话中所有出现的独特功能都提取到张量模型作为代表模式。构建好的用户访问张量如下:
第2步,模型分解:在多维数据模型的分解过程中,能够找到最突出的部分(即张量项和模式),以及可能存在的不同组件之间的隐藏关系。我们使用的是PARAFAC,Tucker和HOSVD张量分解技术。
第3步:重建模型:一旦用户模型创建和分解好后(步骤1和2),取每个维度上的前n个值作为维度值。如图1所示:
图1 PARAFAC分解和重建过程
3 评价体系与结论
评价实验数据集:日志数据从太原龙城热线网站中200个用户组成的数据集的一部分,其中每一个用户有不同数量且至少4次以上搜索。
用于评估的各种方法采用高搜索项目(频率为基础),采用 SVD、PCA、NNMF、PARAFAC、Tuacker、HOSVD 张量分解技术。实验结果如表1所示:
表1 张量模型平均F值
整体而言,张量方法和三个矩阵方法(SVD,PCA和NNMF)相比,TSM要远远优于矩阵方法。基于多个搜索属性的用户行为建模是一个复杂的问题。从向量矩阵的各种方法来发现用户搜索的突出特点是当前研究热点。然而,由于Web日志数据的多维度,这些信息很容易松散化。为了映射相互关系,以避免失去不同的搜索组件之间存在着的潜在关系,有必要使用一些高维数据分析技术,像张量模型。这项研究主要集中在使用张量来进行用户行为建模。然而,为每个用户建立单独的张量模型的主要缺点之一是在时间和空间的开销。时间问题可以考虑建立离线,但空间和计算成本,以及建立高质量的推荐系统是一个重要的考虑因素,需要继续仔细分析研究,这将是我们下一步的工作重点。
[1]Mobasher B.“Data Mining for Web Personalization”,in The Adaptive Web[M].vol.4321,A.K.P.Brusilovsky,and W.Nejdl(Eds.),Ed.,2007:90-135.
[2]Skillicorn D.Understanding Complex Datasets:Data Mining With Matrix Decompositions[M].Chapman &Hall/CRC,2007.
[3]Kleinberg J.Authoritative sources in a hyperlinked environment[G].in Proceedings of the 9th Annual ACM-SIAM Symposium on Discrete Algorithms,January 1998:668-677.
[4]Kolda T G ,Bader B W.Tensor Decompositions and Applications[G].Technical Report SAND2007-6702,Sandia National Laboratories,Albuquerque,NM and Livermore,CA,,November 2007.
[5]Sun J T,Zeng H J,Liu H,et al.CubeSVD:a Novel Approach to Personalized Web search[G].in International World Wide Web Conference Committee(IW3C2),Chiba,Japan.,May 10-14,2005:382-390.