基于Web日志挖掘的页面兴趣度量方法研究
2009-12-07崔江彦马静
崔江彦 马 静
摘要:本文主要针对电子商务网站的Web日志进行分析和挖掘,提出一种更好的度量页面兴趣度的方法,并在此基础上对页面实现模糊聚类,找到用户感兴趣的页面类,为用户提供个性化服务同时也为电子商务网站结构设计提供依据。
关键词:电子商务 页面兴趣度 模糊聚类
一、引言
互联网的发展催生了全新的商业模式—电子商务,电子商务改变了厂商和顾客的关系,也使得经济模式发生了变化,由于电子商务企业的竞争往往只在鼠标的一点之间,因此如何获取并维护更多的网络用户成为了各电子商务企业之间竞争的焦点。通过对电子商务网站的Web日志进行挖掘可以找到用户感兴趣的内容从而为用户提供个性化服务,同时根据对网站商品关联分析找出潜在的有关联的商品,从而进行“捆绑式”销售,还可以根据页面之间的关联关系为网站的结构调整提供依据。
二、Web日志挖掘
Web日志指的是用户在访问网站时在web服务在里留下的“脚印”,里面包含了用户的大量信息,如用户的ip地址、用户访问的页面、浏览的时间等。典型的Web服务器日志包含以下信息:
Date:用户请求页面的日期
Time:用户请求页面的时间
Client Ip Address:通过身份验证的访问服务器的用户名不包括匿名
Server Ip Address:服务器端的IP地址
Method:用户执行的方法,如 GET等
URI stem:被访问的资源
Bytes sent:接受数据的字节数
Bytes received:接受数据的字节数
Time taken:浏览消耗的时间(以毫秒为单位)
Referral page:用户浏览的前一个网址,当前网址是从该网址链接过来的
下面的某电子商务网站的Web日志片段:
2008-10-08 00:00:14 220.181.32.26 172.16.2.197 80 GET HTTP/1.1 200 0 3328 58974 250 0 /buy/results.asp akeyword=礼品工艺品&bodytype;=buy37&nowpage;=6 -
2008-10-08 00:00:14 61.191.92.137 172.16.2.197 80 GET HTTP/1.1 200 0 4140 76867 358 0 /userpic/tianlantian/200773112204011569.jpg - -
2008-10-08 00:00:15 220.181.32.26 172.16.2.197 80 GET HTTP/1.1 200 0 1781 58424 248 0 /buy/results.asp akeyword=个人保养&bodytype;=buy5&nowpage;=11 -
2008-10-08 00:00:15 220.181.32.26 172.16.2.197 80 GET HTTP/1.1 200 0 1812 61659 244 0 /buy/results.asp akeyword=肩章&bodytype;=buy24&nowpage;=3 -
我们看到原始的Web日志中包含了很多我们不需要的信息,预处理过的web日志才能进行下一步的数据挖掘。
三、页面兴趣度量的新方法
夏敏捷和张锦歌[1]构造了UserID-Url关联矩阵其中矩阵元素为是i用户在一段时间内访问第j个页面(Url)的次数;并且认为行向量即反映了用户类型,也勾勒出用户的个性化访问。而列向量则代表站点的结构,也蕴含有用户共同的访问模式。
褚红丹、焦素云和马威[2]定义了一个四元组
表示用户对页面i的兴趣,表示浏览该页面的次数,则兴趣度定义为:
I值(平均阅读时间)越大表示用户对该页面单位信息量阅读时间越长,则用户对该页面越感兴趣,相反,值越小表示当访问到该页时,用户平均阅读的时间短,则对此页面不感兴趣。
李珊、袁方[3]做了页面改进兴趣度的计算,用户兴趣度
:用户i在第j个页面上花费的时间;:用户i浏览第j个页面的频度;:用户i浏览第j个页面发送的字节数。
在页面兴趣度的度量最常用的方法就是用用点击次数反映用户的兴趣,这种方法简单且易于实现,同时web日志中还有其他因素也能反映用户的兴趣,所以应该综合考虑各种影响因素。后两篇论文中都提到了三种因素可以反映页面兴趣,下面我们对这些因素进行分析。
通过查询电子商务网站的日志分析,找出用户对页面的访问时间、服务器发送字节数和接收字节数的数据记录,因为从总取出75169条数据用spss软件做数据相关性分析,通过Pearson Correlation分析得出如下分析结果
计算结果现实用户在网页上的浏览时间和服务器发送字节数的Pearson相关系数为0.225,而和服务器接收字节数的Pearson相关系数为-0.041。
通过对比Pearson相关系数对比,我们发现浏览时间和服务器发送字节数以及浏览时间服务器接收字节数都是微弱相关,所以我们在考虑用户兴趣度量因素的时候可以不再考虑发送字节数和接收字节数的对页面兴趣的影响。
因此定义页面兴趣矩阵:
因为是用户i浏览页面j的总时间,为用户i点击页面j的次数,
表示用户i浏览页面j的平均时间,这样计算的用户兴趣度更能反映用户对页面的兴趣。
四、基于页面兴趣度的网页聚类
页面进行聚类分析,可以找到对于所有用户访问情况相同或相似的网页,把这样的页面放在一起可以找到不同页面之间的联系进而调整整体网站拓扑结构,迎合用户的访问偏好。
(1)将数据集转化成页面兴趣矩阵,如下所示:
(2)对于页面兴趣矩阵通过模糊距离公式
计算页面与页面的之间的相似程度,得到一个对角线为1的对称方阵
我们只考虑它的下三角部分(不包括1),设置阈值,我们令
为如果模糊相似矩阵比大那么就将页面i和页面j聚在一起。
随着互联网的发展,Web服务的个性化趋势已成必然。本文提出了一个新的页面兴趣方法,虽然日志数据能体现用户的真实信息,但所包含的信息有限。在以后的研究中应考虑利用用户的背景信息,这样挖掘出来的用户兴趣模型会更准确。
参考文献:
[1]夏敏捷、张锦歌,Web日志挖掘中应用聚类改进网站结构的研究[J].中原工学院学报,2005,16(6):39-41.
[2]褚红丹、焦素云、马威,用户访问兴趣路径挖掘方法[J].计算机工程与应用, 2008,44(35):135-137.
[3]李珊、袁方,基于Web日志挖掘的页面兴趣度方法的改进[J].计算机时代,2007,3:29-31.
[4]李桂英、李吉桂,基于模糊聚类的Web日志挖掘[J].计算机科学,2004,31(12):130-131.
[5]吴福保、李奇、宋文忠,模糊聚类分析的传递方法[J].东南大学学报.1999.29(3):105-110.
作者简介:崔江彦,女(汉),河北保定人,南京航空航天大学经管学院硕士,主要信息管理与信息系统研究;马静,南京航空航天大学经管学院教授,硕士生导师,研究方向:知识管理,情报学。
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文