APP下载

Web日志挖掘的研究

2019-02-13黄良剑

数字通信世界 2019年3期
关键词:日志页面站点

袁 伟,黄良剑

(江苏省建筑工程质量检测中心有限公司,南京 210028)

1 引言

随着信息时代的来临,网络迅速发展,互联网渐渐成为人们获取信息的重要渠道,Web站点遍及人生活中的各个领域,如:科技、教育、电子商务等等。Web站点给人们带来了大量有价值的信息和非常大的便利,同时也留下很多访问数据;与此同时,随着Internet的广泛被使用,人们对于Web站点的要求也是越来越高,如何从众多的Web访问数据中知晓用户的浏览目的,以提升网站的性能,更好地为用户提供个性化服务,成为了计算机网络领域的一个重要课题。Web数据挖掘[1]就是为解决以上需求而生的数据处理技术。

Web数据挖掘是数据挖掘在Web上的应用。Web挖掘主要分为三类:Web内容挖掘、Web结构挖掘和Web日志挖掘。作为Web数据挖掘一个重要分支的Web日志挖掘[2]也是备受关注。Web日志挖掘从用户大量的Web访问记录中,挖掘到用户访问页面的情况、网站的频繁使用情况等很多有益的信息,这不仅能帮助网站管理者从中获取Web站点的用户访问情况和Web站点的使用情况,还能为Web站点的结构优化提供数据支持,以便更好地为用户提供服务等。

2 数据预处理

对数据预处理是保证挖掘结果准确性的重要前提。预处理的目的就是要清除不一致的“脏”数据,留下正确、完整、干净的数据。据统计,数据预处理[3]在挖掘过程中,所耗费的时间和成本达到60%至80%左右。数据预处理过程包括数据清理、用户识别、会话识别等。

2.1 数据清理

数据清理是指基于当前挖掘任务,清除Web日志文件中与挖掘任务不相干的数据。数据清理通常包括以下几个方面:

(1)图片,脚本和样式:通常来说,以html结尾的日志浏览记录才是用户的访问目的,所以删除后缀为js、png、ico、css、jpg等日志记录;

(2)HTTP请求方法:常见的有GET、POST、HEAD,用户的主观访问行为以GET请求方法呈现,所以要删除POST以及HEAD请求方法的日志记录,保留GET方法的请求日志记录;

(3)用户访问失败:一般情况下,返回代码为200代表用户访问网站成功,但也有访问失败的时候,这时返回的代码一般为404(页面丢失)、500(内部错误信息)等,只需保留正确的访问记录,删除访问失败的记录;

(4)弹出式广告:用户打开网页时自动弹出,不能反映用户主观访问意图,所以应当删除;

(5)Web Robots:一般叫网络爬虫,它会根据一定规则自动抓取页面。由于网络爬虫没有目的性,并不是用户主动的访问意图,因此要删除。

2.2 用户识别

用户识别是指从Web日志中分辨出每一条记录相对应的用户。由于本地缓存、防火墙等因素存在,使得精准的识别出用户变得十分困难。通过识别注册用户、cookie等方法能提高识别的准确度,但涉及到用户隐私,并且考虑获取数据的难易度,大多数情况下运用启发式规则识别用户:

(1)不同IP地址代表不同用户。

(2)如果IP地址相同,但用户的浏览器或操作系统不同,可认为是不同用户。

(3)如果IP地址、用户浏览器和操作系统都相同,则根据引用页判断,若引用页为空,代表不同用户。

2.3 会话识别

用户在进入站点到离开的期间所产生的全部浏览请求视为一次会话。同一个用户可能在相隔时间较长的Web服务器日志中多次访问了同一个站点,会话识别的任务便是识别出同一个用户所对应的同一次访问请求。会话识别的常用方法有3种:

(1)超时(Timeout)方法。J.Pitkow研究表明,当同一用户在同一页面停留超过25.5分钟,就可视为同一用户的不同会话,目前一般选择30分钟作为判断标准。

(2)序列长度法。该方法由Cooley等人提出,用来识别事务会话。经研究表明,用户浏览页面时通常经过过渡页面进入内容页面,且用户停在内容页面比过渡页面的时间长。若已知内容页面和过渡页面的合集,顺序读取Web日志记录时,一旦读取到内容页面,就意味着找到了会话的边界。

3 结论

本文介绍了Web数据挖掘的背景,Web日志挖掘的相关概念,以及Web日志数据的预处理,包括数据清理、用户识别和会话识别。未来的研究针对预处理之后的Web日志数据进行挖掘,通过数据挖掘的算法,比如关联规则算法中的Apriori算法,决策树算法,神经元网络算法等。

猜你喜欢

日志页面站点
刷新生活的页面
一名老党员的工作日志
答案
让Word同时拥有横向页和纵向页
扶贫日志
基于Web站点的SQL注入分析与防范
雅皮的心情日志
雅皮的心情日志
积极开展远程教育示范站点评比活动
首届欧洲自行车共享站点协商会召开