互联网用户的信息行为分析

2014-04-29郐淑娥

中国管理信息化 2014年19期

郐淑娥

[摘要] 随着互联网的发展及Web 2.0技术的广泛应用，互联网业务得到迅速发展，互联网已经成为人们获取信息、表达心情、交流意见的重要场所。在互联网智能化的过程中，互联网用户行为分析是一项非常重要的工作。互联网用户行为分析，从广义上讲，涉及互联网用户的所有行为活动，包括互联网心理活动、互联网社会活动和互联网访问活动；从狭义上讲，主要涉及用户访问互联网的行为规律。本文主要对互联网用户行为进行探索性的分析，阐述了用户行为分析系统的基本需求、实现步骤和体系框架，以及设计和实现系统过程中应用一些关键技术。

[关键词] 互联网；用户；信息；行为；分析

[中图分类号] TP393.4 [文献标识码] A [文章编号] 1673 - 0194（2014）19- 0092- 03

1 引言

互联网用户行为是指互联网用户的特点、构成及其在互联网应用过程中行为活动上所表现出来的规律。互联网用户行为分析是研究互联网用户行为的学科，它属于互联网知识发现的范畴。与现实社会中的社会行为相对应，我们把发生在虚拟社会中的行为称为“互联网行为”。互联网行为可定义为：行为主体为了实现某种特定的目标，采用互联网作为手段和方法而进行的有意识的社会活动。它具有社会行为的一般特征和基本要素。但由于互联网行为存在于虚拟空间中，所以这种在互联网中形成的信息交流空间又具有不同于物理空间的特殊性，故互联网用户行为有其自身的特点即知识含量高，升级快。互联网行为的主体用户，必然具有一定的互联网技术，具备利用互联网的能力。互联网上信息以数字化的形式存在，用户在数据传输过程中改变信息的内容和形式而不留任何痕迹。

互联网用户行为是一个广义的概念，是用户在互联网上表现的活动方式。关于互联网用户行为，一直没有比较规范的定义和分类。根据研究的侧重不同，可以从多个角度进行分类。互联网实验室就中国目前互联网用户群进行研究，并从应用角度对互联网用户行为进行了分析和分类。互联网用户行为可分成五大类：信息获取、沟通交流、休闲娱乐、电子服务、电子商务。依照上述行为分类，对互联网用户群体进行细分得出10类互联网用户人群：纯信息互联网用户、纯沟通互联网用户、基本互联网用户、纯娱乐互联网用户、典型娱乐互联网用户、信息娱乐互联网用户、泛娱乐互联网用户、互联网工作互联网用户、次全能互联网用户以及全能互联网用户。

2 互联网用户行为分析的过程

2.1 互联网用户行为分析的3个阶段

（1）预处理阶段：预处理过程是指各种可利用数据源的使用记录、互联网内容和结构以及信息行为模式的数据的提取过程。预处理过程是整个行为分析过程的基础，主要包括使用记录预处理、内容信息预处理和结构信息预处理。这个阶段面临很多难以解决的问题。互联网用户行为分析的常见模式如下：①统计分析；②关联规则；③分类；④序列分析；⑤依赖模式；⑥联系分析。

（2）模式分析阶段：模式分析是处理的最后步骤，是对模式发现中不感兴趣的规则或模式进行过滤。最常用的分析方法是知识的查询机制。

（3）互联网用户行为的模式建立阶段。

2.2 互联网用户行为分析的详细步骤

（1）明确互联网行为分析的具体目标。明确目标就是确定分析的目的。对问题和目标的明确描述是正确分析的先决条件。如果想提高直接邮件推销的用户回应，做法可能是“提高用户响应率”，也可能是“提高一次用户回应的价值”，这两做法采用的模型几乎是完全不同的，必须做出选择。

（2）建立行为数据库。建立数据库连同数据分析和数据准备两个步骤，构成行为发现的核心。数据准备工作大概要花去整个数据挖掘项目50%～90%的时间和精力。可以把建立数据库分成下面几个部分：数据收集，数据描述，数据筛选，数据质量评估，数据清理、合并与整合、构建元数据、组建数据库。

（3）分析数据。分析的目的是找到对预测输出影响最大的数据字段和导出字段。

（4）准备数据。这是建立模型之前的最后一步。主要包括选择变量、选择记录、创建新变量、转换变量等工作。

（5）建立模型。建立模型是一个反复的过程。需要对不同的模型仔细考察，以判断哪个模型对问题解决最有效。在寻找好的模型过程中学习到的东西会启发对数据的修改和重组，甚至改变最初对问题的定义。

（6）评价和解释模型。模型建立好之后，必须对其结果和价值做出评价。从测试中得到的准确率只对建立模型的数据有意义。因为在实际应用中，随着应用数据的不同，模型的准确率肯定会发生变化。

3 互联网用户行为分析系统设计

互联网用户行为分析系统是支持互联网用户行为的数据挖掘和知识发现过程的工具。构建合理的互联网用户行为分析系统模型是互联网用户行为分析首要考虑的问题。过去数据挖掘和知识发现的研究重点往往放在局部的具体挖掘算法上，较少对整个系统构建进行分析。数据挖掘和知识发现系统是一个有机的整体，各个部分之间有着密切的关系，某种算法是为特定的数据挖掘模块服务的，如果不认真对系统结构进行分析，那么必然导致各种算法之间的重复工作，各种算法只有与其他模块紧密结合，才能充分发挥作用。

3.1 基本目标

（1）能够对大量的数据进行分析处理。

（2）能够对多种类型的数据进行分析处理。

（3）具有较高的效率。

（4）用户能够参与分析挖掘的全过程。

（5）具有动态性。

（6）必须有效地组织和管理数据。

（7）能对所发现的模式进行解释和评价。

3.2 设计的原则

设计原则主要有6个：开放性原则、规范性原则、扩展性原则、安全性原则、方便性原则和高效性原则。

3.3 基本功能

（1）发现互联网用户行为的特定模式，形成有价值的知识。

（2）发现互联网用户行为形成、存在的特点和变化的规律，提高资源配置水平。

（3）发现互联网用户行为的特点和规律，提高互联网服务水平。

4 互联网用户行为分析数据的收集与预处理

4.1 数据的收集

4.1.1 互联网用户行为分析的数据源

利用准确全面可靠的目标数据源是互联网用户行为分析的关键。在互联网行为分析中，数据能从服务器端、客户机端、代理服务器端以及其他组织好的数掘库中获取。对于调查问卷，Web数字可信度更大，也便于统计分析。我们可以将行为分析的数据源分为4种类型。①内容数据：Web页面的真实数据。例如，Web页面上用户看到的数据，包括文本、图像和声音等。②结构数据：描述内容的组织结构的数据。例如，一个页面到另一个页面的超链接信息。③用户使用记录数据：描述Web页面使用模式的数据。例如，IP地址、访问的页面和时间等。④用户轮廓：提供用户访问站点的统计信息。

4.1.2 数据源的分类和获取

4.1.2.1 分类

从不同数据源收集的使用记录等数据可以视为代表了整个互联网流量中不同的行为模式，即从单用户、单站点的行为到多用户、多站点的行为。为了分析用户行为，首先我们采用IP地址来标识互联网用户。这是一种常用且值得推荐的方法，它的优点是：

（1）对于直接连接在互联网上具有唯一IP地址的计算机，IP地址可以准确标识计算机及其来源。

（2）利用IP地址跟踪计算机，文件（Cookie）跟踪浏览器。同一IP地址的计算机有可能由于同时使用多种浏览器而保留有多个跟踪文件（Cookie），因此IP地址更好地标识了单独的计算机。但通过IP地址识别用户也存在一些问题。例如在下列情况中，通过IP地址可能难以区分用户：单口地址/多服务器会话（一个代理服务器可能会让访问同一网站的多个用户使用同一IP地址）；多IP地址/单服务器会话（一些ISP随机指定一个用户的每个请求一个IP地址）：多IP地址/单用户（一个用户从不同机器访问同一站点）；多代理/单用户（一个用户使用多于一个浏览器，甚至在同一机器上，也被看作是多用户）。

4.1.2.2 获取

（1）通过日志获取互联网用户行为记录。日志主要包括Web服务器端、代理服务器端和客户端的系统审计日志与应用日志。

（2）互联网嗅探捕获用户的行为信息。在信息时代，捕获互联网数据包是收集互联网信息的有效方法。目前攻击计算机系统的行为多数是通过互联网进行的，通过监控、查看出入系统的互联网数据包，来捕获口令或全部内容P数据包捕获，也称P数据包嗅探（互联网嗅探器，Sniffer）或P数据包拦截。首先把网卡设置于混杂模式（Miscellaneous Mode），通过使用互联网嗅探技术实现对互联网上传输的数据包的捕获与分析。

互联网嗅探技术原理：互联网嗅探作为一种特殊的互联网通讯技术，一般是通过对网卡的编程来实现互联网通讯的，对网卡的编程通常使用套接字（Socket）方式来进行。通常的套接字程序只能响应与自己硬件地址相匹配的或是以广播形式发出的数据帧，对于其他形式的数据帧，比如已到达互联网接口但却不是发给此地址的数据帧，互联网接口在验证投递地址并非自身地址之后将不引起响应，也就是说应用程序无法收取到达的数据包。而互联网嗅探技术的目的恰恰在于从网卡接收所有经过它的数据包，这些数据包既可以是发给它自身的也可以是发往别处的。P包分析是通过原始套接字来实现的。捕获到的数据包并不仅仅是单纯的数据信息，而是包含IP头、TCP头等信息头的最原始的数据信息，这些信息保留了它在互联网传输时的原貌。通过对这些在低层传输的原始信息的分析可以得到有关互联网的一些信息。由于通过互联网嗅探捕获得到的数据包数据经过了互联网层和传输层的打包，因此需要根据其附加的帧头对数据包进行协议分析。从TCP/IP通信模型来看，Web的通信协议HTTP是处于应用层，即HTTP的通信协议是封装在TCP报文的“数据”项中，Web服务的默认通信端口为80；因此通过对数据包记录数据进行解析，可探知Web访问者的互联网行为和进行跟踪。

4.2 数据的预处理

4.2.1 数据净化

数据净化，也称数据精简。它是指删除Web服务器日志中与行为分析无关的冗余的数据。

4.2.2 用户身份识别

一般采用IP地址来标识用户。

4.2.3 会话识别

会话识别是为了发现同一用户连续请求的页面（浏览行为的片段）。

4.2.4 路径补充

在识别会话过程中的一个问题是确定访问日志中是不是有重要的请求没有被记录。这就是路径补充所做的工作，解决的方法类似于用户识别中的方法。

4.2.5 事务识别

一次用户或服务器会话的任何语义上有意义的子集合被称为一个事务。一般我们把Web页分为两类：内容页和导航页。内容页是含有丰富内容信息的页面；导航页是为快速找到所需信息而设置的路标。

5 小结

互联网用户行为分析是通过知识发现的方法从大量的互联网信息中挖掘用户的行为模式。它是一个比较新的研究领域，具有广泛的应用前景，许多问题还有待进一步研究。笔者认为互联网用户行为分析的研究方向重点应放在内在机制、挖掘目标、数据集成、非结构化的数据挖掘方法、挖掘系统体系结构、分布式协作挖掘、挖掘效果的评价与可视化等问题上。

主要参考文献

[1]王实，高文，等.路径聚类：在Web站点中的知识发现[J].计算机研究与发展，2001（4）.

[2]马力，焦李成，刘国营.一种基于路径象类的Web用户访问模式发现算法[J].计算机科学，2004（8）.