互联网用户行为数据收集与分析的研究
2019-09-10向大为吴燕波
向大为 吴燕波
关键词:数据收集;数据分析;互联网用户行为分析
中图分类号:TP393.092 文献标识码:A 文章编号:2096-4706(2019)06-0014-03
Keywords:data collection;data analysis;analysis of internet user behavior
0 引 言
随着互联网应用的普及,互联网数据资源竞争白热化,越来越多的企业和组织出于各种目的和动机,不断投入人力、物力和财力,致力于用户行为数据的挖掘,试图掌握其中的行为模式,对用户需求做出预估。数据对现代互联网行业而言就是财富,谁拥有了数据谁就拥有了互联网,谁掌握了互联网谁就拥有了财富。
互联网用户行为数据的收集与分析表现在很多方面。例如,從海量用户中收集用户的浏览喜好,将用户进行群体划分;根据搜索词频率,分析用户喜好;通过收集分析海量数据,反映相关应用的用户规模、用户属性和行业热点,通过宏观分析,了解用户群体的不同特征等等。对此,笔者认为应当一分为二地看,如果单纯从商业利益的角度来看,用户行为数据收集与分析的确可以在某种程度上掌握互联网用户的动态,为用户提供个性化服务,以实现提升电子商务等经济活动的效率和挖掘潜在市场等目的;但如果把视角放到更多领域,会发现此类行为带来了很多不容忽视的问题,例如经济秩序、知识产权、商业秘密、个人隐私等法律方面的问题。
1 互联网用户数据采集
数据采集是进行数据挖掘的基础阶段,采集技术分为线上和线下两种类型。线上数据采集主要通过网络终端后台实现,比如档案、日志、浏览、点击等相关信息;线下数据采集则通过传感器、磁卡片、RFID技术等实现获取用户的线下行为数据,从而建立用户的行为数字数据库[1]。本文主要研究线上数据采集。互联网数据主要由文本、图像、语音和多媒体数据组成。用户行为数据主要是用户在固定网络终端和移动设备中点击、浏览、发送、交易等行为过程中产生的。数据采集是搜集符合数据分析要求的原始数据(Raw Data)的操作。原始数据是分析者认为有价值的、希望获得的一手或二手数据资源。数据采集方法很多,既可以直接从现有数据中搜集提取,也可以通过问卷调查、采访、沟通等间接方式获得。所有的数据采集都是围绕对象、动作、条件、目的等参数进行的。
例如,较传统的Web端采集可通过Web Service记录日志分析和JavaScript嵌入等方式来实现。有些企业和组织并不希望自己网站的流量数据被任何第三方获取,那么只能通过Web日志的方式进行收集。如果需要更符合用户行为的精确数据,就需获得相关许可,采用JavaScript标记收集数据,这种方式不仅可以访问缓存、访问代理记录,而且可以通过Cookie精确定位用户。除此之外,还有爬虫技术、移动终端APP数据采集技术等,具体特点参如表1所示,后面对几种常见分析技术做了简单介绍。
1.1 Web Service日志分析
用户浏览互联网页面后,如果没有立即删除Web日志或做“不记录”的系统设置,会在浏览器等程序中自动留下较详细的日志记录[2]。通过该记录,分析者可以收集到用户浏览网页的时间、次数、顺序、频率和搜索的关键词等。另外,在网站服务器的Log文件中,数据的收集与分析从用户输入URL发出http请求就可以开始。网站服务器Log文件中记录的内容包括远程主机名(或IP)、登录名、日期时间、方法、地址、协议、端口、返回状态和文档大小等参数。
1.2 JavaScript嵌入技术
从客户端收集用户行为数据,通常在页面上嵌入Java Script代码,当用户访问网页时,JavaScript代码通过浏览器程序执行后会自动发送请求到日志收集服务端,从而记录用户访问的数据。利用客户端跟踪技术,Web服务器可通过访问Cookies确认此客户端是否访问过本网站。JavaScript标记同Web日志收集数据一样,从网站访问者发出http请求开始记录。访问者的Cookie会记录访问时间、浏览器信息、user ID等参数,数据收集服务器收集后存入数据库中。
1.3 网页爬虫技术
网络爬虫是捜索引擎程序自动抓取网页数据的重要子程序,主要功能是将网页下载到本地形成镜像。通过网络爬虫和一些网站平台提供的公共API(如Twitter和新浪微博)可以从网站上收集数据。
1.4 APP数据采集
APP常用的采集方式是通过集成SDK进行埋点。埋点是指针对特定用户行为或事件进行捕获、处理和发送,SDK进程先监听软件运行过程中的事件,所监听的事件通常由操作系统、浏览器、APP框架等平台产生,也可在基础事件上进行触发条件的自定义,当事件发生时进行判断和捕获,然后收集整理必要的上下文信息,并发送至服务器。
2 互联网用户数据分析
2.1 互联网用户数据分析方法
数据收集完成后,通过分析策略和工具进行定量和定性分析,重新整理能使数据变得有价值。常用的分析研究方法有以下几种。
2.1.1 来源分析
对用户来源进行定位,可以更加准确地了解用户群体的具体需求,从而为特定用户提供个性化服务。来源分析越细致,所得到的数据就越有针对性。用户的性别、年龄、民族、籍贯、上网时间段、目的地、信仰、爱好、交往人群、价值观念、常用搜索引擎及关键词、网站的种类和浏览量等都可以做较为深入的分析。
2.1.2 类别分析
类别分析主要在来源分析完成后进行,所谓“物以类聚,人以群分”,其目的在于抽象分类,而不是准确定位。通过来源分析定位后,可根据不同的参数对用户进行简单直观的分类,例如网购数据可根据性别、年龄进行分类,语言数据可以根据民族、地域进行分类,社区应用数据可以根据交往人群、价值观、信仰进行分类等。
2.1.3 对比分析
类别分析主要是对用户数据进行粗线条的分门别类,如果要对同类型用户数据进行更深入和详细的分析,可以进行对比分析。对比分析是指对多种或多个具有共同特征又有不同差异的用户数据依照某种指标参数进行比较。例如,相同性别的人群,处在不同年龄段,其购物爱好不同;相同的交往人群,价值观念不同,其诉求和表达方式不同等。
对比分析在日常分析中作为一种基础的分析方法,不仅仅是要对比和分析,更要实现追踪,将分析结果落地(将分析结果联系到对应的责任人,找出异常或者失利原因,并根据原因制定解决方案),这样才能够让数据和分析产生价值。
2.1.4 定量分析
如果要对用户数据进行统计分析,可以根据不同参数设定不同的指标范围,通过数字化的指标体系进行精确的定量,为后面的定性分析提供参照。例如,年龄段可以10年为划分标准,也可以1年为划分标准;交往人群可以同民族人数为划分标准,也可以同地域人数或同职业人数为划分标准等。
2.1.5 定性分析
在定量分析的基础上,如果需要得出相对准确的结论,就可以使用定性分析的方法,定性分析可参照的指标体系来源于不同分析角度。例如,通过用户数据分析不同的职业人群,分析角度就是职业特征;分析不同的价值观体系人群,分析角度就是不同的价值观念。
3 数据收集与分析带来的问题
用户数据收集与分析处理对现代社会以及互联网经济的发展有着显著的推动作用,随着技术的进步,数据收集方式也层出不穷,生活节奏越来越快的人们日益依赖互联网工作和生活,而知识、认识和技术上的差异,无形中会造成人们对个人信息泄露的忽视,甚至是无视[3]。例如,当安装手机APP时,服务条款中已明确提示过隐私授权,很多人群直接忽略,而有些人明明知道,却又不得不用。数据虽然是客观的,但是对于数据的解释权却掌握在少数策划者、设计者、分析者和使用者手中,因此难以避免人们由于立场利益、价值观念的不同,造成数据使用和解读的偏差及成见。数据的大量收集和运用加大了人们的隐私风险,而泄露和忽视的人群越多,其安全隐患自然就越大,当这种隐患积累到一定程度,终会带来法律上的问题。殷鉴不远,个人身份证信息的买卖已经形成黑色产业链,目前公安机关已多年打而不绝,正如前面引言所述,经济秩序、知识产权、商业秘密、个人隐私……不一而足,笔者这里抛砖引玉,后面还待更多学者研究探讨。
参考文献:
[1] 陈利萍.门户网站分布式数据挖掘云平台架构分析 [J].数字技术与应用,2018,36(5):184-185.
[2] 王微.一种基于云计算的数据挖掘平台架构设计研究 [J].电子制作,2017(15):82-83.
[3] 宋远方,冯绍雯,宋立丰.互联网平台大数据收集的困境与新发展路径——基于区块链理念 [J].中国流通经济,2018,32(5):3-11.
作者简介:向大为(1980-),男,汉族,湖南湘潭人,讲师,硕士,研究方向:计算机司法鉴定、网络安全与执法;通讯作者:吴燕波(1979-),女,汉族,湖南娄底人,讲师,硕士,研究方向:网络与信息安全、计算机应用。