APP下载

关于大数据行为分析所引发的问题

2016-10-21王珺赵未未

科技创新与应用 2016年5期
关键词:行为分析大数据

王珺 赵未未

摘  要:随着科技及网络的普及,大数据发展趋势势不可挡。但大数据也带来了隐私弊病。文章将围绕大数据所引发的行为分析问题进行探讨。

关键词:大数据;大数据来源;大数据存储;行为分析

前言

随着科技与网络时代的到来,新型社交工具以及传感器的大范围使用,数据呈现急速发展的趋势,大数据时代随之到来。大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。比较具有代表性意义的大数据定义为3v定义,即规模性(volume)、多样性(variety)、高速性(velocity)。这里就大数据来源、存储对于大数据所引发的行为分析存在的问题进行浅析。

1 大数据来源

随着互联网发展,各种信息发布平台的不断推出,数据产生方式发生了巨大转变。由此,数据的规模、类型、模式与数据的关系处理方式以及处理工具发生了变化,完成了数据向大数据的转变。

数据的产生方式经历了运营式系统阶段到用户原创内容阶段最终到感知系统阶段的演变,即从被动到主动最终到自动的过程。

被动数据(运营系统阶段)的产生与运营活动及数据库的普遍使用密切相关,如超市购物的、医院就诊、学校教育等在想用数据库中均会产生相关数据;进入web2.0时代,微博、腾讯qq等新型社交工具的产生以及手机、平板电脑等新型移动设备的出现不仅增加了数据产生客体人数,同时使得用户主动提交自己的行为,并与自己的社交圈进行了实时的互动。因此,主动型数据(用户原创内容阶段)应运而生。而技术的发展,源源不断的数据产生正式迎来了自动数据(感知系统阶段)的时代。众多机器所配备的连续测量和报告运行装置,对公众场合进行全方位监控的微小传感器等都会自动地、时刻地产生大量的数据。这三类来源不同的数据共同推进了大数据的产生。

2 大数据存储

在信息迅速增长的当代,数据的形式存在文字、图像、音频、视频等多种形式,计算机也不再是单单用来进行科学计算的工具。多样化的数据存储使得数据存储模式越来越复杂,应运而生的数据库系统产生于20世纪60年代,以层次和网状数据库系统为开端,关系数据模型产生带动了关系数据库的发展。然而,随着web2.0时代对网络一致性、实时性要求降低,而读写要求极大提高,网络关系数据库虽使用通用的SQL語言且容易理解、易于维护,却在互联网数据膨胀的web2.0时代就已经在数据存储和处理上显得有些力不从心了。为充分实现海量数据按不同模式存储、充分挖掘和利用,NoSQL代替关系型数据库成为新的数据存储主流方式。

大数据的存储是一种数据先于模式的存储方式,这使得大数据的存储具有极大灵活性和可扩展性,例如,谷歌引以为傲的文件系统GFS和colossus,Mongodb数据库等,都在大数据存储效率方面表现出比较传统关系型数据库有极大的优势。但NoSQL中并没有严格的隐私保护机制,这使得网页浏览者的浏览数据和位置数据等隐私极容易泄露。首先,在数据管理人员进行数据分析时,NoSQL并不存在关系数据库及严格的访问控制机制,这使得用户隐私有一定可能性被窃取;其次,数据存储程序又存在种种漏洞,用户隐私极容易泄漏。

3 大数据分析行为导向

在互联网发展步入大数据时代后,利用大数据为企业挖掘商业价值成了一种新的趋势。通过浏览网页过程中用户的行为,分析出每个用户的即时需要、潜在需要,来进行精准营销,在节约资源和成本的前提下提高销量、完善产品运营,进而挖掘潜在的商业价值,提升企业的竞争优势。

用户画像(Persona)就是大数据分析行为导向的很好例子。用户画像是将用户以属性标签的集合为形式制作的用户虚拟代表。企业将页面或用户注册中所包含的数据利用数据分析平台进行处理,挑选有用的信息进行标签化,这使得每一位用户在网站运营的商家看来都好似看得到的实体。在互联网的营销竞争中,用户画像为企业提供了网络用户足够多的信息基础,这可以帮助企业快速找到精准的用户群和用户需求,以及更广泛的反馈信息。例如阿里巴巴的高端APASS用户画像。如今的电子商务企业客源模式转变,由最初的吸引新用户的加入逐渐转变为留住老用户,在尽量节约成本的条件下,阿里正需要了解每一个高端用户的“本身”,即客户的社会属性、生活习惯、消费行为等,利用这些信息进行广告的精准投放。

然而,这样的信息分析行为导向的方式并不是绝对安全的。首先,用户在页面的输入有可能会被不良商家或网络黑客所窃取,例如某人在社交网站上填写并保存了一个表单,这样的表单便会被存入网站后台的数据库,某一时刻便会被别有用意者所窃取和利用;其次,用户浏览的网页记录是许多的“用户标签”,它们作为可以利用的用户属性,既是商家进行精确营销的切入点,更是用户私密信息泄露的突破口;此外,浏览网站时产生的地理位置信息为带有商业目的的商家利用,也会成为网络不安全因素。

有许多案例佐证,不正当目的的大数据分析会泄露隐私,这里以“棱镜门”事件为例。2013年6月,斯诺登曝光了美国NSA自2007年就开始实行的棱镜计划(PRISM),根据棱镜计划,美国NSA能够透过社交网站、电话公司或搜索引擎网站等窥测到大量个人聊天日志、存储的数据、语音通信、文件传输、个人社交网络数据,利用正在快速发展的超级计算机和几乎完备的大数据分析方法,将看似不关联的数据以超级快的速度加以归纳、计算与分析。虽然美国政府将这样的大数据搜集的目的归为反恐,但个人数据隐私的泄漏也是不可避免的。在日常生活中,每个人都避免不了用手机的数据连接功能,若利用不具备良好的隐私保护功能的手机进行数据连接上网时,会产生大量可轻易被获取的个人数据,如地理位置信息、需求偏好或是行为动向的信息等。电子科技大学互联网科学中心主任周涛教授介绍了公开的一项最新研究成果:某个手机用户只要曾出现在4个基站的服务区,利用大数据模型,研究者就能把他从百万用户中区分出来,识别他的身份,准确率为95%。这样的研究结论也证实了“棱镜门”是现实可行且方便的。

4 结束语

大数据出现即应用带来了诸多政治、文化及经济效益。其公开性,高效性与个人隐私问题则存在了很大冲突。需采取有效措施,进行不同效应之间的折中处理,从个人层面、组织层面以及社会层面全面推进大数据隐私问题建设。

参考文献

[1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].2012.

[2]关作森,陈友,李伟基,等.淘宝客户信息隐私保护的现状分析与对策研究[J].2013.

猜你喜欢

行为分析大数据
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
基于北斗卫星导航的罪犯行为分析方法
金融经济中的金融套利行为分析及若干研究
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索
公开课与常态课学生学习心理和行为的表现分析