APP下载

网络大数据研究及应用

2016-12-22徐焱

软件导刊 2016年11期
关键词:存储管理大数据

徐焱

摘 要:网络大数据是对真实社会的网络映射,蕴含着丰富的信息、知识和智慧。深度挖掘网络大数据的潜在价值给人们带来了前所未有的机遇,但是同时也给现有存储能力、计算能力等带来了巨大挑战。分析了网络大数据的特点,总结了网络大数据研究的重要意义,通过实例展示了网络大数据在现实中的成功应用,并指出了网络大数据在感知与表示、存储与管理、数据挖掘和社会计算等方面所面临的挑战。

关键词:大数据;网络大数据;大数据感知;存储管理;大数据挖掘

DOIDOI:10.11907/rjdk.162277

中图分类号:TP3-0

文献标识码:A 文章编号文章编号:16727800(2016)011020802

0 引言

近年来,互联网技术、物联网技术、云计算的迅猛发展,加上人、机、物在网络空间的高度融合,引发了数据的爆炸式增长,给许多行业带来了新的挑战和机遇,人类已经进入大数据时代。大数据正在改变着人们的生活工作方式,改变着企业的运行模式,并正在引起科学研究方式的变革。

大数据指无法在可容忍的时间内使用常规工具和软硬件环境对其进行感知、获取、管理、处理和服务的数据集合[1]。网络大数据指人、机、物三元世界在网络空间中相互交互融合产生的可以通过互联网获取的大数据[2]。与传统的数据规模相比,大数据特别是网络大数据具有3V特征:①大量化(Volume):网络空间中数据的规模不断扩大,计数单位从GB、TB到PB,甚至已经增长到EB和ZB,具有空前的规模性。IDC的研究报告称,未来十年,大数据数量还将增加50倍,而管理数据存储的服务器数量将增加10倍以便满足大数据50倍的增长;②多样化(Variety):网络大数据类型繁多,包括结构化数据、非结构化数据和半结构化数据。非结构化数据在互联网世界中呈现大幅增长的趋势,目前,非结构化数据占互联网数据总量的比例已达75%以上;③快速化(Velocity):数据产生速度快,要求极高的处理能力。Facebook每天有超过1 000万张照片上传,YouTube平均1秒就有一个时间长度1小时以上的视频在上传。数据是快速动态演化的,具有很强的时效性,因此处理效率就是企业的生命,只有在有效时间内对数据流进行处理,才能很好地利用这些数据。

1 网络大数据研究意义

当前全球已经全面进入信息时代,互联网、物联网、云计算以及网络空间中层出不穷的各种应用,使网络数据以前所未有的速度激增,数据类型越来越复杂,对网络数据的深度挖掘和利用可以帮人们很好地感知现在、预测未来。对网络大数据研究的意义主要体现在以下3个方面:

(1)大数据资源是一个国家继海、陆、空、天之后另一个博弈的空间,是数字主权的象征。一个国家在数据资源方面的落后,意味着其在产业战略制高点的失守,意味着国家安全在网络空间可能会出现漏洞,大数据直接影响着国家安全、社会稳定。2012年3月,美国政府制定了《大数据研究和发展计划》,投资2亿美元用于改进和提高从海量数据中获取知识的能力,这是美国继1993年制定“信息高速公路”计划后又一重大科技战略部署。同年5月,英国建立了世界上第一个大数据研究所。西方国家正在通过国家顶层推动对大数据的研究,加强对大数据的研究及应用对提高国家竞争力具有战略意义。

(2)网络大数据的研究利用已经成为产业升级和新产业产生的重要推动力。通过挖掘网络大数据,从中发现其蕴含的信息、知识甚至智慧。网络大数据已不仅仅是产业所产生的副产品,而是联系产业生产各环节的关键。2011年“双十一”,淘宝网站当天的销售总额达到191亿元人民币,淘宝之所以能够创造如此巨大交易量的商业神话,得益于其对用户消费习惯、浏览习惯和搜索习惯等大数据的分析挖掘。网络大数据正在成为信息产业持续高速增长的新引擎,成为提高企业竞争力的新动力。

(3)大数据引起科学界重新审视科学研究方法论,引发了一种新的科学研究模式。科学研究最初是实验科学,后来出现理论科学,研究各种定理定律。但是在许多问题上,理论研究方法太复杂而难以解决问题。而大数据的出现使科研人员可以直接从数据中挖掘所需的信息、知识和智慧,而无需直接接触需要研究的对象。2007年,已故图灵奖得主吉姆格雷将数据密集型科学从计算科学中分离出来,描绘了数据密集型科学研究的“第四范式”[3],他认为要解决某些全球最棘手的挑战,第四范式可能是具有系统性的唯一方法。PB级数据使人们没有假设和模型,就可以通过分析挖掘发现过去科学方法发现不了的新知识和新规律。

2 网络大数据应用

网络大数据特别是来自社交网络的数据蕴含着丰富的信息,是对真实社会的网络映射。分析挖掘网络大数据发现其蕴含的线索和规律,可以帮助人们更好地感知现在,并预测未来事物发展趋势。一个很好的例子是2009年H1N1流感病毒传播的预测。美国卫生部官员使用传统跟踪方式跟不上流感的传播,但是谷歌工程师们使用网络搜索主题成功预测了流感传播区域,这为卫生系统提供了相当有价值的实时数据。

通过分析海量网络大数据可以帮助人们作出更好的决策。奥巴马的竞选团队通过对网络大数据的挖掘成功帮助奥巴马在竞选总统中获得连任。奥巴马团队在竞选前两年,通过收集、存储海量数据,利用数字化策略寻找和锁定倾向自己的选民,并拉拢中立派选民,这帮助奥巴马在某些地区获得更多的选票,数据分析团队在奥巴马竞选中发挥了至关重要的作用。华尔街一家证券公司通过分析3.4亿微博用户的留言,判断民众的情绪,根据人们高兴时买股票,焦虑时抛售股票的规律,决定买卖股票的时机,从而为公司取得了巨大利润。

3 网络大数据面临的挑战

3.1 网络大数据感知与表示

一方面,根据网络空间中数据隐藏的深度,可以将数据分为表层数据和深层数据[4]。表层数据是指可以通过传统网页爬虫直接爬取的数据,而深层数据由网页在线访问的数据库组成,只有通过提交页面的查询接口才能获取。与表层数据相比,深层数据蕴含的信息更丰富,同时更具规模化、实时动态化和异构化等特点,传统方法无法对深层数据进行采样。为了有效利用网络数据,针对异构、实时动态数据,需要研究有效的方法通过数据获取、数据抽取、数据整合3个环节将数据转化为结构统一的高质量数据。

另一方面,网络大数据的建模和表达还面临着许多新挑战,传统方法不一定能直接表达大数据本身的意义。在大数据表示方面,需要解决数据稀疏性所带来的问题,对快速动态演化的大数据进行建模,需要对图片和多媒体数据进行建模和表示等。研究简单有效的数据表示方法是处理网络大数据的首要难题。

3.2 网络大数据存储与管理

网络大数据的规模已经从TB级增长到PB级、EB级,网络大数据的存储管理不仅影响其分析处理效率,也影响其存储成本。因此,如何提高存储效率降低存储成本成为有效利用网络大数据面临的又一个难题。针对网络大数据的存储,谷歌公司提出了分布式数据处理技术,但是其仍然存在局限性,面临着数据总量规模超大、处理速度要求高、数据类型繁多等多个难题。需要研究优化分布式数据存储结构,以提高网络大数据的存储效率、节约成本,从而实现高效、高可用的数据存储系统。

3.3 网络大数据挖掘和社会计算

利用计算技术分析挖掘网络大数据,发现其蕴含的知识,是实现网络大数据深层价值和实现行为可计算的主要途径。随着社会媒体的涌现,用户规模和数据复杂性都呈现出指数式增长,传统的数据挖掘方法在性能和效率上已经无法满足需求。目前,网络大数据挖掘的主要研究热点是基于内容信息的数据挖掘和基于结构信息的社会计算方法。

4 结语

互联网、物联网、云计算的快速发展以及层出不穷的网络应用,引发了网络数据规模的爆炸式增长,从而产生了网络大数据。网络大数据的研究主要是通过分析挖掘历史数据,发现新的模式,再结合源源不断的流数据,感知现在,并预测未来。网络大数据的研究是经济发展和国家安全的战略需要,网络大数据的涌现为人们提供了前所未有的机遇,但也对人们提出了重大挑战。网络大数据的研究尚处于初级阶段,还有很多问题亟待解决。

参考文献:

[1] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重要战略领域[J].中国科学院院刊,2012,27(6):647657.

[2] 王元卓,靳小龙,程学旗.网络大数据:现状与挑战[J].计算机学报,2013,36(6):115.

[3] ANTHONY J G HEY.The fourth paradigm:data-intensive scientific discovery[J].Proceedings of the IEEE,2011,99(9):13441377.

[4] BERGMAN M K.White paper:the deep web: surfacing hidden value[J].Journal of Electronic Publishing,2000,50(1):476481.

(责任编辑:孙 娟)

猜你喜欢

存储管理大数据
一种卫星数据广播系统端站存储管理方案设计
大数据环境下基于移动客户端的传统媒体转型思路
省级气象数据文件共享存储管理系统研究
DAITSS核心界面与数据存储初探