大数据与云存储
2014-06-06张立峰
张立峰
“大数据”作为时下最火热的IT(information(technology)行业的词汇在互联网时代显得越来越重要。随之而来的数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用逐渐成为行业人士争相追捧的利润焦点。
大数据到底有多大
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP,Massively,Paralblle Processing)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。可以说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”随着云时代的来临,大数据(BIGdata)也吸引了越来越多的关注。
大数据具有规模大、价值高、交叉复用、全息可见四大特征。特别是,最后两个特征体现了大数据不仅仅有“规模更大的数据”这种量上的进步,还具有不同于以前数据组织和应用形式的质的飞跃。大数据是信息通信技术发展积累至今,按照自身技术发展逻辑,从提高生产效率向更高级智能阶段的自然生长。
大数据能做些什么
大数据的应用示例包括了大科学、RFID(Radio Frequency ID entification)、传感设备网络、天文学、大气学、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦察、社交网络、通勤时间预测、医疗记录、照片图像和图像封存、大规模的电子商务等。
仅仅十余年,很多企业爬过M B(megabyte)时代,走过G B(gigabyte)时代,现在正被赶着跑过TB(terabyte)时代,去迎接PB(petabyte)时代。事实上,如中国移动、联通、电信这样的移动通信运营商,如谷歌、百度、新浪、腾迅这样的大型互联网公司,如国家电网、交通运输部这样的职能部门,每天数据的更新量已经接近或达到了PB量级。
现在越来越多的政府、企业等组织机构意识到数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竞争力。
大数据不仅是一种海量的数据状态及其相应的数据处理技术,更是一种思维方式,一项重要的基础设施。这或是明天我们治理交通拥堵、雾霾天气、看病难、食品安全等“城市病”的利器,也会为政府打开了解社情民意的更大窗口。
众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及大数据,而这些大数据的属性,包括数量,速度,多样性等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。
云计算和大数据
人说云计算和大数据是双胞胎,两个是不同的个体,互相依赖又相辅相成,也有人说大数据是来搅局的。
从技术层面上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理,必须采用分布式计算架构。它的特点在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。
云计算与大数据的不同之处在于应用的不同,主要在两个方面:
第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。
第二,大数据和云计算的目标受众不同,云计算是卖给CIO(chief inform ation officer)的技术和产品,是一个进阶的IT解决方案。而大数据是卖给CEO(chief financeofficer)、卖给业务层的产品,大数据的决策者是业务层。由于他们能直接感受到来自市场竞争的压力,必须在业务上以更有竞争力的方式战胜对手。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
对大数据的常见误解
一、数据不等于信息
经常有人把数据和信息作为同义词,但并非如此。数据指的是一个原始的数据点(无论是通过数字,文字,图片还是视频等),信息则直接与内容挂钩,需要有资讯性。数据越多,不一定就能代表信息越多。例如:
备份。很多人如今已经会定期的对自己的硬盘进行备份。这个没什么好解释的,每次备份都会创造出一组新的数据,但信息量并没有增多。
二、信息不等于智慧
现在我们去除了数据中的所有重复部分,也整合了类似内容的数据,剩下的全是信息了,这对我们就一定有用吗?不一定,信息要能转化成智慧。
云存储是存储器吗
云存储是在云计算(c bud com puting)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。
云存储不是存储,而是服务。就如同云状的广域网和互联网一样,云存储对使用者来讲,不是指某一个具体的设备,而是指一个由许许多多个存储设备和服务器所构成的集合体。使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。所以严格来讲,云存储不是存储,而是一种服务。
云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。
云存储的概念与云计算类似,它是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的—个系统。
云存储是通过网络提供可配置的虚拟化的存储及相关数据的服务。云存储的内涵是存储虚拟化和存储自动化。
云存储这项服务乃通过w eb服务应用程序接口(Aplapp lication program ming intetrace),或是通过Web化的用户界面来访问。
云存储安全吗
“云”这个概念被提出之后,安全性就是人们首先关注的要点。对于绝大多数的用户来说,他们并不希望自己的云存储变成公共资源平台,更不希望自己的隐私成为大众新闻,所以云存储的供应商也一直在不遗余力地宣传着自己的产品安全性。
云计算,特别是云存储,已经有些年月了。我们目睹了Nirvanix公司的消亡,斯诺登揭露美国国家安全局的棱镜项目,以及美国主要电信服务运营商涉嫌勾结。由于棱镜计划的曝光,我们将看到更多非美国企业会停止将其数据托管在美国。安全已经成为处理数据的企业的头号关注问题。
对于云存储产品而言,除了安全和方便,容量也是决定其发展前景的重要元素。
在线资源的即时分享与互动已成为我们日常生活必不可少的一部分,云存储产品的出现,能够实现手机、平板电脑、台式电脑等智能终端设备的多屏合一、数据共享,极大方便了消费者的生活。越来越多的服务商向个人、各种企业用户推出了包括存储在内的云计算服务。D C(internetdata center)更是将新兴的云存储行业比作是“圈地运动”,并且将其视作早期竞争对手抢占SaaS(softw are as a service)和云存储市场高地的机会。网盘作为云存储的一种应用模式,更是成为当下百度、金山、腾讯、360、阿里等互联网大佬们的“必争之地”。
不过,有云也意味着有“雨”。云存储并不总像看起来那样“美”——将数据迁移至云中致使用户在数据安全性和可用性方面高度受制于其云存储服务器供应商,可以说,对安全性和可用性的担忧是企业和个人走向云存储模式的重要影响因素。
随着云存储技术的日益成熟,云存储逐渐开始应用在智慧城市建设方面,未来必将给各行各业带来更多的服务。
云存储已经成为未来存储发展的一种趋势。但随着云存储技术的发展,各类搜索、应用技术和云存储相结合的应用,还需从安全性、便携性及数据访问等角度进行改进。
TIPS 名词解释
云计算
云计算(cloud cornputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
《大数据时代》
《大数据时代》是国外大数据研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为“大数据商业应用第一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发表了长达14页对大数据应用的前瞻性研究成果。
安全性
IDC的报告显示,在未来四年内,全球云服务市场规模将增长到442亿美元,其中云存储的市场比例将从目前的9%增长到14%,其规模将接近62亿美元,存储市场是增长最快的云计算服务,这也正是各路厂商钟情网盘服务的一个重要原因。