大数据之困
2013-04-29文君
文君
这是个技术奔腾,信息爆炸的时代,这是个数据无处不在,一切都依赖数据的时代。美国2010年《规划数字化的未来:美国总统科学技术顾问委员会给总统和国会的报告》中说:“数据正在呈指数增长,都是数字化的。各种传感器的剧增,高清晰度的图像和视频,都是数据爆炸的原因。”数据爆炸是全方位的,是立体的,主要表现在同一类型的数据量快速增长,从不同角度围绕同一对象的数据量快速增长;数据增长的速度在加快,因为信息技术的飞速发展使得数据采集更加便捷,采集速度更快;数据呈现多样性特点,即数据种类和数据来源不断增加,标准的和异构的数据共存;历史数据在不断堆积,数据的总数量呈指数增长。
大数据之“大”
大数据之“大”,并不仅仅是数据容量之大,也不是数据种类繁多,“大”数据之大更主要体现在于人们可以分析和使用的数据在大量增加,在那些我们过去只能从单一角度认识的数据,今天可以超越地域、时问,将不同内容的数据、不同来源的数据、不同结构的数据、不同表现形式的数据、不同时间采集的数据,只要能得到的数据都可以加以利用。4个世纪前人类发明了显微镜,显微镜把人们的观测水平第一次推进到“细胞”级水平,使人类第一次看到了微观世界的奇妙,使人们认识自然的能力大大增强。大数据之“大”就像显微镜的发现那样,使我们而对指数级的数据,有能力畅游在更加广阔的数据海洋中,通过对数据的分析、使用,我们可以发现新知识、创造新价值。
大数据之大,还在于面对如海的信息,如山的数据,如何便利快捷地找到自己需要的信息,如何利用大数据创造有竞争力的商业模式,如何掌控火数据进行社会管理和服务,如何使用大数据提高决策水平,这也正是今天个人用户、众多企业以及社会管理部门所而临的重大机遇和挑战。大数据像是个浩瀚的蓝海,看上去无边无际,又似乎有无数资源等着去开发,去捕捉。视而不见,肯定会失去机会,但主动参与进去未必能成功。在迷茫中寻找新路,注定是大数据时代的历史使命,无论他们是个人、企业还是政府。
大数据之“大”体现了几个特征。一是数据的海量。这一点不容置疑。第二是数据的完整性和综合性。大数据所包含的数据不仅包括网络公司通过自身服务所获得的用户行为数据,还包括千千万万个个体用户自己创造的数据,也包含社会的、经济的、政治的、自然的方方面面的数据。这些数据结构可能不同,数据内容可能千差万别,而且可能分散在个人、不同企业、机构和政府部门于中,但整体构成一个完整的数据集。
第三是数据的开放性和公共性。因为完整的、综合的数据不可能是一个人、一家公司、一个机构或政府部门所产生外获得的,也不可能是一群人、一个行业或社会管理者所能够制造并获得的,大数据必然产生于一个开放的,公共的网络环境之中。比如你上网的轨迹,发的做博,写的博客文章,比如遍布城市的视频监控系统所获得的视频数据等等,数据在有意无意间就产生了,这注定数据是具有开放性特征和公共性特征。
第四是数据的动态性和实时性。数据时刻都在产生,而且不问断,每一时刻产生的数据都在变化。
第五是数据的内在关联性。由于不同采集系统所收集的数据可能指向同一事物或事件,这种相互的关联是由于数据所描述的对象所决定的,每一数据之间存在着天然联系。
站在不同角度看大数据,它既可能是大机会、大发展、大创新、也可能是大危机、大破坏、大淘汰。虽然现在对于大数据的认识、开发使用还处于低级阶段,但大数据所包含的能量不容忽视。
大数据之“困”
随着信息技术的发展,整个社会对数据认知程度的不断提高,我们所能够获得数据的成本在逐渐降低,各种信息终端逐渐成为人们生活必须品,现在获得完整和综合的数据不仅是一种理想,也正在变为现实。但大数据浪潮可能令人们喜忧参半过去,我们因孤陋寡闻、数据不足、信息量不够而决策错误;现在,我们掌握了大量数据,在大数据的旋涡中,我们也可能因资讯太多而无所适从。
首先,数据能不能有效存储。我们以天津为例,天津市的一个高清摄象头,每小时产生3.6个GB的数据,“十二五”末,天津将安装60万个摄象头,按照3个月的视频存储的要求,需要4665PB的存储容量,再加上其他方式积累的数据,存储成为现实的难题。如何收集、保存、维护、管理、分析、共享、使用正在呈指数级增长的数据是新的挑战。从网络、博客、天文望远镜到城市视频监控摄像头、手机、办公数据、商业数据等等,来自不同渠道的数据像滚滚洪流不可阻挡,这些数据若存储在不同地方,如何保证使这些数据的完整性、连续性、可用性?我们面临巨大挑战。
其次,如何管理好这些数据。在如何管理大数据的问题上,无论谁来做都难以同避三大挑战:个人隐私、企业利益和社会安全。再加上谁来管理的困扰,使得大数据管理成为当前大数据的挑战。
再次,如何利用大数据也存在技术上和管理上的新问题。数据存储起来不容易,存完怎样在浩如烟海的数据中找到有用数据,难度不言而喻。而且就数据管理而言正在出现三种局面:数据独占,数据共享和数据公开。因为大家都认识到数据是一种资源,无论在个人层面,企业层面还是政府层面,占有数据而且尽可能独占几乎是一种本能。因此一个又一个的数据孤岛不可避免地产生。
另外,在数据中找到数据信息之间的相互关联既有技术上的难度也有数据本身的问题。对同一数据对象的描述,有多个层面和多种数据方式,这些数据可能存在不同的数据模块中,找到它们有点大海捞针的味道。如何使用这些数据又是新的挑战。
实物的积累、货币的积累,过去曾经是国力的标志。而在信息时代,数据的积累、加工和利用能力将成为综合国力的新象征。数据将是下一个大资源,但这种资源又不像自然资源那样就在那里,这种资源是数字的,是一定要依赖于数据信息生成设备,还要依赖数字化的存储设备的,与信息技术密不可分。我们身处数据之中,数据好像在我们身边,但看不见,也摸不着,我们是数据的创造者、拥有者,又是数据的管理者和使用者。
我们走过工业化时代,靠的是光机电,因为计算机和网络的出现让我们走进信息化时代,今天工业化加信息化、物联网加云计算、移动互联和智能终端,让我们面对大数据时代。工业和信息化部副部长杨学山指出,大数据对整个产业和社会来说都是新的机遇,但大数据并非新的概念,也并非颠覆性创新,仍有很多问题要解决,很多事情要做。大数据目前还处于应用的低级阶段,业界对大数据的概念本身、应用本身都还有很多的不足和问题。
面对大数据,任何一点显著的进步都将是大数据时代的福音,不管是概念上还是实际应用上的。