大数据,大冲击
2014-10-24赵燕枫
赵燕枫
大数据,大科学
LSST(大型综合巡天望远镜),是一台还在研制中的巨型望远镜。无论是直径8.36米(将近3层楼高)的巨大主镜,还是囊括近紫外、可见光、红外线(320~1060纳米)的广谱感光元件,还是9.6平方度的超宽广视场(满月的49倍大),以及历史上最大的数码相机(小汽车般大小、重2.8吨),都令人叹为观止。最后,这些零件还要被拖到南半球,在智利北部海拔2663米的山顶上重新组装起来,以获得最佳的观测条件。
在工程师们看来,这些都是小意思。那么,什么才是他们最发愁的呢?
你大概想不到,竟然是数据。
LSST的那台超级相机,核心感光元件直径为64厘米(快赶上直径77厘米的标准井盖了),上面分布着1600万个像素,每个像素的动态范围是4字节(byte,1字节等于8比特,本文以下的数据单位均为字节)。在观测时,每秒最多可以产生3吉以上的数据。而相机内的计算机平均每秒要完成2万亿次运算,才能将这些在15秒曝光时间内获取的数据整合为一张32亿像素的照片。每个夜晚,它可以拍下数百张这样的照片,全年则可以拍摄大约20万张。
至此,细节中的魔鬼终于出现了。每个夜晚,LSST能够生成约20~30太的原始数据,每年则能生成1.28拍或者说1280万亿字节数据。项目方估计,为了储存这些数据,初期需要15拍的空间。这相当于15000块常见的1太硬盘的总容量,这些硬盘的总体积大约为50立方米,足够塞满一个小房间。
问题是,如何从这一房间的硬盘中快速查找到所需的某项数据呢?比如,这个天区的某个天体与那个天区的某个天体是不是同类?这类天体还有多少,都在哪里?
对于这样的问题,常规服务器的硬件和软件就只能望洋兴叹了。
在大西洋彼岸欧洲核子中心(CERN)的LHC(大型强子对撞机)内,分布着约1.5亿个传感器,它们每秒能够传送4000万次数据。当LHC工作时,每秒约产生6亿次粒子碰撞,其中99.999%都会被滤除,只留下约100次碰撞事件供进一步分析。就是这不起眼的0.001%的数据,每年仍可以汇成25拍的数据海洋。为此,人们不得不构建了一个复杂得令人咋舌的LHC计算网格(LHC ComputingGrid),它由170个计算设施组成,分布在36个国家。
而LSST和LHC,其实只不过是类似问题的一个缩影。
大数据,大爆炸
说到能够感受到的数据量暴增,可能莫过于我们每天都接触的互联网了。十几年前,网站还以静态页面的展示为主。如今,各种社交网站、电商网站等大量兴起后,情况已经不一样了。
根据中国互联网中心(CNNIC)披露的数据,截止到2013年12月,我国微博用户规模达到了2.81亿。而据新浪官方2012年5月发布的数据,新浪微博用户每天平均发布超过1亿条微博内容。在晚上高峰期,服务器集群每秒要接受100万次以上的响应请求。据中科院院士李国杰在《大数据的研究现状与科学思考》一文中披露,谷歌通过大规模集群和MaPReduce软件,每月处理的数据量超过400拍;百度每天大约要处理几十拍数据;淘宝网会员超过3.7亿,在线商品超过8.8亿,每天交易数千万笔,产生约20太数据。
而这,只是全球“数据爆炸”的一个缩影而已。人类记录和储存下的数据,可以分为模拟数据(使用模拟方式记录的数据,包括书刊报纸、信札、录像带、录音带等)和数字数据(使用数字方式记录的数据,包括磁盘、光盘等)两大类。两大数据之和,就是最近20多年来全球信息储存容量的爆炸式发展情况。
1986年,人类的模拟数据(绿色部分)约有2.6艾,新生事物的数字数据(棕色部分)只有0.02艾(20拍),二者比例为130:1。到2002年,二者已经等量,比例变为l:1,被称为“数字时代元年”。到 2007年,二者比例己经倒置为1:15。较之1986年,模拟数据增长了6.3倍,达到了19艾;但数字数据更是增长了约14000倍,达到了280艾。事实上,相比于数字数据,模拟数据在全部数据中所占的比重已经越来越低(从1986年的99%一路降到2007年的6%),按照这个趋势,它很快就会变得可以忽略不计。
这个令人目眩的大逆转,仅仅发生在21年间。数据越来越“大”、数字数据越来越膨胀,已经是一个不争的事实。
根据IDC(国际数据公司)在2012年3月发布的《世界大数据技术和服务2012~2015预测》,这个高速扩张的趋势仍在持续。2012年人类的数字数据约有2.5泽,到2015年时将暴增到8泽。这意味着,在这3年中,平均每年都将新生一份总量相当于2012年人类已有全部数据规模的新数据,而要生成一份总量相当于1986年时全部数据规模的新数据的话,算下来只要不到8个半小时。
在飞速发展的物联网的助力下,各种传感器(包括监视摄像头、RFID读取器、遥感设备、无线传感器等)也在不停顿地生成着新的数据。
按照中国人民大学信息学院孟小峰和慈祥的观点,这些数据可以分为三类,即被动产生的运营系统数据(如销售记录)、主动产生的用户原创数据(如微博内容)和自动产生的感知系统数据(如监控录像)等。从被动、主动到自动,数据量的增幅快速扩大,其中自动产生的数据正是大数据产生的最根本原因。
大数据,新定义
量变会带来质变,暴增的数据终究会引发一系列变革。相应地,它也需要一个不同的名字和清晰的定义,来跟传统意义上的“海量数据”(massive data)或“超大规模数据”(very lafge data)做个切割。
2001年,美国分析师道格·莱尼(Doug Laney)试图用3个以V开头的单词来概括这类数据的特征,那就是数量(Volume,指数据的量)、速度(Velocity,指数据的吞吐速度)和多样性(Variety,指数据类型的多样性),合称3V。后来又加了一个V,对这第4个V的意义,IDC认为是价值(Value),而国际商业机器公司(IBM)则认为是真实性(Veracity)。这个3V或4V的概括,由于界定清晰、明白好记,很快就在业内流传开来。
2011年,美国咨询业巨头麦肯锡公司(McKinsey)发布了《大数据:竞争、创新和生产力的下一个前沿》的报告,其中提出,所谓“大数据”(big data),就是那些“规模已经超出典型数据库软件所能获取、存储、管理和分析能力之外的数据集”,它将推动5个领域的全面转型,并提出了若干建议。报告里说,不打算为大数据设定具体的数值标准,而更希望将它设定为一个动态的、能够随着数据规模和处理能力增长而不断变化的概念。按当时的情况,这个“门槛”大约在几十太字节到几十拍字节之间。
可以说,这份长达146页的报告,就是现今我们所说的“大数据”这个概念的出生证明。人们早就认识到,数据量的暴增会让情况发生重大变化,但一直没有清晰有力的表述,也没有明确的研究讨论和针对性的建议。因此,报告发布以后,“大数据”概念迅速风靡全球,得到了学术界和产业界的一致公认。
按照维基百科的介绍,大数据就是“指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集”。不难看出,这与前述的定义非常类似,采用的也是相对的标准。
那么,与传统上意味着海量数据的“数据库”概念相比,大数据有什么根本性的不同呢?孟小峰等人用池塘和大海打比方来说明它们之间的5个不同,即数据规模不同(“池塘”和“大海”)、数据类型不同(“池鱼种类单一”和“海鱼种类繁多”)、模式和数据关系不同(“先挖池塘后投放鱼”和“海鱼的繁衍改变大海的构成”)、处理对象不同(“池塘里只能捕鱼”和“海鱼还可以作为其他生物存在的判断根据”)、处理工具不同(“一种或少数几种渔网足够应付池塘捕鱼”和“没有一种渔网能够捕获全部海鱼”)。
这5个比方,其实已经足够说明量变带来的质变了。
大数据,大挑战
对于这些“超出典型数据库软件所能获取、存储、管理和分析能力之外的数据集”,现成方案早已捉襟见肘。下面,我们就来看看大数据的“处理框架”和“关键技术问题”这两个方面吧。
第一个方面是处理框架,它又可以细分为处理模式和处理流程两部分。
处理模式,主要分为流处理(直接处理)和批处理(先存储再处理)两大类。流处理将数据看成流,主要在内存中完成,适合对付那些持续到达、急需处理的即时数据,如推特的storm和雅虎的S4等,使用的都是流处理模式。与之相对,谷歌提出的MapReduce则属于最有代表性的批处理模式。它将原始数据集分块后,分别交给不同的MaP任务区处理,并通过Map函数计算出中间结果,再写入本地硬盘。这个“将计算推到数据”的思路非常新颖,模型简单、操作性强,因而很受欢迎。流处理和批处理各有优缺点,拿手的数据对象也不同,因此Linkedln(一家社交网站)使用的就是二者混合的模式。
处理流程,主要包括数据抽取与集成、数据分析和数据解释。在数据抽取和集成时,需要对种类繁杂的数据进行预先清洗,保证数据质量和可信性。数据分析则是大数据处理流程的核心。至于数据解释,则是用户最关心的事情,文本之外,可视化处理也不失为一个好的选择。
第二个方面是关键技术问题。数据处理存在着4个层次,即文件系统、数据库系统、索引与查询技术、数据分析技术,我们不妨逐个来看它们面对的挑战和对策。
首先是文件系统。由于数据量太大、来源太多,要想及时响应,必须存放在成千上万甚至几十万、上百万台服务器上。可在这样参差不齐的超大服务器阵列中,传统的文件系统根本无法保证可靠工作,更谈不上扩展了。此外,社交网站的海量小文件(图片、文档等),门户网站的海量内容搜索等,也都需要新型文件系统的鼎力支撑。
对策:针对需求,开发不同的全新文件系统。如构建在大量廉价服务器上,可扩展、分布式的谷歌文件系统GFS;针对海量小文件的脸书文件系统Haystack;支持搜索和广告业务的微软文件系统Cosmos等。
其次是数据库系统。传统的数据库一般都是关系数据库,具有4个特点,即数据量小、数据类型少、适应性强(以统一的数据存储方式应对各种用途)、事务特性强调“数据一致性”(关系数据库的ACID特性,即原子性、一致性、隔离性和持久性,对应CAP理论”中的“C”,即一致性)。而在数量大、类型多、无法以统一方式应对各种用途、追求可用性(特性变为BASE,即基本可用、柔性状态、最终一致,对应CAP理论中的“A”,即可用性)的大数据面前,也就力不从心了。
对策:不再拘泥于关系数据库,转而研发不基于关系模型的数据库(统称为NOSQL数据库),共同特点是模式自由、支持简易备份、最终一致性(支持BASE而不支持ACID)、支持海量数据。谷歌最新的Spanner数据库系统,其目标是控制100万~1000万台服务器,最多包含约10万亿个目录和1000万亿字节的容量。
第三是索引与查询技术。为库中的数据建立索引(index)是需要时间的,而数据更新后,索引更新也是需要时间的。当数据规模暴增后,通过既有技术生成索引的耗时已经无法接受(有人估算,采用传统的GADDI算法为脸书生成索引,时间将长于40万年)。
对策:利用MapReduce并行技术优化多值查询,开发索引技术优化多值查询技术(例如ITHbase、IHbase、CCindex等实现方案)。
第四是数据分析技术。传统的数据分析技术着眼于小规模数据,比如数据挖掘(data mining)、机器学习和统计分析等,在用来分析大数据时,必须因应大数据的特点进行调整,在算法的实时性和准确率之间进行平衡,设法适应云计算的框架并淘汰不适用的算法等。
对策:开发新的分析技术,如谷歌的Pregel图计算模型和Dremel数据分析系统等。
大数据,新未来
正如我们亲身所感的那样,大数据早已不是什么理论概念,而是每天都在影响着我们的现实了。
目前,最引人注意的大数据应用往往分布在IT行业或与IT行业“沾亲带故”的产业界,毕竟这里是大数据概念的发源地,也是相关技术发展最快、人才最集中的行业,转化起来更得心应手。但是,大千世界中,诸如交通、能源、商业、医疗、教育、金融、环境、农业……哪个不能产生大数据?而这些行业现在刚开始试水,深思之下,其中的发展前景简直不可限量。而从行业的“条”转到地区的“块”来看,每个省(市、区)、县(市)、乡(镇),都可以产生近乎无穷的数据。可以想象,有朝一日各行各业、各个地区都“张开”大数据的“翅膀”后,社会的运转一定会变得更加灵巧而高效。
数据不是可有可无的数字和符号,而是宝贵的财富,更多的数据意味着更大的价值。这一观念已被越来越多的人所接受和认同。因此我们相信,在解决了大数据的安全隐忧的前提下,我们所有人都将从中受益。