当谈论大数据时,我们谈些什么
2012-04-29孙泠
孙泠
“大数据”的经典定义是可以归纳为4个V:海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。
大数据首先要考虑的应该是“大”——海量的数据规模。谷歌执行董事长艾瑞克.施密特曾说,现在全球每两天所创造的数据量等同于从人类文明至2003年间产生的数据量的总和。而具体到企业应用领域,漫无边际、浩如烟海的数据对企业并无意义,日立数据系统公司(HDS)副总裁兼CTO Hubert Yoshida表示,数据量的“大”是相对而言的概念,对于像SAP的HANA那样的“内存数据库”来说,能把2 TB的数据用好就是胜利;而对于像谷歌这样的搜索引擎,EB(1024×1024 TB)的数据量才能称得上是大数据。
然而,海量数据的危机并不单纯是数据量的爆炸性增长,它还牵涉到数据类型的改变。原来的数据都可以用二维表结构存储在数据库中,如常用的Excel软件所处理的数据,称之为结构化数据。但是现在更多互联网多媒体应用的出现,使诸如图片、声音和视频等非结构化数据占到了很大比重。有统计显示,全世界结构化数据年增长率大概是32%,而非结构化数据则是63%。2012年,非结构化数据占有比例已经达到互联网整个数据量的75%以上。而产生智慧的大数据,往往是这些非结构化数据。
“互联网产生的非结构化数据占比越来越大,约为大数据总容量的85%,传统行业的数据大概只有15%。”对于百度这样的互联网公司,建立数据体系、研发消费者画像、品牌探针等基于大数据的应用简直是天经地义。百度副总裁王湛将百度的大数据策略描述为“数据+工具+应用”,包括百度指数、司南、统计、搜索风云榜和研究中心在内的五大平台数据已经形成了一个数据集合体,全程记录消费者从需求、搜索、购买,到使用和分享的整个历程,对客户进行精准营销。“通过5亿消费者的千亿级行为数据,百度构建了搜索营销、无线推广、联盟受众引擎、社交化营销、品牌洞察等多维度体系的百度商业产品蓝图。”
大数据带来的挑战还在于它的实时处理。在数据仓库诞生的第一天,一直就有一个话题——要把大查询分解成小任务,这些小任务由一台台的机器来完成。“我们的要求在于,上亿条数据的分析能够在5秒钟内完成。”中国民族证券信息技术部总经理颜阳表示。因为过往关联性数据库产品处理大量数据时的运算速度都不快,Hadoop等加速数据查询的分布式开源数据库从边缘走向主流;另外,数据存储的厂商也不再拘泥于用传统硬盘来存储数据,而尝试使用快速闪存。
在商业社会中,“从数据中得到价值”一直都不是什么新鲜的东西,但是当大数据时代到来,经济的新增量逐渐显露出来。尽管数据挖掘从“啤酒与尿布”开始做了几十年,但是“大数据”与我们通常所说的“数据”还是有显著的不同。
花旗集团今年聘请了一位名叫沃森的天才顾问,帮助其增强数字银行业务。这位沃森还同时为包括WellPoint在内的医疗服务公司提供咨询,去年,他还在工作之余获得了电视智力竞赛节目《危险边缘》的头奖。据沃森的朋友讲,他还有其他不愿透露的企业职务,年收入很快就会超过10亿美元。这一天文数字的收入使他成为美国打工者中的超级精英……只不过,沃森是一台机器。
对数据进行挖掘分析正在颠覆每一种类型的企业。位于纽约长岛的文艺复兴科技公司(Renaissance Technologies)所管理的对冲基金,目前管理着150亿美元的资产。这家公司或许是20年来业绩最佳的对冲基金,而领导这家公司的是两名来自IBM人工智能实验室的科学家,他们开发了许多数学模型用来进行分析和交易,这些模型都是建立在海量数据基础上的,具有可靠性并可进行实际预测,而最后的结果往往与他们预想的一样。
瞧,当我们在谈论大数据的时候,我们最终谈论的还是——钱。
8米长虚拟鳄鱼的大数据
今年夏天上映的《百万巨鳄》是国内首部特效惊悚怪兽类型电影,片中的真正主角并不是娇弱的大S,而是一条长八米重达两吨的巨型鳄鱼,名叫“阿毛”。
“阿毛”是完全由特效制作产生,特效制作动物的关键就在于质感——皮肤的柔软度、牙齿、眼神等细小部位的刻画,稍有不慎就很容易露怯。为此,制作方北京歌亮传媒有限公司召集了国内最顶级的特效技术人员,花了3个月的时间为鳄鱼形象做准备。特效制作过程分为多个工种,如建模、灯光、材质、渲染、动画、骨骼、肌肉动力学、特效、毛发等。其中,水和毛发的制作被认为是最难制作的特效种类的代表,但这也是电影《百万巨鳄》中运用最多的部分。
传统电影经过前期策划、拍摄以及后期调色、配音并加入音乐等几个步骤后就可以上映了。但是拍摄一部需要特效制作的影片,前期拍摄与后期制作所需的时间通常是1:6,后期的特效制作成了一个十分关键的环节。《百万巨鳄》的拍摄和制作周期超过3年,其中大量的时间都花在了特效制作上,如何尽量缩短电影的制作周期,节省时间,以便更快获得收益至关重要,而如此复杂的制作特效工作,需要多台特效终端能够及时、快速地处理大量影像数据,在有限的工期内高效地完成全片的特效制作工作,要求歌亮传媒的存储系统拥有更好的I/O处理能力和更高的数据吞吐量、更快的图片渲染和下载速度,大幅减少数据量大造成的系统处理瓶颈,从而实现更适合海量影像文件处理的数据管理、虚拟化和数据保护。
最后,歌亮传媒选择的是参与了《阿凡达》、《功夫熊猫》、《哈利波特》系列以及《暮光之城》等后期制作的日立数据系统公司的大数据存储平台。仅2011年,使用该平台的影视作品全年为全球影视产业贡献了近40亿美元的票房收入。
在影片的后期处理过程中,特效制作需要快速调用容量很大的图片和影像素材等文件,因此特效师往往需要等待系统处理来搜索到想要的图片,这段时间就成为对特效师工作无效的“纯等待”时间。通过解决多用户并发访问文件系统较慢的问题,歌亮的整个系统的数据读取速度得到了明显提升——可以同时为多人提供优越的读写服务,散文件读写也更加流畅,特效师和相关工作人员直接获得影像文件的速度提高30%~40%,大大提高了特效师们的创作效率,也不会让一些即兴的创作灵感因为数据调用的等待而消失殆尽。同时,通过多系统平台的统一管理和权限设置,使得操作人员的误操作减少,从另一个方向上提高了工作效率;得益于存储系统的高可靠性,在读取大量素材数据文件时,能够保障特效渲染工作长期不间断稳定运行,把浪费的时间降到最低。
多方合力,为整个《百万巨鳄》特效制作工作的快速高质完成提供了重要保障。所有的工作人员都能够将时间和金钱花在“刀刃”上,让最终所产出作品的质量得到了实质性的提升,电影震撼力也大大加强。
“电子眼”的后端智慧
大数据对于视频监控行业不是个新鲜话题。
海康威视副总裁兼CTO蒋海青介绍,大数据技术已经在一些地方政府主导的“智慧城市”项目中有了实施,“平安城市”视频监控应用是项目的重要组成部分。
作为全球视频监控产品的领军企业,海康威视在国内参与的“平安城市”应用是视频监控领域规模最大、业务最复杂的系统,其视频接入规模从成千上万到十几万、甚至几十万都有,其中涉及了治安监控、指挥通信、侦查破案、规范执法、社会服务等多个分区领域,“而且现在视频监控所采集的视频质量也从标清进步到了高清的时代,因此大家可以想象一个大型‘平安城市项目所产生的数据信息量有多大?而视频监控所产生的数据无论在规模还是结构上,都符合大数据的定义。”蒋海青表示。
“平安城市”视频监控采集到的海量数据也和其他种类的大数据一样,只有进行智能、高效处理才更具价值。蒋海青指出:“传统的视频监控通常都需要人工监控,可人一般对视频只有20分钟的有效监控,之后注意力和关注点就下降了。”相比之下,智能化的监控技术不但不会像人一样产生疲劳,能够不间断地运行,而且它“还能从大量非结构化的视频数据中提取出有价值的信息,将视频监控的应用范围从过去和目前以事后查看为主,慢慢转变为事前预警,这就可以为公安、交通等各行各业提供更为有效的业务信息支持。”
上述两个特点决定了“平安城市”视频监控应用需要大数据技术的支撑。“我们也曾经想过用原有的关系型数据库来承载相关的数据和应用,但是关系型数据库已经没有办法支持海量的、非结构化或半结构化的数据。”蒋海青称,海康威视最终选择的是英特尔的Hadoop大数据平台。
海康威视认为应用端需要的采集点很多、视频通道非常大,因此“处理平台不能是全集中式也不可能是全分布式,而应该是两者的结合”,而Hadoop的灵活性对此非常适用;海康威视要在Hadoop的数据管理和组织层上加入用于视频数据的图像处理、分析、分类技术,基于语义的分布式视频搜索技术来对它们进行挖掘,英特尔的开放平台也提供了充足的创新空间。这一方案目前已经在海康威视参与部署的某些城市的智能交通监控领域得到了应用,它可以掌控城市交通摄像头覆盖区域中任一车辆的行驶状态、运行轨迹,分析出其是否违章行为或有潜在犯罪可能性,而且还能对海量交通信息进行比对、分析和预测,实现车辆布控、拥堵状态服务、出行最优路径规划、交通管理服务等功能。
未来,海康威视还计划将这一方案应用于小微企业或个人用户,例如将一些小店铺、连锁超市的视频监控通过云服务的方式整合起来,通过分析其视频监控数据提供潜在风险的预警。“这样的系统是完全基于互联网的平台,所以它的数据量可能比‘平安城市的规模还要大,数据的采集、分析、存储及检索的难度还要高。”蒋海青称。
3G上网“明白账”
用微信联系上一群好友,然后在手机上找到一家附近的特色餐厅,大家纷纷开着导航过去,上菜前低头看微博,菜上了不吃先拍照分享,这就是一部分当代都市人的真实生活写照。
在智能手机走进千家万户,3G网络普及,流量飞速增长的今天,对于流量、上网记录的投诉也同时以不可控制的速度递增,甚至运营商也曾被消费者以“欺诈”等名义起诉,类似于“您的智能手机可能进行了系统或软件的更新”等含糊的解答再也应对不了消费者的质疑。为客户提供上网记录查询并非我们想象的这么简单。
这个查询系统需要提供海量级的数据应用。今年上半年,我国移动互联网用户已达3.88亿,同期国内某电信运营商月移动上网记录也增至上万亿条之多,而且每半年时间其上网记录数量都会成倍递增。特别是移动上网记录拥有高容量、数据类型多样化、持续不断增长刷新以及能够从中挖掘出有价值的信息这四个基本特征,算是典型的“大数据”,传统的关系数据库根本无法应对上网记录的存储、管理和处理重任。
有运营商已进行过测试:当传统关系型数据库承载百亿条数据的时候,就已开始有心无力,一个查询请求有可能几个小时都不能返回结果。所以,针对大数据的一系列管理和处理技术也就成为了运营商构建高效透明查询系统,树立诚信服务的关键技术。
国内某3G服务的运营商近期就采用一套基于英特尔架构的解决方案率先化解了这个难题。这套解决方案的核心硬件和软件平台分别是基于英特尔至强处理器的服务器,以及英特尔Hadoop发行版,后者可以为大数据提供分布式、横向可扩展的数据组织与管理功能,并将应用负载分散到硬件系统的每个节点上。
最终,该运营商成功构建了移动用户上网记录查询与分析支持系统。该系统使得相关记录检索速度达到了秒级,即输入任何一个城市的号码,其详细上网记录会在1~2秒种的时候内被检索出来;在用户界面中输入号码后,瞬间就可以得到每天的流量记录,详细的网站地址,在什么位置上的网,用的是什么网络以及起始时间等等,用户再有任何质疑,运营商的客服人员都可以通过清晰明确地答复,消除他的疑虑。
“因为有了大数据,有了现在的这些技术支持,以前需要3-6个月才能查询的记录我们现在只需要几分钟,甚至更快。”运营商负责人表示,“这些数据的挖掘分析还将为最终客户的使用体验展现出更高的价值。”