APP下载

主流大数据技术浅谈

2015-04-04曾昱祺

数字通信世界 2015年7期
关键词:海量分析

国 志,刘 畅,曾昱祺

(国家无线电监测中心,北京 100037)

主流大数据技术浅谈

国 志,刘 畅,曾昱祺

(国家无线电监测中心,北京 100037)

在全球化、信息化和市场化的今天,数据可以带给我们的价值不言而喻。随着智能社会的到来,大数据的冲击,我们这代人正迎接着崭新的机遇。本文在总结大数据时代新变革的基础上,对当今主流大数据技术进行了列举和介绍。在这样一个需要高瞻远瞩的大变革时代,只有掌握最新的技术,才能在这轮技术浪潮中站稳脚跟,脱颖而出。

大数据;Hadoop;Storm;Apache Drill

Keyords:Big Data; Hadoop; Storm; Apache Drill

1 引言

大数据是现代信息技术的重要发展方向之一,实现大数据的共享和分析将带来不可估量的经济价值,同时也对社会产生巨大的推动作用。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。大数据在现代社会和经济活动中发挥着极其重要的作用,有效利用大数据会产生不可估量的价值。

2 大数据带来的新变革

(1)全体数据替代随机样本。在过去很长的时间之内,由于数据储存和分析能力的缺陷,人们无法准确地对大量数据进行处理,只能通过采样的手段用最少的数据得到最多的信息,但这只是在不能收集和分析全部数据时的折中做法,本身存在很多缺陷。近些年,随着云计算的产生和兴起,大数据的处理迎来了一次巨大的飞跃。通过云计算可以处理的数据大大增加,用全体数据替代随机样本逐渐成为可能。

(2)混杂性替代精确性。过去,由于被采样的数据样本偏小,则对数据分析就要求精准,尽可能地减少错误,因为收集的有限性意味着微小的错误会被放大,甚至影响整个结果的准确性。而对于“大数据”,单个结果的精确就显得不那么重要了。与其浪费计算在提高数据的精度上,不如用来处理更大量的数据。这样,我们就不需要过于担心某个数据对整套分析产生的不利影响,而是从这些纷繁复杂的数据中收益。相比小数据时代的精确,大数据更强调数据的完整性和混杂性。

(3)“是什么”代替“为什么”。我们网购时,每当买到一件心仪的物品以后,系统会向你推荐一些其他商品。事实证明,这个推荐比较准确。而为什么两样不相关的东西会产生关联?谁也不知道,但事实就是这样。对商家来说,是什么比为什么更实惠。当然,其中有些很可能只是巧合,但基于大量数据时就能筛选掉大多数巧合。而随着计算能力和可用数据的增加,简单的线性关系向着更复杂的非线性关系转变,给人们带来更加丰富的结论和新的认识。

3 当今主流的大数据技术

在大数据时代,对大数据进行统一表示,实现大数据处理、查询、分析和可视化是亟需解决的关键问题。互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。海量的电子政务数据、移动终端数据、网站日志、社交媒体数据、来自物联网传感器的流式数据、企业长期积累的业务数据等也都是大数据的主要来源。现有面向大数据的研究主要针对存储、处理、分析、可视化等某一方面的关键技术。本文搜罗了如下当今主流大的数据技术。

3.1 Hadoop

Hadoop是目前大数据平台中应用率最高的技术,特别是针对诸如文本、社交媒体以及视频等非结构化数据。Hadoop可以部署在价格低廉的服务器上,形成分布式系统,它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。

Hadoop的核心是HDFS和MapReduce。HDFS具有高容错性和高扩展性等优点。MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。因此,通过Hadoop可以轻松地组织计算机资源,搭建自己的分布式计算平台,完成海量数据的处理。相对当前应用较多的SQL关系型数据库,HDFS提供了一种通用的数据处理技术,它用大量低端服务器代替大型单机服务器,用键值对代替关系表,用函数式编程代替声明式查询,用离线批量处理代替在线处理,以高容错的方式并行处理大量的数据集。

Hadoop目前已广泛应用于Web搜索、广告系统、数据分析和机器学习等领域。Hadoop作为网络公司的重要工具,包括Yahoo,Facebook都利用它处理不断增长的非结构化数据。

3.2 Storm

随着大数据业务的快速增长,针对大规模数据处理的实时计算变成了一种业务上的需求,缺少“实时的Hadoop系统”已经成为整个大数据生态系统中的一个巨大缺失。Storm正是在这样的需求背景下出现的,并很好地满足了这一需求。

Storm是一个自由的开源、分布式的实时计算系统,它可以快速可靠地处理庞大的数据流。Storm很简单,支持许多种编程语言,使用灵活,它为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。Storm也可被用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户,它可以方便地在一个计算机集群中编写与扩展复杂的实时计算。Storm处理速度很快,在一个小集群中,每秒可以处理数以百万计的消息。

许多知名的企业诸如淘宝、支付宝、阿里巴巴、Groupon、乐元素、Admaster等都基于它做开发。

3.3 Apache Drill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为“Drill”的开源项目。Drill已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速),而Drill将有助于Hadoop用户实现更快查询海量数据集的目的。

Drill项目其实也是从谷歌的Dremel项目中获得灵感,该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等。通过开发DrillApache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。

3.4 IBM PureData System

IBM PureData System是PureSystems系列的成员,它将系统的灵活性、云的弹性和针对工作负载进行调优的设备的简易性进行结合,从根本上改变了IT的体验和经济效益。IBM PureData System主要面向大数据应用,帮助企业更加高效地管理、分析海量数据,并从中获取业务洞察。它以保证简单性、速度和低成本为前提,向当今高要求的应用程序交付数据服务而进行了优化。

据IBM公布的数据显示,目前已有60多家独立软件供应商表示将全力支持PureData。包括DynaFront系统和PCCW电讯盈科在内的多个合作伙伴,已经在其数据中心内部安装了PureSystems。中国市场的合作伙伴方面,文思海辉技术有限公司已经推出了基于PureData System的金融行业解决方案。

3.5 GFS MapReduceBigTable

谷歌的GFS MapReduceBigTable平台是以云服务为主打的新一代搜索引擎,专为BigTable设计的分布式存储Colossus,也被称为二代Google文件系统,它专为建立Caffeine搜索索引系统而用。基于Colossus,谷歌为用户提供了可以计算、存储以及应用的云服务。为了更好地支持大数据集的互动分析,Google推出了Dremel和PowerDrill。Dremel被设计用来管理海量的大数据集(指数据集的数量和每数据集的规模都大),而PowerDrill则设计用来分析少量的大数据集(指数据集的规模大,但数据集的数量不多)时提供更强大的分析性能。在谷歌新一代搜索引擎平台上,每月40亿小时的视频,4.25亿Gmail用户,150,000,000GB Web索引,却能实现0.25秒搜索出结果。

4 结束语

随着移动互联网、物联网、社交网络等技术和应用的兴起,全球范围内数据量迅猛增长,大数据时代已经来临。如今,越来越多的应用涉及到大数据,于是不断涌现的大数据新技术就显得尤为重要。大数据正在影响着人们的生活方式、生产方式、国际竞争乃至整个时代。如能敏锐的发掘并利用好大数据新技术,抢占现机,必将从大数据时代的发展中获益匪浅。人类正在从工业文明迈入信息文明,随着大数据的冲击,智能社会的到来,我们这代人迎接着崭新的机遇。在大数据技术已经逐渐发展并趋于成熟的今天,如何整合资源,掌握先进技术,在全球竞争中发挥后发优势,在这轮技术浪潮中站稳脚跟,脱颖而出,我们期待着中国的腾飞。

Brief Introduction ofModernBig Data Technology of Radio Monitoring Data

Guo Zhi, Liu Chang, Zeng Yuqi

(State Radio Monitoring Center, Beijing, 100037, China)

Today, the world is being globalization, informatization and marketization. Data can bring us great value.With the arrival of the intelligent society and the impact of the large data, our generation is to meet the new opportunities. This paper summarizes the new changes of the Big Data era and introduced some of the modern Big Data technology. In such an era of the great change, only grasp the latest technology can help us gain a foothold in this technology wave and stand out.

10.3969/J.ISSN.1672-7274.2015.07.017

TN919文献标示码:B

1672-7274(2015)07-0066-03

国 志,男,1987年生,硕士,国家无线电监测中心助理工程师,主要从事专利申请、科技奖申报、招投标等方面的工作。

刘 畅,女,1987年生,硕士,国家无线电监测中心助理工程师,主要研究方向为卫星频率和轨道资源情况、卫星网络间的国际协调。

曾昱祺,男,1987年生,硕士,国家无线电监测中心助理工程师,主要研究方向为卫星产业情况。

猜你喜欢

海量分析
一种傅里叶域海量数据高速谱聚类方法
隐蔽失效适航要求符合性验证分析
海量快递垃圾正在“围城”——“绿色快递”势在必行
电力系统不平衡分析
电力系统及其自动化发展趋势分析
一个图形所蕴含的“海量”巧题
多通道海量数据记录系统设计
一种海量卫星导航轨迹点地图匹配方法
中西医结合治疗抑郁症100例分析
在线教育与MOOC的比较分析