Hadoop将更加隐形
2016-03-14凌琦
凌琦
有人说,Hadoop死了。这种说法是不对的,Hadoop没有死,因为Hadoop的内容在提升。
Hadoop,正式诞生于2006年1月28日,距今已经整整十年。它从根本上改变了企业存储、处理和分析数据的方式。
Hadoop以一种开源的方式创建,十年前,谁也没有料想到Hadoop能取得如今这样的成就,而现在一切均已实现。
Hadoop之父Doug Cutting认为,Hadoop正处于蓬勃的发展期,而且这样的蓬勃,至少还需要几十年。
趋于隐性的Hadoop
众所周知,2015年是Apache Hadoop标志性的一年。就在我们认为2015年就这样过去了的时候,真正的Hadoop时代却来临了,我们还有很多事情需要继续做下去。
我们看到,Apache Spark已经成为主流,Kudu(孵化中)的全新储存能力也加入进来,安全也更加卓越。难以想像,后面还会有什么惊喜,但这正是Hadoop的美妙之处:永不止步、无限可能。
2016年我们的期望是什么?当然,没有人能未卜先知,但有几件事,我们认为将可能会发生。
Hadoop将更加隐形,这不是一个新的观点。早在去年,Cloudera联合创始人兼首席战略官Mike Olson在纽约Strata Hadoop世界大会的演讲中提出这个说法。意思是,用户真正在乎基于Hadoop的平台和能达到的业务结果,而不是Hadoop本身。
这一观点,有必要重新被提起。Hadoop之初的用例定位就是一个经济型的深度存储和数据处理平台,我们陆续看到如今大大小小的企业都在用这个平台进行创新部署,涉及的应用也越发广泛。
比如,通信服务供应商,像英国电信(BT),正在致力于构建一些应用,可以对客户跨业务形成360度视角,重新调整了与客户的交互行为方式;金融服务机构,就像Northern Trust,优化了其服务交付,对付款流程采取实时健康监测。
一些跨行业的通用应用也在革新,比如Countertack,就在为各行各业为安全担忧的企业提供创新的网络安全解决方案。
Hadoop不会消亡 更具包容性
有人说,Hadoop死了。这种说法是不正确的,Hadoop没有死,因为Hadoop的内容在提升。比如,Spark已经是Hadoop整个生态环境当中非常重要的组成部分,它是内存计算引擎。它未来会部分地替代原来的MapReduce。Hadoop是在不断往前发展的。
随着时间的推移,越来越多掌握Hadoop技术的人们进入工作岗位。除了获得必要的技能,对于企业来讲,更大的挑战是如何判断和评估Hadoop的最佳适用。
使用Hadoop来进行平台重构时,技术本身只是等式的一部分,众多企业意识到他们同样需要考虑人员及流程变动的因素,懂得如何去把握所有变化是一项十分艰巨的工作。
就自身而言,我们将尽可能地简化产品。举个例子,Cloudera Navigator Optimizer 让工作负载更加可视化,有助于客户了解如何最大化利用Hadoop平台,减少开发时间并提高性能。它作为Cloudera 企业版的核心,获得了大量用户的信任,获得了对数据前所未有的可视性。它提供必要的审计和数据保护,来满足最严苛的规范限制。
有了唯一的全面的元数据基础作支撑,Cloudera Navigator自动将各个平台上的所有技术元数据,以及企业内用户定义的业务元数据整合成一个单一的、可搜索的储存库。通过这样的不断提升,Cloudera的技术也会更容易被客户接纳。
Hadoop技术不断演进
Cloudera在整个生态圈里不断推动Hadoop前进,不光是对已有系统的增强改进,更适用于商业和关键业务,同时,Hadoop技术本身也在不断前进。
“物联网”和“云计算”是大数据时代以来出现频率非常高的词汇,Cloudera的客户长期以来一直活跃于物联网领域。举个例子,Vivint使用Cloudera为用户提供物联网解决方案,提升了家居联网的同时,也改进了服务体验。另一个例子,Omneo推动工业化物联网领域,实时优化供应链,通过这种方法节省了1500万美元~2000万美元。
无论是升级用户体验,还是数据驱动产品,预计”物联网“在未来,都会是各个领域人们的热门话题。
对于Hadoop而言,我们觉得“云”将继续走在前沿,因为数据越来越多地从本地迁移到云上。
在一个专门的研讨会上提出,如何在AWS上成功部署生产环境?54%的调查者表示在云上,Hadoop的复杂性是导致他们不用云部署的原因。
这也是为什么我们要投资开发Cloudera Director这样的工具来简化云部署技术,我们也会持续提高整个平台的易用性。例如新版Cloudera Director可支持AWS Spot Instance、Google虚拟机云端服务Preemptible VM、在Amazon S3上的Apache Hive和Apache Spark等,以降低基础设施的作业成本,来提升如ETL的工作量。