大数据智慧时代开启
2013-04-08龚略
如今,随着不断增加的大数据解决方案需求,Apache Hadoop已经迅速成为存储和处理海量结构化和非结构化数据的首选平台之一。企业只需在少量基于英特尔至强处理器的服务器上部署这种开源软件框架,就可用较低的成本迅速开始进行大数据分析。随后可逐步将其Apache Hadoop集群扩展到数百乃至数千个节点,从而将多PB数据的查询响应时间缩短到次秒级。
英特尔与Apache Hadoop社区开展协作,支持系统管理员尽可能地实现其Apache Hadoop集群的高性能,同时保证复杂度处于低限度。英特尔开发了HiTune性能分析器和HiBench基准测试套件,用它们来降低Apache Hadoop性能调优的复杂性,用户可以在更短的时间内更有信心地设计和实现Apache Hadoop解决方案。
HiTune性能分析器
Apache Hadoop的主要优势之一就是比传统数据仓库更容易部署和使用。然而,由于分布式环境的硬件与软件之间存在复杂的交互,因此,要优化Apache Hadoop集群和工作负载以提高性能会面临重重挑战。为了应对这样的挑战,英特尔开发了HiTune,为开发人员提供了开发高度可伸缩型应用程序的简单工具。
典型的Apache Hadoop查询是使用直观、高级的数据流模型编写的。这对于程序员而言非常理想,因为数据分区、任务分发、负载平衡、容错和节点通信等所有繁杂的细节都由Apache Hadoop运行时环境来处理。然而,隐藏这种低级复杂性也会导致性能调优成为一项繁琐的挑战。因为工程师对于硬件与软件之间的低级交互知之甚少,甚至毫不知晓,而这种认识却是理解和优化性能所必不可少的前提。工程师们通常只能依靠漫长而又耗时的试错法,而结果往往也只是能得到次优的性能。
HiTune将监视Apache Hadoop集群中各服务器的关键性能指标,随后汇总这些低级指标,将这些指标与高级数据流模型相关联。这样,工程师就可以获得不同任务与阶段之间动态交互的深入了解,并迅速查明拖慢性能的性能瓶颈、应用程序热点和硬件问题。HiTune简化和加速性能调优;跨数千台服务器扩展分析;逐渐获得更高的价值。
HiBench基准测试套件
利用HiBench基准测试套件,您可以跨不同的工作负载准确而又一致地度量、验证和对比Apache Hadoop集群的性能,为客户提供更出色的信息和信心。HiBench提供了对10种易于使用的Apache Hadoop工作负载的便捷访问,这些工作负载经过扩展、配置和定制,能够反映典型的部署。可以为特定的通用任务度量性能,例如排序和文字计数,或者为更加复杂的实际应用度量性能,这些应用包括Web搜索、机器学习和数据分析。不同的工作负载具有不同的特征,使您能够建立测试矩阵,体现特定环境的资源需求。
英特尔将继续扩展和改进HiBench,还会与领先供应商和标准实体联手协作,开发针对Apache Hadoop的行业标准性能基准测试。建立这些基准测试之后,您就具备了理解架构问题、度量和验证Apache Hadoop解决方案性能的更好基础。
构建一个经过验证的基础
设计全面优化的Apache Hadoop集群需要深入理解整个解决方案体系。可能要投入数月的时间来探索Apache Hadoop工作负载特征,并了解如何与底层硬件和软件交互。还可以利用英特尔多年来与目前运行某些全球规模大、成功的Apache Hadoop实现的企业之间,共同研究和协同使用所得到的专业经验。
英特尔将这种专业经验构造成为参考架构、调优指南和实践建议,可以将它们用作设计和部署Apache Hadoop集群的起点。利用从硬件规范直至完整软件架构的明确指南,可以更迅速、更经济地设计、构建和配置适宜的解决方案。
还可以在多种领先Apache Hadoop发布版中任意选择,所有这些发布版均已针对英特尔至强处理器而高度优化。英特尔与Cloudera,Hortonworks,IBM和其他商业经销商合作,确保运用的是已专门针对企业环境中的生产就绪性而进行扩展、加强和测试的软件,在英特尔架构上实现极优性能。 (文/龚略)