APP下载

大数据创新普惠 释放数据价值

2020-10-20李卓

软件和集成电路 2020年9期
关键词:华为挑战融合

随着5G等新技术发展,数据规模、来源、业务场景快速变化,华为云通过存算分离,提供极致算力和多元框架,驾驭海量数据,打造融合、开放的云化数据运营平台,释放数据之美。

—华为云AI解决方案营销总监李卓

在过去的30年里,我们已经从PC时代迈向了智能数据时代,智能数据时代的特点可以用四个字表达:“大”“杂”“快”“合”。

“大”指的是数据量之大。在过去几十年的时间里,数据基本上是以一年十倍、十年千倍的速度在增长,从30年前的GB级到现在的ZB级,未来数据量必定还会达到更高的数量级。

“杂”指的是数据种类之杂。从过去的结构化数据到非结构化数据,再到流数据,数据类型越来越多样,我们需要开发出更多的组件来进行不同类型数据的融合分析。

“快”指的是数据处理速度之快。我们原来的处理模式方式往往是“T+N”或者“T+1”,而现在通过工业互联网、IoT技术,我们可以实现实时场景下的数据分析处理。

“合”指的是数据的互通融合。过去,数据处理方式往往是孤岛式的存储、孤岛式的分析,然后再整合起来,由人做综合判断。未来,人在数据处理过程中起到的作用会越来越少,数据的融合互通是必然趋势。

华为云为大数据应用提供了非常丰富的全场景底座、极致算力和多元框架。针对数据存储环节,华为云采用了混合存储的存储格式,建立了存算分离的架构,同时,我们充分利用鲲鹏AIM架构,实现了底层算力的提升。多元计算主要包括两个核心器件,一个是一站式的大数据平台;另一个是互通互联的线上和线下的数据仓储,借此我们尝试了数据湖仓一体,实现了融合的数据分析。

在AI大发展的趋势下,我们尝试将大数据与AI深度融合。我们引进了自动调仓的技术,在进行流数据处理的时候,用机器学习的方式提升效率。就我们目前的测试结果来看,用机器学习的方式调仓的效果跟专家调仓的效果基本上持平,效率可提升3~5倍。

下面,我将从数据存储、大数据、数仓和数据运营四个角度来进一步介绍数据治理方案。

对于海量数据存储来说性能的核心要求是快,因此我们利用闪存技术来提升存储速度。关于数据存储的成本,我们采用软硬结合的方式来实现降本增效。硬件上,我们采用高密度的专用硬件;软件上,我们重点优化了重删压缩和纠删码技术,并通过自动规划的方式减少前期投入。在数据存储的可靠性方面,我们利用AI技术进行自动故障分析和趋势分析,实现主动防御。

我们再来看一下大数据。大数据特点有三个。第一是大集群;第二是多样性,不仅数据类型多样,数据分布、数据计算的模式也会越来越多样,例如批处理、流处理、实时检索、交互分析等;第三是高速,在金融风控、工业互联网、遥感、气象预报等场景中,对数据进行实时动态分析至关重要。

大数据集群的需求主要包含三个方面。第一个是存储,存储必须是高效存储,如果不是高效存储,大量数据会被淹没;第二个是多数据融合,把割裂的数据融合到一个数据仓库或数据湖中;第三个是跨部门、跨业务的数据融合分析、业务创新,智能化的数据分析和业务创新是未来的发展趋势。

针对上述的需求,华为云给出了以下解决方案。华为自研Superior超级调度器,将调度效率提升20+倍;跨机房部署,实现业务自动感知;软件版本滚动升级,业务中断时间由10小时降低到0小时。

我们下面谈一谈前面提到过的湖仓一体模式,我们通过HetuEngine进行交互式查询,并与批处理融合,实现了数据“0”搬迁。另外,我们还通过YARN进行统一调度,支持多租户、多部门业务任务并行处理。

要驾驭快速增长的海量数据,传统数据仓库面临四大挑战。第一个是扩展性上的挑战,传统数仓是PB级的仓储容量,未来能不能实现ZB级的突破是一项很大的挑战,为此,华为正尝试实现按需一键式扩展;第二个是实时性上的挑战,数仓对实时性要求很高,要求即时查询、秒级分析、百DB数据按天實时入库;第三个是可用性上的挑战,我们希望做到硬件故障、升级扩容时业务可用不中断;第四个是易用性上的挑战,我们希望针对集群状态、性能、监控等,能够做到实时的、自动的运维。

最后,我们来看一下数据运营。目前,企业数据管理和应用面临三大鸿沟:数据孤岛、数据沉睡和数据安全。为了跨越这些鸿沟,我们需要建立融合、开放的云化数据运营平台。华为的数据运营平台的整体框架可以分为左右两侧,左侧是华为提供的高阶数据服务,右侧是合作伙伴提供的数据治理平台,这是一个非常开放的架构。

我们希望通过数据治理构建全域数据的统一数据目录、资产地图,进而做到数据血缘管理、上下游数据深度关联,把云服务的底层技术打通。目前华为云的智能数据湖FusionInsight服务了60多个国家、3000多个客户,并在政府、金融、电信运营、互联网等领域大放异彩。FusionInsight在全球累计交付30万+节点,最大单集群商用案例1万+,数据量超500PB。我们期望华为的大数据平台能够成为千行百业的底座,更好地服务大数据行业。

(根据演讲内容整理,未经本人审核)

猜你喜欢

华为挑战融合
“五学”融合:实现学习迁移
现在的余华为谁写作?
赛力斯华为智选SF5
刚柔并济
华为承诺函的批评话语分析
破次元
融椅
华为:畅享8系列
叽咕乐挑战
第52Q 迈向新挑战