APP下载

大数据存算分离 加速企业数字化转型

2020-10-20徐强

软件和集成电路 2020年9期
关键词:数据量海量插件

通过将计算引擎和数据分离,华为使计算和存储可以按需扩展,实现数据资源的动态分配、灵活调度,加速资源共享。

—华为海量存储领域副总裁徐强

不管是存算一体还是存算分离,都是在不同的历史条件下由客户需求催生的技术产物,归根到底都是为了满足业务的诉求。

为什么要做存算分离?一方面是数据量激增,5G、云AI加速了数字化转型,海量数据时代已经到来,我们正处在数据爆炸式增长的历史阶段。另一方面是数据价值变得越来越重要,海量数据作为企业数字化转型的核心生产要素,正在使企业从数据管理走向数据运营。

数据量不断增大,促使数据分析、数据价值释放越来越重要。将当前的大数据基础设施、存算一体化基础设施相匹配,我们可以看出,海量数据分析面临着三大挑战:第一个是资源利用率低、存储效率低、运维成本高。第二个是数据难共享、分析效率低、业务上线时间长。第三个是作为数据的基础设施,业务系统、运营系统、大数据系统、归档系统的自动化运维能力差。正是因为数据量越来越大,价值越来越重要,当前的存算一体化的模式遇到了一系列的问题,催生了我们对存算分离技术架构变革的诉求。

为什么选存算分离?因为存算分离有自己的独特优势。第一,计算和存储是两套独立的集群,存算分离把存储从原来的系统中剥离出来形成独立的存储集群,可以按需投资,有效避免浪费。第二,存储和资源可以分别做磁化,利用计算的无状态性更好地实现资源的调度,提高分析效率。第三,用企业级的存储来替换原来的开源存储底座,可以把当前企业级存储的先进技术带入大数据存储层面里来,真正提高大数据存储的技术价值。

在现有的存算分离实践方案里,大部分的厂商都是通过在计算节点上安装插件实现大数据接口,这种插件模式存在天然的问题:第一,插件要做协议转换,势必会带来性能开销,性能损耗比较严重。第二,需要在成百上千个节点上安装插件,运维成本比较高。第三,插件存在语义语法接入性较差的问题。为此,华为公司投入了大量资金,专门设立开发了大数据存算分离系统,目的是在提供和原有开源的大数据底座一模一样能力的同时,以无损的方式提供大数据存算分离的技术能力。

海量数据发展到今天,针对大数据的应用场景,我们还面临着在成本、效率和管理层面的三大挑战,接下来我将介绍华为存储底座通过哪些技术方案来实现低成本、高效率和自动化管理。第一个方案是使用高密度硬件。华为采用的硬件是C180,是今年专门发布的一款存算一体化硬件。这款5U120盘的硬件是目前业内最高密度的存储服务器,可以有效地降低采购成本和机房成本。

第二个方案是使用弹性EC技术。同等状态下,EC可以做到91.7%的高可利用率。华为从2009年第一次使用EC技术开始,近些年一直在EC技术上不断打磨。我们可以在提供高可靠、高空间利用率的同时,不降低性能和可靠性。海量数据对极致扩展性提出了更高的要求,在这种模式下,每个节点都能够独立参与计算,节点的性能有保证且能够及时扩展,这是对效率提升的价值体现。此外,我们还可以多协议融合,加速数据分析,在我们的应用里,一份数据可以同时被NFS/CIFS、S3、HDFS协议访问,避免通过数据迁移完成格式转换,分析效率提升30%以上,真正的做到了数据的零迁移,提升了数据分析效率。

第三个方案是采用冷热数据分级的自动生命周期管理。原来的建设模式对性能要求高且需要用到SSD来做批量处理,此前我们会使用一般的机械硬盘,这种情况下,系统是相互割裂的,无法做到对一份数据或者是整个系统的全生命周期的管理。现在华为应用分布式存储的底座,真正实现数据无感知地流动,简化了数据的流动过程。

在行业实践方面,华为的大数据存算分离已经发布了近两年,在各行业取得了较好的实践效果。

在运营商领域,以浙江电信的经营分析系统为例,浙江电信在大数据分析领域有十余年的经验,但随着5G的到来,运营商的数据量成倍增长,如果浙江电信以原来的模式应对数据量的增长,扩容成本很高,计算资源的利用率也比较低。而浙江电信引用华为存算分离方案之后,大数据系统从原来321个节点减少至102个节点,数据效率提升了10%,收获了更好的经济效益。

在金融领域,以招商银行的精准营销系统为例,现在的招商银行处于数字化转型的关键时期,其很多应用都需要上线到大数据分离系统中,原来的模式下每个系统相互隔离,一个应用要上线需要用到多个系统的数据,数据共享很困难。华为存算分离系统为招商银行打造了一个统一的存储基座,计算和存储分化、磁化等级从天级降到了分钟级。

华为的大数据存算分离在运营商、公共安全、金融、政府等领域有着丰富的实践案例,能夠真正帮助用户以更低的成本存储更多的数据,提高数据的分析效率,简化数据管理。将来,我们会继续数据基础设施创新,帮助千行百业释放数据价值,加速企业的数字化转型。 (根据演讲内容整理,未经本人审核)

猜你喜欢

数据量海量插件
用好插件浏览器标签页管理更轻松
高刷新率不容易显示器需求与接口标准带宽
AMAC
请个浏览器插件全能管家
基于jQUerY的自定义插件开发
一个图形所蕴含的“海量”巧题
从教材中突围,走课内海量阅读之路
Hadoop构建的银行海量数据存储系统研究
电力营销数据分析中的数据集成技术研究
吃饭谁买单