拥抱开源，联想大数据产品的技术创新与突破

2018-11-02张成松

软件和集成电路 2018年7期

张成松

联想大数据平台主要包含行业智能应用平台、数据智能平台、大数据计算平台以及物联网采集与边缘计算和IT系统数据整合等。而物联网的采集和边缘技术的产品，可以把企业传统的IT系统进行整合，并统一放到大数据平台和数据库中。当数据进来以后，大数据平台就可以进行数据存储、计算、构建分布式计算框架和统一调度。在其之上就是数据智能平台，该平台可以把企业的预测、优化以及挖掘，通过预测库、优化库、知识库的形式，制定行业模型。

在最上一层的行业智能应用平台上，我们就可以给一些企业做各种行业解决方案。对于联想大数据平台而言，我们还添加了制作软、硬件的安全产品和数据资源管理平台。为什么要提数据资产管理？我们本身做的是开源组件，没有对数据目录和数据访问权限方面进行很好的管理，所以我们添加了数据资源管理模式，在数据资源管理之上就是第三方智慧集成平台。在我们自主开发的产品中，我们利用开源技术，包括在Spark和Hadoop基础上进行大量的优化工作，并自主开发了很多工具，包括边缘计算和数据集成工具等。在联想大数据平台，我们也广泛应用了开源技术，不管是在数据采集存储、数据管理、数据分析上，还是用算法平台或者可视化技术，在我们的产品中，都有开源技术的身影。

我们在产品中运用了很多开源组件和平台技術，那么基于这些组件和平台，我们在大数据产品中有哪些技术的创新和突破？用大数据平台支持传统数据仓库的应用场景，那么需要什么样的应用场景呢？就是传统的企业可能需要大量的数据存储、数据计算以及各种管理系统，而这些数据都会存在数据库中，当数据量越来越大时，数据库已经无法满足使用者的需要。这时企业就想把自身的数据迁移到Hadoop中，但是Hadoop不支持数据存储。若要解决此问题，就得投入大量成本，推翻原有系统开发新型系统，这对企业来说是一种损失。

所以把Hadoop的功能进行增强，使Hadoop支持所有数据仓库，这样企业可以将自身的原有系统，迁移到Hadoop和大数据生态链中来避免损失。怎么实现大数据支持传统数仓的场景？当用户将大数据输入到数据仓库后，要对语法进行识别，之后我们将识别出的语法进行解析，最后将解析模块放入执行系统的子系统中，最终实现该场景。对于这一运行结果，我们还做了一项工作，解决数据倾斜的问题。Spark系统在工作中，会出现数据倾斜问题。当我们识别到有数据倾斜的任务时，我们会将数据拆分成一个个小任务，用分布式的方法执行。我们对Spark数据倾斜进行测试时发现，当开启Spark数据倾斜组件时，至少能提升6.5倍的性能，如果不开启，运行速度则会大大降低。另外我们解决了跨集群数据计算和访问的问题。联想在全球有十个计算中心，每个计算中心会存储一部分的业务数据，当北京的用户执行了查询任务时，会把请求发到北京集群中，而集群会把世界各地的数据融合后进行计算。这个时候就会遇到Spark、Hadoop访问集群的情况。假设有A集群和B集群，当A接受请求任务时，会识别所计算的数据是属于哪个集群。当任务执行时，A集群会访问另外一个集群的组件，通过组件去代理访问B集群的数据，最终将A、B集群的数据融合一起，实现跨集群数据的访问和数据计算。

分享一下机器学习和人工智能的组建和平台，在联想的大数据平台里怎么落地。我们将这部分分为三个层次：第一层，统一计算资源池。该产品可以把传统的CPU或GPU管理起来，形成统一的计算池和资源池。在资源池的基础之上，把GPU划分成多个租户，并按照租户的需求进行资源分配、训练数据模型等。第二层，Leap Manager，该产品可以管理整个计算引擎，并提供可视化的安装部署，最终将机器学习引擎安装在平台中。第三层，Leap AI，它是做算法的试验运行和执行的平台，主要功能有两大块，第一是提供可视化的拖拉拽组件，用户可以把界面上所提供的各种组件拖过来，进行算法的训练和执行。第二是对底层开源的算法引擎进行封装，并提供各种API，用户可以通过API，执行算法的训练。

我们在开源基础上有哪些突破和创新？第一，支持SQL和存储过程。第二，在性能上，率先通过50TB TPC-DS的99个复杂业务场景测试。第三，分布式事务处理能力增强。第四，完善图形化数据处理工具。第五，封装了大数据挖掘和机器学习平台。第六，从硬件资源和软件环境上去进行资源的统一划分。

简单介绍一下联想大数据。我们从2011年开始搭建大数据平台。目前在全球有十个数据中心，包括北美、欧洲、亚太等。超过3000台服务器的计算节点，每天处理的数据量约4TB。

联想大数据平台为客户提供端到端服务，推动合作伙伴数字化转型。联想大数据在成都、北京和香港，都有超过600人的专业团队，来打造国内一流的大数据产品。在2017年12月8日，联想携手80企业多家包括百度、腾讯、三一重工等，共同构建工业大数据产业联盟，来推动中国工业大数据的发展。

（根据演讲内容整理，未经本人审核）