构建重型机械装备制造企业大数据平台相关的技术架构研究

2023-07-17汪忆钟世成陈素琼

计算机应用文摘 2023年13期

汪忆钟世成陈素琼

摘要：文章基于重型机械装备制造企业的数字化发展现状．对企业在进行数字化转型中面临的数据孤岛、数据沉睡束发挥价值、数据使用成本较高等问题进行了分析，并深入阐述了数字化转型涉及的大数据相关技术架构，提出了大数据平台建设可选的技术解决方案，为重型机械装备制造企业构建大数据平台技术架构提供借鉴和参考。

关键词：机械装备制造企业；大数据平台；技术架构

中图法分类号：TP311 文献标识码：A

１概述

１．１研究背景

作为国民经济的主体，重型机械装备制造企业面临数字化转型的诸多难题和挑战，其中最突出的问题是：传统的“烟囱式” 应用开发模式造成的“数据孤岛”现象严重，使得数据难以发挥价值；诸多业务系统数据（如ＰＤＭ系统、ＥＲＰ系统）集成度不高，经常出现数据找不到、用不上、不准确等困难；由于数据存储格式、代码标准不统一以及数据质量参差不齐导致数据不可用的现象时有发生；数据出现重复存储，重复计算，取数技术难度较大，对业务人员及ＩＴ人员技术要求过高，造成数据使用成本较高；企业目前的信息化系统繁多，集成度低，缺乏高效可用的数据中心，企业内部的数据资产很难盘点，而且缺乏有效应用服务，数据资产价值也很难评估；信息化技术平台工具繁多，多厂商技术平台集成困难，以至于体验差、运维成本极高。

１．２问题的提出

本文基于重型机械装备制造企业业务领域的大数据平台构建需求，对其进行了分析，并指出研究方向。在此基础上，如何基于大数据平台生态技术架构，构建重型机械装备制造企业大数据平台技术解决方案是本文的核心研究问题。

２认识Ｈａｄｏｏｐ大数据平台

２．１Ｈａｄｏｏｐ的起源

Ｈａｄｏｏｐ是一个由Ａｐａｃｈｅ基金会所开发的分布式系统基础架构，是一个能够对大量数据进行分布式处理的软件框架，主要解决海量数据的存储和分析计算问题。Ｈａｄｏｏｐ是由ＤｏｕｇＣｕｔｔｉｎｇ和ＭｉｋｅＣａｆａｒｅｌｌａ于２００２年所创建的Ｎｕｔｃｈ项目，Ｎｕｔｃｈ是一個开源Ｊａｖａ实现的搜索引擎，目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能［１］。

２００３～２００４年，Ｇｏｏｇｌｅ发表了ＧＦＳ（ＧｏｏｇｌｅＦｉｌｅＳｙｓｔｅｍ，分布式文件系统）和ＭａｐＲｅｄｕｃｅ（开源分布式并行计算框架）２篇论文，受此论文的启发，２００４年，Ｎｕｔｃｈ创始人ＤｏｕｇＣｕｔｔｉｎｇ基于Ｇｏｏｇｌｅ的ＧＦＳ论文实现了分布式文件存储系统ＮＤＦＳ。２００５年，ＤｏｕｇＣｕｔｔｉｎｇ又基于Ｇｏｏｇｌｅ的ＭａｐＲｅｄｕｃｅ论文，在Ｎｕｔｃｈ搜索引擎实现了该功能，同年Ｈａｄｏｏｐ作为Ｌｕｃｅｎｅ的子项目Ｎｕｔｃｈ的一部分正式引入Ａｐａｃｈｅ基金会。２００６年２月，Ｎｕｔｃｈ被分离出来成为一套完整独立的软件，命名为Ｈａｄｏｏｐ，它是以ＤｏｕｇＣｕｔｔｉｎｇ儿子的毛绒玩具象命名的，Ｈａｄｏｏｐ起源于Ｇｏｏｇｌｅ的三大论文，ＧＦＳ对应演变为ＨＤＦＳ，ＧｏｏｇｌｅＭａｐＲｅｄｕｃｅ对应演变为ＨａｄｏｏｐＭａｐＲｅｄｕｃｅ，ＢｉｇＴａｂｌｅ对应演变为ＨＢａｓｅ［２］。

２．２Ｈａｄｏｏｐ的核心组件

在大数据时代，如何解决大规模海量数据存储和分析是关键，而Ｈａｄｏｏｐ项目作为大数据处理的框架，其核心功能就是分布式存储（ＨＤＦＳ）和分布式计算（ＭａｐＲｅｄｕｃｅ）以及资源管理调度器（ＹＡＲＮ），下文介绍Ｈａｄｏｏｐ的核心功能。

（１）分布式文件存储ＨＤＦＳ。

ＨＤＦＳ源于Ｇｏｏｇｌｅ发表的一篇ＧＦＳ的论文，是描述Ｇｏｏｇｌｅ内部的一个叫做ＧＦＳ的分布式大规模文件系统，其具有强大的可伸缩性和容错性，之后ＤｏｕｇＣｕｔｔｉｎｇ以ＧＦＳ的论文思想为基础，开发出了一个新的文件系统叫ＨＤＦＳ，并在此基础上形成了一个单独的子项目，最终成为Ｈａｄｏｏｐ的核心组件之一。作为大数据生态最底层的分布式存储文件系统，其主要解决海量数据的存储问题，ＨＤＦＳ将数据存储在物理分散的多个存储节点上，然后对这些节点的资源进行统一的管理与分配，并且提供统一的访问接口，像是访问一个普通文件系统一样使用分布式文件系统。

（２）分布式计算ＭａｐＲｅｄｕｃｅ。

作为Ｈａｄｏｏｐ生态的分布式计算组件，ＭａｐＲｅｄｕｃｅ是一种并行编程模式，采用了分而治之的思想———先分后合，适用于大规模数据的并行处理，其工作原理是将待求解的复杂计算问题，先分解成若干规模较小的问题，然后分别求得各部分的结果，把各部分的结果进行合并，最后得到整个问题的最终结果。

ＭａｐＲｅｄｕｃｅ的特点是易于编程，具有良好的扩展性和高容错性，适合大规模海量数据的离线处理。

ＭａｐＲｅｄｕｃｅ的核心思想是Ｍａｐ和Ｒｅｄｕｃｅ，它们分别对应ｍａｐ函数和ｒｅｄｕｃｅ函数，这２个函数由应用程序开发者负责具体实现，开发者仅需要编写少量的业务逻辑代码，不需要处理其他应用方面的各种复杂问题，如数据存储、资源调度、容错处理、结果收集、网络通信等，这些问题全部由ＭａｐＲｅｄｕｃｅ框架负责处理。需注意的是，并不是所有任务都适合用ＭａｐＲｅｄｕｃｅ，能用ＭａｐＲｅｄｕｃｅ来处理的任务有一个基本要求，即待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。

３Ｈａｄｏｏｐ生态圈

３．１Ｈａｄｏｏｐ生态圈组件

Ｈａｄｏｏｐ是一个分布式系统基础架构，其利用分布式集群对海量数据进行高速并行运算以及存储，开发人员在进行开发分布式程序中，无需了解分布式底层细节。Ｈａｄｏｏｐ不是一个孤立的技术，而是一套完整的生态圈，目前Ｈａｄｏｏｐ生态包含多个组件，除了核心组件ＨＤＦＳ和ＭａｐＲｅｄｕｃｅ及ＹＡＲＮ外，还包括ＨＢａｓｅ，Ｈｉｖｅ，ＹＡＲＮ，Ｆｌｕｍｅ，Ｓｑｏｏｐ，Ｚｏｏｋｅｅｐｅｒ，Ａｍｂａｒｉ，Ｏｏｚｉｅ，Ｍａｈｏｕｔ，Ｐｉｇ等。

３．２Ｈａｄｏｏｐ版本

大数据处理框架Ｈａｄｏｏｐ的版本经历了Ｈａｄｏｏｐ１．ｘ，Ｈａｄｏｏｐ２．ｘ以及最新Ｈａｄｏｏｐ３．ｘ版本。首先，Ｈａｄｏｏｐ１１．ｘ版本到Ｈａｄｏｏｐ１２．ｘ版本变迁的最大变化是对ＭａｐＲｅｄｕｃｅ进行了大的拆分，Ｈａｄｏｏｐ１．ｘ主要由ＭａｐＲｅｄｕｃｅ（分布式计算）和ＨＤＦＳ（分布式存储）构成，Ｈａｄｏｏｐ２．ｘ在第１代版本的基础上演变而来，在此基础上增加了ＹＡＲＮ（资源调度管理系统）以及其他的一些组件，主要解决了Ｈａｄｏｏｐ１．ｘ中ＭａｐＲｅｄｕｃｅ和ＨＤＦＳ中存在的各种问题，如ＭａｐＲｅｄｕｃｅ在扩展性和多框架方面支持不足等。在Ｈａｄｏｏｐ２．ｘ时代增加的ＹＡＲＮ组件不仅支持ＭａｐＲｅｄｕｃｅ，还支持其他的计算框架，其具有较好的扩展性、可用性及向后兼容性等，如兼容支持后来的Ｓｐａｒｋ，Ｆｌｉｎｋ等框架。

Ｈａｄｏｏｐ３．ｘ架构组件和Ｈａｄｏｏｐ２．ｘ架构组件类似，Ｈａｄｏｏｐ３．ｘ着重于性能优化。从Ｈａｄｏｏｐ２．ｘ到Ｈａｄｏｏｐ３．ｘ版本，构架组件已经没有太大的改变，Ｈａｄｏｏｐ３．ｘ增加了许多新特性，如支持ｃｕｐ的多重运算、多重备份，而且内部的数据还支持动态平衡，提高了存储效率，采用了纠删码存储等，主要性能优化有以下几个方面。

（１）通用方面：精简内核、类路径隔离、ｓｈｅｌｌ脚本重构。

（２）ＨＤＦＳ存储方面：支持ＥＣ（ＥｒａｓｕｒｅＣｏｄｅ）纠删码、支持多ＮａｍｅＮｏｄｅ。

（３）ＭａｐＲｅｄｕｃｅ计算方面：任务本地化优化、内存参数自动推断。

（４）ＨａｄｏｏｐＹＡＲＮ时间线服务方面：Ｈａｄｏｏｐ３．ｘ采用ＴｉｍｅｌｉｎｅＳｅｒｖｉｃｅＶ２时间线版本服务，具有分布式写入器体系结构和可扩展的后端存储，并将数据的写入与读取分开，具有更强的可伸缩性、队列配置、可靠性等。

４大数据计算架构

４．１离线计算架构

离线计算是指对海量静态数据进行处理和分析，并产生相应的数据结果，供下一步数据应用使用的过程。其特点是处理时间要求不高，处理数据量大，处理格式多样，占用计算存储资源多，通常使用ＭａｐＲｅｄｕｃｅ，Ｓｐａｒｋ，ＳｐａｒｋＳＱＬ等计算框架，以ＨＤＦＳ为数据存储，ＹＡＲＮ为资源调度引擎，为各种离线批处理引擎提供资源调度能力，实现了多租户资源分配的基础。根据数据来源到应用的流程，可以将离线处理架构分为数据源、数据采集、离线处理引擎、业务应用层［３］。

（１）数据源：数据源的种类包括流式数据（如Ｓｏｃｋｅｔ数据流），文件数据库等。

（２）数据采集系统：Ｆｌｕｍｅ用于批量采集数据文件、日志文件，Ｓｑｏｏｐ用于批量采集数据库的数据，第三方ＥＴＬ采集工具用于数据采集加载转换。

（３）离线处理引擎：离线处理的引擎有Ｈｉｖｅ，ＳｐａｒｋＳＱＬ，ＭａｐＲｅｄｕｃｅ，Ｓｐａｒｋ。Ｈｉｖｅ使用传统ＳＱＬ批处理引擎，用于处理ＳＱＬ类批处理作业，在处理海量数据时表现稳定，但处理速度较慢。ＭａｐＲｅｄｕｃｅ为传统批处理引擎，用于处理非ＳＱＬ类，其广泛应用于数据挖掘和机器学习类的批处理作业，在处理海量数据时表现稳定，但处理速度较慢。ＳｐａｒｋＳＱＬ为新型ＳＱＬ批处理引擎，用于处理ＳＱＬ类批处理作业，相较于ＭａｐＲｅｄｕｃｅ，其处理速度较快。Ｓｐａｒｋ为新型批处理引擎，用于处理非ＳＱＬ类，以及数据挖掘和机器学习类的批处理作业，处理速度较快。一般推荐优先采用Ｓｐａｒｋ／ＳｐａｒｋＳＱＬ，当有存量应用时可以使用ＭａｐＲｅｄｕｃｅ／Ｈｉｖｅ，２种处理引擎也可以同时使用。

４．２实时计算架构

实时计算是指数据从生成到实时采集、实时缓存、实时计算分析、实时展示应用等处理流程，完成时间在秒级甚至毫秒级。其特点是处理速度快，且要求端到端的处理速度需要达到秒级，甚至毫秒级。实时计算架构分成数据源、数据采集、实时计算处理引擎、业务应用层。

（１）数据源：包括关系型数据库数据、实时数据流、实时文件数据。

（２）数据采集：实时采集数据源产生的数据，并将数据缓存到分布式消息系统Ｋａｆｋａ中，通过实时采集工具Ｋａｆｋａ和第三方采集工具（如ＧｏｌｄｅｎＧａｔｅ数据库）实时采集与定制化实时采集数据。

（３）实时处理引擎：实时处理引擎包括ＳｐａｒｋＳｔｒｅａｍｉｎｇ，ＳｔｒｕｃｔｕｒｅｄＳｔｒｅａｍｉｎｇ，Ｆｌｉｎｋ，Ｓｔｏｒｍ，其主要作用是对实时数据进行快速分析。ＳｔｒｕｃｔｕｒｅｄＳｔｒｅａｍｉｎｇ是基于Ｓｐａｒｋ的流处理引擎，支持秒以内的流处理分析；Ｆｌｉｎｋ是新一代流处理引擎，支持毫秒级的流处理分析；ＳｐａｒｋＳｔｒｅａｍｉｎｇ以ＳｐａｒｋＣｏｒｅ为基础，提供数据的流式计算功能，支持秒以内的流处理分析；Ｓｔｏｒｍ是一个事件驱动的实时流计算框架，支持毫秒级以内的流处理分析。一般根据实际需求，选择不同的流计算引擎。

（４）实时应用：数据应用是大数据技术和应用的目标。大数据实时计算架构为大数据的实时业务应用提供了一种通用的架构，其需要根据行业领域、公司技术积累以及业务场景等，对业务需求、产品设计、技术选型到实现方案流程等进行具体问题具体分析，并应用大数据可视化技术，对其进行深入研究，最终形成更为明确的应用标准。

５重型装备制造业大数据技术解决方案

通过构建统一的大数据共享和分析平台，对重型机械装备制造企业各类业务进行前瞻性预测及分析，为集团各层次用户提供统一的决策分析支持，同時可以提高数据的共享与流转、交换能力。

５．１总体解决方案

重型机械装备制造企业大数据平台主要实现以下几方面的应用。

（１）实现数据共享。通过数据平台实现数据集中，确保企业集团各级部门均可在保证数据隐私和安全的前提下使用数据，充分发挥数据作为企业重要资产的业务价值。

（２）加强业务协作。各个业务系统中的数据在数据平台中进行整合，建立产品、客户等数据的企业级视图，有效促进业务的集成和协作，并为企业级分析、销售提供基础。

（３）促進业务及管理创新。企业集团营销人员可以基于明细、可信的数据，进行多维分析和数据挖掘，为企业业务及管理创新创造有利条件。

（４）改善数据质量。从中长期看，数据仓库对企业分散在各个业务系统中的数据进行整合、清洗，有助于改善企业整体数据质量，提高数据的实用性。

（５）提升企业数字化、智能化建设效率。通过大数据平台对数据进行集中，为管理分析、挖掘预测类等系统提供一致的数据基础，改变现有系统数据来源多、数据处理复杂的现状，实现应用系统建设模式的转变，提升相关ＩＴ系统的建设和运行效率。

本文提出的重型机械装备制造企业大数据平台架构是基于信创龙头企业“中国电子”的产品线。其主要产品有大数据基础平台、数据中台，如图１所示。

５．２大数据基础平台技术架构

将中国电子的大数据基础平台产品作为解决方案，该公司产品“大数据基础平台”兼容Ｈａｄｏｏｐ等主流开源存储与计算引擎、兼容市面上常见的商用大数据基础平台，最大化兼容目标企业已有的大数据平台体系，充分利旧、保护投资［４］。大数据基础平台技术架构如图２所示。

５．３数据中台技术架构

在大数据平台总体架构中，作为技术解决方案架构中的核心产品，数据中台部署于ＩＡＡＳ层、ＰＡＡＳ层之上和应用体系之下，处于企业的数字化转型总体架构中的底座位置。数据中台是大型企业总体ＩＴ架构中的核心，该产品是构建数据资产中心的一站式数据技术工具，是支撑各类数据应用建设的基础服务体系，将长期承载着大型企业的数据资产统一运营，提供螺旋向上的数据治理与数据价值发挥的能力。数据中台技术架构如图３所示。

６结束语

本文从研究背景、问题的提出，再到具体技术架构的研究，对Ｈａｄｏｏｐ大数据平台及生态圈、Ｓｐａｒｋ技术架构、大数据离线计算架构、实时计算架构进行阐述，并提出了重型机械装备制造企业以信创龙头企业的产品线为基础的大数据平台技术解决方案，旨在为重型机械装备制造业大数据平台的构建提供参考。

参考文献：

［１］卢滢．大数据技术在智慧工程中的应用［Ｊ］．电子技术与软件工程，２０２２（２）：２０８⁃２１１．

［２］黄硕．省级广电网络大数据平台设计与建设［Ｊ］．广播与电视技术，２０２２，４９（６）：８１⁃８５．

［３］凌诺娟．云农场智慧服务大数据平台研究与实现［Ｄ］．合肥：安徽农业大学，２０２２．

［４］中国电子技术标准化研究院．大数据平台技术白皮书［Ｒ］．北京：中国电子系统技术有限公司，２０２１．

作者简介：汪忆（１９８１—），硕士，高级工程师，研究方向：大数据技术、人工智能技术、机械装备制造业信息化、高等职业教育。