智能化矿山《数据中台建设与应用规范》解读与实践
2024-01-04高洪波张冬阳胡而已
高洪波,张冬阳,王 鹏,胡而已
(应急管理部信息研究院,北京市朝阳区,100029)
随着矿山行业的高速发展,矿山企业对于数字化转型的诉求日益凸显。为应对此挑战,众多矿山企业纷纷导入数据中台,以期通过数据中台的构建与应用,提高企业的数据处理效能、业务创新能力及市场竞争力。然而,受制于规范和标准的缺失,数据中台的建设和应用环节暴露出诸多问题,如数据质量欠佳、数据孤岛现象突出、数据安全难以确保等[1-3]。因此,制定矿山数据中台建设规范迫在眉睫。
在这一背景下,经国家矿山安全监察局批准,在国家矿山安全监察局安全基础司的指导下,应急管理部信息研究院牵头,联合多家矿山、装备、通信企业以及高校、科研院所共同编制了《智能化矿山数据融合共享规范》,共包括六大部分共40 项规范。其中,《数据中台建设与应用规范》(以下简称《规范》)专注于智能化矿山数据中台的建设和应用,明确了智能化矿山数据中台的整体架构,以及数据汇聚、数据管控、数据处理、数据开发、数据服务、数据运营、数据安全、管理保障等方面的建设要求[4]。笔者深入解读了《规范》的内容,对其实践应用中的关键问题进行了探讨。
1 《规范》要点解读
《规范》主要内容包括范围、规范性引用文件、建设原则、数据中台架构、建设内容、管理保障等。数据中台架构部分对智能化矿山数据中台的概念、总体架构、功能架构以及数据架构做了规范定义。建设内容部分明确了中台建设的各主要环节,并对建设内容提出了明确的要求。以下针对这两部分的要点内容进行解读。
1.1 数据中台架构
《规范》主要规定了数据中台架构的相关内容。数据中台作为智能化矿山建设的基础,其主要目标是实现各类数据的统一汇聚、管理和应用。数据中台的建设需遵循一定的原则和要求,包括实现各类数据的统一汇聚与管理,基于行业数据标准实现数据统一治理,以及提供跨层级、跨区域、跨业务的数据互联互通。
数据中台的总体架构可采用多层级架构,涵盖集团层、矿山层,以及各个业务部门和业务系统。各级数据中台需遵循统一的数据标准、质量标准和安全标准,实现各级数据平台间的数据互联互通。此外,还需建立矿山数据全生命周期管理平台,支持对海量多源异构数据的汇聚、管控、清洗、开发、服务、运营等[5-7]。智能化矿山数据中台总体架构如图1所示。
图1 智能化矿山数据中台总体架构
数据中台的功能架构主要包括数据汇聚、数据管控、数据处理、数据开发、数据服务、数据运营和数据安全等功能[8]。这些功能有助于实现数据的有序流转、融合分析和价值挖掘。数据中台功能架构如图2所示。
图2 智能化矿山数据中台功能架构
数据中台的数据架构通常包括原始库、资源库、主题库和专题库4个层次[9]。原始库负责收集原始数据;资源库对原始数据进行清洗、转换、关联等处理后,形成标准化数据;主题库则是基于业务维度进行深度关联整合的数据库;专题库则是针对特定领域的应用需求而重新组织的专题数据库。
1.2 建设内容
《规范》主要规定了智能化矿山数据中台的主要建设环节,包括数据汇聚、数据管控、数据处理、数据开发、数据服务、数据运营及数据安全等,并对各环节的主要内容提出详细要求。
1.2.1 数据汇聚
数据汇聚是指将来自多个数据源的数据整合至中央存储库,以便进一步分析处理的过程。主要包括数据源管理、数据提取、数据转换和数据装载等环节。数据源管理涉及采集源端数据库的连接配置与维护管理,以及管理员进行采集数据源的配置、测试、维护和授权;数据提取是从源格式数据中提取目的格式数据,具备组件化、可扩展和可配置特点;数据转换环节主要对汇聚的数据进行格式、命名、编码和标识等方面的统一转换处理;数据装载功能支持将抽取和转换后的数据写入数据存储,如文件数据装载、大数据组件数据装载和分布式数据仓库数据装载等。数据汇聚作为复杂过程,涉及多个步骤和技术,其目的在于提高决策效率和准确性。
1.2.2 数据管控
数据管控主要涵盖元数据管理、主数据管理、数据血缘、数据地图和数据质量等方面。元数据管理负责收集、存储和分析数据的全量元数据,包括数据实体(如系统、库、表等)的信息,以及数据生产全过程中的数据变更历史记录;主数据管理关注被多个系统共享的核心数据,对其进行采集、申请、新增、变更、审核、生效、失效、分发等全生命周期管理,同时识别数据来源,定义和维护数据整合架构;数据血缘用于追踪数据在数据源库和目标数据库之间的流动路径,提供全链路的数据血缘分析和展示;数据地图是一种可视化界面,协助用户对矿山各部门的数据连接中的数据表进行统一管理,提供搜索表、按类目管理表、表收藏管理、表标签管理等功能;数据质量强调定期进行基于规则的质量评估及监控,及时发现、定位、检测、跟踪、解决各类数据质量问题,确保数据稳定可靠。
1.2.3 数据处理
数据处理主要包括数据标准化、数据清洗、数据探查和数据评价等功能,旨在提高矿山数据质量[10]。数据标准化模块应具备创建、修改、删除、查询、详情查看和导入导出等功能,实现数据管理和标准化改造,提升数据质量;数据清洗功能支持过滤不符合要求的数据,包括不完整、错误和重复的数据,并进行校验、纠正错误,保障数据一致性,具体功能包括去重、过滤、转换、校验等,以及可视化转换组件和数据治理规则梳理等;数据探查功能支持对不同来源数据进行多维度探查,了解数据的业务含义、存储更新方式、格式语义、结构和质量等内容;数据评价功能通过对数据的准确性、完整性、一致性、时效性等方面进行评估,生成评价报告,详细说明数据的质量水平,指出存在的问题和改进建议。
1.2.4 数据开发
数据开发涵盖离线开发、实时开发、算法模型和机器学习等功能,旨在满足不同业务场景的数据应用开发需求。离线开发通过传统数据仓架构批量处理大量数据,具备强大的数据处理能力和较大的吞吐量,但执行和调度周期较长,适用于时效性要求不高的场景;实时开发则通过实时开发引擎提供流式数据处理环境,主要满足时效性要求较高的场景;算法模型通过提供丰富的算法库和模型开发工具,以支持用户构建和优化各类复杂模型,从而实现更准确的数据分析和预测;机器学习通过自动学习和优化算法,进一步增强数据开发的智能化能力,使数据应用能够不断适应现场需求并不断改进,为业务决策提供更有力的支持。
1.2.5 数据服务
数据服务主要包括目录管理、资源管理、数据服务类型、级联管理、服务监控和指标管理等功能。目录管理通过资源目录编码、分类和管理,实现对各类矿山数据资源的科学、有序和安全访问;资源管理通过不同类型的资源配置和管理,满足数据服务的使用和扩展需求;数据服务类型规定了查询、协议转换和比对订阅等常见服务类型,实现对数据的灵活获取和使用;级联管理通过目录、标准和服务的级联管理,实现全域节点的数据共享与协调;服务管理通过服务监控和指标管理,实现对数据服务的实时监控和矿山业务管理的评估与优化。
1.2.6 数据运营
数据运营包括运营工具、数据中台运营、服务运营和资产安全运营。运营工具需要具备智能化、集中化、自动化、标准化的特点,为数据中台各项服务的统一入口提升用户体验和运营效率;数据中台运营主要包括数据监测、数据盘点、数据成本运营等方面;服务运营则关注接口定义规范、数据安全网关建设、数据模型到数据应用的链路关系以及数据逻辑模型的实现;资产安全运营方重点在于数据使用合规审查、数据产品合规评估、数据安全监测与审计以及检查考核。
1.2.7 数据安全
为了确保数据中台的全生命周期安全,必须构建一套完整的数据安全防护体系,其中包括对核心数据进行加密等安全技术手段,以及实施权限管控等措施,以提升整体防护能力[11]。在数据分类分级方面,需全面梳理数据资源,并依据业务特性、数据来源和应用场景等因素,制定相应的分类分级规范;在数据运维安全方面,明确各方责任分工,建立全链路安全监管机制和协同处置机制,以便及时发现并处置数据安全风险。
2 应用实践
在《规范》的实际应用过程中,深入探究了矿山行业的特定需求,并将规范中所提出的理念、方法及应用价值予以实施。以下列举了一些具体的实践案例。
2.1 国能乌海能源五虎山煤矿灾害监测数据中心建设
在国能乌海能源五虎山煤矿灾害监测数据中心的建设过程中,贯彻《规范》中的理念、方法和应用价值,根据《规范》的要求构建了统一的数据中台,实现了数据的集中管理和处理。项目通过实时采集各类设备、自动化系统、安全监测系统的数据,并将其存储在数据中台,达到了数据的全覆盖和统一管理。在标准化和规范化方面,根据《规范》的要求,对数据的命名规则、数据字典、数据质量标准等进行了统一规定,确保了不同系统、不同设备的数据兼容性和共享性,这一举措不仅提高了数据处理效率,降低了数据应用的难度,还为上层业务应用和智能化分析提供了有力支持;在数据安全保障服务方面,《规范》要求中台提供完善的数据备份和恢复机制,并采用先进的数据加密技术和访问控制机制,确保了数据的机密性和完整性;在数据分析和挖掘方面,中台基于 Hadoop 架构进行深度定制,提供了煤矿专有数据仓库和算法服务,实现了数据的离线开发和实时开发,使企业能够从海量数据中高效提取有价值的信息,为矿井、选煤厂智能化建设提供基础服务和保障。
2.2 国能国神公司敏东一矿智能化数据融合平台建设
国能国神公司敏东一矿数据融合平台的建设过程中,遵循《规范》的要求,基于数据中台进行了整体规划设计。中台数据全面覆盖生产、安全及经营业务系统,具备从数据汇聚、转换到数据标准、数据资产、数据质量以及数据服务的全链路环节功能。首先,在顶层设计过程中,根据《规范》要求制定数据标准体系,明确了数据资源的基础和核心。通过智能化数据加工,将多元和异构的源数据转化为精细化的数据,为国神公司敏东一矿实现了业务数据化和数据智能化的目标。在数据汇聚方面,中台实现了煤矿现有多个分散独立的应用系统数据的聚合和治理,消除了数据孤岛现象,形成了有价值的数据资产沉淀。大数据基础平台负责保存数据集成引擎采集的各种结构化和非结构化的数据;数据管理通过数据汇聚、存储和治理,将接入的数据进行标准化处理,为后续服务提供基础支持;数据资产根据实际情况对数据进行分类、编目、发布和开放;数据服务则以自定义 SQL 的形式或将通过接口调用转发到其他外部业务系统,为智能矿山的一体化管控、安全分析、监测预警、应急指挥、数字孪生和大数据挖掘等应用提供强有力的基础数据支持。通过规范化的数据中台建设,优化了整个煤矿数据资产管理模式,盘活了数据价值,引导了服务创新,进一步强化了“数据+业务”的紧密性。不仅为矿山带来了更高的生产效率和安全性,还创造了新的商业模式和竞争优势。
上述2个案例表明了《规范》在实际应用中的重要性,《规范》为矿山企业提供了一套完整的数据中台建设方法论,可协助企业通过中台建设克服数据汇聚、管控、处理、开发、服务等方面的挑战。
3 结语
《规范》为矿山数据中台建设提供了关键支持,旨在提高数据的使用效率、安全性和可持续性。笔者对《规范》的核心内容进行了详细解读并分享了相关应用案例。然而,《规范》亦需不断改进,包括根据新的技术发展趋势和最佳实践进行持续更新,以确保其有效性。此外,规范的培训和教育至关重要,以确保矿山行业从业者具备必要的技能来有效应用规范。下一步,期待在《规范》的指导下,数据中台建设在更多矿山企业中得以持续推进,为矿山行业带来机遇,帮助矿山企业提高生产效率、降低成本,促进矿山行业的可持续发展。