APP下载

时序大数据流式计算处理在航天测控中心系统设计的应用研究

2024-12-31陈晓峰成亚勇

中国新通信 2024年12期

摘要:随着互联网和信息技术的深入发展,新型数据——流数据,开始广泛应用在无线通信网络、传感器网络、金融股票交易等领域。流数据与传统数据集有所不同,其特点是数据规模庞大、具有时序性、变化速度快等特点。传统的大数据批量计算模型已经无法满足流数据处理的实时性要求。在航天测控中心系统中的大量测量数据由测控设备解码,生成原始数据并发送到测控中心。这些带有时间戳的原始数据、处理数据、处理结果以及程序状态信息形成了时序大数据。本文分析了时序大数据流式计算处理在航天测控中心系统中的应用。

关键词:航天测控中心;时序大数据;流式计算

在航天工程中,航空航天测控系统扮演着至关重要的角色。测控中心系统建立了地球与航天器之间的通信链路,实现了航天器的多项功能,包括数据传输、观测、遥测、远程控制等[1]。航天器获取的测量数据经过收集后,需要经过航天测控中心系统进行处理。监测数据通常包括轨道数据、中继反向链路数据、测站外测数据,以及各种遥测信息如电压、温度等。

时序大数据是批量大数据和流式数据的结合体。对于需要实时处理的数据,时序数据起着关键作用,时间概念是驱动数据处理的核心。为此,航天测控系统需要进行在线分析和计算,并作出实时智能决策。面对大量高速流式数据,系统必须解决高完整性和高实时可靠性的挑战。消息队列系统如Message、Kafka、RocketMQ、RabbitMQ等被广泛应用于航天工程数据的处理,以确保系统的高效运行。

本文提出了利用流式计算技术来实现航天测控中心系统,借助Kafka消息通信机制确保系统运行效率。在处理大量高速流动的数据时,这种技术能够有效减轻服务器的实时操作压力,降低资源消耗,防止数据丢失,从而避免潜在的不良后果的出现。

一、流数据及其计算技术

流数据是指按时间顺序动态且无限增长的数据序列,通常不受人为破坏的影响。流数据属性可以概括为:1.流数据包含巨大的数据量,具有无限属性。由于流数据产生的大量数据,存储所有这些数据所需的空间是无限的。2.流数据往往具有高速传输的特点,例如监控互联网流量、股票交易数据等。数据传输速度非常快。3.流数据具有时序性的特征,只能通过单次遍历方式访问数据元素。数据元素只能按时间顺序读取,无法随机访问流中的数据。4.数据流通常是高维的,不是由最初生成的数据集组成,而是在数据创建后已经达到高维标准。5.流数据是不可再现的、持续变化的。流数据不保持不变,可能在不同时间点呈现不同的情况。大多数流数据在处理后被丢弃,除非有意存储,否则无法再次提取或处理。

在处理时序大数据时,Hadoop技术是一种用于分布式批处理的软件解决方案。Hadoop结合了HDFS(Hadoop分布式文件系统)和MapReduce框架,专门用于执行批处理计算任务。与流计算不同,Hadoop技术是针对在存储介质上的数据集进行批量计算处理。Hadoop技术在处理生成的数据集时非常有效,但流计算则是针对内存中的数据流进行实时计算[2]。由于Hadoop技术具有高性能、低延迟、连续操作和强实时性等优势,它在大数据处理领域得到了广泛应用。

二、流式计算在航天测控中心中的应用

(一)处理流程

航天测控中心系统在处理遥感数据时需要执行一系列复杂的流程,这些流程包括数据点选择、降频、数据分发、处理、存储以及数据优化等步骤。这些流程对系统的可用性要求非常高。遥感数据包括距离测量、遥测、速度测量和角度测量等信息,这些数据通过航天器利用无线电波发送到遥测设备或地面接收站。

在航天测控中心系统中,对外通信子系统会收到简单数据清洗后的数据流,并将其发送到实时处理子系统进行处理。成功接收后,实时处理子系统会对数据进行处理。数据交换软件通过多媒体网络向测控中心系统的外部通信子系统发送数据。

除了处理传统业务数据外,航天测控中心系统还通过实时处理子系统中的智能分析模块,来实现内部消息监测和网络IP包分析等功能,从而实现对系统状态的实时监测。这些功能包括监测数据采集、实时处理、原始数据、数据建模、实时特征指标分析等,帮助系统实现更高效的数据处理和监测功能。

(二)模型设计

该模型由一个环状结构组成,其中包括“多维数据集”内存数据存储单元。多为数据集作为内存中的快速存储空间,主要负责储存高速时序数据流。多维数据集的工作状态分为包括数据填充、闲置等待、等待写入和数据写入。每种状态都是独立存在的,不会同时发生。

1.数据填充:该状态下,上层请求会被传送到多维数据集,数据会以追加方式写入。当达到预定的加载阈值时,数据填充状态会转变为挂起的写入状态,此时可以选择另一个未活动的多维数据集继续填充数据。数据填充失败时会返回错误信息。

2.闲置等待:该状态下,多维数据集内无数据,是初始状态。

3.等待写入:此状态表示数据已经到达多维数据集,等待分配到相应的存储节点进行持久化。数据被发送到指定的存储节点并排队等待写入操作。

4.数据写入:该状态下,存储节点将数据写入多维数据集。当所有数据都存储完毕时,多维数据集将变为非活动状态。每个存储节点可能有多个存储多维数据集,但每个存储节点仅有一个存储多维数据集。

多维数据集的状态会随着数据的变化而变化,形成闭环。为避免写入操作被阻塞,系统中必须至少有一个活动的多维数据集。根据数据流量调整多维数据集的数量可以避免写入操作的暂停。参数设置可以通过两种方法实现:根据数据流统计结果设置多维数据集的数量,或者使用机器学习模型训练历史数据来预测最佳数量。本文采用计算机预置桶计数的方法。在未来的工作中,可以考虑使用基于学习的方法来调整参数调优方法。

(三)系统架构

整个系统的体系结构分为五个部分:1.数据流生成模块:负责生成稳定负载流。采用了Wisckey的键值分离思想,该模块可以直接替换成数据发送模块。2.存储节点:负责对多维数据集中的数据进行持久化,并在持久化完成后将多维数据集转为睡眠状态。用户可以根据实际需求或数据类型选择不同的存储模块。3.多维数据集分配模块:根据用户的分离策略,将适合存储的多维数据集分配到相应的底层存储节点中。4.多维数据集填充模块:负责填充多维数据集的数据流。在单个多维数据集存储方案中,确保数据集处于完整数据状态。当数据量达到一定范围后,填充模块会将数据集状态更改为等待写入,并选择一个空的多维数据集来进行数据填充。5.系统监控模块:实时监控系统的运行情况,对每个节点的数据进行详细分析。当系统负载过高时,用户可通过该模块动态增加底层存储节点,从而有效降低写入压力。

三、关键技术

(一)多源时序数据的实时关联计算

实时关联计是指在时间序列数据中实时分析、合成信息,并根据给定的公式补充必要的决策和估计数据进行信息处理的过程。同时,实时关联计算也被称为多源关联、多源融合或数据融合,因为它能够整合不同类型的信息。在有限的存储条件下,多源时序数据的实时关联计算实现了大时差时序数据流的无回溯关联计算。

(二)时间滑动窗口动态数据计算

测控中心系统在处理数据查询请求时,若需要多个时间窗口的协助,每个查询请求都需要重新计算结果,这可能会严重影响系统性能。因此,系统亟需一种能够支持多个时间窗口(从秒到几十年)和多种窗口漂移方法(数据驱动和系统时钟驱动)的实时动态计算方法。这种方法应能快速响应查询需求,并在多个层次上执行复杂查询。时间窗口需要支持基于弹性时间窗口的灵活查询,并且能够进行动态精度管理。滑动窗口过程的原理如图1所示。

(三)复杂统计指标的实时增量计算

在大数据分析中,统计指标如均值和方差等非常重要。计算统计指标可以采用不同方法,包括静态数据检索、简单算法和复杂算法。通过合并查询结果来实现诸如计数、平均值、求和等指标。然而,一些复杂指标如标准差、可变性和熵等可能难以直接计算。此外,在进行复杂指标的查询时,特别是涉及热点数据维度和长周期时间窗口时,重新计算会增加计算成本。

为了解决这些问题,复杂算子增量计算方法以多项式拆解为基础,实现了对协方差、方差、K阶中心矩等多种复杂算子在高密度、长尺度、长周期时间窗口内的实时计算[3]。

四、实验测试与结果分析

(一)实验方法

本次实验共选取了十台服务器节点,其中包括4台配备有10核 Intel (R) Xeon (R) E5-2690 处理器的服务器。这些服务器都搭载了操作系统Neokylin 3 2.2,拥有64GB内存、900GB SATA驱动器和主频为3.0GHz的配置。实验旨在对服务器性能和数据完整性进行验证。本实验主要研究数据流量统计、异常数据分析等实验对象。

(二)实验结果

1.数据流量统计

对所有统计信息进行测试。首先加载单个任务的数据量参数,然后对任务核心数据进行流量统计,并将统计结果与核心交换机的数据进行比较。经过比较,发现测试数据之间没有较大差异。接着,针对显示、自动和系统状态这三种数据类型进行流量统计。在本次实验中,需要10台服务器的网卡单向发送包含这三种类型任务数据 的IP 包,每秒共发送19615个数据包。

2.异常数据分析

通过分析1MS数据行的时间滑动窗口,发现数据量在45秒时达到峰值。使用智能分析软件进一步分析,发现除了在50MS阶段出现大量数据外,其余时间的数据量相对较低。。数据行航时以整数秒为单位发送,与一些数据处理和传输过程相关的航时也存在。当程序发出警报时,需要修复错误。图2显示了三种类型的数据:系统状态数据、显示数据和自动化数据,其中占比最大的是系统状态数据包数据量。从智能分析模型中发出警告后,需要修复错误。在校准故障前和修复后分别统计样本数据1、2的数据包监测结果,结果见下图3所示。

五、结束语

综上所述,Kafka以其高性能、低延迟和开源的特点在各领域的大型数据中心得到了广泛应用。将零拷贝机制应用在消息队列系统中,显著提升了航天测控中心系统的数据发送和接收性能,同时提高了数据抵抗能力。因此,Kafka可以被认为是近年来航天测控系统中消息通信机制的替代方案。

作者单位:陈晓峰 成亚勇 中国电子科技集团公司第五十四研究所

参考文献

[1] 陈纯.时序大数据实时智能处理技术及网络安全应用[J].中国信息安全,2021(z1):51.

[2] 符叶丹,张方圆,党琪,等.时序大数据流式计算处理在航天测控中心系统的应用[J].电讯技术,2023,63(5):638-642.

[3] 涂永胜,马高峰,庞为兴.浅析大数据技术在海量监测数据回放中的应用[J]. 中国无线电,2021(1):64-67.