APP下载

基于雾计算的制造物联网数据处理技术综述

2024-03-05段俊勇杨化林

计算机与现代化 2024年1期
关键词:数据处理传感器节点

韩 坤,王 政,段俊勇,杨化林

(青岛科技大学机电工程学院,山东 青岛 266061)

0 引 言

第四次工业革命的到来,给传统的制造组织带来了许多挑战,企业需要做到管理工厂内日渐复杂的环境,降低生产中断的可能性,同时实现更加高效的生产[1]。这是一种从现有的集中控制制造到分散制造的范式转变,能够实现生产资料、人员,甚至产品之间的无障碍沟通,这就需要将物联网(Internet of Things,IoT)标准和技术整合到工业流程中[2],从而促进工业物联网(Industrial Internet of Things,IIoT)的产生。

IIoT 将工业流程抽象为数据类型,将设备转化为数据终端,全方位收集底层基础数据[3],并结合云计算强大的数据存储和计算功能,执行更深入的数据分析和挖掘,以提高效率和优化运营。而制造业是迄今为止最大的工业物联网市场,制造物联网(Manufacturing Internet of Things,MIoT)作为IIoT 的一个分支[4],主要致力于改进工厂运营和生产,减少机器停机时间,提高生产质量,数据处理技术则是提升MIoT核心竞争力和效率的关键技术。

制造业复杂的生产环境决定了工业网络将传输海量的异构多源多模态数据,且与多协议、多种命名格式并存[5]的状况,这些数据需要被及时处理。云提供低成本、可扩展的存储和处理能力,是储存和处理工业大数据的有效方法,但是随着数据的爆炸式增长,云计算已经渐渐无法满足数据处理要求,且云中的数据需要提供给服务器进行处理,再发送回设备,这大大增加了延迟[6]。雾计算的发展使得数据处理能在系统边缘进行[7],能够减少通信以实现数据的实时处理,这对于需要实时监控设备运行情况的制造业来说是十分重要的,表1[8]给出了雾计算和云计算的技术性能比较。

表1 云和雾的技术性能比较

作为一种去中心化的计算概念,雾计算为实时数据处理提供分布式解决方案[9],是计算领域的一个最新范式转变,是一种对云计算概念的延伸[10]。雾计算由部署在云平台和现场设备之间的一些服务器组成,通常位于本地网络上的节点附近,使数据的存储、计算和分析工作能在更接近数据源和用户的地方进行[11],能够增强多功能性、降低延迟、提升传输速度以及提高安全性[12]。它还与云相关联,实现对延迟无感知的处理和有用数据的长期存储。

本文提出一种应用于MIoT 的雾计算的架构,并总结其中的关键技术和数据处理方式。

1 MIOT数据特点及处理挑战

1.1 MIoT数据的特点

MIoT 通常应用于恶劣的工业环境中,由多种制造设备、传感器、执行器、控制器、RFID 标签和智能仪表组成[4],这些分布式异构工业设备形成边缘网络从工业现场中实时感知和收集工业数据,然后通过异构网络[13]与MIoT系统连接,对数据进行传输和处理。

从2018 年到2025 年,制造业数据年增长率将达到30%,结构化数据(如关系数据库或电子表格中的表格数据)仅占生成的所有数据的5%,其余部分由JSON、XML、图像、视频和音频等格式的半结构化和非结构化数据组成[14]。

随着制造业的快速发展,MIoT 系统的规模越来越大,某个传感器每秒就可生成数万个数据点[15]。日益复杂的工业环境也使得制造数据具有多维度[16]、多噪声[17]、不平衡[18]、格式异构[19]和数据冗余[20]等特点,并以实时方式生成[21]。这使得MIoT 数据处理工作的难度大大增加,而数据处理在提取信息值、预测即将发生的事件和预测产品的增量/减量方面又起着重要作用。

1.2 数据处理的挑战

从MIoT 的功能来看,数据被放在核心位置,数据驱动的决策和过程控制有助于优化工作流和减少停机时间,使制造过程具有更高的效率和有效性[22]。工业大数据主要来源于生产和运营业务数据、设备和对象数据,以及由大量设备和冗长业务流程生成的企业外部数据。数据收集、传输、处理和应用是MIoT 的主功能,尤其数据处理是前提,它贯穿于MIoT 的各个部分[23]。

制造业数据复杂的特点给数据分析带来了许多挑战:

1)高效的数据传输。由于大数据传输成为无线通信系统的主要瓶颈,因此带宽消耗高[24]。而且数据传输过程中的能耗问题也是许多无线工业系统的主要制约因素之一[25]。

2)减少数据冗余[26]。MIoT 生成的原始数据具有时间和空间冗余的特点,并且由于机械故障或传感器错误而经常出错和有噪声[27],这通常导致产生数据偏差,继而对后续的数据分析工作造成影响。

3)数据存储的可靠性和持久性[28]。由于数据量巨大,在平衡成本的同时满足数据存储可靠性和持久性是有一定挑战性的。

4)可伸缩性[29]。MIoT 海量数据集导致了传统数据库在大数据分析中的不可行性。因此,数据的处理任务应该以一种弹性的方式向下和向上扩展转移。

5)数据处理的时间和空间相关性[30]。与传统的数据仓库不同,MIoT 数据通常是空间和时间相关的。如何管理数据并从时间/空间相关的MIoT 数据中提取有价值的信息成为新的挑战。

6)高效的数据挖掘[31]。一方面,由于数据量巨大,应用传统的多通道数据挖掘方案是不可行的,另一方面,缓解MIoT 数据错误特征导致的数据错误和不确定性至关重要,使得设计高效数据挖掘方案成为一项挑战。

上述的挑战如果完全通过云计算,会消耗太多的带宽资源,运营成本会很高,数据处理的整体延迟也会增加。尤其是对于延迟敏感的任务,如果将收集到的数据移交给云平台进行处理和决策,信息的有效时间段可能会一直被错过[32]。并且在一些时间敏感的任务中,如智能工厂设备的紧急关闭和智能连接车辆的紧急制动,数据传输到云平台进行处理后再返回将导致更严重的后果。因此,将部分数据从云数据中心卸载到雾节点进行处理是解决上述问题的解决方案[33]之一。

2 基于雾计算的数据处理架构

系统架构通常是基于特定场景的技术、业务和服务需求提出的,以确定层的数量和功能。目前比较主流的观点认为雾计算的架构包括设备层、雾层、云层[34-36],或者物联网层、雾计算层和云计算层[37-38]。虽然3 层的名称各不相同,但每一层的功能相对类似。本文考虑到MIoT 数据的复杂性和不同的处理要求,将架构中关键的雾层进一步进行分层,如图1所示。

图1 MIoT中雾计算的参考架构

2.1 设备层

设备层包括位于或嵌入在现场设备中的设备,如机床、控制器、传感器、执行器和机器人等。这些设备从生产环境中收集机器数据,通过各种传感器网络和通信适配器传输实时数据,并向执行器发出控制命令。这些传感器网络和通信适配器通常会基于简单对象访问协议(SOAP)、MTConnect 和开放平台通信统一架构(OPC UA)等协议运行。

同时,设备层需要通过维护信息采集节点(这些节点根据从传感器获得的输入动态更改系统执行策略)来维持与设备间的通信,进而维护各种通信协议,以实现工业现场和雾节点之间的通信[39],完成对数据的采集和传输任务。

数据的传输可以通过低功率广域网(LPWAN)、WiFi、移动通信等技术实现。LPWAN 是一种先进的无线通讯技术,包括Sigfox、LoRa 和窄带物联网(NBIoT)等技术,相较于另外2 种方式LPWAN 的功耗更低,使用寿命也更长。

2.2 雾层

雾层是MIoT 系统的核心,主要负责接收、处理来自设备层的数据流,提供安全和隐私保护、数据分析、流程优化和实时控制等时间敏感服务。本文根据雾层数据处理的具体功能将其分为3 个子层:近雾层、中雾层和远雾层,3 个子层分工明确,高效地完成数据处理工作。

2.2.1 远雾层

远雾层是设备层和雾层之间的过渡层,包含一些设备控制器,从设备层收集数据,执行初步阈值判断或数据过滤[40],并将控制流从雾层或云应用层向下传输到设备层。

由于设备层中传感器和设备的异质性[41],远雾层中的控制器必须能够与各种协议兼容,并访问各种传感器或设备,以便能够从MIoT 的时延敏感网络实时收集数据。采集数据后,需要对其进行阈值判断或数据滤波,同时,远雾层的控制器需要将控制流传输到设备层,因此降低延迟也是远雾层的重要任务[42]。

2.2.2 中雾层

中雾层主要包含一些边缘服务器或网关,负责通过有线网络(现场总线、工业以太网、工业光纤等)或无线网络(WiFi、蓝牙、RFID、NB-IoT 等)获取来自收集远雾层的数据并缓存在雾节点中[43],同时完成时间敏感性数据的分析。与仅执行简单阈值判断或数据过滤的远雾层不同,中雾层具有更多的存储和计算资源来处理从设备收集的数据[44]。远雾层将从MIoT设备层收集的异构数据首先在中雾层进行预处理、融合和缓存[45],同时保存数据分析日志以供将来使用。MIoT 数据的数据预处理方法包括数据清理、数据集成和数据压缩[46],如图2所示。

图2 数据预处理技术

时间敏感型或者延迟敏感型数据可以在中雾层进行处理[47-48]。被保留在雾节点的时敏数据通过机器学习或者深度学习算法进行实时过滤和分析,处理过的数据被保存在雾节点中,并完成对设备层的信息反馈和向云层传送处理结果的任务。数据重构也是中雾层的功能之一,该组件负责处理传感器产生的错误和不完整的数据,如果一个或多个传感器在操作期间发生故障,该组件将根据数据生成模式重建数据,以防止中断或任何其他应用程序故障。

2.2.3 近雾层

近雾层包含一些功能强大的服务器,负责执行更复杂和关键的数据处理[49],并且通过专用网络从中雾层收集数据以提高系统决策能力[50]。同时,近雾层的服务器具有业务应用管理和平台管理功能[51]。该层具有比远雾层和中雾层设备更强大的存储和计算资源。因此,近雾层主要用于异构数据的批量处理和操作、推理和训练更精确的模型,以获得更好的下级网络生产调度决策。

另外,雾节点广泛分散和开放的结构设计使其容易遭受无端恶意攻击[52],因此近雾层中应部署安全组件确保设备安全、网络安全和数据安全。

2.3 云层

云层包括具有大量资源的高速服务器,支持计算密集型操作和长期存储[53],云可以一次连接到多个雾节点,拥有强大的计算能力和存储容量,主要负责非时间敏感数据的分析,以及从海量数据中挖掘潜在价值,实现最佳资源分配。历史数据可用于分类、时间序列分析、预测建模和识别隐藏的趋势或模式。

另一方面,云层要负责提供对整个系统的全面监督,以帮助系统的主动管理。这种监督包括监控数据流和网络健康状况等服务,以及控制系统的能力。云层可以提供灵活、通用、互操作的智能的应用,帮助维护业务系统的安全性。

3 数据处理技术

在雾计算中,来自现场设备和异构传感器的异构数据构成了数据源。收集的数据可能包括多种类型,如模糊和不完整的数据,因此在数据处理的不同阶段需要不同的处理技术。

3.1 传感器技术

当前的制造系统由不同的技术定义,但使用的主要技术是传感器、致动器、效应器、控制器和控制回路[54]。传感器在MIoT 中起着至关重要的作用,它准确地收集工业现场的数据并将其应用到制造过程中,以提高生产质量。在许多情况下,传感器将物理刺激转换为电信号,然后对其进行深度的评估和分析,以便对正在进行的操作做出决策[55]。最新的传感器技术使制造商能够前所未有地控制和获取数据[56]。制造业中常用的无源传感器有温度传感器、压力传感器、位置传感器、力传感器和流量传感器等[57]。

目前很多研究都利用基于物联网的传感器来确定真实现场的环境条件,使数据可以实时呈现。基于物联网的传感器为制造业提供了重要的解决方案,彰显了传感器在提高物联网系统性能方面的重要作用。Moon 等人[58]开发了一种基于物联网的传感器,采集工厂内的温度、湿度、CO2含量、灰尘和气味数据,并通过无线通信进行收集和传输,能够实时准确地测量工厂内的环境状况,并有望帮助管理人员为工厂内的工人保持最佳的工作环境。Salamone 等人[59]提出了一种基于低成本物联网传感器的环境监测系统,系统通过传感器来收集温度和湿度数据,防止增材制造在设计阶段产生错误。Li 等人[60]利用物联网传感器收集数据,用于矿井提升设备的故障诊断,该研究表明物联网传感器可以帮助提供完整的诊断数据,对于改善诊断结果很有帮助。

基于物联网的传感器和其他相关组件的数量正在显著增加,使传统数字化制造向现代数字化制造转型成为可能。随着制造业中收集传感器数据的设备数量的增加,可以处理大量传感器数据输入的新型应用(如大数据技术、机器学习)的潜力也在增加。Ge等人[61]通过在物联网中集成大数据技术开发了一个概念框架,有望支持关键决策,通过利用大数据处理,使得传感器设备收集的大量数据以有效的方式得到处理和呈现,从而帮助管理者更好地做出决策。

3.2 机器学习

制造业已经迎来了数据爆炸式增长的时期,分析收集到的数据并提取有意义的信息能够极大地提高生产效率。因此工业物联网框架需要智能、健壮的技术对系统收集到的数据进行预处理、后处理和数据挖掘等一序列工作,机器学习等技术的新发展为分析数据提供了无限可能,使系统根据具体情况做出决定,并从收集到的数据中学习[62],在提高系统执行能力和数据处理等方面发挥着重要作用。

3.2.1 常用算法

制造业正在见证可用传感器数据以多种格式、不同语义和结构的方式进行前所未有的扩展。感官数据是从制造过程的各个方面收集的,包括生产线、设备、手工活动和工厂生产条件。数据建模与分析是智能制造中处理海量数据、支持实时数据处理的重要组成部分,这些都是机器学习技术的基本任务,在现有的技术中,有少数已在制造业中得到有效应用。

1)支持向量机(SVM),作为一种监督学习算法,常被用来解决分类和预测问题[63]。但是支持向量机需要覆盖整个数据点空间的大量数据,因此学习速度慢,缺乏对人类的解释能力[64]。

2)决策树是一种易于理解和解释的图形算法,由于在数据挖掘的关键特征上得分很高,因此在预测性数据[65]中得到了广泛的应用。决策树的优点是学习速度很快,但是不能解决非线性问题。

3)K-近邻算法(K-NN)是一种用于非线性问题(即分类和模式识别)的机器学习算法,对缺失、有噪声、模糊、不相关和冗余的数据值非常敏感,分类速度非常慢,但是K-NN 具有较高的学习速度,是学习速度最快的ML(Machine Learning)算法之一[66]。

4)卷积神经网络(CNN)是一种多层前馈人工神经网络,在制造业中通常被用于表面缺陷检测、系统状态监测、故障诊断和剩余寿命预测等方面[67]。

3.2.2 制造业中的机器学习应用

在机器学习上进行的工作涉及执行器、传感器和低层雾节点。学习过程从数据观察开始,即直接体验或指导,根据提供的示例找到数据模式,目的是让计算机在没有人工干预或协助的情况下自动学习,用于检测某些模式或规律,如故障检测、质量预测、缺陷分类等,并在未来工作中[68]自行决策。

故障检测和诊断是数据处理的重要应用,用于检测过程中的异常事件。及早发现工艺故障,有助于避免生产率损失。随机森林算法在故障检测方面效果显著,作为一种集合预测算法,它聚合了单个决策树的结果,通过决策树算法训练子数据集,最后基于对森林中所有树木的多数投票(投票最多的类别)来选择最终预测结果。Quiroz 等人[69]使用随机森林算法检测转子杆的故障,他们在随机森林和其他模型(决策树、朴素贝叶斯、逻辑回归和支持向量机)之间进行了性能比较,最终随机森林算法的准确率约为98.8%,高于其他算法,该模型可用于实时故障监测系统和工厂预防性维护系统。此外,Patel 等人[70]还利随机森林算法检测轴承故障,并与现有人工智能技术神经网络进行横向对比,结果表明随机森林算法具有更好的性能和更高的精度。

机器学习算法遇到离群数据的问题时,分类模型的准确性会降低,可以通过缺陷分类的方式在预处理步骤中识别数据中的异常值。Syafrudin 等人[71]提出了一种混合预测模型,该模型包括基于DBSCAN聚类算法的异常值检测用以去除异常值数据,通过随机森林算法检测制造过程是否正常或异常运行,混合预测模型与实时大数据处理系统集成,能够实时处理基于物联网的传感器设备(温度、湿度、加速度计和陀螺仪等)的传感器数据和故障预测。

机器学习在产品质量预测上同样十分重要。Lee等人[72]针对金属铸件产品质量预测问题对4 种机器学习算法(决策树、随机森林、卷积神经网络和支持向量机)进行了评估分析,结果表明4 种机器学习算法都可以有效地用于预测产品质量。Chen 等人[73]利用支持向量机算法预测高功率磁盘中的焊接质量,并且开发了一种智能系统,有效地应用于实际产品的质量检测自动化任务,减少了制造过程中的错误警告。

3.3 大数据处理技术

制造过程中产生的数据每天都在以不同的类型和格式(过程日志、事件、图像和传感器数据等)增加,部分时敏数据能够在雾节点上完成处理,但是处理结果以及剩余大量数据都将汇集到云层中,这些数据的处理和存储正成为一个需要解决的挑战性问题。制造业中可以使用几种大数据技术来快速处理和存储大量数据,如Apache Kafka、Apache Storm 和NoSQL MongoDB。

Apache Kafka是一种可扩展的消息队列系统,用于构建实时应用程序,它具有容错、高吞吐量和可扩展性等优点。Park 等人[74]对制造业中的机器日志提出了一种基于Apache Kafka的摄取系统架构,系统从一组铣床收集机器日志,在Kafka 消息队列中处理它们,并将它们传递给外部系统以供进一步分析。Ferry等人[75]提出了一种基于大数据技术的数据管理系统,用于处理制造车间的机器生成数据,该系统将Apache Kafka作为消息队列,将Apache Storm 作为实时处理系统,该系统能够大大地减少基础设施的部署成本。

4 挑战和未来的方向

4.1 挑战

4.1.1 安全性

MIoT 更高连通性的发展趋势意味着从更多地方实时收集更多数据以实现实时决策,提高收入、生产率和效率。在这种情况下,网络安全威胁形势也变得更加复杂,如果不能缓解影响MIoT 的安全和隐私问题,将无法充分发挥其潜力。MIoT 基础设施的广泛部署为攻击者提供了一个极具吸引力的平台[76],可以通过数字方式渗透这些设备,由于其地理分布、移动性和异构性的特点,云中存在的安全和隐私机制不能直接应用于雾计算。

雾计算中主要的安全问题包括身份验证、机密性、隐私和信息的可用性等[77]。Wu等人[78]提出了一种称为雾计算入侵检测系统(FC-IDS)的机制,这是一种抵御分布式拒绝服务(Distributed Denial of Service,DDoS)的技术,基于先验算法,提出了一种超图分组模型,用于有效描述遭受DDoS 威胁的节点之间的关联,该模型对雾节点的资源利用具有更好的性能,但没考虑系统延迟增加的问题。Fu 等人[45]基于真实实验和模拟评估监控工厂车间的温度,并专注于数据处理、使用唯一身份的安全存储、每个节点上的密钥、高效恢复和动态收集。数据由雾节点预先处理,完成时间敏感数据被本地使用和存储的目的,而非时间敏感数据则被传输到云中的服务器。

4.1.2 效率

为了实现高效的性能结果,需要对嵌入所有技术的网络进行必要的设计。研究表明,在分支定界算法的帮助下,使用下载模式可以最大化系统在效用、吞吐量和能效方面的性能[79]。Cau 等人[80]致力于通过提高移动边缘计算(Mobile Edge Computing,MEC)的效率来提升系统性能,还可以通过MEC 实现对无线电网络中信息的访问,此功能可以用于应用开发和内容分发。

超可靠低延迟通信(Ultra Reliable Low Latency Communication,URLLC)和高容量的可靠服务也是提升系统效率的重要指标,制造业中数据的异构型和资源可用性差异会对雾节点的数据处理造成麻烦,而雾无线接入网络(Fog Radio Access Network,FRAN)提供了一种解决方案。对此,Pontois 等人[81]提出了一种前向运输约束下的非凸优化方法,通过一种混合半分布式资源分配算法,实现在最大吞吐量和系统延迟之间的权衡。Li 等人[82]提出了一个多目标优化问题,采用3 种并行算法来改善延迟、吞吐量和资源管理,研究了任务缓冲、卸载和资源分配算法下的排队模型,并且使用李雅普诺夫漂移来设计资源分配策略,获得了更好的系统性能。

4.1.3 数据储存

提供存储服务是雾计算的主要关键功能之一[83],但如何实现为边缘用户提供分布式存储系统仍然是一个悬而未决的问题。雾计算中有3 种主要的服务模型用于数据存储和工作负载执行,即卸载、聚合和对等模型:1)在卸载模型中,从边缘设备生成的数据被卸载到最近的雾节点,然后向云端卸载(向上卸载);2)在聚合模型中,由多个边缘设备生成的数据流在上传到云数据中心之前需要在最近的雾节点进行聚合和处理;3)在对等(P2P)模型下,边缘设备附近的雾节点共享其计算和存储能力并进行协作,以便向边缘用户提供抽象存储和数据处理。

为了处理从边缘设备产生或消耗的大量数据,需要能够支持数据分布式储存的系统和改进算法。Moysiadis 等人[84]对当前主流的分布式数据存储技术进行了总结,提出为确保高效可靠的数据存储,不仅要考虑雾节点的存储容量问题,还要系统地考虑容错性、异构性、可扩展性、带宽消耗等性能,并对此进行了详细的叙述。

4.2 未来发展方向

雾计算在制造业的应用为现代制造业向智能化的发展提供了动力,并随着量子计算、6G 通信技术、无服务器计算等新技术的发展,为雾计算提供了新的机遇和挑战,为了迎接即将到来的变化,雾计算的体系结构需要更加健壮、可靠和灵活高效。

1)更安全。无服务器雾计算的概念可用于提高MIoT 系统的可扩展性并降低成本[76],量子计算和区块链等流行技术可以与无服务器边缘计算一起使用,极大提高计算速度和安全性。人工智能系统在未来也将与雾计算框架集成,使系统更加智能化,优化生产流程,降低能耗,检测生产线中的异常情况。

2)更高效,这就需要更加有效的计算卸载方案和更加可靠的高效调度算法。Sellami 等人[85]探讨了一种方法将云和雾之间的混合卸载模式引入到与复杂应用程序相关的任务中,该方法基于任务需求,通过机器学习算法选择将任务卸载到雾或云上,以实现负载平衡并更高效地执行。此外,Jamil 等人[86]介绍了一种高效的调度算法,用于雾节点上的高效资源利用,该算法根据延迟和资源利用标准对雾节点进行排序,然后通过基于博弈论的智能调度算法优化任务分配,以提高系统的整体性能。

5 结束语

数据是IIoT 的血液,对于生产环境更加恶劣的MIoT 系统而言,数据处理工作更是贯穿了其每一个环节,随着科技的不断发展,数据处理技术从云计算衍生出了雾计算,处理工作也从系统中心向边缘偏移,极大地提高了数据处理的效率,也缓解了传输带宽有限的问题。本文介绍了MIoT 数据的特点以及数据处理的必要性,并根据数据处理过程中的具体功能实现介绍了基于雾计算的MIoT 数据处理架构以及关键的数据处理技术,最后介绍了雾计算所面临的挑战并阐述了未来发展方向,希望对后续雾计算在MIoT中的具体应用起到帮助作用。

猜你喜欢

数据处理传感器节点
CM节点控制在船舶上的应用
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
康奈尔大学制造出可拉伸传感器
Analysis of the characteristics of electronic equipment usage distance for common users
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
基于AutoCAD的门窗节点图快速构建
简述传感器在物联网中的应用
“传感器新闻”会带来什么
跟踪导练(三)2
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用