APP下载

工业大数据驱动的故障预测与健康管理

2022-06-02金晓航ZHANGBin

计算机集成制造系统 2022年5期
关键词:硬盘风电装备

金晓航,王 宇,ZHANG Bin

(1.浙江工业大学 机械工程学院,浙江 杭州 310023;2.浙江工业大学 特种装备制造与先进加工技术教育部重点实验室,浙江 杭州 310023;3.西安交通大学 机械制造系统工程国家重点实验室,陕西 西安 710054;4.南卡罗来纳大学 电气工程系, 美国 哥伦比亚 SC 29208)

1 问题的提出

2019年3月,一架波音737 Max客机由于传感器故障引起飞机失控,导致机毁人亡[1];2019年4月,甘肃一风电场在维护保养时发生风电机组倒塌事故,造成重大人员伤亡和巨额经济损失[2]。这些装备故障引发的重大事故警示着人们应时刻保障装备的安全可靠运行。智能运维以实现装备的在线状态检测、故障诊断、剩余寿命预测和健康管理为目标,在提高装备运行可靠性、优化运维策略、减少运营成本和提高企业竞争力等方面发挥着重要的作用,其作为智能制造体系中的一个重要环节,是当前实现“中国制造2025”国家战略规划的关键切入点和突破口[3]。

传统运维方式是在装备发生故障时,通过对装备进行维修、养护来恢复装备原有的功能,其为一种反应式措施,注重事后救火,无法避免故障对社会造成的重大负面影响。20世纪50年代,随着可靠性工程理论知识的发展,运维方式发生了演变和改善,出现了定期维护(Time-Based Maintenance,TBM)和定期更换的预防性维护(Preventive Maintenance,PM),然而由于定期更换功能完备的装备造成了巨大浪费,视情维修(Condition-Based Monitoring,CBM)随之发展起来。CBM是对装备的健康状态进行监测和评估,发现异常后再采取相应的维护策略。虽然TBM和CBM对先前传统的装备运维方式进行了创新,但是都不是最优的维护理念。随着人工智能、互联网+、云计算、大数据等新兴技术的发展,故障预测与健康管理(Prognostics and Health Management,PHM)应运而生[3-6],如图1所示。

PHM指利用传感等方式映射得到装备的工况、周围环境、在线或历史运行状态等各类数据,通过特征提取、信号分析、数据融合建模,对装备进行运行状态监测、性能退化建模、剩余寿命预测和可靠性评估等,是一个集机械、电气、计算机、人工智能、通讯、网络等多学科为一体的高端技术[4-6],其目的是保障装备或产品完成规定功能,避免突发故障导致性能降低、任务缺陷、意外操作等非预期事件对任务安全的影响。从运维理念方面,PHM是装备的运维体系从事后维修到定期巡检,再到主动预防的创新与转变。从概念内涵方面,PHM涵盖了装备的状态监测、异常预测、故障诊断、寿命预测、运维决策等具体任务。从技术(实施)方法方面,PHM涉及故障预测和健康管理两方面内容,故障预测根据装备历史和当前信息数据评估、诊断其当前的健康状态以实现装备的异常监测、故障定位和故障评估,同时结合未来的使用环境、条件、所规划的任务等信息预测装备性能的变化情况、剩余使用寿命和故障发生的概率等;基于故障预测的分析结果,健康管理动态调整装备的使用情况,实现容错控制、制定并安排具体的运维策略、避免突发故障等,从而保障装备完成规定任务[7-10]。

随着传感器、物联网、“互联网+”、云计算、人工智能等技术的发展与应用,装备积累了海量数据,通过挖掘、利用隐含在工业大数据中的规律、价值、知识等,一些企业优化了资源配置效率,降低了生产运营成本,提升了社会和经济效益,增强了竞争力[11-12]。例如,中联重科股份有限公司通过在农业机械、工程机械等高端装备上安装传感器,实现了设备定位、状态监测、能耗分析、故障预警等功能,给客户提供了高质量的运维服务;中车株洲电力机车有限公司通过对轨道交通设备进行全寿命周期健康监测,在线识别设备运行状态,排除安全隐患,实现了由数据驱动的预测性维护方式;中国航发西安航空发动机有限公司通过对机床工作状态进行实时监测,在延长设备使用寿命的同时提升了企业网络化协同制造的能力,提高了企业整体的智能运维水平[3]。上述文献彰显了PHM技术在数据集成分析、降低运维成本、提高诊断精度和企业竞争力等方面的重要作用,推动着装备PHM进入工业大数据时代。

本文在梳理总结PHM的基础上,阐述分析了工业大数据对PHM的推动作用,归纳总结了工业大数据典型的分析方法和流程,通过分析与探讨两类复杂机电装备(风力发电机组和机械硬盘)PHM案例,指出当前研究的热点、难点及未来的研究方向,供相关领域的研究人员参考。

2 故障预测与健康管理

PHM技术通过利用先进的传感器技术,感知与装备健康状态密切相关的可测量信息(如振动、温度、电流、电压等),基于装备历史数据和当前监测数据的融合分析,借助信号处理、机器学习和数据挖掘等技术和方法判断装备的在线运行状态,检测早期故障,定性或定量评估故障程度,揭示装备性能的衰退规律,预测装备未来时刻的健康状态和剩余使用寿命,必要时可以根据装备当前的健康状态调整生产计划或改变控制策略来延长装备的使用寿命,并基于装备的历史运行信息、维修记录以及未来预计的使用情况,结合故障成本分析,采购、储存等备件库存管理信息,实现装备的自适应容错控制,提高资源管理效率,优化运行维护策略。因此,PHM系统一般应具备如下能力:数据的采集与分析、健康监测与异常预警、故障诊断、故障检测、信息融合分析、状态评估、剩余寿命预测、容错控制、运维决策分析等[5-10],如图2所示。

2.1 数据采集与健康监测

数据采集指将传感器安装在待测设备合适的位置或配置在设备周围,将待测设备的运行情况、工作环境等信息映射成相应的光、电、磁等信号,通过信号放大器、数据采集系统将信号传输至上位机进行存储、显示或打印的过程[5]。需要指出的是,在数据采集之前需要判断通过什么信号的分析才能有效反映装备的健康状态。 对于旋转类型装备,可以通过采集振动信号来有效判断其健康状态;对于电动机,可以通过监测分析电压、电流等电气信号来说明电动机运行的健康状态;对于齿轮箱、轴承等装备,可以通过分析油液成分数据判断其内部的磨损程度,从而反映装备的健康状态。

明确了装备的监测信号后,需要通过具体的传感器及其数据采集系统将装备的信号采集到计算机进行数据存储、可视化分析等工作。例如,通过传感器(如加速度传感器、钳流表等)结合信号滤波、转换、传输等模块(如NI DAQ数据采集系统)将装备信号采集至计算机,如图3所示;与装备结构早期故障相关的声发射信号(Acoustic Emission,AE)需要通过专门的AE传感器、信号放大器、数据采集卡和软件采集信号,如图4所示。另外,由于传感器及其数据采集系统中的硬件或软件也会发生故障,需要对所采集的数据和原始信号进行初步分析与判断,排除数据本身的质量问题,以保障PHM后续其他任务的部署、推进和实施[13]。

2.2 异常预警

异常预警指装备(或系统)的运行状况出现异常波动时,通过分析在线监测数据及时、准确地发现异常并预警[14],通常在学习装备历史数据的基础上,获取不同特征参数可能的阈值(或数值范围)。通过同比、环比分析,并对监测数据和阈值进行比较,同时考虑装备数据的整体变化与季节性周期变化(风电机组的工作状态与其所处的气候环境情况密切相关)来判断装备工作是否正常,当异常发生时能够及时发出装备异常警告。例如JIN等[15-20]通过冷却风扇的失效物理模型分析,采集振动、转速、电流等关键信号用于构建马氏空间,分析对比测试冷却风扇的马氏距离与马氏空间中的信息来判断风扇是否发生异常。装备的异常预警也可通过学习和训练历史数据构建预测器模型(用于评估、预测装备健康状态)或比较器模型(用于对比分析预测值与真实值间的残差进而判断检测数据是否异常),通过上述学习训练过程构建的模型预测当前行为或比较预测状态与实际状态的偏差,对装备在线运行状态进行监测和预警。

2.3 状态评估

状态评估指通过在线或离线方式,利用传感器测得的数据、人工记录的数据、历史数据、现象或经验等信息,采用综合评估分析方法将装备当前的健康状态划分为优、良、中、差、故障等不同等级进行评估。通过了解装备当前的健康状态,结合其历史状态和将来的使用情况,衡量装备及其部件完成任务的能力。例如,肖运启等[21]根据风电机组的功能结构归纳分析了机组的重要运行参数,采用劣化度分析方法,结合层次分析法和模糊预测策略综合评价机组的健康状态;张珂斐等[22]提出一种模糊综合评价和改进证据理论相融合的变压器状态评价方法,用于改善评价指标界限的稳定性和解决信息融合时产生相悖结论的问题;李刚等[23]利用SCADA(supervisory control and data acquisition)数据构建高斯云模型,进而提出一种基于Spark流式处理的风电机组健康状态实时评估方法,实现了对风电机组健康状态变化趋势的检测;李辉等[24]基于物元分析理论,结合层次分析法、关联函数等构建了风电机组运行状态评估指标体系。为了克服状态评价的主观性,董兴辉等[25]提出一种基于组合赋权和云模型的健康状态评估方法,在对风电机组的状态评价上取得了良好的效果;宾光富等[26]将回转窑划分为支承、传动、动力、热换等子系统,以及托轮、轴承等具体零部件,参照零件对设备影响的大小制定若干权重集,通过加权平均计算不同子系统和回转窑的健康值来量化评价设备的健康状态。

2.4 故障诊断

故障诊断指通过现有的信号检测技术和数据分析手段,判断装备是否发生故障,并在装备发生故障时对故障部位、类型、程度等进行分析判断,为消除故障提供相应的解决方案和运维策略。国内外学者针对不同的研究对象(航空发动机、风电机组、直升飞机、高速铁路等重大装备及其关键部件,如轴承、齿轮箱、电机等[27-28]),在故障诊断方面做了大量工作。例如,基于装备的振动信号,利用傅里叶变换、小波变换、S变换、经验模态分解等信号处理方法,通过分析信号波形特点、比较频谱相似性和估计核密度函数等方式,提取与故障相关的特征(如与轴承的内圈、外圈、滚动体、保持架等部件对应的故障频率,齿面磨损、断齿等故障引起的齿轮箱齿轮啮合频率变化等特征),实现了装备的故障诊断[4,6,17,29-33]。以上方法为了获取装备的振动信号,往往需要安装额外的传感器和数据采集系统,是一种侵入式的故障诊断方法,而电气信号分析作为一种非侵入式的方法被广泛应用于装备的故障诊断[34]。例如,JIN等[33]基于电机电流信号分析(Motor Current Signature Analysis,MCSA)对齿轮箱、转子不平衡等故障进行诊断研究,通过同步采样方法将等时间间隔采样的发电机电流信号转换为等角度采样信号,提取变工况下的风电机组轴承、转子不平衡故障特征频率,并结合分形维度方法对不同故障进行了定量分析[35]。

另外,油液监测、转矩检测、光纤传感、红外成像、视频监控等技术[36-38],以及人工智能领域的决策树、模糊理论、深度学习等方法也被应用于装备的故障诊断[39-41]。例如,基于装备信号分别在时域、频域和时频域上构建的高维特征参数,利用主成分分析、线性判别分析等无监督、半监督、监督机器学习算法对装备数据进行降维、可视化和分类分析来实现装备的故障诊断[42-46]。

2.5 故障预测

故障预测指基于当前使用条件,通过分析装备状态监测数据,结合其结构特性、运行条件、环境参数及其历史运维情况,根据装备未来的使用情况预测其未来的健康状况,包括确定可能发生的故障、判断故障程度和部位、预测故障发展的趋势和剩余使用寿命,分析故障对装备完成其规定功能的影响等[47-53]。在一些文献中,故障预测又被称为剩余寿命预测。

剩余寿命预测方法一般分为基于物理失效机理模型、数据驱动模型以及数据与机理融合的方法[5]。基于物理失效机理模型的分析方法一般用于预测单个器件或单个故障模式下设备的剩余寿命。例如,LI等[53]结合动力学模型对裂纹扩展故障模式下的齿轮剩余寿命预测进行了建模分析;FAN等[54]通过分析发光二极管的失效机理,构建模型来预测其剩余寿命。针对复杂的大型机电装备,如风电机组和高精密的微机电系统(如硬盘),因为运行工况多变、失效机理复杂、故障模式多样,构建其物理失效模型进行剩余寿命预测往往比较困难,所以可以采用数据驱动的剩余寿命预测方法。该方法通过分析装备监测数据,根据数据变化规律推断装备当前的健康状态或估算装备未来时刻的健康状态[47,55]。

数据驱动的寿命预测方法分为基于统计数据驱动的方法和机器学习的方法[5]。基于统计数据驱动的寿命预测方法仅需要少量的训练样本,通过装备退化数据分析和随机过程建模,可获得装备的寿命分布情况。Wiener,Gamma,Poisson等随机过程可用于分析不同退化特点的装备性能变化情况[47,57]。例如,王小林[58]应用Wiener过程预测了金属膜电容器的寿命;胡姚刚等[59]以温度为性能指标,利用Wiener过程建立风电轴承的退化模型并进行寿命预测;王浩伟等[60]研究了基于随机参数Gamma过程的寿命预测方法,并以某型导弹电连接器为例说明了该方法的研究意义和工程应用价值;米良等[61]利用Poisson过程对风电机组叶片的疲劳寿命进行了估算。考虑到单个性能指标不能全面表征装备的健康信息,部分学者通过分析装备多类信号构建多个性能指标来表征装备健康状态,采用随机过程建模和Copula函数分析相融合的方式对装备的剩余寿命进行预测[56]。基于机器学习的寿命预测方法的假设较少,应用范围较广,但需要大量样本数据用于模型的构建和学习,在工业大数据背景下,该方法比较适用于预测装备的剩余寿命。例如,JIN等[49-50]利用贝叶斯滤波算法较好地预测了风电机组关键部件的寿命;奚立峰等[62]提出一种综合利用自组织映射网络和反向传播神经网络的方法对球轴承寿命进行预测。近年来,作为机器学习中的一类重要方法,深度学习以其强大的数据处理和特征提取能力在机器视觉、故障诊断等领域得到了成功应用,部分学者也将其拓展到剩余寿命预测领域。例如,周福娜等[63]利用深度神经网络诊断出装备早期故障,并融合主成分分析和非线性拟合等方法构建了剩余寿命预测模型;ZHANG等[64]改进了深度置信网络,对航空发动机的退化数据进行预测分析;LI等[65]基于卷积神经网络研究了数据与剩余寿命间的非线性映射关系;MALHI等[66]采用竞争学习的方法提升了递归神经网络的训练速度,并改善了剩余寿命的预测精度。

融合的剩余寿命预测方法虽然结合了物理失效机理模型和数据驱动模型的优势,但是因为分析过程繁杂,较难同时开展装备失效机理认知与运行数据分析,所以鲜有文献报道。

2.6 运行维护与决策支持

装备的运行维护在经历了基于事件(故障)的事后维护、基于时间的计划维护等发展后,进入了基于状态(数据)的视情维护,即利用信号监测系统对设备进行定期或连续监测,通过分析信号发现其功能有故障征兆时,进行针对性地预防和维护,有效解决了被动的事后维修和僵化的计划维修所存在的“维修不足”与“过度维修”问题,有效提高了设备的可用性,减少了保障费用。

决策支持指通过参照装备数据采集与分析、状态评估、故障诊断与预测等模块提供的信息,围绕完成任务、避免发生重大安全事故、最小化运维成本等目标,对装备的运行控制、精益管理、风险评估、维修策略进行优化决策,制定装备的容错控制方案、宕机前的应对手段及故障后的维修计划[3]。

2.7 浅析PHM技术应用

PHM技术的研发与实施虽然需要耗费大量人力、物力和财力,但是部署到装备后会产生巨大的经济和社会效益。因此,PHM技术一般适用于故障发生频率低,但影响大、复杂程度高的装备(如高端军工装备、航空航天装备、大型船舶等),如图5所示。为了保障装备能够在安全可靠地完成任务的同时,降低使用和维护成本,避免发生重大事故,PHM技术率先应用在了一些重要装备上,例如F-35战斗机的PHM系统[67]、直升机的健康与使用状态监测系统(Health and Usage Monitoring System,HUMS)[68]、波音公司的飞机健康管理(Aircraft Health Monitoring,AHM)系统[69]、航空发动机的发动机管理系统(Engine Management System,EMS)[3]、美国国家航空航天局(National Aeronautics and Space Administration,NASA)的航天器综合健康管理(Integrated Vehicle Health Management,IVHM)系统[70]、KYMA公司的舰船性能监测(Ship Performance Monitor,SPM)系统[3]和三菱重工的船舶操控支持系统(Super Advanced Ship Operation Support System,SUPER ASOS)[71]等。

近年来,随着传感技术、无线网络、边缘计算等技术的发展,装备信号可以实时获取,同时数据在线分析方面的成本也有了大幅降低,使得一些基数大、使用面广、复杂度相对较低的装备可以采用PHM技术。例如,ABB公司研制了一款安装方便、前端信号分析能力强的智能传感器,其结合云计算平台,使得在线监控量大面广的低压电动机成为可能[72]。因此PHM技术的应用范围也从故障影响大、发生频率低、复杂程度高的装备逐步拓展到故障影响大、发生频率低的所有装备,如图5所示。需要指出的是,PHM技术不适用于故障频率高的装备,一方面是因为故障发生频率高的装备或者是正确设计、制造的装备被用于错误的任务,或者是装备的使用情况和环境条件超出了其允许的范围;另一方面是装备存在设计问题,其自身在制造、安装过程中可能存在缺陷,需要进一步改进和完善。

3 工业大数据

随着互联网、物联网、云计算等技术的不断发展与广泛应用,人们能够真实地感知世界发生的具体事件,并以不同形式的数据呈现,这促使数据规模快速增长,数据结构多样化,并且出现了实时分析多源异构数据实现智能决策分析等需求。这些发展与变化推动着世界进入了大数据(big data)时代。大数据通常指利用现有常规软件、硬件技术和工具不能在规定或允许时间内对所感知获取的数据进行传输、存储和管理服务,并对其内容进行剖析和处理的数据集合。大数据引起了学术界、科技界、商界和政界的密切关注与大力支持,与大数据相关的技术和产业发展得到了政府的推动和引导。例如,2012年美国政府启动了大数据研究与发展计划(big data research and development initiative)[73],澳大利亚政府提出了公共服务大数据战略(the Australian public service big data strategy)[74],英国政府提出了英国数据能力战略(seizing the data opportunity: A strategy for UK data capability)[75],中国在2015年印发了《促进大数据发展行动纲要》,为推进大数据的发展和应用进行了系统部署[76]。

鉴于大数据中隐含的巨大科研价值和社会经济效益,《Nature》、《Science》等期刊出版专刊讨论了大数据带来的机遇与挑战,《经济学人》杂志将数据类比为新时代的石油,IBM、Google等世界知名企业也纷纷投入巨资发展大数据分析技术[77-79]。大数据在医疗、金融、交通、电子商务、环境、工业、农业等领域有了实践与应用,分别形成了医疗健康大数据、金融大数据、交通大数据、工业大数据等,这些不同行业背景下的大数据在具有大数据4V(规模大(volume)、速度快(velocity)、类型杂(variety)、质量低(veracity))特征[78]的同时,还存在不同行业背景和属性的特征。

以工业大数据为例,除了大数据的4V特征外,它还具有价值型、实时性、准确性、闭环性、多模态、强关联、高通量等特征[79-84]。其中价值性表现为工业大数据更加强调用户价值驱动和数据本身的可用性;实时性强调工业大数据主要来源于生产制造和产品运维环节,生产线、设备、工业产品、仪器等均处于高速运转状态,从数据采集频率、数据处理、数据分析、异常发现和应对等方面均具有很高的实时性要求;准确性则对数据的真实性、完整性和可靠性提出要求,其更加关注数据的质量以及分析处理方法的可靠性;闭环性要求装备在设计、制造、服役等不同环节中的数据应形成封闭链条,例如装备设计、制造的数据决定设备服役过程中的性能表现,装备服役过程中的数据分析反过来又可指导、调整并优化装备原来的设计与制造过程;多模态指工业大数据要反映装备各方面完整的要素,要求数据中既有几何结构信息,又有公差配合、材料属性等信息,同时涉及装备的机械、电气、液压、热力学、声学等多学科信息;强关联要求数据包含装备各部件或子系统之间的关联关系,生产过程中工艺流程参数与产品质量、设备运行状态与周围工作环境之间的联系,以及产品在设计、使用、维修等全寿命周期上的数据关联;高通量反映装备中设计嵌入了大量智能传感器用于高频采集、实时感知与分析装备信息,通过这些传感器长期在线监测装备运行状态过程中产生的量大、种类多、分析处理时间短、要求高的大通量数据。从数据的产生主题、空间分布等角度考虑,工业大数据具体又可细分为广义的工业大数据和狭义的工业大数据。

3.1 广义和狭义的工业大数据

广义的工业大数据指所有工业数据的总和[79],包括工业领域中的产品研发、生产制造、工艺流程、物流工程、管理服务等企业信息化数据,以及远程控制、运行状态监测的装备工业物联网数据。考虑到当前环境保护、经济发展、民生建设等对工业领域日常生产经营的巨大影响,这些工业外部领域的跨界数据也是工业大数据的一个重要组成部分。

狭义的工业大数据指装备在使用过程中,由传感器采集的以时空序列为主要类型的机器数据,包括装备状态参数、工况负载和作业环境等信息。美国通用电气公司将工业大数据下物联网数据中的大量时序数据分离开来,认为其是一种狭义上的工业大数据,具有数据结构较统一、价值密度较稀疏等特点[85]。由NASA[86]和中国信息通信研究院(China Academy of Information and Communications Technology,CAICT)[87]构建的公开数据集,包括轴承数据、IGBT加速老化数据、电池寿命衰退数据,以及文中讨论的大型风电机组SCADA数据、CMS(condition monitoring system)数据和硬盘的SMART(self-monitoring analysis and reporting technology)数据等都属于狭义工业大数据。在结合装备特有属性的基础上,研究分析狭义的工业大数据,挖掘数据中潜在的价值和与装备PHM技术需求相匹配的信息,已经成为当前相关领域的研究热点。

3.2 工业大数据的分析方法

鉴于工业大数据内含的知识和价值,通过大数据分析可提升现有组织研发能力,提高产品质量,优化产品工艺和资源配置,加快产品的服务保障速度,促进企业创新创业和转型升级,实现多企业/平台/工艺/任务间的网络化协同和提质增效[79]。PHM是工业大数据应用的一个重要场景与典型案例,采用合理的数据分析方法可有效挖掘数据中的知识,例如基于获取和分析装备信号提取故障特征频率进行故障诊断或构建模型,并结合未来使用情况揭示装备性能的变化规律[29,32-33]。目前可被用于大数据分析的方法很多,主要有数据库中的知识发现(Knowledge Discovery in Database,KDD)[75,88]、SEMMA(sample,explore,modify,model,assess)[89]和跨行业数据挖掘标准流程(CRoss-Industry Standard Process for Data Mining,CRISP-DM)[90]。AZEVEDO等[91]对上述3个方法进行对比分析,发现CRISP-DM包含的范围较广,涵盖了KDD和SEMMA的内容。

CRISP-DM模型是欧盟起草的跨行业数据挖掘标准流程[90]。该标准基于工业大数据,将大数据分析工作分解为业务理解、数据理解、数据准备、建模分析、模型验证与评估、实施与运营6个步骤,这些步骤在业务和数据理解之间、数据准备和建模分析之间存在反复学习、交替深入的过程,通过上述6个步骤多次循环学习和验证分析,构建了机理清楚、层次分明、技术可行的大数据分析方法,如图6所示。

业务理解指工业大数据分析首先需要对工业对象进行全面了解,理解其功能、工作原理、应用场景和可能存在的问题,把握工业对象各个数据采集点所对应子系统的工作特点以及各个子系统之间的相互联系,了解数据分析的需求性与必要性以及数据分析后能够得到的价值,并确立明确的分析目标,根据目标的导引建立具体的分析路线。

数据理解指在获取到工业大数据后,首先对数据进行理解和解读,包括判别离散或连续不同属性的数据,初步分析装备各种不同工况对应的数据表现形式;其次对数据进行简单分类,例如依照装备的结构信息将数据归类至装备的各个子系统或组成部分;然后根据物理上的联系方式推断其数据上的联系方式,了解各类数据之间的相关关系和因果关系;最后对数据的质量进行判断,即根据业务理解,对数据的真实性和可靠性做出分析和判断,以便进行数据准备工作。

数据准备指在对数据有一定理解后进行准备工作,包括对不同量纲的数据进行归一化处理,以消除或减小量纲带来的影响;根据需求从工业大数据中选取与目标相关的部分数据;根据业务和数据理解对异常数据进行剔除、对缺失数据进行插补等;对数据中的信息进行整合,如特征指数的构建;对数据进行预处理,如降维分析、降噪处理、重采样等;对数据进行统一整理,如确保在同一个时间点或时间间隔上统一采集时序数据的各特征参量。

数据建模指根据对数据的理解,选取一种或多种合适的算法模型(如时序类模型、统计类模型或振动信号分析类的算法模型),生成或提取部分数据分别作为模型的学习样本和测试样本。基于数据学习样本和假设前提对模型进行构建、融合、优化,通过数据的测试样本对训练所构建模型的输出精确度、稳定性、局限性和适用范围进行评估。

模型的验证与评估指根据所构建的模型,对工业大数据分析后可能得到的价值进行评估,并与业务理解中制定的目标与计划进行对照,分析是否能够达到业务要求,从而决定是否开展后续的落地应用。

模型实施与运营指经过验证与评估后,如果模型能够满足业务需求,则将其实体化,做成产品,部署到工业对象中进行实际测试、部署、落地和应用。

3.3 浅议工业大数据分析

可以肯定工业大数据分析会给企业带来效益,然而带来什么样的效益以及多大的效益,企业在具体做工业大数据分析之前通常比较模糊。另外,由于涉及知识产权、经济利益等问题,并缺乏规范、有公信力的数据分享管理平台,研究人员想要从不同的团体、企业、事业等单位获取海量数据进行相关PHM技术研究也比较困难。《Nature》杂志曾报道了风能行业中风电机组SCADA和CMS真实数据分享的难题[92]。

为打破各类数据信息间的壁垒并推动数据开放共享,中国相继印发了《促进大数据发展行动纲要》和《“十三五”国家信息化规划》[76,93]。针对研究人员获取工业大数据的困难,并为推动PHM技术的发展,NASA构建了一个关于电池、轴承、电解电容、绝缘栅双极型晶体管(Insulated Gate Bipolar Transistor,IGBT)等产品的工业大数据开放共享平台[73]。隶属于工业和信息化部的中国信息通信研究院也组建了一个涵盖机械能源、电力电子、轨道交通等行业的公开数据集,旨在提升工业大数据的分析能力,并针对不同场景下的装备数据研发各类与PHM相关的技术[87]。

除了数据获取困难外,研究人员在进行工业大数据分析中应认识或注意如下问题:

(1)工业大数据就是有大量乃至海量的数据 纯粹数据量大的价值并不大,数据需要标签,即在获取工业大数据的同时,研究人员还需要知道各类数据对应的装备运行条件、健康状态(正常、异常、故障等状态)、运维、环境等信息。

(2)工业大数据通常是一种不平衡数据集 相对于装备异常或故障时的数据,装备正常工作时的数据较易获取,因此工业大数据中通常含有大量装备健康时的数据,装备发生故障时的数据偏少。另外,装备故障数据的代表性较差,一方面要想获得装备所有故障的数据通常比较困难,另一方面存在不同故障下数据量不平衡的问题。

(3)基于仿真或模拟的故障数据分析不足 鉴于获取故障数据的困难,有研究人员通过仿真软件产生装备的故障数据,或通过构建与装备类似的实验平台模拟故障的情景来得到数据。由于仿真或实验条件过于理想,上述方式产生的故障数据与装备的实际故障数据差别较大,当将基于仿真或模拟实验故障数据训练构建的模型迁移到现实中分析真实故障数据时,其准确率会降低很多,甚至出现模型无法使用的情况。考虑到大数据分享、获取的困难,在条件受限的情况下,通过上述方法获取数据虽然可以对相关模型进行训练和学习,但是具有较大的局限性,其泛化能力较弱。

4 工业大数据下风电机组的PHM

随着能源危机的加剧和环境污染的日益严重,风能作为一种绿色能源越来越受到世界各国的重视,将风能转化为电能的关键装备——风电机组(如图7)得到迅猛发展。有关统计资料表明,全球风电机组的累计装机容量从2010年的198 GW增长到2020年的743 GW,中国风电机组的累计装机容量从2010年的45 GW增长到2020年的288 GW[94],如图8所示。然而,由于工作环境恶劣、载荷复杂多变,风电机组故障频发[95-100],其中的子系统或零部件均会发生故障,而电气、变桨、液压、控制等子系统和齿轮箱、发电机等关键零部件发生故障的概率较高,如图9所示。

风电机组通常安装在空旷开阔的荒野、丘陵、山脊、沿海或近海区域(如图7),机组一旦发生故障,会有如下问题:①运维人员进入故障现场进行维修时交通很不方便;②由于机舱位于近百米塔架的上端,当机组特别是其传动系统发生故障时,人员进入机舱维修比较困难;③更换一些大型零部件(如齿轮箱、发电机等)时需要租借专用吊装设备;④海上风电机组的维护受台风、海浪、洋流等海洋环境的影响极大。风电机组故障轻则降低机组的工作性能,重则导致整台机组损坏、停机、倒塌[96-97]。因此,由故障引起的风电机组停机时间长、维护难度高、经济损失大,迫切需要研发合适、有效的PHM技术,来提高机组的运行可靠性,避免重大故障,实现基于状态监测的风电机组预测维护[98-101]。

4.1 风电机组工业大数据

每台大型风电机组上都安装了一套SCADA系统,用于监测与控制机组运行状态[20,102]。该系统一般每隔几秒采集一次分布在风电机组不同零部件或子系统上的各类传感器信息,进行状态监测、信息查询、设备控制和故障报警。以双馈式风电机组为例,各类传感器分别被安装在变桨系统、偏航系统、主轴、齿轮箱、发电机系统、变流器、变压器等关键子系统或主要零部件上,利用SCADA系统采集机组100多个离散或连续的特征数据(如图10)。其中,离散类型数据主要为编码表示的特征参数,如风电机组零部件或子系统的开关、动作或状态等;连续类型数据指风电机组功率、温度、电压和转速等在一定范围内可任意取值的特征参数。通过SCADA系统获取并积累了大量的风电机组运行数据。

2011年国家能源局出台了《风力发电机组振动状态监测导则》[103],此后CMS系统基本成为大型风电机组(2 MW及以上)的标准配置。CMS系统通过安装在主轴轴承、齿轮箱和发电机上的振动传感器和转速传感器(如图11),监测风电机组传动系统的运行状态。相对于SCADA系统,虽然CMS系统的监测点较少,每个测点数据采集的时间也较短,但是其数据的采样频率较大,可达几百甚至上千赫兹,因此由CMS系统获取并积累的机组健康状态信息数据量很庞大。考虑到当前风电机组的装机容量、数量(几十万台)以及每台机组20年的设计使用寿命,SCADA系统和CMS系统获取并积累的海量数据推动着风电机组PHM技术的发展进入工业大数据时代[104]。

4.2 风电机组工业大数据分析

目前,对复杂机电装备PHM技术的研究与验证工作大多在仿真或实验数据分析的基础上展开。例如,通过振动、温度传感器和数据采集系统,对轴承全寿命周期上的运行状态进行持续监测,如图12所示。由图可见,轴承通过磨合进入稳定的工作状态,随着运行时间的增长,轴承内部发生润滑恶化、疲劳磨损而进入衰退期,具体表现为轴承温度、振动强度增加。

然而,相对于装备实际工作中所承受的恶劣环境,装备的仿真模拟或实验条件设定得过于理想。风电机组通过SCADA系统和CMS系统获得的一般是机组全寿命周期某一时间段的数据(如图13)。相对于实验中稳定的负载和可设定的转速,风电机组的实际运行工况随风速的变化而变化,处于变工况运行状态,图14所示为风电机组的时变转速信息。另外,由于数据采集、传输、压缩、存储、处理等不同环节中可能存在各类问题,实际获取的数据也会存在缺失、损坏等问题,如图13所示,机组SCADA数据在2017年9月~2018年4月期间丢失,CMS系统仅在部分时间(2018年1月~3月)有效收集到了机组数据。CMS数据和SCADA数据在不同侧面均能反映机组的健康状态,例如CMS数据中齿轮箱高速轴轴承振动信号的有效值在2018年1月~3月期间有一个递增的趋势,如图13所示;SCADA数据中“齿轮箱进口压力”和“齿轮箱泵出口压力”与齿轮箱其余SCADA特征的相关性在2018年5月发生了较大变化,如图15所示,其中f1为风速,f2为有功功率,f3为齿箱进口压力,f4为齿箱泵出口压力,f5为齿轮箱油温,f6为齿箱前端轴承温度,f7为齿箱后端轴承温度。风场运维记录显示,该台机组在2018年10月因齿轮箱高速轴侧的轴承故障进行了停机维修。

因此,在分析风电机组工业大数据时,需要对整台机组或其关键子系统(零部件)智能运维的具体业务,如异常预警、健康监测、故障诊断和剩余寿命预测等进行详细剖析,结合业务要求对所获取的工业大数据进行理解、清洗和特征选取,进而采用机器学习、随机过程、贝叶斯滤波等模型和算法对数据进行学习、分析和建模,最后通过分析和研究实际案例,评估方法是否可行并验证方法是否有效满足机组运维的需求,如图16所示。

4.3 工业大数据下的风电机组异常预警分析

某台风电机组在2017年2月5日通过SCADA系统发出故障报警,风场运维人员对机组进行检修后发现该台风电机组的发电机轴承发生了跑圈故障。因此,提取SCADA数据中与发电机相关的特征数据(如风速,发电机转速、温度、功率等),基于稀疏自编码神经网络算法对风电机组健康状态进行监测分析(如图17a),所提方法对应CRISP-DM模型框架下的配置如图17b所示。首先对机组历史健康SCADA数据(如图18)进行预处理分析,并清理一些异常数据,主要有:

(1)剔除风电机组停机阶段和启动阶段的数据,即发电机输出功率为0的部分SCADA数据。

(2)参照SCADA系统的停机统计信息,剔除机组停机前后30 min的SCADA数据。

(3)当瞬时风速大于切入风速时,剔除有功功率仍为0的数据。

(4)分析风电机组是否处于限功率运行状态(如图19中虚线圈部分),根据具体业务的需要选择是否剔除这些运行工况下的数据。

数据清洗工作可使构建的模型更容易捕捉到风电机组健康运行阶段特征之间的相互关系,通过学习和识别这种关系,使模型能更准确监测机组的健康状态。随后对清洗后的风电机组健康运行的历史数据进行归一化,用于训练稀疏自编码神经网络,利用该网络的特性在对原始数据特征进行降维处理的同时最大限度地保留原始数据中的信息。将降维后的数据作为输入,发电机的有功功率作为输出,构建并训练一个深度神经网络,使其能够较为准确地预测机组的功率。基于对机组历史健康数据的学习,上述所提方法的预测功率与机组实际功率的残差如图20所示。通过对残差进行统计分析,选取合适的阈值(如图21中的实线)判断机组的健康状态。

为验证模型的有效性,基于已训练的稀疏自编码神经网络模型,分析机组其余时期(2016年4月~2017年2月)的SCADA数据,结果如图21所示。图中异常报警箭头所指位置(具体时间为2017年2月1日)最先发生连续多次超出阈值,在此之后一段时间内(直至SCADA系统在2017年2月5日发出故障预警),预测的功率残差值不断超出阈值。因此,基于稀疏自编码神经网络算法的风电机组状态监测方法在2017年2月1日就可以判定机组出现异常,比SCADA系统的故障预警时间提前4天。

虽然上述方法能够在风电机组出现异常的初期发现异常,但是在机组正常运行时(如2016年5月、9月等)偶尔也会出现功率预测残差超出阈值的情况,因此需要设置更加合适的阈值或配合更加稳健的预警策略(如连续3次超阈值时进行预警)来提升该方法的稳定性,以避免误报和漏报。

5 工业大数据驱动的机械硬盘PHM

据Statista统计,2018年全球云数据中心的流量达到10.6 ZB(1 ZB=270B)[105]。据国际数据公司预测,到2020年全球数据总量的规模将突破44 ZB[106]。当前大数据分析的研究热点主要集中在数据采集、数据分析、数据安全等方面[11],对数据存储介质的研究相对较少。随着技术的发展,数据的存储介质也经历了磁带、光盘、机械硬盘(Hard Disk Drive, HDD)、固态硬盘(Solid State Disk, SSD)的一个进化过程,如图22所示,其中HDD是当前数据的主要存储介质。

HDD是一个涵盖电机、磁、机械、流体领域的复杂系统,由磁头、磁盘、主轴电机、磁头臂组件、音圈电机、控制板、中枢轴承和基座等零部件组成,如图23所示[106]。通过技术的改进和突破,HDD的存储密度由原来的每平方英寸100 GB(1 GB=230B)提升到1 TB(1 TB=240B),磁头的飞行高度从早期的10 nm降到现在的1 nm[107-110]。作为一款高端精密装备,目前世界上仅有Seagate Technology, Western Digital和Toshiba 3家公司(如图24)能够大批量生产HDD。

近年来,随着微电子、半导体存储技术(闪存技术)的发展,SSD发展迅猛,预计到2020年SSD的出货量将超过HDD(如图25),桌面级存储也将由体积小、重量轻、数据读取速度快的SSD替代,然而在大规模数据中心、海量数据存储等应用场景,大容量机械HDD仍有巨大优势。进入21世纪后,全球HDD的累计出货量持续增加,到2018年达到83亿块,预计2022年将突破100亿块,如图26所示[106]。

5.1 硬盘SMART数据

早在20世纪90年代,人们就意识到数据的宝贵性远胜于HDD自身的价值,希望开发一种能对HDD故障进行预测并实现数据保护的技术,硬盘SMART技术应运而生[108]。该技术通过硬盘上的监测指令和主机上的监测软件对磁头、磁盘、主轴电机、电路等的运行情况进行状态监测和数据收集。SMART参数一般分为两类(如表1)[109]:①与硬盘读写相关的参数,如原始读错误率(raw lead error rate)和映射扇区计数(reallocated sector count)等;②与硬盘工作外部环境相关的参数,如通电时间(power on hours)和温度(temperature)等。

表1 硬盘SMART参数

因为很难采用外在的传感设备实时监测硬盘运行状态,而SMART数据本身包含了硬盘丰富的运行状态信息,所以通过分析硬盘SMART数据可以实现硬盘故障预警和剩余寿命预测。

5.2 大数据下硬盘的故障检测

由于使用失效物理模型进行故障检测时需要得知SMART数据中完整的失效路径和材料特性等信息,给实际工作带来了困难,而单纯采用数据驱动算法又不能准确刻画硬盘失效过程,综合考虑失效物理模型和数据驱动模型的优缺点,利用失效模式、机理和影响分析(Failure Modes, Mechanisms, and Effects Analysis,FMMEA)对硬盘的故障模式和机理进行分级排序,从而量化硬盘的主要失效模式和机理的严重度级别,以及故障发生的频率和可探测度。

从表2可见,硬盘头盘间磨损、过应力和磁头臂组件共振3种潜在故障机理的风险最高,与之对应的头盘界面和磁头臂组件成为硬盘最主要的故障源。据三星电子统计,硬盘加速寿命试验、可靠性验证试验和现场反馈数据反映,头盘界面相关失效形式分别占各自总体失效的64%,77%和64.6%[97]。因此,头盘界面是影响硬盘可靠性的主要因素,而头盘界面相关失效主要由头盘接触引起,继而出现磨损和过应力[110-126]。

表2 硬盘潜在故障模式、原因、机理及其优先级

以FMMEA分析结果为依据对SMART特征参数集进行降维处理,结合马氏距离、正则化的似然比等方法,提出两步法的参数化硬盘失效检测方法(Two-Step Process,TSP)及其在CRISP-DM模型框架下的配置,如图27所示。在对硬盘进行FMMEA的研究中,通过对其故障模式、机制和影响的分析确定与硬盘性能密切相关的参数,通过加速寿命试验、数值应力分析和工程经验识别潜在失效机制和失效模式,然后根据关键失效模式和失效机理选择与潜在故障相关的SMART特征参数。

失效检测步骤如下:

(1)对硬盘进行异常检测 利用正常工作硬盘的样本数据进行融合分析,并构建硬盘的马氏距离指标,运用Box-Cox变换将非正态分布的马氏距离值转换为正态分布的变量值,同时结合正态分布的性质确定异常检测的阈值(如图28),进而对硬盘进行异常检测分析。

(2)对硬盘进行故障预警 需要指出的是,硬盘的失效并非突然发生,在失效之前,硬盘内部会出现各种异常情况。异常情况的发生虽然表示硬盘在一定程度上偏离了正常工作的健康状态,但是并不意味着硬盘失效,而是直到其异常行为发展并恶化到一定程度时,硬盘故障才会发生。同时,异常又能反映硬盘的健康状态,健康硬盘中虽然存在异常,但其分布是随机、稀疏的;而在故障硬盘中,异常在整个工作时间内的分布更加集中,如图29所示。简而言之,当异常频繁发生时,硬盘接近失效。基于上述事实,采用基于滑动窗口的广义似然比检验方法(Generalized Likelihood Ratio Test, GLRT)跟踪异常的发展并预测硬盘故障,将硬盘异常的发生视为一个伯努利过程,将广义似然比检验作为预测硬盘故障的预测因子来实现硬盘故障预警。

基于大数据的智能诊断方法往往需要占用较大的计算机资源,运算分析时间也较长,上述两步预警方法可有效提高硬盘预警效率,即利用正常工作硬盘的大样本数据构造阈值可以快速检测硬盘异常情况,再进一步对频繁发生异常的硬盘进行故障预测。

基于硬盘SMART数据集对上述方法进行验证分析。该数据集总共包括369块硬盘的SMART数据,其中191块故障硬盘全部为返厂维修的硬盘,178块正常硬盘来自不同的硬盘制造商。每隔2 h采集一次硬盘的60个SMART特征参数,每块硬盘的数据包括300组SMART特征,即为一组300×60的时间序列数据[127]。通过分析硬盘数据,并与传统的支持向量机(Support Vector Machine,SVM)、隐马尔科夫模型(Hidden Markov Model,HMM)、秩和检验(Rank-sum)、树增广朴素贝叶斯(Tree Augmented Naive Bayesian, TAN)等方法进行对比,在零误报的条件下,TSP方法的故障检测准确率提高了16%~18%(如图30),检测时间则缩短到几百分之一,大大提高了硬盘在线检测的便利性。

6 结束语

经过十余年发展,PHM技术在保障装备安全、可靠工作等方面发挥了重要作用,但也有一些不足的地方。例如PHM工作侧重于装备的故障诊断与预测,相比健康管理、运维决策等方面的研究比较欠缺;现有的大部分PHM技术均针对装备中的关键零部件,如轴承,齿轮箱、电解电容、晶体管、锂电池等展开,从装备整体系统的角度或装备所处的系统系层面开展的PHM研究难度相对较大,相关工作也鲜有报道;现有的PHM工作相对集中于装备的硬件机构,然而当前先进装备系统中软件和硬件的集成度较高,软件将发挥着与硬件同等重要、甚至更重要的作用,因此对装备的软件系统以及软件与硬件的交叉融合系统也应开展相应的PHM研究。

随着传感技术、物联网、云计算、人工智能等科学技术的发展,装备的设计、制造、使用、维护过程积累了海量数据,推动着装备的PHM技术进入工业大数据时代,通过数据分析研究获取工业大数据中隐含的价值,揭示装备智能运维的规律,进而降低装备运维成本、优化运维策略、避免发生重大安全事故等迫在眉睫。大数据使改善和提升PHM技术发展中的薄弱环节成为一种可能,进而使PHM成为大数据在装备智能运维中的一个重要的应用场景。然而,当前工业大数据分析中也存在各种问题和困难,例如现有工作侧重于狭义的工业大数据分析,缺少工业大数据及其分析方法的相关标准,在大数据获取及其相应装备状态、使用条件、环境参数等标签的有效管理方面存在问题,且涉及经济利益、知识产权等大数据安全问题,大数据分享平台相对较少,使研究人员通过获取真实工业大数据来研究、开发和验证分析PHM新技术、新方法存在一定困难。

基于工业大数据,针对装备的健康评价、异常预警、故障诊断、剩余寿命预测、运维策略制定等,构建一种普适性较好的方法或模型是不现实也不合理的。由于不同装备之间差异较大,在开展装备PHM的某一个具体业务时,需结合装备的设计、制造、使用等具体信息,指导大数据的获取与理解、清洗与分析、多源异构数据的融合、PHM模型的构建与验证等工业大数据分析工作。另外,还应注意到数据中的不对称问题,即数据占有体量不对称(拥有大量易获取装备正常工作时的健康数据,装备工作异常、故障时的样本数据相对较少)、数据传输速度和渠道不对称、数据分析计算等处理能力不对称。

PHM技术受到国内外各界人士的密切关注,相关理论和技术得到了快速发展,也有了具体应用,但还存在很多进一步发展和完善之处,同时也面临着一些巨大的挑战。工业大数据驱动着装备PHM技术的发展进入一个集机械工程、电气工程、仪器仪表、控制理论与方法、计算机科学与技术、人工智能、数据科学等多学科交叉融合的新阶段,本文以风力发电机和硬盘两个重要装备为研究对象,对工业大数据驱动的PHM技术研究进行了举例说明,为推动PHM技术创新体系的不断发展和完善,提高装备智能运维水平,进而提升中国制造业的核心竞争力提供了参考。

猜你喜欢

硬盘风电装备
好装备这样造
港警新装备
HiFi级4K硬盘播放机 亿格瑞A15
Egreat(亿格瑞)A10二代 4K硬盘播放机
防晒装备折起来
海上风电跃进隐忧
分散式风电破“局”
风电:弃风限电明显改善 海上风电如火如荼
重齿风电
我区电视台对硬盘播出系统的应用