智能电网继电保护控制设备硬件可靠性设计及测试

2020-04-09岳峰史志伟董金才牟晋力

综合智慧能源 2020年2期

岳峰，史志伟，董金才，牟晋力

(南京国电南自电网自动化有限公司，南京 211153)

0 引言

随着智能电网、智能电厂、分布式能源的快速发展，对于继电保护控制设备的处理能力、通信能力、扩展能力等提出了更高的要求，从而导致系统软硬件集成度和复杂度日益提高，对设备可靠性提出了更大的挑战[1-3]；另外，继电保护控制设备运行环境复杂多样，常见的诸如户外柜、汇控柜、预制舱、保护小室等，随着层次化保护控制系统逐步推进，要求设备就地化[4-9]靠近一次电气设备安装运行的趋势越发明显，设备运行的温度和电磁兼容环境将更为恶劣，这就要求设备必须具备广泛的环境适应性和高可靠性。同时针对电力设备的运维和投资周期特点，要求设备在长达12年甚至更长时间内连续无故障稳定运行[10]。针对上述种种需求和挑战，提供坚强可靠的继电保护控制设备至关重要。

1 继电保护控制设备系统架构

继电保护控制设备系统构成如图1所示。对于传统站应用(常规采样/常规跳闸方式)，中央处理器(CPU)模件采集AC模件通过母板传输的小电压信号，获取采样值，并从IO总线接收DI模件采集的开关量输入。对于光差线路保护，还通过通信模件(带光纤接口)接入对侧线路数据，汇总成设备的输入量。CPU模件对输入量计算和分析，并根据定值判断设备应该做出的动作行为，通过IO总线把命令发送到TRIP模件执行。对于220 kV以上电压等级智能站应用，通常为常规采样/数字跳闸方式，则由CPU模件发送通用面向对象变电站事件(goose)跳闸命令，由通信模件转发给智能终端来跳闸。

图1 继电保护控制设备系统架构

2 继电保护控制设备硬件可靠性设计

2.1 采样系统可靠性设计

模拟量采样系统作为继电保护设备中极为重要的组成部分，直接关乎保护设备是否能够正确获取一次电压、电流值，影响算法判据和动作正确性，严重时将会带来保护误动或拒动风险，因此其可靠性设计首当其冲。

对于可靠性要求高的场合，保护设备中通常配置双CPU插件，主从CPU分别完成模拟量采样，实现复采冗余，且主从CPU之间交互采样数据，当一个CPU插件上采样系统异常，会判定主从CPU采样不一致，闭锁出口避免误动。硬件原理框图如图2所示。

图2 双CPU采样系统框图

对于有些场合保护设备中只配置1块CPU插件，则由单CPU实现主采和复采，为了实现最大程度的硬件冗余，主采和复采回路的模/数转换(ADC)、参考电压、运放电源等采用双套配置。硬件原理框图如图3所示。

图3 单CPU采样系统框图

为了进一步提高采样可靠性，避免由于某个采样电路电源轨故障导致的采样数据整体出错，设计中增加了额外的采样电源轨监视电路，该电路独立于ADC采样电路，主要用来监视运放双极性供电电源、ADC芯片供电电源、ADC外部参考电压等多个电源轨是否正常，当发现某个电源轨电压异常超出设定门槛时，将发出告警并闭锁保护，可有效避免由于设备内部模拟量采样电路异常造成的误动。

2.2 跳闸控制系统可靠性设计

继电保护设备必须保证可靠、正确的跳闸控制，不能出现单一故障导致的误动。为了避免设备误动，跳闸继电器出口需要启动信号和跳闸控制信号的共同作用方能真正出口。如图4所示，当保护设备配置双CPU时，从CPU负责发启动信号/QD_EN(低电平有效)，主CPU通过设备内部IO总线发跳闸命令，开出模件收到跳闸命令后控制出口使能信号/DO_EN(低电平有效)并且发出相应的跳闸控制信号DOn_DRV，这样跳闸继电器K线圈通电，触点闭合。当保护设备配置单CPU时，启动信号、跳闸命令均由主CPU负责发出。

图4 告警及启动闭锁逻辑框图

如图4所示，为了防止设备在故障情况下出现误动，增加了CPU告警信号/CPU_GJ、开出模件告警信号/IO_GJ和开出模件复位信号/RESET对启动进行闭锁控制，即当CPU模件发告警信号或开出模件告警或复位时，启动信号被拉为非有效状态，闭锁出口。

告警系统工作原理如下。

(1)CPU检测到故障会发出告警信号，该信号为开漏形式输出，有告警时输出低电平。多个CPU的告警信号在母板上为“线与”关系。有一个CPU发告警，该告警总线则拉低为有效状态。

(2)开出模件对告警输入信号进行如下处理：

1)与开出模件本身的告警信号合并，提供一体输出；

2)如果存在告警信号有效，则闭锁启动信号，跳闸继电器无法出口，避免误动；

3)驱动告警继电器。即有告警时，告警继电器触点闭合，无告警时，告警继电器触点分开。

2.3 开入开出回路可靠性设计

2.3.1 开入回路

继电保护设备开入回路较为简单，主要实现常见220/110 V等额定电压开关量信号的采集。通常采用的原理如图5所示。

图5 采用光耦的开入回路原理

Fig.5 Block diagram of input circuit with optocoupler

对于可靠性要求非常高的场合，可采用冗余回路的设计方法，如双路冗余或正反码输入的方式，但缺点是占用较大的印制板面积，单模件可实现的采样通道数目降低为一半。另一种简化的方法如图6所示，为每一组开入增加一路用于校验的开入通道(最后一路)，当组内DI1～DIn中只要有一路开入为“1”时，开入校验回路应该为“1”；当组内DI1～DIn中所有开入均为“0”时，开入校验回路应该为“0”。但该方法只能用于辅助校验，无法校验每个通道。

图6 开入校验回路原理

为了能实现同一硬件电路适应多种额定电压(如24，48，110，220，125，250 V等)的开关量信号采集，且为了避免上述方案中光耦长期工作产生的老化问题，提出了另一种开关量输入实现原理，如图7所示。

图7 采用ADC+隔离的自适应开入回路原理

Fig.7 Principle of adaptive input circuit using ADC and isolator

2.3.2 开出回路

对于开出回路，设备上电和正常运行过程中定期进行自检。通过增加反馈自检回路，配合相应的自检程序，可发现启动回路短路、断路及驱动短路、继电器线圈短路等异常情况。当自检到上述异常，则发出告警并闭锁保护。

2.4 电磁兼容设计

随着继电保护设备就地化以及户外安装等需求的提出，对设备的电磁兼容(EMC)性能提出了更高的要求。EMC性能是一个复杂的问题，它的解决必须是在设计之前就要各环节全面分析，往往不可能通过一个措施解决全部问题，必须对影响设备EMC性能的各个环节严格管控，下面列出一些有效的设计方法[11-13]。

2.4.1 物料选型阶段

(1)分析物料的各种电气参数，如物料的抗静电放电(ESD)性能、自锁效应(Latch-up)、安规性能等。

(2)CPU系统选用集成度更高的系统级芯片SOC(system on a chip),如ARM+FPGA的集成芯片，可简化核心处理系统内部高速信号的连接，提高系统集成度。同时，通过优化布局及走线，提高CPU系统的抗扰度，并减少对外辐射干扰。

(3)开入回路选用抗浪涌和耐高温性能的金属氧化膜电阻，开出回路选用DK系列继电器提升抗浪涌和抗冲击性能。

2.4.2 硬件设计阶段

(1)优化设备机箱本体的屏蔽性能。采用金属密闭机箱，机箱表面做导电氧化处理，机箱盖板搭接处使用导电簧片或导电泡棉，插件之间采用簧片接触减少缝隙等一系列措施提高机箱的导电连续性，确保设备具有良好的静电防护和电磁屏蔽性能。

(2)确保设备外引强电回路的绝缘距离和空气间隙符合GB 14598.27—2017《量度继电器和保护装置第27部分:产品安全要求》[14]要求，提高回路与大地以及回路之间的绝缘性能。

(3)设备所有外引端口设计完善的隔离和防护电路；所有内部接插件端口进行良好的ESD防护。

(4)优化设备内插件的配置，带有强电信号的插件(如开出模件、跳闸模件、电源模件、交流模件等)与CPU类处理模件分区布置，避免强电回路引入的传导和辐射干扰影响CPU类模件通信或其他功能。

2.5 热设计

随着继电保护设备的集成度和性能需求的提高，以及多光模块的应用需求越来越多，设备功耗和温升随之增加，设备的热控制以及热设计已经成为了一个新难点。

继电保护设备稳定性、可靠性的要求限制了一些常用的散热设计，比如设备内禁止采用风扇；较高的防护等级要求(IP42，IP67)则限制了机箱开孔散热。通常情况下，只能采用自然对流及传导的方式控制设备内部环境温度满足运行要求。因此，在板级热耗不断提高，部分传统散热方法又受标准所限的情况下，要对设备进行有效的散热设计具有较高的难度，需要行之有效的设备类产品热设计方法，并探求新材料新工艺的引入。

针对热设计，控制保护设备需从器件级、板卡级、装置级综合考虑热设计方案[15]：

(1)在元器件选型上，选择低电压、低功耗、带功耗管理功能的器件，可关闭芯片内部未使用硬件功能以降低功耗；功耗较大的器件，如处理器、光模块、电源等，采用贴装简单实用的散热片方式进行散热，条件允许情况下，可将设备壳体当作“巨大”的散热片进行有效的散热，如就地化设备。权衡性能和功耗，选择合适频率的处理器和内存。

(2)对于板卡级设计，提高电源电路转换效率；优化发热器件布局及印制电路板PCB(printed circuit board)散热铜箔设计；首选通过传导方式传热到模件小面板或机箱壁。

(3)对于装置级设计，合理规划插件位置和槽位宽度，功耗较大的电源模件、光口通信模件等靠近机箱侧壁布置；机箱结构上进行创新设计，如机箱盖板涂覆新型材料，提高上下盖板的热传导和辐射效率；仿真优化散热器翅片高度、间距、鳍厚，使其散热能力最优；条件允许情况下，可以将机箱壳体局部设计为类似散热翅片的方式提高散热性能。

(4)整个设计过程中，借助专业的电子产品热分析软件icepak进行仿真和方案评估。另外，软件上通过程序优化、算法优化等方面进一步降低整体功耗。

2.6 设备自检及在线故障检测

为了提高运行的可靠性，继电保护设备应集成完备的自检和在线故障检测功能[16-18]。常见的功能如下。

2.6.1 工作电源监测

保护设备运行时，对内部主要工作电源轨电压进行监测，并在电源超过设定的阈限时产生设备内部告警。这样可有效地避免由于设备的内部工作电源长时间异常造成的设备损坏，并可避免由于设备内部的电源异常造成的设备错误动作。

2.6.2 工作环境监测

保护设备通过板载的温度和湿度传感器实时监视机箱内的温湿度。当出现温度/湿度超出告警阈值、系统温升速率过快或湿度变化异常等现象时，设备可输出告警信息，提醒对设备进行检查，从而进一步提高系统的稳定性。

另外，保护设备还针对内部的核心器件的工作温度进行实时检测，有效通过统计计算设备内部核心器件的工作历史，从而当核心器件工作温度过高时进行告警。

2.6.3 通信状态监视

保护设备内部通常均由多个不同的处理单元(或插件)构建，而不同处理单元(或插件)的协同工作严重地依赖于设备内部的通信总线。通过对设备内部通信总线的实时监测，判断是否有丢帧、误码、中断、网络风暴等情况出现，如有异常，及时给出告警。

另外，智能变电站正常运行依赖大量的光纤通信，故而加强光接口通道发送、接收功率的实时监测，当检测到发送、接收功率异常，及时给出告警。除此之外，设备内部还集成了光接口器件的温度监测，从而可以在光接口器件温度异常时给出状态指示，进而可以提前对光纤接口的工作可靠性进行评判。

2.6.4 处理器负载监测

当处理器的负载过高时将严重影响保护功能的正常运行。在极端的100%负载下，保护逻辑的计算以及动作等均将被延时，严重影响正常的保护功能。因此，对设备的CPU负荷进行监视，并根据负荷程度给出正常、异常、告警等不同等级的状态信息。对设备的内存占用率进行监视，并根据内存占用程度给出正常、异常、告警等不同等级的状态信息。

3 继电保护控制设备硬件可靠性测试

3.1 高裕度摸底测试

为了验证设备的可靠性，保证其具有足够的设计裕度，研发测试过程中会采用超过电力行业标准[19-20]最高等级试验要求开展型式摸底试验。对于常规设备、就地化设备，建议摸底测试标准见表1。

3.2 HALT试验

高加速寿命试验(HALT)是一种可靠性试验技术[21-23]，通过对产品逐步施加超过规范应力的外力(如温度、振动、快速温变及振动综合应力等)，快速激发产品故障，尽可能快地找到产品设计的缺陷或薄弱环节，从而采取措施予以纠正，最大限度地提高产品的可靠性。基于此，国内不少行业已经开展了相关产品的HALT。鉴于保护设备对于可靠性要求极高，故而须在开发阶段引入HALT。HALT试验包含如下测试项目。

3.2.1 温度步进试验

温度步进分为2个阶段，低温步进和高温步进。

低温步进试验曲线示意如图8所示，试验方法如下：

(1)设备处于通电运行状态，施加额定值。

(2)试验从设备的产品规范规定的低温工作温度开始。

(3)以10 ℃的温度步进对设备进行降温。

表1 摸底试验推荐测试条件

注：就地化设备还有一些特殊的测试项目，如太阳光辐射试验、

低气压试验、浸水试验、跌落试验、锤击试验等。

图8 低温步进试验曲线示意

(4)设备在各温度点驻留时间设定为20 min，同时对设备进行开关机3次的试验，试验中检查设备运行和各项性能指标是否正常。

(5)重复步骤(3)和(4)，直至设备失效，停止步进试验。

(6)在设备失效后，将温度应力降低至操作极限值，检查设备恢复正常运行。

(7)若能恢复正常运行则重复步骤(3)和(4)，若不能恢复正常则将该温度记为设备低温破坏极限温度。

高温步进试验方法同低温步进试验，示意图如图9所示。

3.2.2 快速温变循环试验

快速温变循环试验曲线示意如图10所示，试验方法如下：

图9 高温步进试验曲线示意

(1)设备处于通电运行状态，施加额定值；

(2)设定低温限值=低温操作极限温度+5℃；

(3)设定高温限值=高温操作极限温度-5℃；

(4)以60 ℃/min的温度变化速率进行高低温循环试验；

(5)设备在各温度极值点的驻留时间设定为20 min，同时对设备进行开关机3次的试验，试验中检查设备运行和各项性能指标是否正常；

(6)试验执行5个循环周期。

图10 快速温变循环试验曲线示意

3.2.3 振动步进试验

振动步进试验曲线示意如图11所示，试验方法如下：

(1)设备处于通电运行状态，施加额定值；

(2)试验初始振动量级为10 Grms，频率在10～500 Hz之间。在每个振动量级驻留以及试品功能测试完成后，再以10 Grms的振动量级递增进行试验；

(3)试验在每个振动量级的驻留时间应设定为20 min，同时对设备进行开关机3次的试验，然后再对试品进行基本功能和性能测试，检查设备运行和各项性能指标是否正常；

(4)直至找到试品的操作极限，停止试验；

(5)确定试品的操作极限后，振动步进试验应该继续进行，振动应力步进等级按照上面的等级设置，直至确认试品的振动破坏极限。

图11 振动步进试验曲线示意

3.2.4 综合应力试验

快速温变循环与振动步进试验曲线示意如图12所示，综合应力试验方法如下：

(1)设备处于通电运行状态，施加额定值；

(2)试验中设置的温度循环曲线的极值应在试品的操作极限上、下限值之内，设备在每个温度极值点驻留时间为20 min，同时对设备进行开关机3次的试验；

(3)组合试验中的初始振动量级是振动步进试验中破坏极限的1/5，此后每个循环中振动量级递增，递增量为初始振动量级；

(4)在每个试验量级驻留一段时间后，都应对被测物进行功能/性能测试；

(5)试验执行5个循环周期。

图12 快速温变循环与振动步进试验曲线示意

3.3 其他试验

3.3.1 高加速应力筛选(HASS)

HASS[21-23]应用于产品的生产阶段，是产品通过HALT试验得出操作或破坏极限值后在生产线上做高加速应力筛选，一般要求100%的产品参加筛选。其目的是为了使生产的产品不存在任何隐含的缺陷或者至少在产品还没有出厂前找到并解决这些缺陷，HASS就是通过加速应力方式以期在短时间内找到有缺陷的产品，缩短纠正措施的周期，并找到具有同样问题的产品。

3.3.2 可靠性验证测试(RDT)

由于电力设备的运维和投资周期特点，用户要求设备需在长达12年，甚至更长时间连续无故障稳定运行。如何快速科学地评估产品寿命？在开发过程中，可采用RDT以加速对产品寿命的评估。

RDT通常采用恒定应力加速寿命试验的方法，通过对产品施加一定的环境应力(温度和湿度)[24-27]，通过较长时间的试验得到产品在一定置信度下的平均故障间隔时间(MTBF)，同时可发现产品的潜在缺陷，以便进一步改进设计，以保证产品的寿命满足设计要求。

4 结束语

在继电保护控制设备的开发过程中,参照文中提出的硬件回路设计方法，综合EMC设计、热设计、在线故障检测等措施，可有效提升设备的硬件可靠性。针对设备，研发阶段可采用高裕度摸底测试、HALT、RDT等可靠性测试方法来验证其可靠性，并有针对性地进行改进。这种从需求、设计到验证的闭环开发流程，对于提升继电保护控制设备可靠性具有一定的指导价值。