调度自动化主站局域网冗余可靠性风险研究
2022-09-21糜佳蓉
糜佳蓉
(江苏省电力有限公司 宜兴市供电分公司,江苏 宜兴 214200)
0 引 言
随着能源互联网的不断发展,电网的规模也随之扩大,对调度自动化系统提出了更高的要求。调度控制业务运作状态受通信网络的影响比较大,严重时还会导致电网的安全事件[1]。为了提高主站局的可靠性,人们在调度自动化系统中采用了从设备、链路、协议等层面发展起来的冗余技术。对于设备层面,一般将两台高性能的交换机连在一起,并且每台交换机需要配置一个独立的主板和电源,同时对应用主机配置两个网卡,将交换机的核心与主机连接在一起;对于链路层面,可以采取多种方式来进行连接,例如设备之间可以采用交叉的方式来进行连接或者将链路合在一起进行连接;对于协议层面,利用虚拟路由器冗余协议(Virtual Router Redundancy Protocol,VRRP)来实现对外路由器的冗余,这样可以有效解决冗余链路中产生的问题。
1 局域网冗余可靠性测试方法
在对某调度自动化主站局域网(Local Area Network,LAN)进行分析后,开展了冗余可行性测试,如图1所示。
图1 无环路双核心局域网典型组网结构
主机PC1与PC2都使用双网卡的模式来进行绑定,两者可以在模型中进行自由切换。此外,将主机PC1和两台直接接进的交换机进行连接,主机PC2和两台核心交换机进行连接,这样的连接方式可以让交换机和核心交换机之间的链路进行自由切换。此外,核心交换机之间的链路聚合可以通过光纤来实现。两台交换机分别通过两台防火墙进行连接,用这种方式来对其他安全区网络内的交换机进行模拟。利用网络测试仪向核心交换机发射地址解析协议(Address Resolution Protocol,ARP)广播,测试网络性能是否良好[2]。为了保证测试的结果与实际结果相符合,在测试前需要对所有的交换机进行升级处理。局域网冗余技术可靠性测试项如表1所示。
表1 局域网冗余可靠性测试项
2 局域网冗余可靠性问题及分析
对于底层网卡绑定的模式,要从两个方面分别进行测试,即网卡主备、负载均衡。对于顶层的核心交换机来说,从VRRP、堆叠这两个方面来分别进行测试。在对数据分析后发现,网络冗余机制在多数的网络状态下都能够发挥其相应的作用,自动调整网卡故障、交换机故障等[3]。无环路双核心局域网的拓扑配置不仅简单,而且功能相对独立,不存在物理的环状。在主备模式下,通常都是采用与其他网卡结合在一起的方式来有效提升网卡冗余。一旦主用网卡发生损坏,系统会将另一块网卡自动补上。与此同时,使用过程中也会出现相应的问题。
(1)当ARP轮询的时间较短时,交换机不能及时做出相应,这样就会导致网卡切换比较频繁。如果ARP轮询时间较长,主机不能及时进行检查,也会导致网络处于长时间的中断状态。对于ARP轮询时间来说,它应该设置在合理的范围内,这样才能有效解决网络中断的问题。
(2)如果没有及时发现备用网卡的故障,网卡中的链路出现故障,就算系统能够自动切换网卡,那也不能解决主要的问题,通信也不能正常使用,网络的冗余可靠性与网卡息息相关。
(3)如果核心交换机之间的链路中断,那么主机与交换机之间的网络系统也会中断。如果接入交换机至核心交换机的链路只有一条时,每一台交换机只能与一台主机进行连接。如果想要主机同时连接两台核心交换机,那么就必须通过两台核心交换机之间的互联链路来相连。采用了交换机接入核心交换机的冗余链路,这种方法可以尽量避免核心交换机之间的链路受到中断影响。
(4)当多生成树协议(Multiple Spanning Tree Protocol,MSTP)网络未开启时,如果网络中存在环路,那么主机之间的网络会存在时而断开、时而连接或者一直保持断开的状态。引起广播风暴的主要原因之一就是网络环路,这种问题不仅会让ARP和MAC的地址错乱,而且还会严重影响交换机之间的数据转发[4]。
3 典型案例分析与解决方案
根据以上的测试方式对调度自动化主站局域网系统中的95台服务器与工作站进行相应的测试后发现,其中4台主机的冗余网卡处于缺陷状态,包括备用网卡故障、冗余网卡连线方式错误、单网卡上联[5]。一般情况下,当GW2服务器的备用网卡发生故障时,主网卡的运行不会受到备用网卡的影响,其业务还是会正常运行。测试过程中要将主网卡对应的链路进行中断处理,ARP轮询时,如果系统检测到链路处于中断状态,此时就需要立即将备用网卡切换上来使用。在网卡故障后,所有的通信都不能正常使用,从而导致GW2服务器的部分业务处于中断状态。在发现这些问题后,要及时恢复主网卡的链路,待业务恢复至正常状态后再对备用网卡故障的原因进行逐一排解。
通过对上述问题进行分析,提出了相应的推荐方案。在使用双核心的交换机进行互联时,核心交换机之间要配置相应的局域网地址,主机采用ARP轮询的方式来进行相应检测,将这些作为网卡故障的判定条件。ARP的轮询时间应该设为20~5 000 ms,默认为100 ms。在一些交换机性能较差的情况下,可以尽量延迟轮询的时间。两台核心交换机之间可以不启用VRRP,通过防火墙实现局域网的对外通信,同时采用双机热备模式,开启后及时保存配置,避免在一些情况下不能重建防火墙。含层间冗余链路的双核心局域网典型组网结构如图2所示,含堆叠交换机的双核心局域网典型组网结构如图3所示。每台接入的交换机都连接两台核心的交换机,这样可以保证主机只有一个网卡工作时有冗余链路,同时也可以避免核心交换机联线全部中断时出现异常现象。
图2 含层间冗余链路的双核心局域网典型组网结构
图3 含堆叠交换机的双核心局域网典型组网结构
4 结 论
文章提到的一系列解决方法对后续建立局域网冗余可靠性提供了参考依据,同时这种冗余技术还可以拓展在线网络智能监控技术。另外,还可以快速地查找到故障的原因,在计算机网络和调控系统中的应用比较广泛。