南昌地铁3号线综合监控系统冗余机制研究
2022-06-21邓新禹
邓新禹
(南昌中铁穗城轨道交通建设运营有限公司,江西 南昌 201900)
全方位冗余机制实现了综合监控系统的使用。这种制度是确保各项服务器间不会存在冗余,例如车站主备实时服务器、中央主备历史服务器、中央局域网双网、车站局域网双网之间等设备,所涉及的内容非常多,这里不做过多介绍。
我们只需要知道一点,那就是全方位冗余机制除了包括硬件设备之外,还包括了软件设备,涉及运行部位,也涉及数据流程,这些均是冗余。多重机制让每个单点故障及部分出现故障的重叠情况,但不会对监控系统造成太大的影响。切换冗余时数据并不会丢失,所以数据是统一的。
1 综合监控系统冗余设备
综合监控系统冗余设备的范围包括:
(1)两台中央实时服务器之间。中央实时服务器热备运行,自动切换。
(2)两台中央历史服务器之间。中央历史服务器热备运行,自动切换。
(3)前置处理器FEP两两冗余热备用运行,自动切换。
(4)两台中央节点交换机之间,集群冗余。
2 冗余设备切换原则和切换原理
系统的关键设备包括FEP、服务器及交换机等都是冗余的,任何单点故障均不会影响到综合监控系统的正常运行。
冗余设备的运行方式包括热备和集群。热备用意味着冗余设备数据环境与正在运行的任务相同。通常,只有主机提供数据和服务,而备用计算机处于睡眠状态。在主机故障的情况下,只要重新接管任务,就可以完成切换。群集模式意味着冗余设备具有相同的数据环境。在正常情况下,主机和备用主机都执行任务并在负载平衡的情况下运行。当主机出现故障时,备用主机将执行所有任务。
2.1 冗余服务器间的切换原理
2.1.1 自动切换
自动切换也称为故障转移。当其中一台冗余服务器出现故障时,它将自动切换到另一台。故障一般包括网络通信故障、硬件设备故障、系统运行故障等,综合监控系统应采取有效措施确保冗余可靠性,并对故障进行相应的诊断,以确保对故障的快速响应。网络通信故障、硬件设备故障一般会导致网络连接中断。客户端与主/备服务器建立两条物理连接,如果一条网络连接中断,客户端会自动切换到另一条网络通道。为了提高效率,减少在故障切换时的停机时间,综合监控系统建立网络通信监测机制,备服务器通过与主服务器之间的心跳检测不断检查主服务器的状况,如发现主服务器网络中断或应用程序故障,便将主备角色进行切换并将消息发给客户端,客户端立即会将数据源切换到备服务器。
2.1.2 手动切换
手动交换也称为网络交换(应用程序级)。用户可以根据主备服务器当前的运行状态手动切换操作终端,并通过综合监控系统的内部变量强制转换主备角色。如果主服务器出现轻微故障或系统更新,则需要重新启动综合监控系统的平台服务。为了不影响综合监控系统的正常运行,用户可以手动将客户端切换到备用服务器,然后对主服务器进行维护。特别是,由于冗余切换将影响连接到当前主/备用服务器的所有客户端,因此手动切换模式仅在系统维护期间使用,以避免影响正常的系统操作。
2.2 冗余FEP与服务器间的切换原理
如图1所示,FEP与应用服务器之间的采用双网结构。
图1 双网结构
应用服务器A和B与FEP A和FEP B都配备2个网卡用于数据交换,分别连接在综合监控系统内网的两台交换机上。
由图1可知,应用服务器与FEP之间存在4条可用的路由。
按照应用服务器与FEP之间的约定,同一时间内,这4条链路均是保持连接的。
由FEP根据子系统连接情况选择并告知值班FEP,应用服务器在值班FEP所连接的两条通道中选择一条通道作为值班通道,用于数据与控制命令的传输。
其余通道作为备用,仅定时传输心跳信号,反馈通道连接正常与否。
以下通过实施例说明冗余方案。
假设系统处于正常运行,通道①值班,通道②③④备用,如图2所示。
图2 正常运行图
FEP A故障时的处理方法:当FEP A发生故障时,在应用服务器端可以感知,通道①和③失去连接;同时由FEP的冗余作用,FEP的值班状态由A切换到B。应用服务器尝试选择通道②值班成功,通道④处于备用,而通道①和③在FEP A恢复后进入备用状态。如图3所示。
图3 FEP A发生故障图
通道①某处发生故障时的处理方法:当值班通道①某处发生故障(双网同时故障,否则只切换网络)时,在应用服务器端可以感知,通道①失去连接;同时FEP的主备状态不发生变化,FEP A为值班FEP。此时通道③为值班通道,应用服务器接口模块值班状态从A切换到B。如图4所示。
图4 值班通道①发生故障图
当然,此时如果切换FEP,保持服务器的主机状态不变也是可行的,如图5所示。
图5 切换FEP图
由于服务器的处理能力更强,数据同步的效率较高,因此,实际不使用该策略。
应用服务器A发生故障时的处理方法:当应用服务器A发生故障时,应用服务器B接口模块投入值班;此时FEP A为值班FEP值班关系不发生变化,因此选择通道③为值班通道,如图6所示。
图6 应用服务器A发生故障图
应用服务器B、FEP B或通道②③④发生故障时的处理方法:当其余部位发生故障时,因为不影响值班通道,则FEP A值班,应用服务器A接口模块值班,值班通道为①的关系不受影响。
2.3 冗余网络交换机的切换原理
综合监控系统在主干网采用双局域网方式保证通信的可靠。传统的双网冗余技术或者只使用一个网络进行数据传输,而另一个网络作为备用;或者两个网络同时传送相同数据,互为备用。传统的双网冗余技术实现简便,可靠性高。但是上述两种方式在正常运行时,都只能使用一个网络的带宽资源,造成了网络带宽的浪费。
针对传统双网冗余技术的不足,本系统的双网冗余技术,正常情况下双网分别传输不同的数据,网络带宽可以达到近两倍的利用率;当一个网络出现故障时(如网线坏或交换机故障),又可以自动将所有数据通过正常的网络进行传输,保证了系统的可靠性。并且,系统会自动监视故障网络的情况,一旦故障去除,系统会自动恢复正常的双网通信方式。如图7-图9所示。
图7 正常情况下网络通信方式
图9 原先由2号网络传输的数据改为由1号网络传输
3 冗余设备切换时间
综合监控系统支持HMI位置、外设的自动或人工切换,并支持一些功能在在线处理和冗余处理间的切换。
当系统软件检测到一个功能有故障时,该功能将自动切换到别的冗余处理器。
故障切换后该功能可从原先的状态恢复控制,不会丢失数据。从任一功能发现故障到冗余处理器恢复全部操作控制所需的时间不超过规定的时间。
一个授权用户可以从指定的用户画面发布人工请求将功能切换到其他工作站。
图8 2号网络出现故障
充分冗余的服务器和多工作站提供了硬件冗余性。任何造成软件功能故障的服务器硬件故障将使功能切换到别的处理器,如前所述。
故障切换时间是下列因数之和:
检测故障的时间(t1);
通知后备处理接管控制/后备机自动接管的时间(t2);
新控制器公布数据的时间(t3)。
3.1 实时服务器
经过测试,最大检测时间t1=1 500 ms;通知时间t2=45 ms;实时服务器的总署名数经验值约90 000,每毫秒署名数=100,因此t3=900 ms;总时间t1+t2+t3=2 445 ms。
3.2 历史服务器
历史服务器的总署名数经验值约120 000,每毫秒署名数=100,因此t3=1 200 ms;总时间t1+t2+t3=2 745 ms。
3.3 FEP
FEP故障切换时间是下列因数之和:
(1)检测故障的时间(t1)=1 800 ms。
(2)通知后备处理接管控制/后备机自动接管的时间(t2)=150 ms。
(3)新控制器公布数据的时间(t3)=600 ms。
切换时间=t1+t2+t3=2 550 ms。
3.4 交换机
综合监控系统采用工业级以太网交换机具备自动热备切换功能,冗余网络切换时间不大于100 ms。
综合监控系统的主要冗余切换指标见表1。
表1 综合监控冗余设备切换时间