地球站集中监控网管系统的自动播出设计
2013-12-26王威
王威
当前集中监控网管向更加自动化、智能化的方向发展,对采集到的数据进行各种智能化处理和分析,网管按照预设条件进行链路自动切换抢通信号,实现自动播出。实现播出自动化,既可增强播出系统的稳定性、可靠性,又可减低值班员的劳动强度,缩短了故障应急处理时间。本文以福建卫星地球站建设自动播出集中监控网管系统的实践,介绍设计实现自动播出的思路。
目前国内地球站的网管,主要是以实时监测设备为主,对于网管控制下的智能化和自动化做得较少,很多情况下需要人工干预。当前集中监控网管向更加自动化、智能化的方向发展,对采集到的数据进行各种智能化处理和分析,网管按照预设条件进行链路自动切换抢通信号,实现自动播出。实现播出自动化,既可增强播出系统的稳定性、可靠性,又可减低值班员的劳动强度,缩短了故障应急处理时间。本文以福建卫星地球站建设自动播出集中监控网管系统的实践,介绍设计实现自动播出的思路。
自动播出集中监控网管系统简介
福建卫星地球站建设自动播出集中监控网管系统的主要思路:本着在不改变卫星传输系统结构的基础上,通过一个网管系统实现对主备两个播出机房设备的监控及管理;网管以集中的方式监控地球站的信号和设备,采用图形化的用户界面使操作者能够直观地进行管理,采用模块化的结构使得系统的扩充变得方便容易;实现对地球站的自动化管理:对采集到的数据进行各种智能化处理和分析,声光报警、故障定位,网管按照预设条件进行链路自动切换抢通信号;提供灵活配置功能,可以方便地增减监控设备、更新设备或更改系统结构。系统设计与实现工作均已完成,已投入使用,系统运行稳定。下面对网管系统做一简介:
福建卫星地球站设有主、备两个播出机房,通过一个集中监控网管系统实现对两个机房设备的监控及管理,在两个机房均设有控制终端。为使监控端用户界面简洁且便于值班员监控,每个机房的界面除显示公共设备、以及另一机房的发射功率和总告警外,只显示本机房的设备,见图1、图2。用户界面充分考虑值班操作人员的技术水平和操作习惯,做到简洁美观,又能包括所有主要设备。用户界面由菜单栏、工具栏、系统图示、日志区、频谱监看、参数区组成,除保留了标准Windows程序的菜单,所有操作都可以通过在视图上的鼠标单击操作直接实现。
网管系统由服务器(兼采集机)、客户机、串口网关、LAN交换机等组成,网管系统硬件架构设计如图3:
网管系统软件采用模块化设计,软件功能模块由用户界面显示模块、配置解析模块、采集记录模块,设置操作模块、自动报警模块、切换逻辑模块、日志查询模块,用户管理模块,信道监测报警模块,短信模块,总局数据推送模块等组成。
自动播出设计及实现
网管软件功能模块中与自动播出设计紧密相关的有3个模块:采集记录模块、自动报警模块及切换逻辑模块。本文认为,实时的采集是基础,灵活的报警设置是手段,正确的切换逻辑是关键。下文分别阐述:
(一)采集记录模块
服务器对所有设备的状态和参数进行实时监测,按多线程方式进行设备数据访问,可使设备参数或状态的改变以最快的速度反映到管理客户端。
本网管引入了采集优先级的设计理念。设备按重要程度分为三个优先级:第一级为播出链路上的主要设备如:信号源设备、编码器、调制器、上变频器、高功放以及各类切换开关;第二级是与播出关系紧密相关的设备如UPS、频谱仪、误码仪等;第三级是与播出有关的其他设备如机房温湿度采集。设备内部按照参数的重要性又分成3个优先级:第一级为设备的报警信息和与该设备相关的切换开关状态;第二级是设备的重要参数如高功放的功率、上变频器的频率等;第三级是设备本身的次要参数如高功放的出风口温度、上变频器的各模块直流电压等。按照这样的优先级设计,高级别设备的安排更多的线程和频次,设备内部高级别的参数安排更多的频次。
网管系统以后台的方式实时或轮询监控各设备的工作参数和状态。一般情况下,网管200ms左右就会对全网设备都发出至少一条查询指令(在网管界面上专门设计了运行监测窗口实时监测,如图4,如果运行监测窗口的数值显示比平常要慢很多,通常可以将服务器重启,如无改善就必须进行排查,否则将影响状态和参数监测的实时性),一般每2s网管系统所有监测参数会刷新一次。设备中高级别的参数查询频率加倍,以采用SNMP协议的设备为例,发一条指令取得一个参数,获得全部参数要获得多条指令,但每发出一条取参数指令,就发一条报警信息的查询,频率比其他参数高很多。
通过这种优先级的设置,而不是面面俱到,使我们所关心的设备参数或状态的改变以最快的速度反映到管理客户端。
(二)自动报警模块
在本网管系统中,将自动报警分为2类:1类为设备自动产生的报警,1类是用户自定义的报警。下面将分别予以说明。
1、设备自动产生的报警
现在的播出设备智能化程度都比较高,有许多内置监测点。设备运行中,会根据接口信号情况,以及设备本身问题自动产生的报警,分成警告 “Alarm”和故障“Fault”,故障 “Fault” 属比较严重的报警。
2、自定义的报警
用户对要关注的参数给它设越限警告,比如把机房湿度报警定义为,湿度越限警告(大于70%),湿度越限故障(大于80%)。
另外本网管中根据需要,把设备产生的报警“Alarm”和“Fault”,对等级做修改,将设备“Alarm”升级为网管“Fault”,或将设备“Fault”降级为网管“Alarm”。比如本网管为了自动切换逻辑的需要,把调制器输入信号丢失报警“Interface alarm status”定义为网管“Fault”,以产生小信号链路的自动切换(可参见本文“切换逻辑模块”介绍)。本网管中也可以通过配置,把设备已知的一直存在的报警过滤掉,比如某设备中的一块板卡送修,在修复返回机箱之前,设备会一直产生报警,干扰值班员值班,可把该项报警列入“未选择警告列表”( 如图5),这样网管不提示该警告信息,而对该设备的其它报警照样提示。
灵活的自定义报警是本网管的特色之一,对播出预警也好,对自动播出的实现也好,对设备稳定运行和安全播出,都提供了强有力的保障。
(二)切换逻辑模块
网管控制下的自动切换,存在判断参数的选择和相关参数设置的问题,是研究难点。上行状态的判断、链路故障的判断、设备故障的判断等,哪几个必要的参数可以准确描述上行状态和判断故障,以及对相应设备发出恰当指令,是极为重要的,事关自动播出功能的成败。本网管涉及的自动切换逻辑包括:两个机房间的倒换、12M机房内部倒换、9M机房内部倒换。
1、机房上行状态判断依据
此次网管建设涉及两个机房,机房上行状态的判断是整个网管逻辑判断的前提。功放是卫星地球站上行系统的最后一级有源设备,功放的输出信号通过波导馈送到上行天线,转变成电磁波向卫星辐射,完成上行。主备2个机房不可能同时上行载波,否则造成卫星转发器上2个同频载波叠加,下行接收黑场,造成播出事故。因此,主用机房承担播出任务时,至少在线的功放必须是处于发射(Transmit)状态,否则无法上行载波;备用机房承担备播任务时,在线的功放必须是处于非发射(非Transmit)状态,不得上行载波。备用机房承担播出任务时而主用机房承担备播任务时,则情况相反。
为了准确的判断机房的上行状态,本网管以两个机房4台功放的工作状态的组合作为最终判断机房上行状态的依据,见下表。
一般情况下,相对备用机房的2台功放设置为1KV Transmit状态,既省电又可延长功放寿命。当网管系统已判断出机房上行状态后,如果4台功放的状态组合发生变化且不满足上表中的任一状态,此时网管将保持当前机房上行状态不变。
2、12米机房和9米机房倒换
前提条件:已正确判断出机房上行状态,且网管软件处于机房自动倒换模式,同时满足下表状态:
⑴12米机房上行,12米机房自动倒换到9米机房
①当主备功放同时故障时,将9米机房的主备功放设为Transmit状态,12米机房的主备功放设为RF Inhibit及Standby状态。倒换后,网管软件自动处于机房手动倒换模式。
②当主备功放同时警告且为“Low RF Output Alarm”时,先将小信号链路倒换器(RSC-1100)倒换到相对的备路,如果状态依旧,则将9米机房的主备功放设为Transmit状态,12米机房的主备功放设为RF Inhibit及Standby状态。倒换后,网管软件自动处于机房手动倒换模式。这是因为主备功放同时警告且为“Low RF Output Alarm”时,很可能是在线上变频或调制器没有输出(且又由于某种原因没有产生故障告警),造成主备高功放因没有激励造成输出功率为0且产生警告。由于2个机房倒换存在载波叠加下行黑场的情况(按有关操作要求,倒备份站或备份机房时,要确保载波先上后下,因此有短时间的载波叠加),先小信号链路切一下,如果两高功放功率恢复,就不需要倒机房了,这样黑场时间相对比较短。
③当在用链路中任一异常(上变频器故障、调制器故障、编码器输出总码率小于设定值)发生,同时备用链路中任一异常(上变频器故障、调制器故障、编码器输出总码率小于设定值)发生时,将9米机房的主备功放设为Transmit状态,12米机房的主备功放设为RF Inhibit及Standby状态。倒换后,网管软件自动处于机房手动倒换模式。
⑵9米机房上行,9米机房自动倒换到12米机房
与上述情况类似,本文不再赘述。
3、12米机房内部逻辑自动倒换
前提条件:网管软件处于机房内部自动倒换模式
⑴功放开关自动倒换
当主备功放处于自动倒换时,如果在用功放出现故障,而备用功放正常时,由设备自身进行故障自动倒换。当主备功放处于手动倒换时,网管可给出提示(用橙色文字显示倒换模式)。
⑵上变频器开关自动倒换(AZ270所控开关)
当上变频倒换器(AZ270)处于自动倒换时,如果在用上变频器出现故障,而备用上变频器正常时,由上变频倒换器设备自身进行故障自动倒换。当上变频倒换器处于手动倒换时,网管可给出提示(用橙色文字显示倒换模式)。
⑶小信号链路开关自动倒换(RSC-1100)
满足下表条件时,在网管控制下将触发小信号链路开关自动倒换:即将当前链路倒换到备用链路。
调制器的“Interface alarm status”报警信息表示输入信号有问题,但由于调制器由两个ASI输入(参见图2),此报警不能表示出是哪路信号有问题,因此结合用编码器的输出码率来判断ASI-A路信号的状态,同时又可表示编码器的状态。由于输入视音频信号异常或编码器本身编码异常,均会导致编码器输出总码率异常,故将编码器输出总码率小于设定值定义为网管“Fault”。调制器的故障,仅以设备产生“General device alarm status”进行判断,自定义为网管“Fault”。通常情况下使用调制器ASI-A路信号作为上行,调制器ASI-B路信号(应急备微波信号,为前端发送来的已编码信号源)的使用,由值班人员手动调用。由于12M机房所用AZ710/4505上变频器有对前级IF输入电平的监测显示,我们把IF输入电平小于-35dBm(比正常输入电平低10dB以上)视为IF信号输入异常,自定义为网管“Fault”,在网管控制下产生小信号链路的自动切换。
⑷电视信号倒换
当两个电视倒换板(GVG8972PX)处于自动倒换状态,由设备自身进行信号故障自动倒换,当电视倒换板处于手动倒换时,网管给出提示(用橙色文字显示倒换模式)。
⑸广播信号倒换
由于两个广播倒换板(IQBCO-2A-B)是以优先级的方式进行倒换,因此广播信号的故障自动倒换仅由设备自身完成,网管提供手动强制倒换功能。
3、9米机房内部逻辑自动倒换
9米机房内部逻辑自动倒换与12M机房类似,本文不再赘述。
结束语
福建地球站自动播出集中监控网管系统建成投入使用近3年来,运行良好,达到了预期目的。特别是通过网管实现了自动播出,大大减了低值班员的劳动强度,缩短了故障应急处理时间,对安全播出提供了有力保障。福建站的有益尝试对其他兄弟地球站建设网管系统具有良好的借鉴作用。