基于多代理的地铁综合监控系统容灾模型
2013-09-17赵一江郭晋生
赵一江 郭晋生
(1.南京地下铁道有限责任公司运营分公司 南京 210036;2.北京建筑大学“绿色建筑与节能技术”北京市重点实验室 北京 100044)
基于多代理的地铁综合监控系统容灾模型
赵一江1,2郭晋生2
(1.南京地下铁道有限责任公司运营分公司 南京 210036;2.北京建筑大学“绿色建筑与节能技术”北京市重点实验室 北京 100044)
为解决地铁运营中集成度较高的综合监控系统由于数据服务模式复杂所造成的容灾能力不强的问题,设计一种综合监控系统容灾模型。在分析现有综合监控系统容灾方案的基础上,基于多代理技术,建立集中式和分布式两种综合监控系统容灾模型,提供故障检测、智能备份、灾难容错、智能恢复等功能;再用仿真实验验证其可行性,并对比分析两种容灾模型的优缺点,从而在现有环境下为集成综合监控容灾系统提供良好的解决方案。
地铁;综合监控系统;容灾;多代理;数据服务模式
1 地铁综合监控系统及其容灾系统
综合监控系统(integrated monitoring system,IMS)在地铁运营中起着极其重要的作用,目前已在世界范围内的地铁、轻轨工作中成功应用。由于国内各地的地铁建设起步时间不一,建设环境不同,综合监控系统没有明确的结构和定义,其主要区别在数据服务模式上。有些地铁公司采用部分集成或准集成方案,即让各专业单独设立本系统内部的监控系统(如有些地铁公司的环境与设备监控(BAS)和综合监控是同一个专业),其特点是数据直接由现场采集,结构相对简单,维护方便,但集成度不高。随着技术的发展,国内有些地铁公司采用深度集成和完全集成方案,即把供电、信号、环境监控、火灾报警等系统集成到同一个系统中,通过标准接口将各子系统和综合监控系统相连,实现全过程、全方位监控。由于各子系统的数据服务模式都不尽相同,所以必须采用第三方数据服务器进行中转、分发,其结构复杂,维护成本较高。
在深度集成和完全集成等集成度较高的方案中,由于数据服务模式的复杂性和各种不确定因素的存在,所以在数据传输过程中系统会发生故障。为了保证在部分节点发生故障(如交换机节点故障、车站工作站节点故障等)时系统能正常运行,必须建立容灾系统,提高系统的鲁棒性。
多代理技术是一种结合面向对象技术、多线程技术、人工智能技术而发展起来的新技术。除了面向对象技术的特点外,多代理技术还具有自治性、反映性、能动性、自学习性及社会性等特点。笔者基于比较灵活的多代理技术,设计并讨论了综合监控系统的容灾模型。
2 现有综合监控系统容灾方案的问题
目前,很多综合监控系统采用硬件双重备份技术应付容灾问题,如采用双网卡、双交换机、双数据库等,这在一定程度上提升了系统的容错能力,但也有成本高、环境适应力不强的弱点。在实际运营中,经常会遇到工作站硬盘损坏等非备份硬件类故障和交换机光模块同时损坏等备份类硬件故障,因此采用硬件备份有如下问题:
1)硬件故障无法穷尽,在实际中不可能为每一种硬件做一个备份。
2)对于备份硬件来说,单一硬件发生故障由于备份硬件的存在,导致工作人员无法及时发现故障硬件。
3)为可能发生故障的硬件做备份,无疑增加了硬件成本和软件的开发成本,使成本过高。
3 基于多代理的综合监控系统容灾模型
现有的集成度较高的综合监控系统主要采取两种结构模式:一种是基于集中式数据服务模式的结构,另一种是基于分布式数据服务模式的结构。无论哪种结构,系统的终端节点都分布在各地铁站,各节点在硬件配置上基本一致,所以可以使各节点互为备份,构建低成本的系统容灾模型。
3.1 集中式数据服务模式容灾模型
采用集中式数据服务模式综合监控系统的主要特点是数据源集中,即所有车站的数据都存放在位置相对集中的数据库中,各车站通过客户软件终端实现对集中式数据库的访问。在类似结构下,基于多代理技术的设计集中式数据服务模式容灾模型,在中央级终端设置中央监控代理,在各车站终端设置车站代理。其中,车站代理ID严格采用顺序标号,初始化时各车站代理均要向中央监控代理注册,如图1所示。
图1 集中式数据服务模式容灾模型
在实际运营中,中央监控代理定时向各车站代理发送通信原语(如on)询问各车站代理是否在线。如能得到各车站代理的应答,则说明车站设备正常,无需处理;如得不到某一个车站代理的应答,则中央监控代理向相邻车站代理发出冗余请求信号,相邻车站代理自动修改本站客户端软件的权限配置文件,开放本站客户端对相邻站的访问权限。由于数据源集中存放在中央实时数据库中,所以通过权限的改变,可以达到对故障车站的数据访问,实现容灾处理,时序如图2所示。
图2 故障情况下集中式容灾模型的处理时序
在仿真实验中,当2号站点发生故障时,中央监控代理首先得到故障信息,将该信息发送给1号和3号站点;这两个站点通过修改本站点的权限配置文件,可以在本站客户端通过中央数据库的服务,访问到2号站点的相关信息。
3.2 分布式数据服务模式容灾模型
分布式数据服务模式综合监控系统的主要特点是数据源非集中,即各车站的数据存放在物理上相互独立的分布式数据库中,这缓解了中央级服务器的压力,且具有易于扩展的特点。
与集中式数据服务模式类似,基于多代理技术构建分布式数据服务模式容灾模型,在中央级终端设置中央监控代理,在车站设置车站代理。由于每个车站设有数据库,车站代理除了要和中央监控代理交互本站工作站的状态之外,还要承担备份相邻站数据库和恢复本站数据库的任务。在地铁建设初期,各站点的数据库服务器分别建立起本站及相邻站点结构的库表,可以解决相邻站点数据库表结构不一致的问题;采用本站级数据库实时备份到历史服务器、相邻站点数据库夜间备份、相邻站备份数据只保留2天的方法,可以减轻部分网络负荷。当然,为了满足地铁长期运营的需要,可以在夜间将本站级数据备份在中央历史服务器中。分布式数据服务模式的容灾模型如图3所示(限于篇幅,仅以车站1为例)。
在实际运营中,容灾模型涉及两个关键策略。
3.2.1 备份处理策略
例如,A站的车站代理只需在夜间列车停运后向相邻站发出数据库备份请求,相邻车站代理建立与本站数据库的连接,同时将需要备份的数据传输至A站的车站代理,由其完成一次备份。备份处理策略时序如图4所示。
3.2.2 灾难处理策略
图3 分布式数据服务模式的容灾模型
图4 备份处理策略时序
1)本站数据库发生故障。由于网络中的基本节点为数据库工作站,只要令本站的车站代理向相邻站车站代理发出数据访问请求,使相邻车站开放对应备份数据库的访问权限,同时本站的车站代理修改监控软件中的权限访问文件及数据库访问IP地址,将故障记录在相应的故障文件中,即可实现本站对相邻站备份数据库的访问。在巡检过程中,发现监控软件中有两个可访问站点,可以通过查看故障记录文件来检查出本站数据库的故障。处理策略的时序如图5所示。
图5 灾难处理策略的时序
2)本站工作站发生故障。这时的处理策略与集中式容灾模型类似,不同点在于相邻站不用访问中央数据库,而是访问相邻站点的数据库。
3.3 两种容灾模型比较
对于集中式数据服务模式下的容灾模型来说,实时服务器在正常运营时除了要接收来自BAS、FAS(火灾自动报警系统)、信号、行车等中央服务器的实时数据,还要通过网络将这些数据分发给各车站的IMS工作站,同时需要定时备份数据给历史服务器,轮转查询各车站工作站的在线状态;在某车站工作站发生故障的情况下,还需要与故障车站相邻站的车站代理发生数据通信,若中央服务器的任务过重,在实际运营中容易造成服务器瞬时TCP(传输控制协议)连接请求数过大,某些请求得不到响应而发生阻塞。无论在正常还是在非正常情况下,所有数据都来源于中央实时服务器,该模型只能应付车站工作站发生的故障,对于中央实时服务器的故障缺乏处理能力。但对于一些已经运营的线路来说,综合监控系统是后加的,基本上采用集中式数据服务模式,以降低改造风险和成本。这种模式下的容灾模型可以在不增加任何硬件投入和改动的前提下,实现对车站工作站故障的容灾处理,比较适合于已经开通运营的老地铁线路。
对于分布式数据服务模式下的容灾模型来说,由于各车站有自己独立设置的数据库,所以中央服务器只需要提供轮转查询各车站工作站的在线状态功能,而无需再提供数据服务功能;把数据服务功能分摊到各车站中去,使得整个系统具有较好的负载均衡性。此外,分布式数据服务模式下的容灾模型不但可以处理车站工作站的故障,而且还可以处理车站数据库的故障,不会发生集中式数据服务模式下容灾模型中由于中央服务器发生故障而造成系统崩溃的情况,具有更好的容灾能力和更快的响应时间。但是,如果用于改造已运营线路,由于需要在各车站增加冗余数据库服务器来备份相邻车站的数据,并且各车站工作站增加的数据库备份处理逻辑也各不相同,会使改造成本较高、周期较长、结构比较复杂,因此分布式容灾模型比较适合用在各类尚未开通的新线建设方案中。
4 结语
在地铁运营过程中,集成度较高的综合监控系统由于数据服务模式复杂,会带来容灾能力不高的问题。为此,基于多代理技术,给出了两种综合监控系统容灾模型并分析了它们的优缺点和适用范围,根据不同的应用环境,在不改动现有综合监控系统结构的前提下,实现备份、灾难处理、数据恢复等功能,增强综合监控系统的鲁棒性与健壮性,在运营中提高了综合监控系统的稳定性,具有良好的应用价值和推广价值。
[1]Coury D V.An agent-based current differential relay for use with a utility Intranet[J].IEEE Trans on Power Delivery,2002,17(1):47-53.
[2]高志军,颜国正,丁国清.基于网络的多Agent协作环境下的任务分配[J].计算机工程,2005,31(10):19-21.
[3]赵一江,邵定宏.基于多代理的数据库并行事务处理模型[J].计算机工程与设计,2011,32(1):206-209.
[4]黄昱旻.地铁综合监控系统的构成及优化[J].城市轨道交通研究,2010(10):63-66.
[5]黄捷.综合监控系统在轨道交通中的应用[J].自动化仪表,2006(12):49-53.
[6]李中.地铁综合监控系统应用技术研究[J].城市轨道交通研究,2008(10):44.
[7]刘丽,王文荣.轨道交通综合监控系统网络设计[J].都市快轨交通,2010,23(6):40-43.
[8]徐杰,刘春煌,李平.城市轨道交通系统信息共享平台研究[J].城市轨道交通研究,2005(2):35-39.
[9]高鸣燕,陆文.城市轨道交通综合监控自动化系统平台设计技术[J].城市轨道交通研究,2004(1):22-25.
[10]湛维昭.地铁综合监控系统的集成模式[J].都市快轨交通,2007,20(4):82-85.
Disaster Tolerance Model of Integrated Monitoring System Based on Multi-Agent Technology
Zhao Yijiang1,2Guo Jinsheng2
(1.Operation Company of Nanjing Metro Co.,Ltd.,Nanjing 210036;2.Beijing Key Laboratory of Green Building and Energy-efficiency Technology,Beijing University of Civil Engineering and Architecture,Beijing 100044)
Abstract:In order to solve the problem of low disaster-tolerant ability arising from the data service pattern complexity for the highly integrated monitoring system in metro operation,an integrated monitoring system of disaster tolerance model has been designed.Based on the analysis of the disaster-tolerant solution of integrated monitoring system,relying on the multiagent technology,authors established two kinds of integrated disaster tolerance monitoring models, namely, centralized model and distributed model.The models can provide the functions including faultdetection, intelligentbackup,disaster tolerance and intelligence data recovery with their feasibility validated through simulation experiment.The advantages and disadvantages of these two kinds of disaster tolerance models were compared and analysed.These models provide a good solution to the integrated disaster tolerance monitoring system in the current environment.
Key words:metro;integrated monitoring system;disaster tolerance;muti-agent;data service mode
U231.96
A
1672-6073(2013)06-0033-04
10.3969/j.issn.1672-6073.2013.06.009
收稿日期:2012-10-19
2012-12-07
作者简介:赵一江,男,硕士,助理工程师,主要从事地铁综合监控系统管理与研究工作,zhaoyijiang321@163.com郭晋生,女,教授,硕士生导师
北京市重点实验室开放基金项目(KFJ2013004)
(编辑:郭 洁)