某工程数据存储系统功能性与可靠性分析
2015-03-22刘立杰
刘立杰
(绥中县水资源办公室,辽宁 绥中125200)
1 工程概况
辽宁省大伙房水库输水工程是辽宁省重点工程项目,该输水工程是将浑江上桓仁水库的发电尾水,利用西江、凤鸣两座电站作为调节池,由输水隧洞自流引水至苏子河汇入大伙房水库,经大伙房水库反调节后,经输水管线为抚顺、沈阳、辽阳、鞍山、营口、盘锦6 个城市提供生活用水和工业用水。该工程同时也考虑以后大连市用水需求,是一项惠及超千万人口的重要民生工程[1]。
2 网络系统建设内容
大伙房水库输水工程建设节点包括沈阳总调度中心、沈阳1 配水站分中心、抚顺取水头部分中心、抚顺配水站分中心、沈阳2 配水站分中心、辽阳配水站分中心、鞍山加压泵站分中心、营盘配水站分中心。信息自动化系统网络系统建设包括如下内容:
2.1 视频监控系统
包括摄像机、编码器、解码器、矩阵、画面分割器、监控相关软件及服务器、配套设备等。
2.2 计算机网络系统
包括路由器、交换机、网管系统、网络安全设备等。
2.3 程控交换系统
包括程控交换机、DDN 接入设备等。
2.4 通信电源系统
包括UPS 电源、直流电源设备、蓄电池、高频开关及其它配套设备。
2.5 存储系统
包括存储服务器、磁盘阵列及相关软件。
2.6 大屏显示系统
包括显示屏、切换矩阵及控制设备等。
2.7 其它设备
测试仪表及备品备件。
3 数据存储系统功能性分析
3.1 SAN 逻辑隔离
SAN 逻辑隔离是指在SAN 交换机上划分ZONE。进行ZONE 的划分后,可以将连接在SAN 网络中的主机从逻辑上划分为不同的区域,使各区域的设备相互间不能访问,实现网络中的主机和设备间相互隔离。ZONE 的划分对主机及设备来说是透明的,在SAN 交换机上完成相应配置后,主机及设备会“以为”SAN 网络中只有同一个ZONE 中的几台设备,根本没有其他的设备存在。按大伙房水库数据存储系统的访问安全要求,本次划分以下ZONE:
3.1.1 业务网MIS 服务器(视频监控服务器)
MIS 系统与视频管理服务器复用,所存储监控视频数据与其它系统无关,将单独划分ZONE 进行隔离以提高安全性。
3.1.2 业务网其它PC 服务器
除MIS 服务器(视频监控服务器)外,业务网内其它各系统可整合为同一系统,因此可划分为同一个ZONE。
3.1.3 业务网数据库服务器
业务网数据库服务器为IBM 小型机,与WINDOWS 平台服务器为异构平台,为防止数据访问混乱,将业务网数据库服务器单独划分为一个ZONE。
3.1.4 邮件服务器
邮件服务器部署与DMZ 区,需要对其进行隔离以提高安全性,因此将邮件服务器单独划分为一个ZONE。
3.1.5 控制网AIX 服务器
控制网与业务网完全物理隔离,因此需要为控制网服务器单独划分ZONE,对存储进行逻辑隔离。
要实现这种SAN 网络中ZONE 的划分,主要有2 种方法:①在名字服务器(NameServer)中隔离;②在数据转发时过滤数据包从而达到隔离。前者被称为SoftwareZone,后者则被称为HardwareZone。针对大伙房数据存储系统的特殊环境(多区服务器共享存储)情况,将采用HardwareZone。
3.2 多路径负载均衡
沈阳总调中心服务器通过2 条4GbpsFC 链路连接至SAN 交换机,每台SAN 交换机通过2 条4GbpsFC 链路连接至磁盘;沈阳2 备调中心服务器通过1 条4GbpsFC 链路连接至SAN 交换机,单台SAN 交换机通过4 条4GbpsFC 链路连接至磁盘。因为在主机与磁盘阵列间存在多条FC 路径,因此需要在主机上安装多路径软件,多路径软件将提供以下2个主要功能:
3.2.1 多路径选路
为主机和磁盘阵列间提供多条FC 路径,实现故障保护以提高其可用性。
3.2.2 负载均衡
数据流可以同时分布在主机和磁盘阵列之间的多条路径上,提高网络的性能。
当任一条路径故障时,通过多路径软件可以透明地把业务切换到其他路径上,避免由此导致的业务中断。
3.3 SAN 资源规划
为提高磁盘可靠性与访问性能,需要划分RAID。划分RAID 的过程中,要避免使用基于主机的RAID(如Windows 的动态卷或者AIX 的条带化),因为这将消耗掉主机大量资源,因此RAID 的划分由磁盘阵列系统直接完成。各级别RAID 中,RAID0 具有最佳性能,但没有数据冗余;RAID1 有效可用空间只有实际容量的一半,具有理想的可靠性;因为结合了RAID0 条带,所以RAID10 比RAID1 的性能更高,有效空间仅一半;RAID5 具有较好的读取性能和冗余,并且它只需要一个额外的磁盘来提供冗余。除此外,影响RAID 读数据的关键因素还有Cache 大小、Cache 命中率及应用的IO 类型等因素。在同等条件下,RAID5 与RAID10 读性能本身没有太大差别,但是对于写数据的一些应用,尤其是小I/O 频繁写入的一些应用,如OA、邮件等系统,RAID10 相比RAID5 性能要更好一些。而大型文件存储,如视频等系统则从空间利用的角度,建议采用RAID5。以上主要基于性能考虑RAID 的规划,除此以外还需要考虑空间利用率等因素。RAID 磁盘空间划分需要根据实际系统容量需求,以满足容量为主进行划分,在划分过程中,还应考虑将磁盘IO 尽可能的平均分派给RAID 组中的各个磁盘[2]。
3.4 备份系统分析
磁盘阵列的备份系统只能在数据层对应用系统的数据进行备份,要建成一个完备的备份中心,还需在部署应用软件时做仔细考虑,并结合有效的管理,才能更有效的保护业务[3]。
3.4.1 备份系统应用场景
磁盘阵列保存了所有重要系统的数据,尽管磁盘阵列系统在硬件设计时己经最大化的考虑了冗余性需求,但是为确保出现紧急情况时数据不丢失,我们还需要部署备份系统。基于磁盘阵列的备份系统主要用于以下场景:
3.4.1.1 单系统故障
当总调中心的某一系统由于服务器损坏等原因宕机时,我们不需要启用整个备用系统,仅启用相应的备用服务器,并将数据从备阵列上挂载至备用服务器,此时如果软件部署模式及网络访问条件允许,备用服务器将接管服务。
3.4.1.2 站点故障
当沈阳总调中心因为自然灾害、停电或者其它不可抗力因素导致整个站点离线,并且短时间内无法修复系统时,此时启用沈阳2 备调中心的备份系统,并尽快对总调中心进行修复。
3.4.1.3 阵列故障
当主阵列因为设备故障或者掉电等原因宕机时,此时虽然总调中心应用系统仍然可访问,但数据无法正常写入主阵列,因此需要启用沈阳2 备调中心的备份系统。
3.4.1.4 故障恢复
当主站点恢复,需要接管业务时,需要恢复至主站点继续业务,此时需要将备阵列上的数据与主阵列进行一次同步,保证故障期间更改数据同步至主阵列,并将备阵列重新降级为备阵列,启用总调中心备系统。启用备份系统并不仅是启用备阵列,而需要软件与网络等多个系统的配合。当启用备阵列,首先需要将存储空间映射至备用服务器,并保证操作系统正常识别,其次需要备用服务器上的应用软件能正确识别所有数据,用户对备用系统软件的访问应该正常,用户访问备用服务器的网络应当畅通,如此备份系统才能正确保障业务持续运行。同时,基于磁盘阵列的数据复制并不能保障由于软件错误、人为误操作时所导致的数据丢失,因此我们建议建立完善的系统管理机制,更有效的规避系统故障风险[4]。
3.4.2 定时复制功能
正常情况下,以沈阳总调中心的磁盘阵列为主阵列,以沈阳2 备调中心磁盘阵列为备阵列,主阵列连接沈阳总调中心服务器,备阵列连接沈阳2 备调中心备用服务器。主阵列正常时,通过IP 网络向备阵列进行数据复制。当沈阳总调中心出现上节所述情况时,可以自动或者人工干预将沈阳2 备调中心备阵列升级为主阵列。主阵列将自动被标识不可用或降级为备阵列。如果主阵列被标识为降级,则主阵列数据变为只读,两台阵列仍通过IP 网络连接进行数据数据,但数据流向变为从备阵列向主阵列进行复制。根据本项目中备份数据量及实际带宽,并考虑设备性能因素,我们将采用设定时间点的复制策略,在主备两台磁盘阵列间进行数据复制[5]。
3.4.3 数据一致性
磁盘阵列在进行数据复制过程中还支持快照代理插件,确保在进行数据远程容灾复制过程中的数据一致性,具体的实现原理为:当主机应用程序正常运行时,部分数据并未写到后端磁盘上,而是驻留在主机内存中。如果此时对磁盘中的数据进行复制操作,就往往会发现某个时间点出来的数据与预期中的数据有不一致的现象。磁盘阵列为用户提供了快照代理功能,通过安装在主机上的客户端软件,保证了用户在设定了主备阵列间的数据复制策略后,磁盘阵列在按照指令执行这些操作时会自动与主机端的快照代理联动,自动通知快照代理将应用程序暂留在内存中的数据“刷”到磁盘上,由此保证了复制出来的数据保持严格的数据一致性和数据完整性[4]。
4 数据存储系统可靠性分析
4.1 设备可靠性分析
大伙房水库项目中所有PC 服务器、小型机、SAN 交换机及磁盘阵列均对硬件设备的可靠性进行了考虑,主要的设备可靠性将通过如下方式进行保障:
4.1.1 电源冗余
除PC 机及工作站外,所有PC 服务器、小型机及SAN 环境中设备均配置双电源,并分别连接至独立的UPS 供电以提高电源可靠性。
4.1.2 本地磁盘冗余
在PC 服务器上对本地硬盘配置RAID1,以提高服务器本地磁盘可靠性,降低操作系统由于磁盘故障的宕机可能,在小型机上为硬盘配置磁盘镜像或者克隆磁盘,达到与PC 服务器类似功能。
4.1.3 磁盘阵列系统冗余
采用双电源设计,配置双控制器以提高控制器冗余性。此外,磁盘阵列的所有关键组件,如控制器电池、风扇等均设计为可在线更换式,以减少停机时间。
除硬件可靠性外,所有操作系统均进行安全加固,关闭所有不必要端口、阻断所有非必须接,以防止人为误操作故障。
4.2 链路可靠性
大伙房水库内各业务系统的用户在访问数据时,依次需要经过大楼局域网、服务器与交换机连接网、服务器与存储相连的SAN 存储区域网。对大楼局域网的链路保障,由相应网络系统来进行保障。在后两段网络中,通过以下形式进行链路可靠性保障:
4.2.1 服务器至交换机连接
沈阳总调中心业务网服务器均通过双链路分别上连至各自所在网络的两台核心交换机,两条链路为主备模式,结合交换机的VRRP 网关进行链路保障,两条链路的其中一条为主,当主链路故障时,将自动由备份链路接管;沈阳总调中心控制网服务器采用与业务网相同的上连模式;沈阳2 备调中心业务网由于仅有一台核心交换机,因此所有服务器通过双链路上连至同一台交换机,链路部署模式为主备模式;沈阳2 备调中心控制网服务器均通过双链路上连至两台控制网核心交换机,链路部署模式为主备模式[2]。
4.2.2 SAN 存储区域网络
沈阳总调中心所有服务器均采用双链路分别连接至两台SAN 交换机,两台SAN 交换机通过各自两条链路连接至磁盘阵列,多条链路通过安装在主机端的SAN 客户端软件(多路径软件)进行选路及负载均衡;沈阳2 备调中心的服务器仅采用单链路连接至单台SAN 交换机,SAN 交换机通过4 条链路连接至磁盘阵列,同样通过SAN 客户端软件进行选路。
通过以上设计,数据存储系统将结合网络系统的相关链路保障技术,最大化保护链路,避免链路中断造成的业务访问中断。
4.3 数据可靠性
数据可靠性主要针对磁盘阵列所存储的数据,数据的安全需要从各个层面进行考虑,包括数据的访问安全、数据的存放、数据的备份等,本系统中主要涉及以下可靠性保障需求:
1)ZONE 的划分:本系统中存在异构系统(Windows 主机与AIX 主机)与多网数据共存于同一存储网络的情况,因此如果不进行逻辑上的隔离,将极大的降低数据的访问安全性。划分ZONE 将解决上述问题,提高数据的访问安全性。有关ZONE 划分的详细情况,请参见SAN 逻辑隔离部分内容;
2)磁盘阵列RAID 划分:磁盘阵列硬件系统本身在设计时己经最大化的考虑了冗余性,保障数据可靠性的主要方法是划分相应级别的RAID 以防硬盘损坏导致的数据丢失。有关RAID 的规划,请参见磁盘空间划分部分内容;
3)Hotspare(热备)盘:除设置RAID 外,还需要设置Hotspare 盘以备RAID 组中出现硬盘损坏时,损坏盘能由Hotspare 盘自动接管,从而保持RAID 的完整性,进一步降低数据丢失风险;
4)数据备份系统:利用磁盘阵列的IP 复制功能,主备两台磁盘阵列可以通过广域网进行数据的复制与同步。主调中心的数据将在备调中心生成一份副本,在主调中心受损时,可以通过备调中心系统继续支撑业务运行。磁盘阵列系统的数据复制技术对IP 网络有很好的适应性,而且提供多种技术(如差量扫描、压缩等)来提高链路带宽利用率。
通过以上各种数据保障技术,结合严格的数据管理及容灾计划,将能有效确保业务数据安全。
4.4 软件可靠性
沈阳总调中心业务网内部署了包括MIS、GIS、OA、文件及模拟仿真系统在内共五台服务器(PC 服务器)及一台数据库服务器(IBM 小型机)。为保障软件系统可靠性,在沈阳2 备调中心业务网内为以上除文件服务器外的服务器均设置了备份服务器,当需要启用备用系统时,可以通过主备倒换操作启用沈阳2 备调中心备用系统,有关主备倒换的详情请参见备份系统分析。在沈阳总调中心的控制网内部署两台IBM 小型机,用于担任数据库服务器。两台小型机部署为双机集群模式,通过IBMHACMP 软件来实现集群的资源管理与状态切换。正常应用时,两台服务器的数据库中仅有一台运行,另一台处于在线热备状态。当一台数据库服务器宕机时,HACMP 会自动将宕机服务器的IP 地址、外接存储等系统资源迁移至备用服务器,并自动启动备用服务器上的数据库,继续提供服务。除此以外,在沈阳2 备调中心还部署同样结构的两台数据库服务器,当沈阳总调中心出现故障时,可通过启用沈阳2 备调中心控制网数据库服务器继续提供服务。有关其它软件可靠性设计,可参考备份系统功能分析部分[3]。
5 结 语
通过以上综合分析,辽宁省大伙房水库输水工程信息自动化系统网络系统建设在数据存储系统的功能性和可靠性上来看,该数据存储系统的配备设备和网络处理具有可行性,是输水工程信息自动化的关键环节,起到着关键性作用,为该输水工程有效解决辽宁省中部地区6 个城市供水问题,促进辽宁省中部地区经济社会发展起到基础保障作用。
[1]贺杨.石佛寺水库3G 视频监控系统设计与实现[J].中国水能及电气化,2014(04):50-53.