APP下载

重要网络信息系统可靠性技术研究

2020-07-07张昊贺江敏

电子产品可靠性与环境试验 2020年3期
关键词:网络系统信息系统可靠性

张昊, 贺江敏

(工业和信息化部电子第五研究所, 广东 广州 510610)

0 引言

当前5G 网络、 数据中心等新型基础设施建设的洪流奔涌在即, 大数据、 云计算、 区块链和人工智能等前沿技术的运用推动了城市管理手段、管理模式和管理理念的创新, 使得物联网、 大数据和云计算等技术在智慧城市、 智能电网和工业生产系统等领域中得到了较广泛的应用, 让城市、工厂乃至社会变得更智慧, 大大地提高了经济效益和社会效益。

同时我们也应该看到, 网络信息系统作为政府机构、 企事业单位的业务运行和数据存储的重要载体和基础设施, 其自身的高可靠性保障成为这些单位业务连续性的重要决定因素, 一旦发生系统故障, 不仅会造成存放在其中的业务数据丢失和业务连续中断, 同时也有可能上升为公共安全事件。 例如: 2017 年5 月27 日, 英国航空公司因供电事故引起全球电脑系统、 呼叫中心和网络出现故障, 导致该公司取消了所有自希斯罗和盖特威克机场起飞的航班, 造成大量的乘客在伦敦希斯罗机场等待了数小时[1], 那些在云端的信息系统发生故障、 出现问题时, 造成的影响和后果将会更大一些; 2018 年6 月13 日, 上海市医疗保险信息系统发生故障, 对上海市各个医院的医疗保险实时结算造成了影响, 病人无法使用医保卡挂号和结算, 只能是要么选择等待, 要么就自费挂号并支付, 现场人工窗口排起了长龙, 严重地影响了市民的就医行动[2]; 2019 年3 月, 阿里云突发大规模宕机故障, 腾讯云因网络运营商的光纤线路大面积故障导致多个产品出现大规模宕机,均造成云上运营的很多业务受到较大的影响, 带来了较严重的损失。

所谓可靠性, 指的是产品或系统在规定的时间内, 在规定的条件下, 完成预定功能的能力。可靠性是保障业务安全运行、 保证服务质量的一个关键指标, 但是, 在网络信息系统组成复杂、云计算服务越来越普及的今天, 要确保不发生故障, 几乎是不可能的。 因此, 加强通信、 能源、金融和电子政务等关键信息基础设施, 在尽可能短的时间内恢复业务, 降低或者消除业务中断带来的严重损失, 在当前“互联网+” 背景迅猛发展的形势下尤为迫切, 研究和保障网络信息系统的可靠性具有十分重要的现实意义。

1 国家网络安全法律法规标准提出的可靠性要求

1.1 《中华人民共和国网络安全法》

《中华人民共和国网络安全法》 第七十六条明确了“网络安全” 的定义, 是指通过采取必要的措施, 防范对网络的攻击、 侵入、 干扰、 破坏和非法使用, 以及意外事故, 使网络处于稳定可靠运行的状态, 以及保障网络数据的完整性、 保密性和可用性的能力。

网络安全法第十条、 第二十一条、 第二十二条、 第二十五、 第三十一条、 第三十二条、 第三十三条、 第三十四条、 第五十三条、 第五十四条、第五十五条和第五十八条, 从网络安全等级保护、关键信息基础设施重点保护、 制定网络安全事件应急预案、 网络安全风险评估和网络安全事件处置等方面, 要求采取技术措施和其他必要的措施,确保其具有支持业务稳定、 持续运行的性能, 保障网络系统安全、 稳定运行, 有效地应对网络安全事件, 维护网络数据的完整性、 保密性和网络系统的可用性。

1.2 网络安全等级保护标准

依据GB/T 22240-2008 《信息安全技术 信息系统安全等级保护定级指南》, 网络信息系统安全包括业务信息安全和系统服务安全, 由业务信息安全和系统服务安全两个方面确定系统的安全保护等级, 业务信息安全是指确保信息系统内信息的保密性、 完整性; 系统服务安全是指确保信息系统可以及时、 有效地提供服务, 以完成预定的业务目标。 系统服务安全受到破坏后, 可能产生的危害后果主要包括: 影响有关人员行使工作职能、导致业务能力下降、 引起法律纠纷、 导致财产损失和造成社会不良影响, 以及对其他组织和个人造成损失等。

《信息安全等级保护管理办法》 (公通字【2007】 43 号) 和GB/T 22240—2008 《信息安全技术 信息系统安全等级保护定级指南》, 从信息系统对国家安全、 经济建设和公共利益等方面的重要性, 以及信息系统被破坏后造成危害的严重性角度对信息系统确定等级。 网络安全等级保护定级方法流程示意图如图1 所示。

网络安全等级保护基本要求中A 类(系统服务安全) 和G 类(通用安全) 要求, 用于保护系统的可靠性和数据的可靠性属性。 以正在实施的GB/T 22239-2019 《信息安全技术 网络安全等级保护基本要求》 中3 级信息系统为例, “安全通信网络” 分类中的“网络架构” 安全控制点属于G类, 主要要求包括: 应保证网络设备的业务处理能力满足业务高峰期需要, 应保证网络各个部分的带宽满足业务高峰期需要, 应提供通信线路、关键网络设备和关键计算设备的硬件冗余, 保证系统的可用性等; “安全计算环境” 分类中的“数据备份恢复” 安全控制点属于A 类, 主要要求包括: 应提供重要数据处理系统的热冗余, 保证系统的高可用性。

1.3 网络安全事件应急预案

2017 年6 月, 中央网信办公布了《国家网络安全事件应急预案》, 明确地定义了网络安全事件, 涉及到可靠性领域, 明确地规定“重要网络和信息系统遭受特别严重的系统损失, 造成系统大面积瘫痪, 丧失业务处理能力”, 将被确定为特别重大的网络安全事件。

工业和信息化部于2007 年11 月印发的《公共互联网网络安全突发事件应急预案》, 以较大网络安全事件为例, 在可靠性方面主要包括: 一个省内大量的互联网用户无法正常上网、 在省内有影响力的网站或平台访问出现严重异常和网络病毒在一个省范围内大面积爆发等。

2 影响网络信息系统可靠性的原因分析

造成网络信息系统可靠性问题、 导致网络信息系统发生故障、 造成服务中断的原因主要有以下5 大类: 计算机硬件问题、 软件问题、 网络问题、 存储问题、 管理差错问题、 设施冗余不足问题和环境条件等。

a) 计算机硬件问题

硬件失效是最常见的网络设备故障之一, 网络信息系统越复杂, 网络构成的设备越多, 其平均无故障工作时间(MTBF) 就越低。 例如: 一个由多台服务器实现复杂功能的庞大系统出现故障的几率要高于只用单台服务器实现简单功能的系统。 另外传输介质也易发生故障, 作为传输介质的光纤和电缆对系统可靠性的影响甚至大于设备和一些环境因素的影响。

b) 软件问题

软件的失效会造成网络设备、 计算机和服务器等系统性能下降、 部分业务中断、 甚至整机瘫痪。 应用软件研发的更新周期越来越短, 使得软件在发布之前没有足够的时间来测试其可靠性,软件开发商在开发过程中更多关注功能实现, 对可靠性方面考虑得较少。

c) 网络问题

网络问题有: 线缆、 连接器或网卡损坏, 集线器、 网桥或路由器的模块出现故障等。

d) 存储问题

数据存储故障的最主要原因是硬盘问题, 工作于温热状态下的存储设备的实际MTBF 值要远低于冷却条件良好的工作环境下的MTBF 值, 频繁的磁盘搜索和经常性的磁盘位置变动都会降低存储设备的使用寿命。

e) 管理差错

网络管理员对某些处理过程缺乏了解或没有给予足够的重视, 在硬件和软件安装和配置中发生的差错等都属于管理差错。 在涉及数据安全问题时, 人为不规范操作是造成很多重大损失的起因, 网络信息系统管理人员的维修保障能力有待提高, 管理员为了日常管理工作的方便, 往往以牺牲部分安全性、 可靠性的保护措施为代价, 从而造成各种管理差错。

f) 设施冗余不足

网络信息系统建设初期, 由于业务应用较少、应用的实时性要求较低和对投资方面的综合考虑,只是对网络中关键设备的关键模块作了冗余配置,对关键设备和关键链路未作冗余, 因此网络中存在很多单点故障隐患, 可使网络部分阻断, 甚至全部阻断。 另外, 有的网络设备已经运行了好多年, 设备的稳定性下降, 设备的故障率增大, 因此网络的稳定性也会下降。

g) 环境条件

设备所处的环境条件会影响设备的可靠性,例如: 设备所处环境的温湿度, 将影响设备的性能; 空气干燥引起的静电问题可能造成设备损坏;复杂的电磁环境可能会导致数据传输错误; 电力供应不稳定、 断电会导致系统不可用等。

3 网络信息系统的可靠性设计

提高网络信息系统的可靠性是通过容错技术来实现的。 容错技术, 就是在系统结构上通过增加冗余资源的方法来掩盖故障造成的影响, 使得即使出错或发生故障, 系统的功能仍不受影响, 仍能够正确地执行预定任务。 因此, 容错技术又被称为冗余技术或故障掩盖技术, 它是用冗余资源来换取高可靠性的方法。

网络信息系统的高可靠性一般在系统、 组件、链路和业务应用4 个级别上实现。

a) 系统级的高可靠性要求网络拓扑必须有冗余节点和备份设计, 例如: 在一个网络节点上配置多台交换机并指定其中一台为主交换机, 然后通过VRRP 技术使得其余多台交换机均作为主交换机的备份; 另外, 尽量地通过不同线路, 不同机房的设备来组环, 这样可以避免常见的线路故障和电源故障对系统的影响。

对于云计算数据中心, 网络可靠性设计体现在适当的冗余性, 一般采用双节点、 双归属的架构来实现网络结构的冗余和对称。 核心/接入交换机采用横向虚拟集群技术, 2 台设备冗余部署; 防火墙采用成对部署, 采用双机热备技术, 所有的访问控制策略、 会话都实时同步。

b) 组件级的高可靠性着眼于网络设备自身,要求网络设备具有冗余部件和热备份机制, 例如:需要配有双电源、 双主控之类的备份组件。 以交换机和防火墙为例, 主控板、 交换网板、 电源和风扇等关键部件全冗余, 所有的模块支持热插拔, 设备控制平面、 数据平面和监控平面完全隔离, 以提高系统的可靠性。

c) 链路级的高可用性要求传输线路必须有备份, 提高链路的可靠性往往通过链路的冗余设计来实现, 设计一条主链路和一条备链路, 如果主要数据的通路中断, 则备用线路将迅速启用, 链路冗余在技术上体现为链路聚合技术、 STP/RSTP/MSTP 等。

虚拟路由冗余协议(VRRP) 是一种容错协议,它能够保证当主机的下一跳路由器坏掉时, 可以及时地由另一台路由器来代替转发工作, 从而保持通讯的连续性和可靠性。

d) 从业务层面来看, 网络设计支持双活架构,业务应用通过负载均衡设备来实现业务流量的灵活调度。

4 网络信息系统的可靠性仿真

在当今信息时代, 多种类型的网络趋向融合,用户业务需求增多, 网络负载繁重, 单纯地依靠经验进行网络的规划和设计, 已经不能适应网络的发展需要。 另外, 许多网络问题在使用阶段才出现,如果在早期设计阶段没有考虑网络使用阶段的问题, 可能需要重新修改设计, 造成不必要的返工,这必将大大地增加研发建设费用, 同时也造成了开展网络性能和可靠性分析工作的时间滞后问题。

网络技术开发人员在网络仿真平台上不仅能对网络通信、 网络设备、 网络协议和网络应用进行设计研究, 还能对网络的性能进行分析和评价。 它所提供的仿真运行和结果分析功能使开发人员能快速、 直观地得到网络性能参数, 为优化设计或做出决策提供更便捷、 有效的手段。 另外, 它通过在计算机中构造虚拟的环境来反映现实的网络环境, 模拟现实中的网络行为, 从而可以有效地提高网络规划和设计的可靠性和准确性, 明显地降低网络投资风险, 减少不必要的投资浪费。

以大型网络信息系统为例, 网络可靠性仿真目标与任务主要包括以下几个方面的内容。

a) 通过分析大型网络信息系统的骨干网组网方案、 网络系统性能和可靠性需求, 收集网络系统及设备技术数据, 利用功能强大的网络仿真软件及故障注入技术, 建立综合考虑系统运行性能和可靠性、 模拟系统实际运行状态。

b) 通过对组网方案的性能与可靠性仿真分析,确定网络是否满足使用性能和可靠性要求, 全面了解与统筹控制网络性能与可靠性, 辅助进行网络规划设计决策。

c) 依照大型网络信息系统的专网建设运行的不同阶段, 实行多阶段仿真, 并根据仿真结果, 针对各阶段发现的网络系统存在的问题和不足, 给出改进建议及优化设计措施, 从而优化系统性能、 提高系统的可靠性, 确保系统的高稳定性、 高可靠性、 高冗余度和快速响应等服务能力, 为用户提供稳定、 可靠的通信服务。

网络系统拓扑结构及网络可靠性仿真模型如图2 所示。

5 建立业务连续性管理体系

GB/T 30146-2013 《公共安全 业务连续性管理体系 要求》 中对业务连续性管理体系(BCMS) 的定义为: 用于建立、 实施、 运行、 监视、 评审、保持和改进业务连续性, 是一个组织整个管理体系的一部分。

对于重要网络信息系统单位, 建立业务连续性管理体系的目的在于通过实施和运行可靠性、 维修性和保障性等控制措施, 提升应对网络系统中断事件的整体能力,从而保障当重要业务发生故障、 导致业务中断后, 在规定的时间内将重要业务从中断事件中进行恢复。

对于重要网络信息系统,要组建一支业务连续性管理团队, 确定在系统故障、 灾难事件发生时与发生后相关人员和团队的角色与职责,明确网络信息系统可靠性指标, 建立高可靠的网络信息系统, 配置相应级别的灾难恢复资源要素作为后盾, 在灾难事件发生后可通过备用系统实现应用容灾和业务接管, 保障应用系统和业务的连续不中断。

6 提高服务等级协议水平

服务等级协议 (SLA:Service Level Agreement), 是指为保障网络系统服务的性能和可用性, 服务提供商与用户间定义的一种双方认可的协定。 对于一些社保公积金、 网上办事大厅等政府网站和重要信息系统, 至少能做到99.9, “9” 越多, 则代表全年服务可用时间越长,服务越可靠, 停机时间越短。系统服务可用性越低, 意味着造成的影响和损失越大, 如果是在特别重要的时刻, 或许就在某一分钟, 可能就会因为网络系统发生故障、 系统不能提供服务而丢掉一笔大的订单业务或者某项重要事务无法完成。 因此, 在网络信息系统保障中,规划和设计系统可靠性, 尽可能地提升SLA 可用性才能最大化地提高网络系统的生产力。

7 结束语

造成网络信息系统可靠性问题的原因有很多,例如: 风险意识和安全意识薄弱、 领导不重视、技术不到位、 人员缺乏和管理制度不落实等。 只有依照国家网络安全法的规定, 在开展网络安全等级保护、 风险评估等工作中注重做好可靠性保障, 建立业务连续性管理体系, 加强网络系统的机房(数据中心)、 硬件、 软件及其数据的保护工作, 确保重要数据不受偶然的或者恶意的原因而遭到破坏、 更改或泄露, 才能保证网络信息系统连续、 可靠、 正常地运行。

网络信息系统可靠性保障是一项长期的工作,应加强网络信息系统可靠性测评方法研究, 充分地利用网络仿真技术, 做好重要网络信息系统的可靠性规划、 设计和评估等基础工作, 为网络安全保障工作提供强有力的支撑, 推动我国网络安全保障体系的建设。

猜你喜欢

网络系统信息系统可靠性
基于AK-IS法的航空齿轮泵滑动轴承可靠性分析
某重卡线束磨损失效分析与可靠性提升
讨论如何提高建筑电气设计的可靠性和经济性
医疗器械可靠性研究现状与发展趋势
2022年信息系统与运营管理专栏征稿
网络建设中存在的问题及对策研究
基于排队论的信息系统装备维修保障效能分析
基于并行构件技术的医疗信息系统的设计与实现
汽车网络系统故障诊断与检修技术的问题与对策探讨
基于同态加密的垃圾邮件过滤方案设计