政府部门外网运维管理研究
2012-08-14宋莹潘振祥王志勇
宋莹,潘振祥,王志勇
(河南省国土资源厅 信息中心,河南 郑州 450016)
目前,我国政府部门电子政务工作的重点已从大规模网络、平台、业务系统的建设阶段转向以深化应用、提升应用效益为主要特征的“运行维护”阶段[1]。承载电子政务系统运行的内部办公网络一般分为内网和外网两个相互独立的网络,内网承载政务系统的运行,外网一般不承载或者承载少量非核心的业务系统,与互联网相连。由于内网故障会直接导致政务审批工作的中断,所以,内网安全一直是网管员们关注的重点,外网运维管理一直放在次要的位置。但是,随着互联网应用的发展,外网的运维管理也越来越重要。
1 政府部门外网应用需求
外网应用的典型特征是要与互联网保持畅通,一边满足服务民众的需求,一边满足政府工作人员登录互联网的需求。
《中华人民共和国政府信息公开条例》自2008年实施以来,政府信息公开和政府门户网站建设成为各级政府部门很重要的一项工作,纳入岗位责任考核,并且不断提高考核要求。因此,各个政府门户网站信息公开内容越来越丰富,交互服务功能也越来越多。如国土资源行业,土地和矿产资源的审批公告要及时公布,土地使用权交易和矿业权交易必须提前公示,让申请人在规定时间内提出采购申请,时效性很强,各级国土资源部门已把这些公告和公示从传统媒体转移到门户网站,设定专门栏目予以发布。门户网站的交互功能也从原来单一的邮箱功能变成公众参与的诸多栏目,如在线咨询、在线访谈、网上调查、网上申报等[2],为民众提供更加便利的服务,体现政府的服务职能。
政府工作人员在工作中也越来越依赖互联网资源。撰写公文,需要在互联网上搜集信息,了解政策;日常办公,大量公文及管理工作资料也常常在本级或者上级门户网站公开,政府网站往往设计“管理工作”和“资料下载”栏目,方便工作人员下载使用;常常使用邮件、即时工具,和上下级、同行、业务支撑合作单位等保持沟通,传递一些不涉密的工作资料,加快推进工作进度。特别是,还有一些单系统业务数据也要通过互联网链路及时上报上级部门。
随着这些应用的拓展,政府部门外网一旦中断,门户网站服务器将不能再对外提供服务,给民众带来很大的不便,工作人员办公也会受到很大影响,因此,外网安全已逐渐和内网网络安全提到同样重要的位置,外网时刻与互联网保持畅通成为外网管理必须完成的一个任务。
2 外网运维管理体系
为了满足以上外网运维管理需求,我厅外网运维管理体系分为以下3个层次。
2.1 核心网络防火墙+网络客户端管理,保障网络基础安全
图1 网络运维管理体系图Fig.1 Network operation and maintenance management system
对网络划分多个安全域,增加网络访问控制来提高安全级别,实现内部网络访问的高安全性,目前技术最为成熟的专用网络访问控制设备就是网络防火墙。作为整个政府单位网络的第一道屏障,必须在外网部署防火墙功能,防火墙设备的性能需要参考外网带宽,以及应用要求,包括并发连接数以及每秒新建连接数指标等[3]。网络防火墙的接入实现有独立防火墙设备与交换机专用防火墙模块两种方式,防火墙模块安装在核心交换机模块扩展槽位,通过背板连接的形式与核心交换机各板卡间实现了高速通信,从而将核心交换机“变成”多端口的防火墙,转发性能超过专用的千兆防火墙。本方案采用交换机专用防火墙板,对服务器区域进行划分,分为管理服务器区和对外业务服务器区。
在管理服务器区架设一台服务器部署网络客户端管理系统,利用该系统,可以对客户端资源进行有效管理,对IP地址实施管理,定位人员和计算机;部署安全策略,实施网络接入控制,不合法的计算机不允许介入网络;实施网络访问控制,网络杀毒软件及操作系统补丁升级不及时则发信息提醒安装,甚至不允许登录网络。
通过核心网络防火墙和网络客户端管理系统,保障网络基础安全。
2.2 外网出口管理,实施互联网登录管理和流量控制
在互联网出口部署网络防火墙,负责网内用户上网的NAT转换,对进出外网的数据包进行过滤,过滤常见网络病毒,并实施门户网站服务器、FTP服务器等重要服务器的对外服务转换功能,以及对各服务器所提供的服务进行访问控制。在管理服务器区架设一台服务器部署日志审计系统,对出口流量进行审计,系统提供对多种网络服务(SMTP、POP3、WEB、FTP、DHCP等)的监视,满足国家互联网登录管理中的相关审计要求。目前,网络防火墙和日志审计系统已是互联网出口管理必备的设备。
随着互联网应用的发展,这样的管理手段已不能满足管理需要,网内用户不断抱怨网络登录速度慢,甚至常常出现不能登录现象,通过互联网向上级直报数据也往往无法登录。通过分析,原因主要是:1)登录互联网的用户增加,由原来的一个部门1~2台计算机逐渐变为每个人一台,网内用户约600人,在线用户也逐渐在增加,工作时间内在线用户常常保持在400~500人,而出口带宽经过扩容增加为100 M;2)P2P等无关业务占据了大量的传输资源,造成了其他应用的接入困难;3)对P2P等无关业务缺乏监测和管理手段,无法做到流量合理分配,单纯扩容造成资金成本提高,却无法从根本上解决问题。近来出现一些P2P封杀工具,但简单封杀并不是最根本的解决途径,同时P2P也是一种很不错的网络应用技[4]。如何有效地分析网络应用协议,合理规划带宽资源,才是最终的解决途径[5]。因此,我们在防火墙后增加一台专用流量控制设备,采用透明桥接方式串联在外网核心交换机与防火墙之间,保证所有进出流量可以管理。
根据实际情况,目前流量的分配如图2所示。
重要用户组:此组包含外网重点业务,如业务审批配号系统等的用户,优先保障;服务器组:此组包含外网WEB服务器等IT基础架构中需要进行带宽保证的各服务器;P2P组:此组进行P2P,流媒体等大流量应用的带宽合理分配,通过带宽限制保证不影响正常用户的互联网浏览等。
经过带宽扩容和流量调控,在测试期,经过不断的观察,收集反馈和优化,目前我厅互联网流量典型情况如图3所示。结合日常高峰时段流量分析,P2P流量得到合理限制,在兼顾P2P下载的同时,总流量无明显峰值,目前我厅互联网业务系统访问速度大幅提高,网站浏览流畅,P2P流量得到了合理分配,互联网登录的不同应用需求得到相应保障。
2.3 入侵检测系统+安全管理平台,保障网络故障的快速反应
图2 网络流量分配策略Fig.2 Network flow distribution strategy
图3 日常网络流量趋势图Fig.3 Daily network flow trend
在核心交换机以旁路方式部署一台IPS设备,它作为入侵防御系统可以识别并阻止恶意流量、蠕虫、病毒和应用程序滥用;提供智能化的威胁检测和保护;借助声誉过滤和全局监测,防止威胁入侵。
在核心交换机以旁路方式部署一台综合安全管理平台,全称为安全监控分析和响应系统(MARS)。此系统是一个威胁管理、监控和防御设备,将传统安全事件监控与网络智能、上下文关联、因素分析、异常流量检测、热点识别和自动防御功能相结合[6],自动实现威胁等级分析、网络攻击拓扑描绘、网络防御方案即时生成等功能,可以帮助准确识别和消除网络攻击。
设定IPS与 MARS联动,作为探测器为MARS服务,在核心交换机上做镜像端口,把需要检测的流量引入到IPS。确定MARS与IPS直接的链路是相同的,数据可以正常到达。
3 网络运维事件分析
2012年×月×日14:30左右,出现互联网访问困难,甚至出现部分Vlan全部无法访问外网。通过应用已部署的管理工具,逐步分析解决了这次故障,特别是近期部署的MARS为快速定位故障点起到了重要的作用。
3.1 简单定位,撤掉出口流量控制设备
接到用户电话后,分析故障现象,首先通过本地终端查找数据包传输中在哪个节点出现问题,操作步骤如下:
1)首先从终端PC机PING网关,链路通;
2)PING核心交换机的上连接口地址,链路通;
3)PING防火墙下连接口地址,出现大量丢包现象。
观察网络中设备状况,发现流控设备警告灯长亮,尝试登录流控管理界面,已经无法正常进入,故将流控设备撤除,使核心与防火墙直接互联,观察终端访问互联网络,发现问题消失,访问外网正常。
事后查询流量控制设备的统计报表,发现当时的流量已远超过日常的100~120 M总流量如图3所示,最高值冲到了180 M,如图4所示。
图4 故障期间流量趋势图Fig.4 Daily network flow trend during the fault
3.2 出口防火墙资源占用超高,核心交换机资源占用正常,传统分析方法陷入僵局
经过几分钟的使用后,网络再次出现大量丢包现象,继续查找问题所在。
通过上面排查现象,初步认为是外网防火墙的问题。直接使用PC与防火墙的MGMT管理口相连,使用PING管理地址验证链路互通情况,发现即使通过管理口相连,也会出现大量丢包现象,无法顺畅登录到防火墙的管理界面。根据此现象,怀疑防火墙的CPU与内存利用率占用过高导致无法正常运转。最后通过登录到管理界面(速度很慢),验证防火墙的利用率确实高达70%多。根据以上现象,结合部分Vlan完全无法访问外网,其他用户却可以访问的现象,初步认定是局域网中有病毒大量泛洪,导致网络瘫痪。
为了验证是否为病毒攻击,登录到核心交换机查看资源利用率,从telnet到核心,查看CPU与内存情况,截图如图5所示。通过查看发现核心交换机利用率并不高,这样就感觉病毒攻击引起的可能不是太大,如果为病毒泛洪,核心交换机的CPU和内存使用率也会居高不下。
3.3 应用MARS和客户端管理系统,找到了故障原因
为了进一步查找问题根源,使用了前期刚刚进入试运行的MARS及IPS传感器体系,通过查找问题发生时间段的MARS告警分析,有图6显示的信息。
图5 核心交换机资源利用率Fig.5 Core switch resources utilization
图6 故障期间网络拓扑图Fig.6 Network topology during the fault
根据图中显示,大量客户终端主机都通过某一台主机访问外部固定的公网地址。根据IP地址和客户端管理系统,查询到此主机为某处室人员使用,上楼查看,发现该处室大量终端同时都在访问某考试网站观看同一培训视频。综合以上故障现象,交换设备分析,并利用MARS系统的异常事件分析功能,排除了网络中大规模病毒爆发的怀疑,问题确定为多个用户同时访问同一网站的同一视频,造成流量控制设备先前策略无法定位,策略失效,引起带宽的大量占用,从而导致其他用户无法正常上网。
3.4 解决方法
登录离线状态的流量控制设备,更改限制单IP最大带宽额,分别调整为原始值的50%,保存配置。经过观察,网络使用情况恢复正常。且此策略下面对今后出现的类似应用,也不会造成流控或防火墙的过高负载。至此故障解决。
4 结 论
网络运维体系建设是一个不断适应和发展的过程。明确网络应用需求,选择合适的网络运维管理方式和技术工具,根据实际应用,配置恰当的策略,并随着应用的发展不断调整。
[1]运维管理体系的论述[EB/OL].http://wenku.baidu.com/view/fc54c1c608a1284ac8504381.html.
[2]河南省国土资源厅门户网站[EB/OL].http://www.hnblr.gov.cn/viewpage?path=/index.html.
[3]曾昶.政府外网优化设计实践 [J].通信与信息技术,2010(2):60-62.ZENG Yong.Optimization design of the outside network in government[J].Communication and Information Technology,2010(2):60-62.
[4]蔡一闻.浅谈如何优化高校网络运维管理[J].科技资讯,2009(10):31-32.CAI Yi-wen.How to optimize the operation and maintenance management in university network[J].Science and Technology Information,2009(10):31-32.
[5]吴京伟.大学校园网络运维体系研究[M].安徽:合肥工业大学,2009.
[6]安全监控分析和响应系统概览[EB/OL].http://wenku.baidu.com/view/5a54b10abb68a98271fefaac.html.