APP下载

构建BOSS多层次多角度的网络与应用性能分析系统

2010-06-13罗2决亮方案

科技传播 2010年14期
关键词:应用服务性能指标时延

罗2 解 决亮方案

中国联通宁夏分公司物资采购与管理部,宁夏银川 750010

构建BOSS多层次多角度的网络与应用性能分析系统

罗2 解 决亮方案

中国联通宁夏分公司物资采购与管理部,宁夏银川 750010

宁夏联通BOSS系统以银川为中心,覆盖宁夏全省,其业务涵盖了计费、结算、账务、业务管理、客服等方面。如何从整体上保障BOSS业务系统高效运行,对于提高全省联通服务水平、管理水平和经营决策水平意义深远。

BOSS;网络 ;应用性能

1 需求分析

宁夏联通BOSS系统以银川为中心,覆盖宁夏全省,其业务涵盖了计费、结算、账务、业务管理、客服等方面。如何从整体上保障BOSS业务系统高效运行,对于提高全省联通服务水平、管理水平和经营决策水平意义深远。

宁夏全省BOSS系统运行在负载均衡层面、WEB层面、中间件层面和数据库层面的四层系统架构下,由各个设备厂商维护自己的设备;过去当联通管理层接收到BOSS系统访问“慢”的反馈时,各层面的维护人员都可以证明自己的设备没有问题,比如CPU、内存利用率都正常等的信息,这样各层面独立分析的情况必将导致问题的排查进入到迂回的僵局中;

为了能站在网络的角度,从整体上对BOSS系统各个层面的性能进行监控分析,从技术手段上保证网络和应用的可视性、预防问题的出现,提高IT工作人员的生产率,具体来说,包括以下几个方面:

1)对网络与应用性能提供全面深入的可视性,快速排障

(1)从多个角度监控BOSS系统架构中每一层面的应用服务响应水平,呈现关键性能指标,客观评估用户体验在各个层面的反映;

(2)从宏观整体到微观个体区分网络响应与应用响应的时延,快速判断故障根因;系统提供易用快捷的操作方式,能够直接在视图上进行关联分析,不需要管理员多次输入查询条件就得到分析结果。

2)通过历史基准与周期对比实现故障预防

(1)为BOSS系统各个层面建立历史基准模型,为实现故障预防提供可靠依据;

(2)提供每一层面网络流量水平与应用响应时延的周期对比,随时监控系统调优前后的KPI变化,客观评估网络与应用改造成效。

3)智能告警并提供证据,对影响性能指标的相关因素进行关联分析,提高工作效率

系统提供流量水平与响应时延水平的智能告警并提供导致告警的证据,对影响性能指标的相关因素进行关联分析,体现客户数、连接数与服务器响应时延的关系。获得网络与应用的实时视图和报纸格式的历史报表。

2 解决方案

在项目第一期,BOSS营帐系统在宁夏全省数据中心部署了一套网络与应用性能分析系统,包括一台内置存储的硬件探针与一套管理软件。如图所示,在省数据中心的思科网络交换机同多个不同的应用服务器相连接。通过交换机端口镜像,探针采集应用服务器流量,在混合的流量当中可以把负载均衡、WEB、中间件与数据库各个层面的流量进行区分并单独进行分析;探针定时将各种性能参数传送给管理软件,管理软件将这些分析数据综合整理并加以分析。网络管理人员可以随时随地地通过WEB浏览器

3 使用经验

传统的仪器仪表型工具,其特点是紧急式的反应工具,通常是等有故障发后才接入网络进行分析,由于缺乏历史数据,无法重现偶发的故障现象,更不能建立历史基准,通过周期对比实现故障预防,另外,在分析数据呈现方面,也很难真正做到客户化、层次化。

在项目第一期部署的网络与应用性能分析系统,虽然仅包括了一台硬件探针与一套管理软件,但基本上满足了本文需求分析提到的多项具体功能,由于一套管理软件可支持多台硬件探针,因此可以按实际需要增加部署硬件探针的数量。

接下来,结合实际的工作需要,介绍我们对BOSS营帐系统进行网络与应用性能分析的经验案例:

1)从多层面分析网络与应用性能表现,提供全面的可视化

(1)同时在每一层面中区分网络响应时延与应用响应时延,快速判断故障根因;

(2)从多个角度监控应用服务响应水平,呈现关键性能指标,客观评估用户体验;

我们先说明如何区分网络响应时延与应用响应时延,以及历史性、多角度报表所能够体现的作用;

09年底某天宁夏银川BOSS运维部门接到营业厅用户反映,说感觉访问业务系统慢,宁夏

网盟的工程师通过网络与应用性能分析系统,快速定位至在WEB与中间件交互过程中出现了异常,通过报表,得出这样的一个结论:在“只有10.243.xxx.3这台WEB服务器访问中间件层面的网络交互过程出现问题”;因为所有的WEB服务器放置于同一网络架构中,各台WEB服务器性能表现跟历史同期比较完全正常,只有这台服务器访问中间件层面的服务器过程出现异常,因此毫无疑问的是这台WEB服务器自身的问题导致网络交互的异常出现,进而导致该WEB服务器负载区域的用户感觉到“慢”;得出结论后告知这个设备的厂商,提供以证据,厂商针对证据的表现,快速给出方案解决问题;从①接收问题;到②定位至WEB层面;再到③定位至某台WEB服务器;这个过程不超过5min,因为所有层面的信息都在一个系统中反映,比起从前“接收问题后,通知各个层面的厂商让其各自找问题,各层面的厂商通常强调自己没有问题,需要联通公司经过反复讨论验证,才能定位问题的根源”这一模式,大大地提高了解决问题的效益与运维管理水平;

2)从多角度分析每一层面的应用服务水平,提供深入的可视化

接下来,我们再阐述如何从多个角度监控应用服务响应水平,呈现关键性能指标,客观评估用户体验:

BOSS业务每一层面的交互中包括有多种应用服务,每种应用服务又包括多台服务器,因此,我们首先在各个层面需要获得一个能够体现全局的所有应用服务性能的概貌(同时还要了解该应用影响用户体验的关键性能指标),然后从这个概貌关联展开分析每个应用的每台服务器性能,再从特定服务器展开分析每台客户端的响应时延。

这些视图即可以通过自定义的方式自动呈现在工作台上,也可以通过应用服务的超时告警,以提供告警证据的方式呈现出来。

(1)应用角度

图2 WEB层面的业务应用性能参数

上图的报表中是针对WEB层面的所有应用服务的监控,包括所有应用服务的平均时延、峰值时延、响应次数、响应成功次数,每一种应用的关键性能指标(以HTTP举例),以及每一种应用服务在一天中不同时段,响应次数与响应时延随时间变化情况(以HTTP举例)。

(2)应用服务器角度

图3 WEB层面的应用服务器性能参数

上图的报表中是针对WEB层面的所有应用服务器的监控,包括所有应用服务的平均时延、峰值时延、响应次数、响应成功次数,各个地市访问每一台应用服务器的网络延迟和应用延迟(以10.243.210.113的HTTP应用举例),以及每一种应用服务在一天中不同时段,响应次数与响应时延随时间变化情况。

(3)客户端角度

图4 WEB层面的应用服务器性能参数

上图针对HTTP服务器10.243.210.113对每一台客户端的响应性能进行监控,包括每台客户端访问服务器的平均时延、峰值时延、响应次数、响应成功次数与响应失败次数;选取指定的客户端,可快速获得该客户端访问服务器长时间的性能曲线图,包括网络响应时延,应用响应时延,并从有问题的时间段直接提取数据包进行解码验证。

需要说明的是,这些视图即可以通过自定义的方式自动呈现在工作台上,也可以通过应用服务的超时告警,以提供告警证据的方式呈现出来。

该解决方案为宁夏银川BOSS营帐系统所提供的集中和易用的平台使用我们整个网络和应用的性能管理手段发生的质的变化,网络管理人员现在不仅在任何时候和地点都能获得丰富细微的实时与历史性能信息、摆脱了手工操作事倍功半的工作方式,而且可以定期发布各种客户化的报表报告,满足不同读者的工作需要,总而言之,提高了BOSS营帐系统IT工作人员的效率和生产率。

TP393

A

1674-6708(2010)23-0205-02

猜你喜欢

应用服务性能指标时延
全球卫星互联网应用服务及我国的发展策略
沥青胶结料基本高温性能指标相关性研究
国家不动产统一登记信息平台构建与应用服务
基于GCC-nearest时延估计的室内声源定位
基于改进二次相关算法的TDOA时延估计
FRFT在水声信道时延频移联合估计中的应用
储热水箱分层性能指标的研究进展
WebGIS关键性能指标测试技术研究
基于分段CEEMD降噪的时延估计研究
全国征集卫星应用服务解决方案