敏捷交付之终端出库能力优化
2021-03-08王苏利李玮周安琳陈志欣
王苏利 李玮 周安琳 陈志欣
摘 要:宽带业务很多都是倒装机,装维人员直接到用户家中安装宽带,开通后再反向生成开户订单,所以首先需要对光猫或IPTV在终端系统 (以下简称ONU) 出库,出库成功后,ONU系统会将光猫/IPTV的设备信息返回到前端资源系统,但有时会出现系统间调用超时,实际终端已出库,而资源系统没有收到ONU系统的返回信息,装维人员再次从资源系统点击出库报“该设备已出库”,导致业务卡单,不能继续施工,影响用户安装使用,本方案就是为解决该问题而制定的。
关键词:终端;接口;超时;能力优化
一、背景
装维人员在用户家中安装宽带,现场出库光猫或IPTV终端失败,总提示接口调用超时,再次出库终端,又会报“该设备已出库”,导致业务卡单,不能继续施工,影响用户安装使用,系统间调用超时问题已严重影响客户感知和一线使用人员感知,亟待解决。
二、原因分析
按照应用和网络两方面分析总结超时原因:
1、应用方面,分析业务量并不大,平均每天1万个请求左右,高峰期在1.5万,主机、数据库接口的配置完全能支撑万级的业务请求调用,并且在超时期间,主机CPU、内存较空闲,数据库没有长时间的锁,应用日志刷新正常。
2、网络方面,分析双方系统部署情况和调用流程
(1)部署情况:资源后端服务一共2台主机4套服务,部署在x.x.14.x网段的虚机上;ONU接口出库服务1
台主机2套服务,部署在x.x.26.x网段的AIX小型机上,不同的主机环境和网段,一个是小机,一个是虚机。
(2)调用流程:资源后端4套服务通过四层交换机负载调用ONU出库接口的2套服务。
(3)网络上通过双方互相ping地址,延时基本都是10ms以下,但实际的生产接口,之间调用都是大包,和
分析测试的场景还是有较大差异,故双方系统部署的网络和硬件环境需要进一步定位排除,双方系统目前部
署在不同的网段,经过了四层,所以為排除网络原因,尝试将双方系统部署在同一网段。
三、实施方法和过程
部署新环境复杂,需要时间,但一线业务因无法施工,影响用户安装使用,反应极其强烈,急需快速解决,经过讨论评审,计划分步实施,分二次实施优化。
1、第一次优化
重点实现,减少超时现象的发生频率,以及超时出现后,再次调用不再报错,改造方案如下:
(1)资源系统调用ONU超时时间由10秒改成20秒。
(2)资源系统做oracle表分析。
(3)资源系统增加日志请求和返回时间、SN/MAC、订单号等主要信息落表。
(4)第一次调用超时后,装维人员如果在资源系统再次点击出库调用,ONU系统判断相同的流水和SN,则认为是超时导致的二次重复请求,这种请求特殊处理,给前端资源系统直接返回成功和设备信息,不再返回报错,保证前端可以继续施工,不再卡单。
2、第一次优化后效果
资源系统、ONU系统按照方案分别完成改造并部署上线,经过两周的观察,问题得到有效缓解,虽然不能从根本上解决超时的问题,但经过此次改造,已基本不影响工单施工,超时现象减少,同时超时后第二次点击出库,也能成功进行终端占用,可以继续施工,不会卡单,不再出现在用户家无法装机的情况。
3、第二次优化
虽然超时后再次调用可以继续施工,但对于装维人员的使用和感知,还是不好,并且仍会出现超时现象,如果超时后,还需要装维人员二次点击出库,所以必须从根本上解决超时问题。此次解决方案的重点是尝试将双方系统部署在同一网段内,绕开四层,让资源系统直接调用ONU系统,经过分析评审,没有多余且可靠的小型机,资源系统无法重新部署,故新申请虚机,将ONU系统部署在新虚机上,同资源系统在同一网段。因为是新的环境,不仅需要程序改造,而且环境本身也需要修改和配置,优化时间紧,任务重,所以分工必须明确,如下:
(1)ONU系统评估影响,并修改程序参数、配置文件。
(2)平台人员评估并申请主机资源,如CPU、操作系统、存储等。
(3)协调申请新网络地址,与资源系统在同一网段内。
(4)完成以上资源准备后,新虚机上部署服务、程序移植,测试验证。
4、第二次优化后效果
程序部署上线后,经过一周的观察,问题得到根本解决,观察系统日志以及一线使用人员确认,已无超时现象发生,系统运行平稳。
四、小结
第一次优化是通过变相方案,解决了超时后引起的报错以及延长超时时间设置,并未找到根本原因,但这种解决方案能从一定程度上降低影响,保证业务可以继续施工,但最终在一个临界点上还会使问题集中爆发;第二次优化将2个系统的服务部署在同一网段,屏蔽了网络影响,问题得到彻底解决。