用电信息采集系统营销接口故障分析与处理
2020-07-25张亚杰曹晓波韩桂楠
张亚杰,马 涛,曹晓波,付 龙,李 兵,韩桂楠
(1.国网河北省电力有限公司雄安新区供电公司,河北 雄安新区 071800;2.国网河北省电力有限公司营销服务中心,石家庄 050021)
用电信息采集系统营销业务接口(简称“营销接口”)承担了营销系统及采集系统间档案及数据的传输工作,实现了系统间营销业务的完整连接。如该业务接口在运行过程中突发故障,势必影响营销业务工作的正常开展,造成采集运维、远程复电、业扩报装等工作中断,及时定位营销业务接口故障原因、缩短故障持续时间在系统运维工作中极其重要。本文对用电信息采集系统营销业务接口业务流程进行了深入研究,并结合日常故障处理经验,得出了一套行之有效的故障排查流程与处置方法。
1 营销接口硬件设备
营销接口硬件设备主要由负载均衡设备、接口服务器、数据库服务器、REDIS服务器、后台服务器_、采集前置服务器、通信前置服务组成,以上设备相互合作共同支撑营销接口的业务流程。用电信息采集系统营销接口相关设备及功能,见表1。
表1 用电信息采集系统营销接口相关设备及功能
2 营销接口业务交互流程
营销接口的工作以工单的形式开展,具体工作流程如下:
a.营销系统完成相关档案的整合,并将数据推送至营销采集系统中间库;
b.通过Webservice的方式通知采集系统侧接口(即采集营销接口),调用相关接口服务,负载均衡设备将工单均衡的分配至各个接口服务器;
c.采集系统营销接口读取中间库档案及数据;
d.将档案及数据写入采集系统数据库,并开展档案校验、档案同步任务;
e.档案同步任务完成后通过Webservice反馈营销系统调试成功;
f.采集系统继续开展创建测量点、创建考核单元、配置任务、生成参数等业务环节;
g.参数生成完成后将参数写入Redis服务器,经由采集前置、通信前置服务器开展相关的参数下发任务,下发成功通知接口,下发失败则任务转入后台服务器排队,再由后台服务器发起相关的参数下发指令;
h.进行后续其他下发操作,并更新工单调试状态。
3 营销接口常见故障类型及场景
用电信息采集系统营销接口异常可以分为以下5种情景。
情景一:所有调试工单在完成营销系统侧流程后,调用接口服务一段时间后报错,采集侧未接收到相关工单,可以判断为调用接口失败,应该依次核查接口运行情况(含程序及硬件)、F5负载均衡设备(含程序及硬件)。
情景二:所有调试工单在完成营销系统侧流程后,调用接口服务立即报错,采集侧未接收到相关工单,可以判断为数据库接收档案异常,应该核查数据库运行情况(含程序及硬件)。
情景三:所有调试工单在完成营销系统侧流程后,调用接口服务一段时间后报错,采集侧已接收到相关工单,weblogic服务告警,可以判断为数据库死锁,应该对数据库死锁情况进行核查。
情景四:所有调试工单在完成营销系统侧流程后,调用接口服务一段时间后报错,采集侧已接收到相关工单,weblogic服务未告警,可以判断为营销系统接受采集反馈异常,应该对营销系统情况进行核查。
情景五:所有调试工单在参数生成异常及参数下发出现异常,则应重点考虑后台任务生成是否异常、REDIES运行是否异常、前置参数下发是否异常,因此需要重点一次排查后台服务器运行情况、REDIES服务器运行情况、前置服务器运行情况。
4 营销接口异常分析流程
经过对以上异常现象与故障原因的长期分析,可得出如下故障排查流程。具体流程示意见图1。
图1 用电信息采集系统营销接口故障排查及处置方法流程示意
a.首先发现异常情况,按照异常现象,判断属于哪种情景。
b.若属于情景一则依次核查接口(含程序及硬件)、F5负载均衡设备(含程序及硬件)是否正常工作。若发现某设备或程序存在异常立刻进行异常处理,处理完成后观察工单调试是否正常,恢复正常则流程结束;没有恢复正常,继续核查其他设备,直到所有设备均核查完成,但工单调试仍异常,则回到第一步重新判断属于哪种情景,依次向下进行。
c.若属于情景二则核查通数据库(含程序及硬件)是否正常工作。若发现该设备存在异常立刻进行异常处理,处理完成后观察工单调试是否正常,恢复正常则流程结束;没有恢复正常,则返回到第一步重新判断属于哪种情景,依次向下进行。
d.若属于情景三则核查数据库是否存在死锁,若发现异常及时进行异常处理。处理完成后,观察工单调试是否恢复正常,若正常则结束。若不正常,则返回到第一步重新判断属于哪种情景,依次向下进行。
e.若属于情景四则依次核查营销系统侧接口是否正常工作。若发现存在异常立刻进行异常处理,处理完成后观察采集工单调试是否正常,恢复正常则流程结束;没有恢复正常,则回到第一步重新判断属于哪种情景,依次向下进行。
f.若属于情景五则依次核查后台服务器及程序、REDIES 服务器及程序、前置服务器及程序,若发现某设备或程序存在异常立刻进行异常处理,处理完成后观察工单调试是否正常,恢复正常则流程结束;没有恢复正常,继续核查其他设备,直到所有设备均核查完成但工单调试仍异常,则回到第一步重新判断属于哪种情景,依次向下进行。
5 结束语
营销接口是营销系统的重要环节,对其常见故障进行分析并提炼出快速、高效的处理方法,对营销业务的顺畅流转具有重要的意义。本文从多个维度对营销接口故障排查进行分析与判断,首先确定营销接口的异常状态,再根据异常状态确定可能的异常位置,从而保证及时定位故障点,快速地对营销接口故障进行排查和处理,适用于大范围内营销接口工单故障的排查和处理。