APP下载

移动智能网平台故障浅析

2014-08-27许薇陈元琴彭家红

中国科技纵横 2014年13期
关键词:智能网硬盘启动

许薇 陈元琴 彭家红

(中国联通南昌市分公司,江西南昌 330096)

移动智能网平台故障浅析

许薇 陈元琴 彭家红

(中国联通南昌市分公司,江西南昌 330096)

设备单磁阵硬盘故障导致整个磁阵存储失效,导致SCP与数据库库连接失败,智能业务触发业务阻塞,故障处理过程及故障原因进行分析。

智能网 签约 SCP 数据库 连接

1 告警信息及影响范围

08:00智能网平台SCP设备CP过负荷,告警属二级告警,智能网平台的SCP1与数据库连接状态正常,无异常告警,现场设备状态检查及设备运行指示灯正常,无告警指示,经测试影响部分用户做被叫接续,后续处理过程中影响5万用户业务使用。

2 处理过程

(1)经测试发现到一号通及彩铃的呼损越来越多,考虑到严重影响业务,基本处于业务全阻状态,在SCP设备上用ROOT用户执行su-zxin10命令,系统无响应。

(2)查看系统发现有异常多归属zxin10用户的进程,正常运行时系统只有20个左右,但当时观察到有数百个。使用root用户执行强制停止并重启双机的命令,停止后双机无法启动。重启SCP1后双机仍无法正常启动,操作过程中观察到SCP2设备自行重启。

(3)查看设备运行状态,与其连接磁阵设备无任何指示灯告警。多次尝试SCP设备和数据库进行重新挂接均失败,重新启动SCP后与数据库挂接仍旧失败,智能网平台所带业务全部中断,影响同振、一号通、彩铃业务正常使用,用户不能做被叫或彩铃不能正常播放,大约影响5万用户业务使用。

(4)多次尝试SCP设备和数据库进行重新连接均出现失败,中兴公司据此判断可能HP磁盘阵列原因导致连接失败,同时发现sybase数据库无法正常启动,建议检查磁阵。

(5)检查与SCP连接的HP-DS240设备,分析设备运行log日志,发现DS2405的1块硬盘有报错,vgsybase无法激活,与SCP无法挂接判断原因一致。

1)/var/opt/resmon/log/event.log中DS2405 slot3槽位的硬盘c4t2d0每天在23:00-24:00左右报一次错,无影响业务。

2)/var/cmcluster/zxin10/zxin10.cntl.log 有业务进程IO报警进入sleeping状态,错误信息逐步累积,严重影响CP过负荷以致影响部分业务,直到6月4日早上,导致过多的进程占用了CPU和内存资源,系统临近崩溃。

(6)判断出故障后决定更换设备硬件,停业务更换了故障硬盘,存储恢复。业务可以在备机SCP2上正常启动,SCP2与HP-DS2405存储恢复访问,业务恢复。

(7)SCP1挂接数据库仍然失败,中兴及惠普工程师对SCP1与数据库连接失败原因分析,最终确定系统文件cron.allow文件丢失导致失败,重新装载数据后恢复正常,SCP2与HP磁阵正常连接。

3 原因分析

3.1 磁阵一块硬盘故障影响整个存储系统分析

HP-DS2405的一块硬盘导致存储访问异常进行了简单的分析,DS2405是低端存储,使用Arbitrated loop或Private Loop仲裁环。这种拓扑的特点是“串行”的,即所有的设备都串在这个环上,同时只有2个port可以通信,而且只有抢到“仲裁权”的port可以通信。这是一种低级别的拓朴,缺点是如果同一个loop上的一个设备损坏,其他设备就受到影响。

DS2405设备每1块硬盘盘实际上都是这个Loop上的1个设备。此次硬盘故障怀疑是硬盘故障点影响了仲裁功能,但还没有彻底损坏,并没有被DS2405标记为坏盘,导致与SCP设备连接状态正常,但是设备负荷过大导致业务处理能力下降。

1块硬盘故障时其他盘的访问并没有受到影响,业务受到影响是因为过多的进程因为此故障盘IO异常进入sleeping状态,占用了过多的CPU和内存,导致业务异常。

3.2 SCP1启动异常原因分析

SCP1上启动异常是cron.allow文件丢失导致,cron.allow文件文件是crontab即hpux下的“计划任务”使用的文件,其中规定了可以执行crontab的用户列表,只有在这个列表里的用户才有权限执行crontab。HPUX操作系统本身用不到crontab,默认这个文件是空的。启动脚本会切换用户并调用crontab,但在查看cronallow时文件丢失,所以业务用户无法执行crontab启动失败。

cron.allow只会在启动时被查看,crontab计划任务运行后就不再查询cron.allow,作用类似汽车上的“启动机”,所以如果在运行中删除不影响业务。

4 总结及建议

(1)HP-DS2405已经在网运行10年,稳定性和冗余性已经无法满足重要业务的需要,建议对硬件进行更新升级, 搭建容灾存储,实现容灾存储同步,故障时倒换到容设备。

(2)完善HP-DS2405备份策略,缩短用户数据备份周期,把智能网和HLR用户数据全备份,1周1次备份,做好数据分类以便应急使用。

(3)加强设备告警巡视及设备log日志的分析,故障隐患及时处理。

猜你喜欢

智能网硬盘启动
HiFi级4K硬盘播放机 亿格瑞A15
Egreat(亿格瑞)A10二代 4K硬盘播放机
5G赋能智能网联汽车
智能网联硬实力趋强
迎战智能网联大爆发
雾霾来袭 限产再次启动
安发生物启动2017
我区电视台对硬盘播出系统的应用
基于SJA1000的CAN总线智能网桥设计
俄媒:上合组织或9月启动扩员