曙光机群在生产运行中注意的操作问题及对策
2016-05-30张悦赵雨晴郭金荣
张悦 赵雨晴 郭金荣
摘 要:曙光机群服务器采用的是LINUX系统,LINUX系统是针对地震数据处理设计的操作系统,操作命令采用字符操作,设备也采用字符命令,操作不谨慎就会造成预想不到的后果,要么处理的地震数据丢失,要么机群系统瘫痪,崩溃,死机,生产期间服务器7×24小时工作,因此服务器放置的环境很重要,符合标准存放环境有助于服务器的稳定运行,机群服务器系统运行维护只有在软件和硬件的双重保障下才能正常稳定地运行,故而机群操作维护需要特别小心严谨。
关键词:服务器;LINUX系统;系统维护;小心严谨
1 前言
近年来,中石化逐年减少内部勘探工作任务。随着国内外勘探市场的竞争日益激烈,国内各大油田的物探研究中心地震数据处理设备的硬件也随之升级,曙光机群代表着目前最先进的地震数据处理设备在国内外勘探市场大显身手,在竞争日益激烈的国外市场脱颖而出,与一般的办公生产电脑使用的WINDOWS操作系统不同的是,它采用的是LINUX系统,操作全部采用键盘批命令操作,LINUX系统是针对地震数据处理设计的操作系统,操作命令采用字符操作,设备也采用字符命令,地震数据处理员必须按照linux指令严谨操作,因为一不小心误敲错字符指令,就会造成预想不到的后果,要么处理的地震数据丢失,要么机群系统瘫痪,崩溃,死机,重新运行需要厂家高级专业技术人员操作7~8天,严重影响生产运行,故而在实际生产运行中,系统运行维护需要特别小心严谨。曙光机群如图1所示。
1.1 系统概况
本集群共32节点,存放于曙光4000A机柜,包括4台TC2600刀片服务器(共32个刀片),以及一台NAS存储,网络设备包括D-link、Force10。本集群包括两套网络,一套连接D-Link的管理网,另一套连接Force10交换机交换网。高性能计算节点要由3台TC2600刀片服务器。TC2600使用Blade CB60-G刀片,每节点24GB内存,6颗计算核心。每个充当集群的计算资源。由管理节点负责统一调配。
1.2 机架装配布局图
服务器安装在1个曙光4000A机柜中,NAS存储设备和Force10安装的1个4000A机柜中。服务器在机柜中均由导轨固定,可以根据需要灵活抽出。
1.3 节点装配位置图
cat可以查看文件内容,它的作用是连接一个文件或多个文件输出结果,默认是显示一次,一屏显示more,只能向后翻,less可以前后翻屏。
Wc统计文件中的单词、行和字符,-w-l-c可看字、行、字符。
File 确定文件类型。
链接link是对一个文件或目录的引用。
2.5 设备管理
每个设备都有一个major(主要的)号和minor(次要的)号,设备可能是字符设备,也可能是块设备。
设备类型:字符设备,以c表示其文件类型,数据传输一次一个字符。
3 曙光机群在运行中常见的故障
曙光机群在运行中出现的故障分为两种:软件故障和硬件故障。
软件故障一般是由于操作人员不熟练Linux操作命令,误操作引起服务器运行不畅或死机。常见的有以下几种:
(1)错误设置用户权限。
设置用户权限应为777(权限全部放开),服务器才能开启运行
#chmod 777/home/download
(2)系统启动时,需要挂载分区必须设为1,而且整个fstab中只允许出现一个1,否则系统不运行。
(3)配置文件里必须有mark地址(网卡的物理地址),修改了不生效,服务器功能开启不了。
(4)节点服务器开机电压不稳定,系统不运行,一般是服务器电池到了使用年限(一般2年),必须更换电池。
例如 [root@bnodel9-]#data(看系统运行当天时间)
[root@bnodel9-]# uptime(看系统运行多少时间)
(5)误操作轻易更改服务器IP地址,一般遵照出厂时设置的IP地址固定不变。
硬件故障一般是由于操作人员粗心导致,常见的有以下几种:
①插拔网络线和服务器连接线不紧密,造成连线松动,误踩光纤线,造成光纤线内部断线。
②带电插拔服务器,不按照曙光机群运行操作规定运行服务器,造成服务器主板硬件损坏。
③夏季遇到停电,系统运维员没有及时关机,造成机群运行温度超标,烧毁服务器。
4 曙光机群在实际运行中的对策
在日常工作中,管理员可对服务器硬件及操作系统进行简单的日常维护,如遇到棘手问题,管理员可向曙光公司申请技术支持。
4.1 运行环境要求
服务器7×24小时工作,因此服务器放置的环境很重要,符合标准存放环境有助于服务器稳定运行,可以轻松地达到甚至超过实际寿命:
(1)减少机房进出人流量,机房保持干净环境,定期打扫机房;
(2)机房应处于封闭状态,室内温度应保持在22摄氏度左右;
(3)机房做好防雷设施,和UPS供电,电源需要接地;
(4)机房一定要做定期巡检,检查是否有声光报警,建议每周2次。
4.2 常见事项
服务器日常运行中出现硬件故障,基本都会有报警音提示,主要集中在RAID卡和电源报警。
服务器采用的是热插拔硬盘,但是服务器正常运行时是不允许对硬盘进行插拔操作的,特别是做了RAID。
电源模块出现故障时,服务器会有报警音,管理员观察电源模块的指示灯是否处于绿灯常亮状态,如果指示灯熄灭或指示灯变成红色,可以将该模块电源线和模块重新插拔,如果仍然处于熄灭状态则需要更换模块。为避免静电或其他因素,建议在非紧急情况下,关机进行模块的插拔,以保护服务器其他硬件设备的安全。不要自行开盖维修电源模块。
服务器硬盘通过RAID卡与主板连接,在日常运行中,意外断电或频繁的I/O读写会导致RAID中所属硬盘产生物理或逻辑掉盘。如果出现RAID掉盘的情况,管理员应第一时间将服务器内的数据进行异地备份,以保证数据安全,同时应联系集成商或者拨打曙光报修电话,以便及时修复,避免数据丢失。
5 曙光机群服务器生产运行的特别警告
作为Linux系统管理员,面对的服务器是并行的节点集群,而不是自己的个人独立计算机,所以在日常管理工作中一定要养成严谨的习惯。
养成备份的习惯
服务器上跑的数据是非常重要的,一定要注意数据的安全。一定要记得备份数据,否则,一旦出错您会后悔死。
root相当于Windows里面的adminstrator,它任何权限都有,所以为了避免引起不必要的事故,能用普通用户完成的任务,尽量不要使用root。
Linux系统操作人员使用了一段时间的Linux,会越来越熟练各种命令,敲命令的速度肯定也会越来越快。每个人都会有疏忽的时候,一旦敲错了命令那产生的后果是不可预知的。所以,还是慢点敲键盘吧,如果快也没有关系,但是敲回车键的时候一定要检查一下当前的命令是否是想要的。
参考文献
[1]何明,何茜颖.Linux培训教程[M].北京:清华大学出版社,2011.
[2]王加森,何大可.可扩展并行机群系统与曙光2000[J].计算机应用,2001,21(S1):270-271.
(作者单位:河南油田物探公司物研所)