APP下载

浪潮服务器的创新应用

2020-11-05付喜春钟吉太刘洪海冯丽涛苏铁君

石油管材与仪器 2020年5期
关键词:驱动程序曙光浪潮

付喜春,钟吉太,刘洪海,孙 静,冯丽涛,苏铁君

(1.中国石油集团东方地球物理公司大庆物探研究院 黑龙江 大庆 163357;2.中国石油集团电能有限公司热电二公司 黑龙江 大庆 163411)

0 引 言

2018年大庆物探研究院购置了3台浪潮八路服务器[1],主要用于地震数据的处理和解释工作,在服务器上安装了Jason地震反演软件和GeoEast地震处理解释软件等应用软件。在用户使用Jason软件时,很多模块需要服务器独立图形卡的支持,否则无法显示正常运算的地震图形数据,而浪潮服务器初始配置没有独立图形卡,国内用户也没有在浪潮八路服务器上配置过英伟达高性能图形卡,所以,需要尝试加装并配置与该服务器兼容的高性能图形卡。同时,用户在把浪潮八路服务器和曙光PC集群联合使用GeoEast等其他地震应用软件时,浪潮八路服务器和曙光双路服务器存在时钟不同步的问题,地震资料处理用户作业无法正常进行,并且无法使用软件中定时发作业的功能。因此,同步两种不同架构服务器的时钟,是另一个需要解决的技术难题。本文针对浪潮服务器在生产过程中发生的两个疑难技术问题进行深入探讨。

1 浪潮八路服务器图形卡安装与配置

1.1 与服务器兼容图形卡的选型

大庆物探研究院购置的浪潮八路服务器型号为TS860G3,出厂标准配置中没有配置图形卡,经过查阅资料并与厂商工程师沟通,选择与TS860G3服务器可能兼容支持的图形卡:即美国英伟达公司生产的高性能图形卡,型号为Quadro K6000,显存容量12 GB, 该款图形卡之前只在双路HP工作站上安装使用过,能够精细展示三维地震油藏模拟图[2],而没有在包括浪潮、联想、曙光等国产八路高端服务器上安装和应用的成功案例。针对此图形卡在系统上进行如下配置。

1.2 Quadro K6000图形卡的配置方法

1.2.1 设置服务器BIOS中的QPI选项

在浪潮TS860G3服务器PCIE16倍速通道插槽上安装英伟达Quadro K6000图型卡后,启动服务器电源,大约等待5~10 min,屏幕上会显示出Inspur的Logo图标,在这个界面等待约15 s,在屏幕底部出现一个提示“Press [Esc] for Boot memu”时,按下[Esc]键,就能进入BIOS设置页面[3]。进入到BIOS中,选择Advanced菜单下的”QPI Configuration”选项,如图1所示[4]。

图1 QPI配置参数页面

在“QPI Configuration”菜单下选择第二项 ”QPI Per Socket Configuration”选项,如图2所示。

图2 QPI设置程序页面

进入到 “QPI Per Socket Configuration”菜单下,选择“CPU0”选项,如图3所示。

最后,把“Legacy VGA Socket” 选项改为“”,设置完成后,保存配置,重启服务器,在启动过程中要注意的是,服务器启动较慢,需要等待10~20 min才能在显示器上显示启动完成。

图3 QPI 每槽参数选项页面

1.2.2 Linux系统中原驱动程序禁用方法

在安装新图形卡驱动程序之前,为了避免驱动程序的冲突或安装失败,首先禁用系统自带的nouveau驱动程序[5],具体操作步骤如下。首先,把原驱动程序加入禁止列表中,执行以下命令:#vim /etc/modprobe.d/blacklist.conf

在上面这个文件的最后面加入 blacklist nouveau。

然后,备份 initramfs文件,执行以下命令:

#mvboot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

并使用dracut命令重新建立initramfs image file:

#dracut -v /boot/initramfs-$(uname -r).img $(uname -r)

完成以上命令后,重启服务器系统,系统启动后,再执行命令:#lsmod | grep nouveau

然后,检查确认系统中没有加载nouveau driver。

1.2.3 Quadro K6000图形卡驱动程序安装

完成以上配置后,需要安装新的图形卡驱动程序,以保证图形卡正常运行。在英伟达官方网站上下载驱动程序,下载链接如下:https://cn.download.nvidia.cn/XFree86/Linux-x86_64/410.93/NVIDIA-Linux-x86_64-410.93.run

进入下载界面,下载驱动程序的型号为:

NVIDIA-Linux-x86_64-410.93.run。

将驱动程序拷贝到Linux系统目录下,如/tmp下。进入文本模式下安装新的驱动程序,执行以下命令:#init3

#./tmp/NVIDIA-Linx-x86_64-410.93.run

驱动程序安装完成后,重启服务器,加载Jason软件用户地震反演作业,可成功显示调用的图形文件[6]。

2 浪潮服务器和曙光服务器时钟不同步问题解决方法

要实现不同集群服务器时钟同步,就要先设定一个服务器节点的时钟作为基准时钟服务器,将其他所有节点的时钟都与这个时钟服务器进行校准。通过编辑crontab文件,所有节点定时执行同一个时钟校准命令,完成所有节点时钟同步。

2.1 时钟同步实现方法

2.1.1 确定时间服务器

浪潮服务器挂载曙光集群管理节点上的GeoEast文件系统sggeoeast:/soft,为了用户能够在浪潮服务器节点上正常发作业,并且可以使用定时发地震处理作业的功能,需要将浪潮服务器和曙光集群的时钟同步[7-8],这里我们设定曙光集群主机名为sgcon的管理节点作为基准时钟服务器。管理时钟的文件目录为:/etc/ntp.conf/,文件中内容及参数等设置为缺省。

2.1.2 重新编辑 shell时钟文件

执行:vi /etc/ntp.conf/,将文件编辑成如下内容[9]:

server sgcon 138.99.100.1 driftfile /etc/ntp/drift

multicastclient broadcastdelay 0.008

authenticate no keys /etc/ntp/keys

tuustedkey 65 535 requestkey 65 535

controlkey 65 535

同时,检查节点时钟进程是否打开,执行如下命令:

#chkconfig-list ntpd。假如节点的ntpd的进程状态为off,则须执行:#chkconfig ntpd on,即打开节点的时钟进程。

完成以上操作后,重新启动时钟进程,执行如下命令:#service ntpd restart

2.1.3 服务器节点时钟校准

查看当前浪潮服务器节点的时间与基准时钟服务器的时间相差值,如果时间差为1 024 s及以下,则执行如下命令:#ntpd-g

如果时间差超过1 024 s,则执行的命令为:#ntpd-g -q

由于时钟同步过程会有延迟,约3 min左右,此计算节点的时钟就和基准时钟服务器完成同步过程。

2.2 定时同步

集群计算机资料处理系统,由于工作量大,常年每天7×24 h的连续满负荷运转,因此,不可避免的会遇到节点硬件故障死机、进程死需要重启节点等问题,这些故障都可能会导致时钟出现误差,为了避免较大的时钟误差出现,则需每个节点定时自动运行时钟同步命令。

通过编辑文件:/etc/crontab/,可以实现节点定时执行某个特定的命令;同样,在/etc/con.d/创建一个文件,可自定义文件名且用固定的格式编辑此文件,也能够实现同样功能[10]。无论用上述哪种方法,都要在文件中编辑:06 * * 2,4,6 /etc/ntpd-g

这个内容实现的功能是:在每个周二、周四和周六的早晨6点,执行一次/etc/ntpd-g命令。通过应用测试可以看出,配置后的计算节点与基准时钟服务器完成时钟同步,浪潮和曙光两套集群之间节点时钟误差在规定的范围之内,即节点之间时钟误差不超过1 024 s,所以只需要执行ntpd-g命令就能完成两套异构集群的时钟同步[11]。

3 结 论

在国产浪潮八路服务器中安装配置高性能英伟达图形卡,和解决异构集群服务器时钟不同步问题,既解决了地震资料处理解释生产科研过程中的疑难问题,也是一次大胆技术创新和尝试,第一次将英伟达高性能图形卡成功应用于国产八路服务器上。一方面,使处理解释用户能够在异构集群上同步并行运算,并深入了解和应用地震软件许多扩展功能,提高了异构集群服务器的利用率;另一方面,对于系统管理员来说,积累了解决疑难问题的经验,有利于今后高性能集群计算机系统运维管理。解决问题的方法对同类高性能集群系统运算用户具有一定的借鉴作用。

猜你喜欢

驱动程序曙光浪潮
新希望·悦珑湾开启后浪潮玩生活节
兴业路的曙光
“双创”浪潮方兴未艾
阻止Windows Update更新驱动程序
杨曙光作品
曙光
计算机硬件设备驱动程序分析
新色彩浪潮
妙用鼠标驱动
驱动程序更新与推荐