大型专业软件集中管控技术探索与实践
2014-04-29邓莉范德军孙胤航
邓莉 范德军 孙胤航
[摘 要] 随着协同研究云建设与应用,各类大型专业软件实现了集中部署,传统简单的浮动许可管理模式已不能满足全面管控的要求。本文通过对石油行业勘探开发大型专业软件集中管控技术的研究与探索,部署协同研究云石油软件管控工具,实现了对大港油田协同研究云大型专业软件的监控管理与高效利用,提高了软件利用率,推动了协同研究云管控水平的提升。
[关键词] 研究云;专业软件;集中管控;许可管理
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 22. 060
[中图分类号] TP309.2 [文献标识码] A [文章编号] 1673 - 0194(2014)22- 0093- 02
1 问题的提出
2012年,大港油田协同研究云正式开始建设,同年12月28日,协同研究云正式上线运行。目前,已经建立了含64节点刀片服务器、130TB存储的硬件环境,集中部署了地震解释、测井评价、地质建模、数值模拟、各类制图等软件总计16种,涵盖了大港油田勘探开发研究主要的大型专业软件工具。
协同研究云的建立、大型专业软件的集中部署,将科研人员从大型专业软件管理、Linux系统硬件维护管理、工区数据准备等繁重工作解脱出来,全新投入科研生产工作。但是,传统单一软件的浮动许可管理模式,只能管理单一软件的许可浮动调用,个别用户多抢多占许可模块、长时间占用等浪费专业软件有限资源的情况无法杜绝。大型专业软件全部实现集中部署,为协同研究云IT管理人员同样带来了新的管理压力。如何全面管理所有软件的许可,如何监控所有软件、所有模块的使用情况,如何对有限的许可进行有效的利用和管控,如何在研究云环境中对专业软件资源实现全面管控,实现有限的软件资源实时监控管理、分配回收、软件资源在集群中使用情况及分析,这些现实问题摆在了我们面前。
2 集中管控技术架构设计
为了实现协同研究云专业软件集中管控,及时掌握集群环境软件许可使用情况,通过全面分析,整体架构分两个部分:一是专业软件许可资源管理;二是集群环境用户信息监控管理。
2.1 大型专业软件许可资源管理
大型专业软件许可资源管理,主要是在Flexlm浮动许可管理的基础上,着重对专业软件许可数量等资源管理。研究云主要的大型专业软件,如OpenWorks、Petrel等,软件许可管理模式都是采用FlexLM管理工具进行浮动许可管理,已经具备了专业软件资源的基本管理功能。在此基础上通过功能开发,可以实现对专业软件许可使用信息的管理。由于每个科室所有科研人员使用同一账号,要能够区分出当前软件调用集群的具体终端信息,并且具备简单的统计功能。如软件许可使用的峰值、使用率、软件数量需求预测、识别闲置许可及回收等功能。
2.2 集群环境用户信息监控管理
该部分功能设计,主要从科研人员使用研究云环境软件信息的角度,对所有账号使用软件情况进行全面监控管理,由于协同研究云整体采用集群架构,实现在集群架构软件使用情况监控管理十分必要,重点是监控科研用户使用软件情况,尤其是监控各模块在集群各节点使用的实时信息,账号使用软件情况分析等。
3 技术实现与主要功能
3.1 专业软件许可证集中监控系统
在刀片集群环境开发的专业软件许可证集中监控系统,可以实现对集群软件使用情况的有效监控,包括软件的不通模块。
许可证集中报告,主要包括监控预警、实时信息、历史分析统计、系统设置等功能。监控预警功能可以实时监控软件许可服务器运行状态、定时监控软件功能模块到期情况、状态异常页面提醒就电子邮件报警。实时信息功能可以查看当前功能模块使用情况、实时用户/节点在线使用记录、查看用户超时使用情况、监控许可获取失败情况。历史分析统计功能支持按照服务器、软件进行统计,多个软件分布部署时可以合并分析统计,按照功能模块分析当前使用情况,按照年度、季度、月度及用户自定义时间统计分析功能模块使用情况、峰值、使用效率,按照用户组/机器组分析统计多个功能模块使用情况,功能模块需求预测。系统设置功能包括可视化添加许可服务器并扫描监控、自定义监控许可升级更新情况。
软件模块动态释放功能,主要包括策略配置、限制识别。策略配置定义需要监控的软件及闲置时间等参数,并支持对特定机器使用不同策略。闲置识别可以自动监控需要监控的软件、识别终端闲置情况、动态释放激活软件许可、动态回收模块等功能。
专业软件许可调度管理,主要包括许可预留、手动释放等功能,软件模块许可预留主要是为特定用户、重要汇报按照预定时间、预定模块提前预留许可,并可以自定义预留策略,设置预留时间段,时间过后自动取消等。手动释放软件模块可以实时查看使用软件功能模块的用户信息,支持释放具体功能模块等功能。
许可证授权控制,管理员可以授权特定用户使用,只能打开只能数量、只能模块,杜绝浪费、占用许可,非授权用户无法获得许可。
3.2 RTM集群监控系统
研究云大型专业软件环境是高性能计算 (HPC) 环境,维护这么复杂的 结构挑战巨大,由于整个集群采用platform云管理平台软件实现云模式管理的复杂环境,而许多现有的监控工具只监控基础架构,而不提供完整的集群可视化监控,尤其是不能对用户作业和软件模块事情情况进行有效的监控,而RTM是 IBM Platform LSF 环境的操作仪表板,可提供综合的工作负载监控、报告和管理。Platform RTM 提供完整的集成监控工具,通过部署Platform RTM,能够有效监控集群日常信息,并且提供改善集群效率所需的信息和工具,对研究云集群软硬件环境进行监控管理,RTM集群监控系统实时监控服务、实时监控集群所有节点状态,以及所有用户、作业的信息,同时可以实时生成数据报表。
RTM集群监控系统主要由集群监控和控制、用户作业概要分析、监控资源使用和分配的功能、自动警报和异常处理、灵活的报表展现。直观的操作仪表板可以帮助用户快速识别并纠正问题,并通过寻找空闲容量和消除性能瓶颈来提高效率。用户作业概要分析是基于用户、组或项目密切监控资源,以提高集群使用率、获得更好的作业吞吐量并缩短用户等待时间。并支持多个集群监控,通过在集群间切换工作负载来提高效率,可以快速执行软件管理任务。
4 应用效果
通过部署专业软件许可证集中监控系统和RTM集群监控系统,实现了对研究云环境的全面监控管理,尤其是实现了对大型专业软件的全面管控。
(1)全面监控大型专业软件的作业情况。对用户使用软件信息全面掌握,甚至每个用户所有工作时间、什么时候调用什么软件模块等信息一目了然,便于公司领导掌握科研单位使用软件情况和科研人员工作情况。
(2)全面管理了大型专业软件资产信息。通过软件许可监控管理,实时掌握了价值昂贵的大型专业软件资产情况,研究云环境有多少软件资源、有多少许可数量、有多少模块功能可用,这些信息做到了全面掌握。
(3)大型软件资源实现了优化配置、发挥了最大效益。通过两套系统的部署,可以根据工作需要动态调整软件功能模块的分配与使用,可以为重点工作、重点项目,如井位讨论会,及时提供许可模块,保障其正常开展;同时,通过闲置识别与回收等功能,保障了大型专业软件资源的动态配置、合理利用。
(4)实现了对集群环境作业信息的有效监控管理。监控每个科室、每个用户使用软件模块情况,集群环境硬件资源与软件作业之间的管理,硬件资源、软件资源在调用软件模块的作业过程中的详细信息,并能够为领导提供详细的报表分析,从而为购买软件提供详细的依据。
5 结 语
大港油田大型专业软件集中管控技术,是在协同研究云建设与应用效果明显、作用日趋重大的时刻产生的管理需求,通过对软件管控技术的研究,并实现全面监控管理,有效提升了协同研究云整体管理水平,为公司领导决策提供了强大的决策依据,盘活了软件资产、提高了软件利用率,保障协同研究云软件资源的有效管理,推动了协同研究云的应用,为油田公司勘探开发科研生产工作提供了有力的技术保障,是石油行业大型专业软件管理与应用的有效手段,有很大的推广和应用价值。
主要参考文献
[1]陈哲,范德军.大港油田基于瘦客户端技术的项目研究环境建设[J].管理观察,2009(31).