高性能计算机系统管理技术的研究

2016-01-09 14:10刘金霞李晶栾永明王慧瑜赵威赵苗
电脑知识与技术 2015年30期
关键词:系统管理模式资源

刘金霞+李晶+栾永明+王慧瑜+赵威+赵苗

摘要:高性能计算是气象业务及科研应用的重要的基础平台,东北区域气象中心高性能计算能力迅速增强,业务及科研模式多种多样,用户越来越多,尤其是业务气象模式精度提高以后,对系统资源需求加大。这给高性能计算机管理以及业务应用管理提出了更高的要求。以向用户提供更好的计算资源和支撑服务为出发点,介绍了高性能计算机运行管理、用户及模式管理的技术手段,有助于减少管理和维护成本,更好的发挥计算资源的应用效益。

关键词:高性能计算机;系统管理 ;资源;应用;模式

中图分类号:TP315 文献标识码:A 文章编号:1009-3044(2015)30-0186-02

Research on High Performance Computer System Management Technology

LIU Jin-xia1, LI Jing1, LUAN Yong-ming1,WANG Hui-yu,ZHAO Wei1,ZHAO Miao2

(1.Liaoning Provincial Meteorological Information Center, Shenyang 110166,China;2.Liaoning Provincial Meteorological Bureau,Shenyang 110001,China)

Abstract: High performance computing is an important basic platform for meteorological service and scientific research. The high performance computing power of northeast area meteorological center is rapidly enhanced, and the business and scientific research mode is more and more, and the user is more and more, especially in the business meteorological model. This puts forward higher requirements for high performance computer management and business application management. In order to provide better computing resources and support services as a starting point, it introduces the technical methods of high performance computer operation management, users and management. It helps to reduce the cost of management and maintenance.

Key words: high performance computer;system management;resource;applicaton;model

1 概述

高性能计算机是气象业务及科研应用的重要的基础平台,高性能计算机技术在气象海量资料处理、科学计算、产品应用等方面发挥着重要的支撑作用。 东北区域气象中心目前拥有IBM Cluster 1600 、IBM IBM Flex System P460 Cluster系统,计算能力迅速增强,依托于该高性能计算平台,东北区域中尺度数值预报系统,台风模式HWRF、东北区域空气质量模式预报系统CMAQ,天气数值模式预报检验等业务及科研应用顺利开展。业务及科研模式多种多样,用户越来越多,尤其是业务气象模式精度提高以后,对系统资源需求加大。这给高性能计算机管理以及业务应用管理提出了更高的要求。高性能计算机系统管理者必须采取一定的技术手段确保系统稳定运行,资源有效利用。

2 计算机运行监视

高性能计算机采取集群架构,由一组相互独立的计算机利用高速通信网络组成一个单一的计算机系统,并以单一系统的模式加以管理。集群内包括小型机、服务器、存储、网络等设备近百台,每天到机房检查硬件报警信息是硬件检查的常用方法。然而,在例行检查之后,无法预测硬件下一次报警的时间,也很难保证硬件总是不出故障。通过一些集群管理命令和单机操作系统命令,可以读取到一些有用的信息,通过分析这些信息判断出硬盘、内存、cpu等部件以及各个节点的运行状态,通过运行监视平台实时展示,在故障时通过文字的颜色和声音等方式向值班人员报告系统出现的一些异常情况。

3 高性能计算机性能监视系统

在IBM Cluster1600高性能计算系统上,采用Ganglia分布式监控技术建立了高性能计算机性能监视系统[1]。该系统采用B/S架构,实现了对集群和各个计算节点的CPU利用率、网络流量、负载的运行情况、内存情况等性能指标的监视、统计和图形显示等功能。系统管理员通过Web浏览器可以实时了解IBM 高性能计算机运行状况和资源使用情况,还可以通过性能监视系统生成的不同时间尺度下各种度量信息的统计图表,了解集群系统在一特定时间段内的资源使用情况;用户也可以通过访问网站的方式清楚地了解各个计算节点的资源使用情况,该监视系统对于指导用户提交作业和监视作业运行提供很大帮助。如图1。

4 资源统计与分析

反映高性能计算机系统运行及资源使用最直观的标示就是CPU利用率[2]。基于各节点性能监视工具sar的结果,

在HPC系统计算节点获取单节点的cpu利用率,在系统管理节点转换处理为整个系统的平均cpu利用率,同时生成每天及每月的系统平均cpu利用率。根据需求,可以统计分钟-小时-天-月不同时段的系统cpu利用率,绘制成曲线图,很容易看出资源利用高峰时段。

由于用户提交的作业较多,还要对用户的作业情况进行统计。可从作业管理软件提取作业运行的详细信息 ,包括用户信息、资源数量、所在队列、作业提交、运行、结束的时间等。这对于存在于不同单位的用户管理是十分重要的,为资源分配和管理提供了重要依据。

用户的模式程序以及模式运行的数据均存储在高性能计算机上。存储资源划分不同的文件系统,用户及模式信息与模式数据分开存储,增加数据的安全性。同时,各文件系统采用限额对所有用户的存储资源进行统一分配和管理。

通过资源统计结果分析,高性能计算机管理员较全面地了解资源的使用情况,分析结果作为资源分配、回收的重要依据。

5 用户及作业管理

用户从资源申请到开始应用,需要按照规定经过申请、审核、复核、审批等过程。用户应对拟在高性能计算机上运算的模式有一定的了解,提出对计算环境、编译环境、计算资源使用量、存储资源使用量等需求。系统管理员对于不了解模式的用户暂时分配临时资源,便于用户熟悉高性能计算机系统的操作以及对模式部署的规划。用户被分成组,按照一定的规则为用户命名。用户提交的作业也会根据业务需求被定义不同的优先级,分配到不同优先级的队列中。当低优先级的作业正在运行时,高优先级的作业将会在资源不够的情况下抢夺低优先级作业的资源,确保高优先级的业务作业正常进行。

6 模式运行管理

应用SMS(Supervisor Monitor Scheduler)监控管理调度系统技术架构,实现对东北区域数值预报模式——WRF V3.5.1模式的监控管理调度。首先按照SMS的技术规范将WRF V3.5.1模式作业的运行流程按照功能分成初始化、解码、插值、变分同化、WRF模式计算、后处理等十余个模块,其次将每个模块尽可能的分解成一个个简单独立的任务。作业通过该监控管理调度系统自动提交后,通过直观的图形化界面详细监视模式的运行过程和运行状态,并可实现作业断点自动重做。这将进一步提高模式业务运行能力,保证模式运行的时效性和可靠性。

7 结论

要充分利用高性能计算机强大的计算 能力,就必须通过有效的系统管理使其能够稳定的提供服务,建立资源分配、回收的有效机制,不断挖掘可用的系统资源,合理分配资源。高性能计算机的系统管理复杂,本文结合工作实际,仅从几个方面进行了相关的研究和实践,还应不断总结出理论和经验,进一步提高高性能计算机系统管理水平。

参考文献:

[1] 李晶,王恕,刘金霞,等. 东北区域气象中心高性能计算机性能监视系统[J]. 计算技术与自动化,2013,32(3):187-191.

[2] 沈瑜,李娟,常飚,等. 高性能计算机统一资源管理系统的设计与实现[J].计算技术与自动化,2014,33(1):84.

猜你喜欢
系统管理模式资源
基础教育资源展示
一样的资源,不一样的收获
《系统管理学报》征稿简则
资源再生 欢迎订阅
思想政治理论课实践教学研究述评
《系统管理学报》征稿简则
欢迎订阅《系统管理学报》
长邯高速公路机电系统管理软件应用探讨