APP下载

ARQCS启动策略及其与资源消耗的关系

2014-07-07刘一鸣周自江阮宇智何文春刘媛媛

应用气象学报 2014年4期
关键词:气象站时效入库

刘一鸣周自江 远 芳 阮宇智 何文春 孙 超 刘媛媛

(国家气象信息中心,北京100081)

ARQCS启动策略及其与资源消耗的关系

刘一鸣*周自江 远 芳 阮宇智 何文春 孙 超 刘媛媛

(国家气象信息中心,北京100081)

利用2012年4月1日—9月30日IBM P570高性能计算环境Oracle 11g数据库平台对全国自动气象站观测资料实时质量控制系统(ARQCS)的运行监控数据,探讨了ARQCS的启动策略及其与资料解析入库率、ARQCS的CPU耗时、服务时效之间的关系。结果表明:自动气象站资料的解析入库效率呈“几”字型分布,每个观测时次的第5—20分钟入库率方差较大,是制约ARQCS质量控制时效的主要时间段。设置观测资料入库率不低于95%为首次启动条件,不仅比传统的第15分钟定时启动提前了20.6 s,而且首次启动时观测资料入库率不低于95%的概率从66.38%提升至95.83%。第20分钟后入库率仅增加1.36%,在此设置首次质量控制的强制启动点,可保证局部异常延时的资料服务时效。动态启动策略使ARQCS的启动次数由5次降为2次,平均每日节约CPU时间391 min。

自动气象站观测资料;实时质量控制;启动策略;计算资源

引 言

全国自动气象站观测资料实时质量控制系统(简记为ARQCS)是一套基于IBM P570高性能计算环境Oracle 11g数据库平台的实时气象资料业务应用系统,包括对全国3万多个自动气象站逐小时观测资料的解析入库、质量控制、存储管理和共享服务等流程节点。随着自动气象站观测资料在实时气象业务服务中应用的广泛和深入[1-5],人们对ARQCS效能的要求也越来越高。

ARQCS始建于2009年,当时主要以单一的降水资料为例,面向实时气象预报服务需求,开展自动气象站观测资料质量控制的业务试验[6-8]。因质量控制的气象要素单一,算法相对简单,ARQCS对计算资源的消耗并不明显,同时,考虑到预报服务的资料时效需求,ARQCS采用每小时后第15,25,35,45,55分钟共计5次静态定时启动策略,使资料的时效和完整性尽可能匹配合理。但随着2010年ARQCS向气温、气压、降水、湿度、风向、风速6个气象要素拓展[9-10]、2011年和2012年质量控制算法的两次升级以及全国自动气象站数量的不断增加,ARQCS中的数学逻辑愈发复杂,运算量急速增多,ARQCS每次启动会消耗较大的计算资源。与此同时,ARQCS的5次定时启动意味着数据库系统要进行5次数据更新。相应地,资料用户有可能会启动5次数据库检索访问,数据库系统承载的检索访问压力显著增加,检索时效必然降低[11-13]。此外,随着全国地面报文传输改革的推进,ARQCS需要进行实时质量控制的要素多达11类158项,质量控制算法也必须进一步升级。如何在现有计算环境与数据库平台不变的前提下,继续使资料质量控制能力和服务时效保持较高水平,ARQCS的调度策略显得非常重要。

IBM P570高性能计算环境Oracle 11g数据库平台具有完备的数据安全性和完整性控制机制[14-16],系统日志完整记录了自动气象站观测资料的解析入库时效和质量控制时效。初步分析表明,虽然局部样本受观测系统或通信系统延时等因素影响而呈波动状态,但对于全国3万多个自动气象站的总体样本来说,资料解析入库率随时间变化具有一定规律,很多有关ARQCS调度策略的研究[17-19]值得借鉴。本文旨在利用2012年4月1日—9月30日数据库平台对ARQCS的运行监控数据,探讨实时质量控制系统中资料解析入库效率、质量控制的CPU耗时、服务时效之间的内在关系,尝试建立ARQCS的动态启动策略,以提升其质量控制效能。

1 自动气象站观测资料解析入库时效的统计学特征

1.1 资料与方法

目前,ARQCS对全国自动气象站观测资料的质量控制采用逐观测时次(当前为逐小时)清算机制。当ARQCS接收到气象通信系统实时转发的该时次自动气象站观测数据文件时,立即自动解析入库;随后ARQCS采用定时启动的机制,基于已成功完成解析入库的自动气象站观测要素数值完成质量控制方法的判定(图1);同时,数据库系统时钟会记录下资料入库时间。因此,在每个时次后的60 min时间步长内,通过系统时间记录可以计算得到该时次全国自动气象站观测资料在任意时刻的入库时效。为便于分析,本文选取入库率作为资料入库时效的定量表征指标,并以分钟作统计单元,这样第t分钟的单分钟入库率(Rt)和截至第t分钟的累计入库率(St)分别为

其中,Nt,Ni分别为第t,i分钟入库的自动气象站数量,N0为应入库的自动气象站数量。本文N0为固定值(即N0=31814个站)。

图1 ARQCS数据流程图Fig.1 ARQCS data flow chart

本文使用2012年4月1日00:00—9月30日23:00(世界时,下同)IBM P570高性能计算环境Oracle 11g数据库平台的原始时钟记录。为排除通信系统、数据库系统故障等对ARQCS的影响,本文剔除了2012年4月16日、5月5日和6月18日等9 d的样本数据,这样有效小时样本为4176个,利用式(1)和式(2)计算得到了250560分钟点的单分钟入库率和累计入库率。

此外,为探讨4176个有效小时样本入库率的规律性,本文还通过式(3)和式(4)计算出第t分钟的平均单分钟入库率)和截至第t分钟的平均累计入库率,其中M为固定值4176。

1.2 入库时效的统计分布特征

数据解析入库是质量控制的前提(图1),把握数据入库规律对制定质量控制启动策略具有重要意义。图2a为4176个有效小时样本的平均单分钟入库率在每个时次的前17 min平均单分钟入库率变化最为明显,20 min之后入库率基本保持不变,接近于零。结合业务系统的实际运行情况来看,前17 min的单分钟入库率变化可以分成3个阶段:第1阶段(第1—4分钟),系统资源相对充足,通信系统来报数据随时能够入库,单分钟入库率随着来报数量的增加接近线性增长;第2阶段(第5—10分钟),来报相对集中,系统资源遇到瓶颈,出现数据等待入库的情况,入库效率基本不变;第3阶段(第11—17分钟),随时间向后推移来报数据越来越少,单分钟入库率表现为线性下降趋势,最终接近于零。

图2 1 h内入库率分布(a)平均单分钟入库率及第1—4分钟、第5—10分钟、第11—17分钟拟合曲线,(b)平均累计入库率、最低和最高5%的样本平均累计入库率,(c)单分钟入库率方差Fig.2 Distribution of entry rate(a)averaged entry rate of all samples for every minute and fitted curves from 1st to 4th minute,from 5th to 10th minute and from 11th to 17th minute,(b)averaged accumulated entry rate of all samples,the lowest 5%and the highest 5%of all samples,(c)variance of entry rate for every minute

从平均累计入库率St分布曲线(图2b)可以看到,累计入库率在1 h内由0逐渐增加到97.80%,第14分钟时超过90%,第17分钟时超过95%,随后基本保持稳定,从第20—60分钟仅微增1.36%。图2b还给出累计入库率最高5%和最低5%样本的平均值。对比分析表明,在第4—21分钟二者相差超过20%,第12分钟时差距最大,差值达到58%,而在第30分钟之后二者的差距相对稳定地维持在7%左右。与此对应的是较大的入库率方差(图2c)出现在第5—20分钟,最大值也出现在第12分钟,第35分钟之后方差基本保持不变。图2a和图2c均表明第5—20分钟入库率最不稳定,数据库系统的瓶颈效应明显,受观测系统或通信系统局部异常延时影响,不同时次之间出现较大差异的可能性较大,而在第35分钟之后不同时次的累计入库率St平均稳定在97%的水平,且时次之间的差异较小。

2 基于资料完整性和服务时效的ARQCS动态启动策略

2.1 初次启动时间的确定

原静态启动策略规定ARQCS首次启动时间为第15分钟。虽然首次质控累计入库率平均可达93.78%,但在最差的情况下只有55%左右(图2b),并且方差较大(图2c),表明在该时刻单分钟入库率Rt变化剧烈,出现较低累计入库率的可能性较高;第20分钟后Rt稳定在较低水平(图2a),累计入库率St相对稳定(图2b)。对第15—20分钟中的每分钟以及第20分钟之后有代表性的几个时间点(选取了原静态启动策略下的后4次启动时间点及1 h内最后的第60分钟)开展St的分段重点分析(表1)表明:在第15分钟时,累计入库率S15超过95%的样本只占总样本量的66.38%,S15在90%~95%之间的样本占21.19%,S15低于90%样本约占12%。在随后的5 min内St超过95%的样本显著增加,低于95%的样本逐渐下降,第16分钟时St在95%以上的样本变化最为明显,增加到74.52%,较前一分钟增加了8.14%,第17—20分钟St在95%以上的样本从79.89%增加到84.89%。

表1 不同时间累计入库率St分段出现频次占总样本量的比例(单位:%)Table 1 The proportion of accumulated entry rate at different time(unit:%)

上述分析表明,在第15分钟时累计入库率S15在95%以上的样本只有六成左右,在随后的几分钟内常出现大量数据入库的情况,原静态启动策略将初次启动时间固定在第15分钟,很可能会造成第15分钟后几分钟内即可完成入库的部分数据未参加首次质量控制。与此同时,95%的累计入库率是第15分钟后几分钟内比较有希望达到的一个入库率高值。所以,新启动策略下将累计入库率St达到95%的时间点确定为ARQCS的首次启动时间。

2.2 强制启动时间的时效依据

为探讨每小时入库率超过特定临界值的可能性,本文定义累计入库率在第t分钟首次超过临界值m(单位:%)的概率(Pm,t)及其累计值(Qm,t),即累计入库率在第t分钟前(含第t分钟)超过m的概率:

其中,nm,t表示累计入库率St在第t分钟首次超过临界值m的样本量,M为固定值4176。最早在第11分钟P95,t大于零值(图3a),累计入库率S11达到95%。并且在图3b中,第20分钟Q95,20为84.89%,这表明有超过八成把握首次质量控制发生在第20分钟结束之前,同时保证首次启动时St在95%以上。

由图3b可知,即使在第60分钟,Q95,60也只有91.86%,这意味着有约8.14%的样本在1 h之内St达不到新启动策略95%的启动标准。第25分钟时累计入库率在90%~95%之间以及超过95%的比例与第20分钟时无显著差别(表1),随后直到第60分钟该比例变化相对不明显,且在第20分钟之后单分钟入库率Rt较为稳定(图2a),累计入库率超过95%的概率Q95,t相对平缓(图3b),同时考虑到下游实时业务用户对服务时效的最大容忍程度,本文将强制启动ARQCS的时间设为第20分钟。

2.3 ARQCS的逐小时自动清算机制

从表1还可发现,第25分钟之后不同时刻的累计入库率St差别较小,结合图2a与图2c可知,在第25分钟之前绝大部分的数据均已完成入库,在第25—60分钟的半个多小时内只有个别数据零星入库。这就意味着静态质量控制启动策略在第25,35,45,55分钟的4次质量控制过程会对基本相同的已入库数据进行多次重复计算,这会造成较大的计算资源消耗,同时用户检索的多次跟进会造成数据库系统的工作压力随之增加。

同时由图2b可以发现,在第20—60分钟的40 min时间里,还会有平均1.36%的数据在ARQCS首次启动之后完成入库,而这一比例在最坏情况下高达17.90%。考虑到目前全国考核自动气象站已达3万余站,首次启动后入库的站数所占比例虽小,但每份站点数据对于提高资料完整性、开展预报与服务均有意义。因此,为了尽可能保证数据的完整性,同时减少重复计算造成的资源浪费,本文保留原有启动策略中的最后一次启动,即在第55分钟时完成ARQCS的逐小时自动清算,相应的累计入库率平均情况下为97.77%,最坏情况下为92.83%,最好情况下为99.01%。

图3 累计入库率St首次超过95%的样本量占总样本量的比例P95,t(a)及其累计值Q95,t(b)Fig.3 The proportion of different time when the accumulated entry rate reaches 95%for the first time in an hour(a)and its accumulated value(b)

3 ARQCS动态启动策略的业务试验

3.1 系统实现

为实现ARQCS的动态启动策略,在原系统流程(图1)的数据提取步骤前增加数据提取前统计步骤。根据前文的分析,本文选取了5个决定ARQCS启动策略的关键参数(表2)。当满足累计入库率不小于触发启动的入库率临界值时,ARQCS将首次启动;如果到强制启动时间(第20分钟)累计入库率St仍未满足,ARQCS将强制首次启动。在此之后,系统将在逐小时自动清算启动时间(第55分钟)到达时再次启动,以使稍迟入库的数据尽可能完整地参与质量控制。

3.2 业务模拟试验效果

为检验动态启动策略的运行效果,基于IBM P570高性能计算环境Oracle 11g数据库平台,2012年9月22—30日共进行了216 h的业务模拟试验。本文从首次启动时间T1的变化、新增步骤对单次启动系统开销的影响、系统整体运行效果的提升等方面对试验效果进行测评。

表2 ARQCS动态启动策略参数表Table 2 ARQCS dynamic starting strategy parameters

3.2.1 首次启动时间的变化情况

系统首次启动时间T1在进行业务模拟试验的9 d时间里,ARQCS在新策略下的实际首次启动时间较原首次启动时间(第15分钟)平均提前20.6 s(图略)。各小时首次启动时间的频次分布如图4所示,最早在第13分钟启动,共出现5次,在216 h业务模拟试验中占2.31%;最迟在第20分钟启动,共出现9次,占总数的4.17%,在绝大多数情况下ARQCS首次启动时St超过95%。

图4 2012年9月22—30日首次启动时间T1频次分布图Fig.4 Distribution of the 1st starting time from 22 Sep to 30 Sep in 2012

3.2.2 新增步骤对单次启动系统开销的影响

流程调整所带来的系统性能变化是评定新启动策略可行性的一项重要指标。试验结果表明,对原ARQCS增加的数据提取前统计步骤单次查询平均耗时为0.0136 s,仅占调整前数据提取步骤平均耗时(7.25 s,2012年7月23—24日的240次操作的平均值)的0.19%,最坏耗时0.03 s(图略),基本满足对ARQCS的整体运行效果不会造成过多负荷的预期效果。首次启动前平均进行27次统计查询(图5),最多进行66次查询,即入库量在第20分钟前的历次查询中均未满足启动条件,直到第20分钟时系统达到强制启动时间才首次启动(共有9次试验为此情况,仅占4.17%)。

图5 2012年9月22—30日新增数据提取前统计步骤查询次数Fig.5 Search times of newly added statistic step before data acquiring from 22 Sep to 30 Sep in 2012

3.2.3 系统整体运行效果的提升

图6 2012年9月22—30日启动策略调整前后每小时累计CPU耗时效果对比图Fig.6 Accumulated CPU time costing per hour before and after changing starting strategy from 22 Sep to 30 Sep in 2012

增加数据提取前统计步骤以后,因ARQCS的启动引入了入库时效因子,后续流程得以优化调整,原来5次系统启动可减少为2次。在原静态启动策略下,平均每小时累计耗时26.5 min(图6),首次启动时间为整点后的第15分钟;采用动态启动策略后,平均每小时累计耗时为10.2 min。ARQCS的整体计算性能开销大幅下降,平均每小时节省出的16.3 min计算资源可以有效缓解紧张的系统性能消耗。在进行业务模拟试验的9 d时间里,采用动态启动策略调整之后首次启动的平均累计入库率St高达94.91%,较原静态启动策略下首次启动时的平均累计入库率93.78%有1.13%的提升;在第55分钟执行清算时,平均累计入库率为99.71%,接近100%的完整性水平。

4 结论与讨论

本文利用数据库平台对ARQCS的运行监控数据,探讨了ARQCS的启动策略及其与资料解析入库率、ARQCS的CPU耗时、服务时效之间的关系,得到了以下初步结论:

1)统计分析发现,自动气象站资料的解析入库效率呈“几”字型分布,具有前段攀升、中段持平、后段回落的特征。每个观测时次的第5—20分钟入库率方差较大,系统资源在集中来报时遇到瓶颈,是制约ARQCS质量控制效果的主要时间段。

2)设置观测资料入库率不低于95%为首次质量控制启动时间,不仅比传统的第15分钟定时启动提前了20.6 s,而且首次启动时观测资料入库率不低于95%的概率从66.38%提升至95.83%。第20分钟后平均入库率仅增加1.36%,在此设置首次质量控制的强制启动点,可保证观测系统或通信系统局部异常延时的资料服务时效。对于平均入库率在第20分钟后微增的情况,在第55分钟时完成逐小时自动清算,清算启动时的平均累计入库率可达99.71%。

3)在动态启动策略的系统实现中,对数据提取步骤进行调整,所增加的数据提取前统计步骤单次查询平均耗时为0.0136 s,未对ARQCS单次启动的系统开销产生过多增加。ARQCS的启动次数从5次优化为2次,每个观测时次的总CPU耗时由26.5 min降为10.2 min,平均每天节约CPU时间391 min。

在现有计算环境与数据库平台不变的前提下,ARQCS动态启动策略有效降低了计算资源消耗,提高了系统的整体服务时效。它在虑及自动气象站入库率波动变化的前提下,使ARQCS启动时间点的选择具备一定的自适应能力,业务系统的鲁棒性整体提升。但在目前实时资料存储服务架构下,数据库吞吐率等影响系统整体性能的瓶颈依然存在。如果未来系统整体架构有所改变,能够有效降低或消除数据库吞吐率对系统性能的影响,ARQCS也将调整以适应新的数据存储服务体系。

[1] 钤伟妙,罗亚丽,张人禾,等.引发舟曲特大泥石流灾害强降雨过程成因.应用气象学报,2011,22(4):385-397.

[2] 易笑园,李泽椿,孙晓磊,等.渤海西岸暴雨中尺度对流系统的结构及成因.应用气象学报,2011,22(1):23-34.

[3] 李瑞萍,程艳芳,赵彩萍,等.加密自动站资料在强对流天气分析预报中的应用.气象科技,2012,40(4):596-600.

[4] 闵晶晶,刘还珠,曹晓钟,等.天津“6.25”大冰雹过程的中尺度特征及成因.应用气象学报,2011,22(5):525-536.

[5] 何立富,周庆亮,陈涛.“05.6”华南暴雨中低纬度系统活动及相互作用.应用气象学报,2010,21(4):385-394.

[6] 任芝花,赵平,张强,等.适用于全国自动站小时降水资料的质量控制方法.气象,2010,36(7):123-132.

[7] 任芝花,许松,孙化南,等.全球地面天气报历史资料质量检查与分析.应用气象学报,2006,17(4):412-420.

[8] 刘小宁,鞠晓慧,范邵华.空间回归检验方法在气象资料质量检验中的应用.应用气象学报,2006,17(1):37-42.

[9] 赵煜飞,任芝花,张强.适用于全国气象自动站正点相对湿度资料的质量控制方法.气象科学,2011,31(6):687-693.

[10] 鞠晓慧,任芝花,张强.自动站小时气压的质量控制方法研究.安徽农业科学,2010,38(27):15130-15133.

[11] 林子雨,杨冬青,王腾蛟,等.基于关系数据库的关键词查询.软件学报,2010,21(10):2454-2476.

[12] 崔跃生,张勇,曾春,等.数据库物理结构优化技术.软件学报,2013,24(4):761-780.

[13] 刘波,范士明,刘华.实时数据库混合索引机制的设计与实现.计算机应用,2011,31(8):2265-2269.

[14] 文平.Oracle大型数据库系统在AIX/UNIX上的实战详解.北京:电子工业出版社,2012:593-605.

[15] 刘宪军.Oracle RAC 11g实战指南.北京:机械工业出版社,2011:6-7.

[16] 沈宏.Oracle最新技术战略和产品方向及11G新特点.2011:36.http:∥www.oracle.com/technetwork/cn/community/developer-day/5-oracle-db-platform-11g-1432258-zhs.pdf.

[17] 杨志邦,徐成,周旭,等.实时系统中弹性调度策略.计算机应用,2012(2):573-577.

[18] 邹勇,淮晓永,李明树.开放式实时系统中的自适应调度方法.计算机学报,2004,27(1):58-65.

[19] 钟樑,刘晓燕,张晶,等.开放式实时系统资源共享环境下的调度方法分析.小型微型计算机系统,2012,33(11):2362-2366.

ARQCSStarting Strategy and Its Relationship with Computing Resource Cost

Liu Yiming Zhou Zijiang Yuan Fang Ruan Yuzhi He Wenchun Sun Chao Liu Yuanyuan
(National Meteorological Information Center,Beijing100081)

AWS Observation Data Real-time Quality Control System (ARQCS)is an operational real-time meteorological data application system under IBM P570 high performance computing(HPC)Oracle 11g database platform.Functions including data decoding,database inserting,quality control(QC),storage management and share service are provided for more than 30000 AWS all over China.In 2009,when ARQCSis firstly built,QC methods including boundary value check,internal consistency check,time consistency check and spatial consistency check is applied to only 1 element of hourly precipitation.And the starting strategy is a static one,which start ARQCS at the 15th,25th,35th,45th and 55th minute every hour.Later in 2010,QC methods of other important meteorological elements including air temperature,air pressure,humidity,wind direction and speed get to be applied in ARQCS.Meanwhile,the system computing logic is made more complex after 2 times of updating in 2011 and 2012.Now,it is planned to extend ARQCS to 158 elements in 11 classes totally,which need more calculating resources accordingly.To guarantee QC capability and service timeliness of ARQCSin a high level under limited computing resources,a series of schemes are designed and investigated.System log under IBM P570 HPC Oracle database environment from 1st April to 30th Sep in 2012 is used to analyze ARQCS performance.It is found that the database entry rate(ER)of AWS data exhibits a trapezoid shaped distribution,and variance of ER is large from the 5th to the 20th minute in one hour,which means accumulated ER at the 15th minute is unstable and a low accumulated ER may be got if ARQCS starts at this time.It also indicates that an accumulated ER of 95%is very possible(84.89%)to get before the 20th minute,and accumulated ER is increased by only 1.36%after the 20th minute in average.So a new dynamic starting strategy is employed,that ARQCS starts for the first time when accumulated ER gets more than 95%or until the 20th minute,and starts for the second time at the 55th minute.With this approach,the possibility for accumulated ER over 95%at the 1st QC starting is increased by 29% (from 66.38%to 95.83%).And the average 1st QC starting time is 20.6 seconds before the 15th minute in original static starting strategy.Also,less number of starts from 5 to 2 decrease the CPU time cost from 26.5 minutes to 10.2 minutes per hour,which means saving 391 minutes CPU time per day.It is concluded that the dynamic starting strategy is effective for ARQCS starting adaptively and ensures system robustness.

AWS observation data;real-time quality control;starting strategy;computing resource

刘一鸣,周自江,远芳,等.ARQCS启动策略及其与资源消耗的关系.应用气象学报,2014,25(4):505-512.

2013-12-02收到,2014-05-05收到再改稿。

中国气象局气象关键技术集成与应用面上项目(CMAGJ2013M67),中国气象局气象关键技术集成与应用重点项目(CMAGJ2013Z01)

*email:yimingliu@aliyun.com

猜你喜欢

气象站时效入库
珠峰上架起世界最高气象站
重磅!广东省“三旧”改造标图入库标准正式发布!
中国食品品牌库入库企业信息公示①
心灵气象站
J75钢的时效处理工艺
一种新型耐热合金GY200的长期时效组织与性能
环保执法如何把握对违法建设项目的追责时效?
自动气象站应该注意的一些防雷问题
身临其境探究竟 主动思考完任务——《仓储与配送实务》入库作业之“入库订单处理”教学案例
X80管线钢的应变时效行为研究