智慧云平台计算资源测算的实践与应用
——以某市智慧绿道为例
2022-02-10张学川胡斌
张学川,胡斌
(四川省建筑设计研究院有限公司)
1 引言
智慧城市云平台利用云技术,将计算、存储等资源进行虚拟化整合,形成云资源池。根据业务应用的需求,以云资源作为服务,提供给各类智慧城市应用,集约分配调度计算、存储等资源,同时也减少了应用和平台软件的重复开发时间和经济成本。
在智慧城市平台建设中,计算与存储资源层为智慧城市提供数据存储和计算及相关软件资源,从而保障上层对数据的相关需求[1]。因此,对平台计算资源的测算是合理规划、准确配置和正确选型设备及硬件设备投资测算的核心。本文以某市智慧绿道为例,结合项目特性,在对各个智慧应用子系统业务规模分析的基础上,基于TPC-C基准测试的服务器性能需求计算模型,测算智慧绿道应用系统的计算资源需求,为项目的实施规模、硬件架构、硬件选型及投资测算提供有力支持。
2 智慧绿道云资源架构
某市智慧绿道项目为“一主六次”的绿道体系,规划接入物联网应用设备六十余万台,横跨城市多个区域,社会影响力较大。结合该项目特点及运营管理需要,项目采用私有云与公有云相结合的混合云架构,既能保证本地系统服务的快速响应,又能实现异地容灾、业务扩展的弹性伸缩。
1)公有云部署
根据服务对象的特点,面向公众服务、大数据存储和计算平台应用等存在弹性需求的系统,以及需要使用公有云基础资源系统部署在公有云。
2)私有云部署
综合使用者和安全性特点,绿道运营公司内部、政府监管部门、商家内部管理及绿道自身基础设施管理系统部署在私有云。
3)公有、私有云两地部署
基于安全性考虑,联动控制平台和GIS服务平台为本案例的核心平台,采用两地部署以实现冗余。
3 计算资源分析
3.1 计算业务量分析
计算资源由服务器提供,用户需要一种简单、高效的度量标准量化评价服务器系统。包括TPC、SPEC、SAPSD、Linpack和HPCC在内的众多服务器评测体系,从处理器性能、服务器系统性能、商业应用性能、高性能计算机的性能等方面都给出了量化评价指标[2]。
在智慧城市云平台中,智慧应用系统的业务过程属于面向交易的处理过程,基本特征在于用户通过终端进行访问时,由服务层计算中心完成处理,并在系统规定的响应时间内返回处理结果,属于典型的联机事物处理应用范畴,更适合采用TPC-C基准测试系统。
在智慧绿道的规划设计中,度量应用系统服务器业务处理能力时,采用TPC-C基准测试流量指标TPM值为依据;而平台中的AI服务器、物联网平台和大数据平台的计算资源,由于其业务特征,不适合采用TPM值测算。因此,在项目测算中,给出计算资源估算数据的方式,本文中估算统一以Intel(R)Xeon(R)CPU(E5-2680V4)为计算基准。
3.2 应用系统计算资源估算
在明确系统业务需求和业务规模的情况下,把这些工程满足期内必须要完成的宏观业务需求转换成一个特定时间范围内的真实业务需求;把真实业务处理请求在其系统中换算成一定数量的具体服务器业务处理事务。把这些事务按照不同的复杂度和TPC-C基准测试进行对比,进一步换算成一定数量的TPC-C基准测试基本单元,即该项业务操作相较于标准TPC-C测试基准环境交易的复杂程度比例[3]。把整个系统需要处理的各类事务所对应的基准测试基本单元分别相加起来,最后得到服务器处理这些真实事务请求所需的业务处理能力。
为方便智慧绿道应用系统TPM值计算,将应用分为3大类:面向游客、商家和绿道管理者。
假设某智慧应用系统中用户数量为U,在系统业务处理峰值时,一分钟内用户同时向服务器发出事务处理请求次数为K。若这些事务处理请求有N种,每种事务请求次数为N1,N2,…,且所有并发用户中提出这N种事务处理请求的比例分别为P1,P2,…,PN,因为所有并发用户都可能在一分钟内发送N种事务请求。服务器处理业务处理请求所执行的业务操作,相较于标准TPC-C测试基准环境交易的复杂程度比例即该操作所占的TPC-C事务数量分别为T1,T2,…,TN。考虑服务器自身开销F和一定的冗余量R[4],则该智慧应用系统在访问用户数量为峰值的情况下,对服务器的处理能力需求计算基本模型为:
本案例中为简化计算将服务器开销及其他损耗占用采用经验系数方式取代,公式简化为TPM=
①按实际工程经验,经验系数1.6。
②考虑服务器保留30%的冗余系数(R)。
3.2.1 面向游客系统
①日高峰游客为16.5万人,高峰时期同时在绿道人数按5万游客计,根据运营商资料估算10%的游客会访问绿道应用,则同时在线用户数为5000人(U)。
②平均每个在线用户发出2次/min业务,高峰时处理量为平均值的5倍即10次/min(K)。
③每次请求复杂度相当于15个事务(T)。
应用服务器TPM=U·K·T·经验系数/(1-R)=5000×10×15×1.6/(1-0.3)=1714286tpmC
根据经验值,数据库服务器的处理能力为应用服务器的1.5倍,所以数据库服务器的处理性能估算为:TPM=1714286×1.5=2571429tpmC。
面向游客应用的总TPM=4285715tpmC。
3.2.2 面向商家系统
①按年游客1200万人,人均交易1笔/年计算,平均每分钟交易次数=1200万/365d/1440min=23次/min,考虑高峰期人流增长5倍,交易额也增加5倍为115次/mi(nK)。
②根据电商交易的统计数据,每次交易会触发30次各类请求(N)。
③每次请求复杂度相当于20个事务(T)。
应用服务器TPM=K·N·T·经验系数(/1-R)=115×30×20×1.6(/1-0.3)=157715tpmC。
根据经验值,数据库服务器的处理能力为应用服务器的1.5倍,所以数据库服务器的处理性能估算为:TPM=157715×1.5=236573tpmC。
面向商家应用的总TPM=394288tpmC。
3.2.3 面向绿道管理者系统
①面向绿道管理者的应用,少量请求是管理人员手动触发的,大量请求是系统内部自动触发的,根据智慧绿道配置的系统,估算每分钟请求量为6000,忙时的处理量为平均值的5倍30000次/min(K)。
②每次请求复杂度相当于20个事务(T)。
应用服务器TPM=K·N·T·经验系数/(1-R)=30000×20×1.6/(1-0.3)=1371428tpmC。
根据经验值,数据库服务器的处理能力为应用服务器的1.5倍,所以数据库服务器的处理性能估算为:TPM=2468571×1.5=2057143tpmC。
面向绿道管理者应用总TPM=3428571tpmC。
3.2.4 应用系统计算资源估算汇总(见表1)
表1 应用系统计算资源估算汇总表
3.3 AI服务器计算资源估算
AI服务器用于对摄像机上传的视频进行AI计算。包括人群聚集、人头数检测和人脸识别等,部署在公有云。本案例根据建设规模17000路摄像机的20%进行AI分析,共3400个,考虑余量按3500个计算。
AI服务器计算资源估算约定如下:
①需要进行人脸识别AI计算的摄像机数占AI分析摄像机的20%为700个(N1);
③人群聚集、人数统计、轨迹分析、绊线检测摄像机总数2800个(N2);
④一个TeslaP40GPU可以支持以上算法12.5个摄像机;
⑤考虑服务器保留30%的冗余;
AI服务器资源计算为:(N1/P1+N2/P2+N3/P3)/(1-冗余系数)=424个TeslaP40GPU。
单台AI服务器采用4个TeslaP40GPU、2个14核CPU(E5-2680v4)、224GB内存的配置,需要106台AI服务器。
3.4 物联网平台计算资源估算
接入物联网平台的设备包括摄像机设备和非摄像机设备。对摄像机设备,需要支持设备管理和数据上报、推流、web播放格式转码、视频存储。对非摄像机设备,例如智能照明的灯控设备,需要支持设备管理和数据上报。
本案例部署17000个摄像机,按基准进行性能估算,物联网平台处理推流、web转码和视频数据存储,需要的计算资源计算如表2所示。
表2 私有云物联网平台计算资源估算汇总表
1)摄像机推流所需计算资源
不仅要将摄像机将视频流推给流媒体服务器,还要考虑到物联网平台内部的处理逻辑,例如推流的调度,将视频流从私有云转发到公有云,将视频流转发到存储服务器等开销,这些计算能力都要折算到推流功能中。
摄像机数/单核可处理推流的摄像机数/服务器冗余系数=17000/15/(1-30%)=1620个CPU核
2)摄像机视频数据存储所需计算资源
将一路视频流写到存储服务器中也需要消耗计算资源。
摄像机数/单核可处理存储的摄像机数/服务器冗余系数=17000/150/(1-30%)=162个CPU核
3)摄像机web转码所需计算资源
CPU采用Intel(R)Xeon(R)E5-2680v4实测,单核只能完成1路视频的web转码。考虑到分控坐席不超过150个,限制web转码最大流数为150。web转码最大流数/单核可处理web转码的摄像机数/服务器冗余系数=150/1/(1-30%)=215个CPU核
4)设备管理和数据上报所需计算
非视频设备数/单核可处理非视频设备的个数/服务器冗余系数=670000/500/(1-30%)=1915个CPU核
公有云需要的物联网平台计算资源估算与上表相同,采用4核CPU、8GB内存虚拟机测算。
3.5 智能化设施计算资源估算
智能化设施部署在私有云,包含以下多个子系统。根据建设经验,结合智慧绿道的用户规模,建议本期工程的服务器配置如表3所示。
表3 智能化设施计算资源估算汇总表
3.6 大数据平台计算资源估算
大数据平台部署在公有云。根据前面估算的数据存储量,500TB规模的大数据平台可以满足需求,按大数据平台建设经验配置6台×控制节点服务器;数据存储按3副本存储,需32台×存储节点服务器。
3.7 计算资源估算汇总
物联网平台和绿道应用系统采用CPU(E5-2680V4)作为计算基准,在计算机器数时,仍采用单机2个14核CPU(E5-2680V4)的配置作为机器数的估算基准,由于E5-2680V4具备超线程能力,实际可作为2×14×2=56个CPU核,虚拟化后性能损失在5%~30%,取中间值15%,可作为48个CPU核。
混合云部署时应保证在私有云互联网出口和专线断开情况下,私有云仍能提供基本的服务能力,包括安防监控、物联网设备控制和信息推送等服务。公有云和私有云的计算资源汇总如表4-5所示。
表4 私有云计算资源汇总表
续表
表5 公有云计算资源汇总表
4 结语
本文在智慧云平台建设的背景下,通过对具备典型性的某市智慧绿道云平台为案例,对云平台计算资源需求做出分析和测算,提供一种可供参考的云计算资源的计算方法。基于TPC-C基准测试的服务器性能需求计算模型,虽然是一种针对平台性能很好的测算模型,但在实际的云平台项目中受推进过程阶段的限制,不一定能在项目前期获得足够的参数条件。在测算过程中,要通过灵活使用,不拘泥于模型,并灵活地辅以其他测算、估算方式,甚至是经验配置方式。
本文在实践中灵活地应用了不同的测算方式组合,虽然可能导致了一定的计算偏差,但却将偏差控制在工程可接受的范围内,确保测算时项目所在阶段顺利推进,并为平台建设硬件需求规模和投资规模测算以及项目投资测算提供了有力参考。