当至强可扩展平台遇到金山云裸金属服务
2019-11-07袁怡男
袁怡男
企业的核心业务在上云的过程中对性能、稳定性和安全性有诸多考虑,企业原有的核心应用需适配虚拟机进行调整,企业核心数据库业务对高性能的要求给虚拟机带来很大挑战。基于此,金山云携手英特尔打造裸金属服务,通过以第二代英特尔至强可扩展处理器为主的产品应用,实现性能、稳定性、安全性等大幅度提升,同时降低成本,优化资源配置,加速助力企业数字化转型。金山云与英特尔打造的裸金属服务到底是“何方神圣”,且听金山云裸金属&异构计算产品总监金旭先生在8月6号举行的英特尔至强可扩展平台用户经验分享会上的分享。
Q:一般什么样的用户会选择使用裸金属(Bare Metal)产品?和传统的云主机服务相比,它有什么好处?两者的使用场景如何区分?
A:目前金山云裸金属(物理机)的使用客户基本上是中型或者大型客户,同时还有一部分的CTI(呼叫中心)客户。裸金属产品服务的第一个优点是可以构建更安全的生态。裸金属服务是把物理服务器的全部权限开放给客户,因为有些客户觉得服务器都在自己手里控制时数据才是安全的。而裸金属产品实现了物理层面上的数据隔离,并不是传统为了网络逻辑化而做出的虚拟化隔离,这就保证了它的安全性。
我们在运营裸金属服务时发现,有一部分客户用它来跑容器服务(Container Service)。在业界,大家看到的容器形态是基于云主机或者云物理主机的形态去扩展,虽然容器本身有一定的隔离性,但物理服务器本身就是隔离的,用来裸金属来跑容器安全性更强。
其次,某种程度上裸金属产品单位性能成本更优秀。用户选择云服务是因为云主机把计算单元更小化了,所以可以降低成本。而容器则会进一步降低客户的成本。不过对于物理服务器来说,如果在CPU、内存和硬盘的使用率非常高的情况下,物理机的单位性能成本其实是优于云主机的。
云计算的核心目的是帮客户减少运维的压力,减少开支。从常见的应用来看,云主机通常能比较好地支持横向可快速扩展的场景,比如8核、16GB内存或者16核、32GB内存的场景,可以大规模地应用于网站、应用的搭建。物理服务器则更多的是用来运行更稳定的业务。虽然金山云具备在20分钟内开一千台裸金属服务器的能力,但是它的物理资源还是有一定限度的。反过来,云主机的扩展能力则更强,横向扩展的数量会更大一些,这是两者应用场景的区隔。
物理服务器有一些更适合的场景,比如某些大数据应用的场景。普通的大数据场景会使用SATA硬盘来存放客户的数据,此时依托于物理机就能提供更大的带宽。业界的云主机一般提供1Gbps、2Gbps到7.5Gbps的带宽,而物理机可以提供20Gbps的带宽来应对大存储的场景,这样一来单位成本下的价格会远优于各种各样的云存储和云盘。也就是说,在数据量比较大的情况下,比如单机超过15TB的时候,物理机的成本会降低。所以,金山云可以为不同场景的用户提供云主机或者物理机,最终让客户在不同应用上的TCO花费变得更低。总体来说,裸金属产品服务的目标应用有四个:大数据场景、高性能场景、AI场景以及基于英特尔傲腾数据中心级持久内存的高内存需求场景。
对于AI来说,由于其对整个算力的要求是极其高的,甚至会在物理机也出现10瓶颈,所以我们引入了英特尔的P4510企业级SSD来全面满足AI客户训练的需求。同时我们还推出了基于英特尔傲腾数据中心级持久内存的产品,比如用户如果需要自建Redis的服务,包括其他类似的AI算法推荐,或者对内存消耗相对比较高的业务,比如需要512GB或者1TB的内存,甚至更大容量内存的时候,同时对成本也有一定控制,那么他们可以使用配备了英特尔傲腾数据中心级持久内存的产品。
Q:我们发现新推出的裸金属产品不少都采用至强可扩展处理器金牌6240,为什么没有选择用8系列的处理器呢?
A:在业界,更高的8系列至强可扩展白金系列处理器基本上是使用在云主机上去做虚拟化应用,因为它的CPU核心数量更多,可以提供给更多的用户。8系列处理器虽然性能更高,但是在裸金属的应用环境,至强金牌6240有18核,主频和睿频也比较高,总体比较均衡,性价比更高,所以我们和客户更倾向于如此选择。现在的物理机所采用的至强金牌6240处理器双路有36个核心72个线程,其实已经能满足大多数计算密集型应用的需求了。
另外,为什么我们在大数据场景上用至强金牌5218处理器呢?这是因为大数据场景本身对CPU资源的消耗并不是那么大,基本上处理器不会成为瓶颈,而其他部件比如网络可能存在瓶颈,或者普通的SSD也是瓶颈,这就像一个桶一样,会有短板存在。我们设计的目标就是去把这些短板补齐,让用户把费用花在刀刃上。
还有,对于Redis这样的场景来说,基本上如果核心在10核心以下时,处理器有可能会成为瓶颈。不过如果采用14核以上的处理器,那么瓶颈就不会出现在处理器上,而主要出现在内存容量上。那么无论处理器是增加到16核还是18核,对于Redis这种场景的整体性能影响是不那么大的。最后,金山云现在已经引入了拥有更多核心的英特尔至强白金8270来应对虚拟化场景下的多核需求,所以是在不同场景下有不同的选择。
Q:从现在的用户需求来看,还有没有对处理器主频有着更高要求的场景或者需求?
A:目前我们看到的情况来说,超过3.0GHz以上主频的需求在某些计算场景有可能会遇到,但是体量不会特别大。我们最近在探索云游戏场景(包括8月3日金山和英特尔一起发布的云游戏场景解决方案)时发现,云游戏对主频要求比较高,需要在3.0GHz以上。因为这个游戏和普通游戏不太一样,它是把计算性能全部放在云端,手机端或者电视端只做图像的视频流处理,比如我们到酒店的时候只需要随身携带一个盒子连接电视,接一个外接键盘就可以玩大型游戏。
Q:是不是可以理解为做云游戏的时候对高频CPU的需求会更高?
A:其实现在大家都是在找一个均衡点:核心数量多一点,主频也适当高一点。因为高主频的CPU其实是很昂贵的。对于游戏而言,如果跑在单线程上,在一个核上跑,主频高可以跑得非常好。但游戏开发商现在都希望相对采用“Scale out”模式,横向扩展利用到多个核的性能,让主频不需要那么高,这才是比较均衡的软件架构。这样主频也可以不要那么极致,性价比比较高,还可以根据不同的工作负载来选择变化。
Q:在实际使用英特尔的做腾数据中心级持久内存(Optane DC Persistent Memory)时,应该如何利用好其内存特性呢?
A:这个要分傲腾数据中心级持久内存应用的初阶和高阶。初阶是大家希望拥有TCO优势,用户需要看到的是增大内存,操作系统是不知道底层有数据中心级持久内存的,所以应用、操作系统都不需要更改,直接就是作为内存模式,这对客户来讲投资回报比较高,TCO比较好。当傲腾数据中心级持久内存直接作为内存使用时,搭配的DRAM会成为持久内存的缓存,这样可以保持整个系统的性能平衡,就好像你用SLC作为TLCSSD的缓存一样。
不过对于高阶客户来讲,怎么把优势更进一步发挥出来呢?这就需要根据应用本身进行技术实力要求更强的联合研发,把其不同的特性利用起来,让TCO可以进一步下降,英特尔和金山云也在针对云数据库Redis做类似研发。因为Redis也能进行冷热分层,超热或者小的数据可以放在内存里,剩下的相对偏冷和温的数据,以及较大的数据就放在持久内存里,有各种方式来充分发挥出各个性能,确保没有性能瓶頸,最大限度地发挥出投资的价值。
总之,想要最大化地体现出英特尔傲腾数据中心级持久内存的价值,—方面整个应用本身的需求应该是偏内存型的,内存在服务器投资里的占比越大,换用傲腾数据中心级持久内存之后受益也就越大。另—方面就是要进行深度开发优化,进一步提升效率。
结语
兼具物理机性能,且适配高性能、大吞吐、数据大容量、对安全性要求高、又要快速交付的场景,裸金属服务凭借自身优势已成为云计算演进的一个新方向,而金山云携手英特尔打造的创新型裸金属服务凭借强大的软硬件支撑和不断创新的技术体系也被视为业界下一个“爆款”。