服务器性能评价方法研究综述

2022-12-07李安昊方鲁杰徐志亮

网络安全与数据管理 2022年11期

李亮，李安昊，方鲁杰，张宇，李锁在，徐志亮，袁泉

(1.中电（海南）联合创新研究院有限公司，海南澄迈 571924；2.海南省PK体系关键技术研究重点实验室，海南澄迈 571924；3.中软信息系统工程有限公司，北京 102209)

0 引言

计算机技术的发展推动着社会进步，各行各业逐渐开始进入信息化的时代。随着大数据时代的到来，人们对网络应用需求日益增长，对计算机性能的要求越来越高。服务器相比于普通的终端机，其在稳定性、安全性、性能等方面的要求更高，更受企业与一些行业工作者的青睐。目前市场上的服务器品牌有很多，例如中国长城、华为、戴尔、惠普、浪潮等，其性能、系统架构、价格等也不同，对于不同的使用场景也需要使用不同的服务器，对于企业或个人来说，如何为自己的应用场景选择合适的服务器是重中之重，因此在选购前需要对服务器的性能进行评价。

目前服务器的性能评价并没有一个完整的国家标准或国际标准，只是对性能中的安全性等进行规定，关于服务器性能评价的相关标准如表1所示。

表1 服务器性能评价相关标准

由于未有一个完整的服务器性能评价指标，因此最初的服务器性能评价方法主要是对速度和稳定性这两个指标进行分析，一般情况下，只要速度和稳定性满足用户要求，就认为该服务器符合标准，这种方法具有一定的局限性。后续随着计算机测试技术的发展，陆续加入了CPU、内存容量、网络延迟和宽带、硬盘等指标，逐渐丰富了服务器性能评价方法。

本文将目前主流的服务器性能评价方法归纳为三类：基于测试工具的评价方法、基于多属性决策的评价方法及基于数据驱动的评价方法。基于测试工具的性能评价方法，需要技术人员对服务器的参数十分了解，根据一些测试软件的数据进行分析，通过知识表达和知识推理技术达到对服务器性能分析的目的。基于多属性决策的性能评价方法是以服务器的工作原理为支撑，对服务器的性能指标进行数据收集，通过对服务器性能指标建立数学模型，通过建模的方式完成对服务器性能的评价。基于数据驱动的性能评价方法，它不需要对服务器的指标进行大量的数据处理或者建立复杂的模型去分析，只需要通过数据的自主学习来建立参数输入与评价输出的关系即可。

本文系统性地对上述三种服务器性能评价方法进行介绍，然后对目前服务器性能评价中存在的问题还有未来的发展方向做进一步的探讨，并提出一些建议，最后对可能面临的问题和挑战进行了阐述。

1 基于测试工具的评价方法

最初服务器的性能评价主要依靠技术人员的操作经验进行判断，要求相关人员有着丰富的实践经验，充分掌握各种服务器的工作参数，从而完成服务器的性能评价，但这种方法较为费时，对人员的要求高[1]。

随着计算机软件技术的不断提升，利用计算机多线程的计算能力，使用一些服务器测评软件(例如SPEC、Linpack、HPCC、UnixBench)进行综合测评达到性能评价的目的[2]。

文献[3]采用了性能测试工具SPECweb99，将网络性能作为标准，通过阈值分析的方式完成对服务器网络系统性能的评价。文献[4]采用ServerScope工具提供的数据监控服务来监控被测系统的性能，测试指标主要包含最大并发流数目、聚合输出带宽等，以此分析和优化电子商务Web服务器的性能。文献[5]采用HPL(Hero Pro League)测试软件进行参数测量，深入探讨了Linpack测试原理，提出了一套以此为基础的测试指标。

虽然计算机测试技术的快速发展极大程度上简化了数据处理与逻辑推理的过程，但是测试工具具有一定的局限性。由于测试工具的开发时间普遍较早，其部分算法已经并不适用于目前的高性能的服务器，而对算法进行改进需要大量时间。此外不同测评软件的标准不同，没有统一性，并不能建立一个完整的评价结构，应用场景多有限制，例如HPCC测试软件测试的子项过多，测试的结果需要非常专业的人士来进行解读，对于普通人士或者非专业人士并不友好，普通用户或者非专业人士很难对自己的应用场景做出正确的选择[6-7]。此外由于标准不同，不同的测试工具测评出来的结果差异较大。例如使用UnixBench软件进行测评，使用相同的服务器而使用不同的系统内核都会导致结果不尽相同，十分不利于非专业人士与普通用户进行分析。

2 基于多属性决策的性能评价方法

基于多属性决策的性能评价方法是根据经验与知识的评价方法改进而成的，它最初的想法是构建数学模型或物理模型模拟服务器在特定的场景的工作过程，通过分布拟合出它们的工作参数，将模拟出的相关参数与实际测量值进行对比，通过分布拟合它们的残差值设置阈值，根据阈值进行服务器性能评价，但这种仅限单一指标判断。根据数据处理的技术不断加强，越来越多的智能算法被人们所提出，此时基于模型与数据联合的建模方法越来越被人们所认可，服务器的性能会关联到不同的指标，若想全面地将不同属性的多个指标结合在一起进行评价，需要建立一定的数学模型进行数据处理，基于此，服务器多属性决策理论开始进入了人们的视野。

在多属性决策理论中，首先需要判断将指标划分为定量指标与定性指标，一般来说处理此类多属性决策问题需要设计决策方案，要清楚自己的指标选取方式，指标的选取有三种方案：全部选择定量指标、全部选择定性指标以及定量指标与定性指标的混合选用。这三种情况对应的多属性决策问题分别称为定量型多属性决策问题、定性型多属性决策问题和混合型多属性决策问题。通常根据不同的场景选择不同的情况进行分析[8]。

在解决多属性决策问题中，一般都要涉及三个方面，分别是决策矩阵的规范化、各属性权重的确定和最终结果的综合排序，具体工作过程如图1所示。

图1 多属性决策一般过程

多属性决策通常具备以下特点：

(1)多方案调度：在进行多属性决策之前，必须要先进行多种方案评估，并对所提出的方案编写方案书；

(2)多评估属性调度：在进行多属性决策之前，必须要衡量可行的属性数，提出方案可能面临的属性调度问题，分析属性间的关系，判断属性间是相互独立还是具有关联；

(3)多属性的权重分配：对于不同的应用场景指标有不同的权重分配方案，分配不同的权重给不同的属性，一般来说属性的权重分配通常会经过正规化处理。

目前应用最多的是混合型多属性决策问题，在应用时属性权重的选择问题上一直是一个重要问题，近些年来对于其的研究一直未中断。迄今为止，权重的分析方法主要有两种：主观赋权法和客观赋权法。

主观赋权法是根据研究人员或专业人士的经验对一些指标进行主观判断，从而确定指标权重的方法。常见的主观赋权法包括判断矩阵法、模糊子集法、点估计值法等[9]。

相比较于主观赋权法，客观赋权法不含人的主观因素，利用客观信息通过一定的数学运算完成指标的赋权，目前常用的方法包括主成分分析方法、层次分析法、聚类分析、熵权法、均方根法等一系列方法。相比于主观赋权法，客观赋权法舍弃了主观因素影响，在权重的选择上可以利用数学公式来证明，更加具有公正性。

基于多属性决策的服务器性能评价方式目前国内外的研究较多，文献[10]采用了层次分析法与模糊矩阵相结合的方式进行流媒体服务器性能评价，首先使用层次分析法完成指标的权重分析，然后采用模糊矩阵的定义来构造判断矩阵，最后采用定量与定性指标结合的方式完成整个服务器的性能评价。文献[11]建立了一种基于FTP服务器的排队理论模型，通过对网络带宽利用率等定量指标与网络的可靠性等定性指标进行分析，提出了相应的FTP服务改进方案。文献[12]针对云服务器的安全架构、机制等进行分析，建立了定量与定性指标，通过建立模糊矩阵的方式将定性指标定量化，将问题转为定量指标的分析上完成对云服务器安全的评价指标。

但这种方法也有一定的缺陷，如果对指标采用主动赋权法，主观性影响较大，在进行指标赋权的时候权重分配没有一定的原理性，如果采用客观赋权，因评估标准不具有一贯性，一旦参与评估的对象发生改变，权重也会相应地进行改变。

3 基于数据驱动的性能评价方法

随着近些年机器学习的快速发展，基于数据驱动的服务器性能评价方法是当下学者们研究的重要方向，相对于基于测试工具的评价方法或基于多属性决策的评价方法来说，它不需要对服务器的指标进行大量的数据处理或者建立复杂的模型去分析，只需要通过数据的自主学习来建立参数输入与评价输出的关系即可[13-15]。

机器学习是一门涉及智能算法、统计学、概率论学等多领域的交叉学科，其核心思想是通过计算机模拟或实现人类的学习行为，从而获取新的知识或技能，或者是重新组织目前已经学习到的知识框架并不断进行改进，其工作原理如图2所示。

图2 机器学习一般过程

基于数据驱动的服务器的性能评价方法主要有两种，一种是基于拟合的方式进行服务器性能评价，一种是基于回归的方式进行服务器性能评价。基于拟合的方式进行服务器性能评价需要先建立一定的评价等级，将所测量的参数作为输入，将评价等级作为输出进行模型训练并保留模型。后续将所需要进行性能评价的服务器的测量参数输入到模型中进行拟合，输出所定的评价等级[16]。

基于回归的方式进行服务器性能评价方法主要是将分析服务器参数与评价等级建立一个回归分析模型，根据实测服务器参数来求解回归模型中的参数，并对回归模型的拟合效果进行评价，如果拟合效果较好，则可以根据服务器参数对服务器性能进行下一步的评价[17]。

文献[18]结果表明此方法无需建立复杂的数学模型即可实现对Web服务器的性能评价。文献[19]提出了多路径传输网络的评价模型——基于灰色关联网络性能评估模型MPTCP-GANPEM(Multi-Path TCP Grey Associated Network Performance Evaluation Model)，定性指标选择了精简性、可测性、代表性，并依次抽取了相应的评价指标作为网络输入，利用回归的方式对服务器的综合性能进行量化评分。

此类方法虽不需要建立复杂模型，但其工作原理为黑箱原理，可解释性不强，且过于依赖模型的稳定性，容易出现过拟合的现象。此外此类方法需要充足的先验知识作为训练模型的数据，如果先验知识具有局限性，那么会对整体的评价产生较大的影响。

对以上三种服务器性能评价方法进行总结，如表2所示。

表2 三种服务器性能评价方法对比

4 试验验证

选用两台服务器，配置分别如表3和表4所示。

表3 A服务器配置

表4 B服务器配置

分别使用三种方法对两个服务器进行对比，首先使用测试工具UnixBench对两个服务器评价，测评结果如表5所示。

表5 UnixBench测试结果

其次采用多属性的权重分配的方法进行服务器性能评价，具体工作包括：对于定量指标，采用改进的灰色关联分析方法进行特征贡献度求取，对于灰色关联分析中主观性较强导致求取关联程度精度较差的问题，采用客观赋权法进行赋权，构造一个最优的虚拟方案作为参考数列，将其他方案以其为参考计算关联系数，将关联系数较低的定量指标剔除；对于定性指标，采用模糊化的方法进行数据定量化，最后综合定量指标和定性指标对可行方案进行排序，完成对服务器的性能评价，结果如表6所示。

表6 评价得分

最后采用神经网络的方式建立一个回归分析模型，根据实测服务器参数来求解回归模型中的参数，并对回归模型的拟合效果进行评价，拟合效果较好，则可以根据服务器参数对服务器性能进行下一步的评价，同时完成模型的训练。将验证数据导入到训练好的模型中得到相应的值，与评价等级进行比较。评价等级如表7所示，输出结果如表8所示。

表7 评价等级

从上面的结果可得，三种方法中的结果都是B服务器性能较优，但基于数据驱动的方法两者相差较小，经分析是先验数据不足导致，说明基于数据驱动的模型稳定性较差，所以在先验数据不充足的情况下目前并不提倡使用这种方法，建议使用前两种方法。

5 结论

目前针对服务器的性能评价主要包含有三种：基于测试工具的评价方法、基于多属性决策的方法及基于数据驱动的方法，对三种方法的总结如下：

基于测试工具的性能评价方法的优点是使用工具方便上手，可操作性强，但其应用场景多有限制，且测试的结果需要非常专业的人士来进行解读，对于普通人士或者非专业人士并不友好，很难对自己的应用场景做出正确的选择。其次大多数测试工具是早些年开发的，算法较为落后，如果对算法进行改进会浪费大量的时间。

基于多属性决策的性能评价方法是根据经验与知识的评价方法改进而成的，通过建立复杂的数学模型来建立评价体系。其优点为可以将多个目标关联在一起，利用多属性决策理论的想法来进行数学模型搭建，评价体系通过数学公式来进行构建，方便非专业人士直接调用模型。但这种方法也有一定的缺陷，如果对指标采用主动赋权法，主观性影响较大，在进行指标赋权的时候权重分配没有一定的原理性；如果采用客观赋权法，因评估标准不具有一贯性，一旦参与评估的对象发生改变，权重也会相应地进行改变。

基于数据驱动的性能评价方法相对于基于经验与知识的评价方法或基于模型搭建的评价方法来说，它不需要对服务器的指标进行大量的数据处理或者建立复杂的模型去分析，只需要通过数据的自主学习来建立参数输入与评价输出的关系即可。但其工作原理为黑箱原理，可解释性不强，且过于依赖模型的稳定性，容易出现过拟合的现象。

所以在接下来的研究中，首先要确定一个完整的服务器测评指标，也就是要确定定量指标与定性指标，需要进行大量的模型搭建进行体系搭建，从而选择出在大部分场景都能通用的服务器性能评价指标，且目前的研究没有将经济性因素概括进去，后续的研究工作可以建立服务器性价比模型，将经济因素与性能评价结合，方便在实际应用下选取最优解。

其次，自动化测试是继续要研究的方向，在今后的工作中需要力图实现测评过程的自动化。而且目前还面临着大多时候无法去现场进行测试布置，只能通过场景模拟来进行测试，由于大部分场景难以模拟，因此测试结果与实际结果差距较大，所以在后续工作中也要对服务器测试环境模拟技术进行有针对性的研究。

最后，目前的服务器测评都是在一个相对温和的场景下进行测评，针对高并发、高压力的环境下服务器测评的研究较少，且对服务器集群体性能测试较少，后续要增强此类研究。