移动端AI芯片能力评测工具研究

2020-08-26

广东通信技术 2020年8期

人工智能时代对移动终端的计算能力提出了更高要求，高通、苹果、华为等厂商引入AI芯片为手机赋能。2017年AI芯片在手机终端开始商用[1]，这些芯片的实际表现和能力对比引起业界广泛关注，一些评测工具从多个维度对AI芯片能力进行评估，给产业链厂商和消费者带来便利。同时，这些评测工具尚不成熟，市场上对如何全面反映AI芯片能力未形成一致意见，基于此，本文研究了几款国内外的AI芯片评测工具，分析发展趋势，为规范手机AI芯片评测方法提供参考，助力行业发展。

2 手机AI芯片现状

目前，移动终端集成AI能力，如人脸识别和语音识别等，满足大规模的用户需求，为消费者提供一对一的个性化体验服务。AI应用的运算量高达亿每秒数量级，传统的处理器解决方案已不适用，由此产生了AI芯片。AI芯片能够以更快的速度、更低的功耗完成机器学习运算，成为手机的重要卖点和核心竞争力。

用于手机的AI芯片解决方案大致分两类[2]，一类是内置独立AI运算单元，在芯片中集成专门用于执行AI算法的处理核心，另一类是通过SDK调度传统硬件单元为芯片提供AI计算能力。两种技术路线在功耗效率和研发成本上存在差异，集成专用AI模块虽然成本略高，但是便于发挥平台优势，减少硬件单元间切换频率，提升功耗效率，成为众多芯片厂商的解决方案。

在专用AI模块出现之前，高通凭借加强的GPU和DSP在Android平台的AI芯片中占据有利地位，2017年海思发布全球首款内置独立NPU的麒麟970，随后出现多种用于处理AI算法的移动SoC，手机AI芯片市场呈现百花齐放的繁荣景象[3]。目前，苹果A13支持在设备端训练机器学习模型，麒麟990集成晶体管数量达到百亿级别，虎贲T7520实现6 nm制程，手机AI芯片得到“跨越式”发展。

AI芯片的功能日益多样化、复杂化，各方都对衡量芯片的能力有着迫切的需求[4]，芯片厂商依据不同的衡量标准，声称其产品在计算性能、单位能耗等方面处于行业领先水平；需求方则关心如何能从厂商给出的信息中判断出芯片是否能满足其应用场景的计算需求。因此，迫切需要建立一个与应用场景紧密相关、可跨产品对比的测试评估方案，以降低芯片厂商、需求方的沟通成本，规范AI芯片市场竞争，同时，我国庞大的消费市场对底层芯片需求巨大，本土AI芯片产业尚处于起步阶段，衡量AI芯片能力的评测方案也将为我国芯片产业发展指明前进的方向。

3 手机AI芯片评测工具

AI芯片在工业界的应用包括训练和推断两部分，训练阶段对存储和算力要求较高，主要在云端实现，推断阶段计算量较小，手机端主要执行推断任务。AI芯片评测工具模拟手机应用场景，输入测试数据到机器学习模型执行推断任务，根据推断速度、功耗和推断结果等指标量化芯片的AI能力。

各家芯片厂商的底层软硬件AI加速方案存在差异[5]，iOS开发者可以使用Core ML框架调用机器学习模型，但在Android平台，开发者面临AI能力开放平台“碎片化”困局，如高通的SNPE平台、联发科的NeuroPilot平台、华为的HiAI平台等，给芯片评测带来困难。评测工具需要适配各家厂商提供的AI能力开放平台，以便发挥出芯片的实际能力，另外，也可以使用第三方开源的平台，如谷歌发布的移动AI架构TensorFlow Lite，调用手机硬件单元。目前，TensorFlow Lite与各芯片平台未完全兼容，不能充分发挥出芯片的AI能力。

3.1 国内评测工具

国产手机在全球的市场占有率逐年提高，手机评测企业、软件联盟、中国电信也在跟进相关评测工作。

（1）安兔兔AI评测

安兔兔于2019年1月上线芯片评测软件“安兔兔AI评测”[6]，与高通、联发科、海思、NVIDIA、三星开展合作，在统一标准下进行AI芯片能力测试，测试项目包括图像分类和目标检测，测试结果与推断速度和准确率相关，并设置防作弊机制，当速度和准确率不匹配时会有罚分措施。

安兔兔官网推出Android SoC AI性能榜，涵盖市面上的多款手机芯片，榜单分数为SoC当月的跑分平均分。安兔兔AI评测软件的最新版本是V1.2.3，它的软件版本更新频繁，主要是更换合作厂商的AI芯片SDK版本和修复旧版本的遗留问题，网络模型和芯片评测细则基本没有变化，因此，能够对各厂商的AI能力开放平台提供较好支持，但该软件的评测场景较少，无法满足当前AI应用的需求，需要拓展指标维度。

（2）鲁大师AImark

2018年5月鲁大师推出“AImark”软件[7]用于评测手机的AI性能，支持对ARM、高通、海思、联发科和三星等供应商的芯片进行测试。相比较安兔兔AI评测软件，AImark在图像分类任务中增加Resnet34模型，测试场景中增加图像分割任务，并强化了准确率与最终成绩的关联度，若准确率过低，成绩会相对降低，即速度再快，准确率较低，得分仍会大幅下降。

AImark可以评测安卓和苹果手机的AI芯片，Android平台的版本更新较快，最新版本是V2.11。AImark的评测榜单中包含了苹果平台的数据，另外，它丰富了评测模型和场景，在反作弊方面，重视推断结果的准确性。

（3）AIIA DNN Benchmark

AIIA（中国人工智能产业发展联盟）下设的AI计算架构及芯片推进组联合多家芯片厂商和互联网企业发起DNN Benchmark项目[8]，该项目测试具有AI能力的加速器在云端和终端的推断情况，提供选型参考和第三方评测结果。

DNN Benchmark是一个开源基准测试平台，该平台制定AI芯片评测标准，企业可以运行平台指定的模型、测试数据集、预处理方式和单线程推理任务参与刷榜，也可以自主增加测试场景，提交原始FP32模型文件、前处理、精度数据集和后处理脚本。平台审核企业提交的测试数据，发布芯片在端侧推断的性能和精度Top1榜单。工作组于2019年3月和6月分别发布了两轮端侧推断任务基准测试报告，适用于手机终端的基准测试含有图像分类、目标检测、图像超分、图像分割，共四类场景的10种机器学习模型，模型区分整型和浮点型，主要关注推断速度和推断结果准确率。

DNN Benchmark的评测场景和模型更加丰富，为企业贡献自测数据和增加测试场景提供了一套完整的标准。从已发布的测试报告来看，参与评测的手机芯片有海思麒麟980、紫光虎贲T710和高通骁龙855，还需要芯片厂家提供更多的数据支持，评测结果以单一指标Top1榜单的形式呈现，便于客观反应具有AI能力的加速器现状，缺少单款芯片的综合成绩，无法直观比较芯片间的AI能力。

（4）中国电信AIT

中国电信研究院智能终端研究所关注终端领域前沿科技趋势，于2018年在GSMA牵头立项一份AI手机国际标准，作为这项标准的支撑项目，启动手机AI芯片评测工作，推出自主研发评测工具AIT（AI Chip Testing），探索手机AI芯片能力评估方案。

截至目前，AIT获得海思、高通、联发科的认可和支持，评测工作已经开展三轮，测试芯片有海思麒麟810、980、990等，高通骁龙845、855等，联发科P70、P90等，同时自主开发苹果平台的芯片评测软件，完成A12、A13芯片的测试，评测结果在“中国电信2019年终端洞察报告”[9]中发布。AIT 3.0版本的评测场景包括图像分类、目标检测、图像超分和图像分割，针对网络的性能、能效和耐久模式进行多模式调校，重点关注浮点性能和硬件算力。中国电信AIT覆盖主流网络模型，结合多模式调校，能够客观反映手机芯片的综合AI能力。当前，中国电信正在与紫光展锐和三星进行沟通，希望在AIT中加入这两家的芯片测试。

3.2 国外评测工具

国外芯片测试工作大多是从单个硬件单元或机器学习算子的性能出发，本文主要研究手机AI芯片整体能力的评估，因此将介绍AI芯片评测软件AI Benchmark[10]和AI系统评测基准MLPerf[11]。

（1）AI Benchmark

AI Benchmark是由苏黎世联邦理工学院开发的一款APP，用来评测不同Android设备和芯片的AI能力，最新软件版本V3.0.2的测试项目拓展到11个部分，包含对图像、视频、游戏、内存的处理，按模型数据类型和调用的硬件单元细分为21个测试内容，测试元组包括机器学习模型、模型精度、底层硬件3个维度。该款软件的打分系统是对AI加速单元整型和浮点型性能、CPU单线程和多线程性能、单次和吞吐量推断时间、内存和RAM性能、初始化时间、推断结果准确率的综合考量，测试成绩与推断速度成正比。

AI Benchmark官网发布的跑分排行榜单，包含高通、海思、联发科、三星、NVIDIA等芯片商的多款产品以及这些产品在不同手机上的得分情况，受到产业界和消费者的广泛关注。AI Benchmark涵盖的评测场景最为广泛，打分细则中更关注手机处理浮点型数据的能力，这与当前手机AI芯片多在浮点运算发力是相适应的。

（2）MLPerf

MLPerf源自哈佛大学、斯坦福的研究项目，作为一套通用的基准测试规范受到业界的广泛关注。Mlperf分为训练和推断两个部分，推断测试适用于从移动设备到服务器的各种系统，对衡量手机芯片AI能力也具有指导作用。基准测试包含四种方案，单路、多路、服务器和离线方案，手机专注于一次从一个流中读取数据，强调低延迟，适用于单路推断基准测试，可使用基准中的图像分类和目标检测模型评测手机芯片。MLPerf论坛分为封闭组和开放组，封闭组对评测的模型参数和数据集有严格规定，开放组允许更多创新，参与者可以提交自定义测试用例。

MLPerf论坛于2019年6月公布推断结果V0.5，包括了麒麟960、麒麟970和高通855在传统加速单元上的测试数据，没有在AI加速单元的测试数据，另外，工作组的数据贡献者大多是云侧厂商，终端芯片厂商不多，测试结果发布周期较长，手机芯片商用周期缩短，基准测试数据滞后。

表1 手机AI芯片能力评测工具

3.3 小结

基于上文各评测工具的基本情况，通过表1开展对手机AI芯片评测工具的分析（数据统计截至2020年5月24日）。

评测工具组织方多为业界有影响力的企业和评测机构，其凭借自身的号召力和技术水平，与芯片厂商协作发布相关芯片评测结果。从市场来看，是一种双赢的合作。不过由于芯片厂商与部分机构对接不完全，相应的测试结果只是在CPU或GPU的跑分数据，尚不能充分体现各家独有的AI硬件单元的真实水平。

当前的评测工具多以推断速度和结果准确率作为基准评测指标，并给出相应的跑分榜单。也有如中国电信AIT，针对芯片的上市时间和品牌，给出对应的横向和纵向比较，不仅让消费者更好的感知芯片性能的提升，同时对市场不同品牌的芯片性能竞争起到良性的促进作用。

手机AI芯片评测工具从评测场景出发，选择相应的模型执行推断任务，根据推断过程和结果的指标数据评估芯片的能力，因此评测思路与应用相关，能够反映手机的实际使用情况。各芯片平台可支持的模型种类和数量越来越多，不再局限于图像分类、目标检测，评测工具的测试场景也愈加丰富，逐渐向图像分割、超分等新领域拓展。从表1可以看到中国电信AIT和AI Benchmark在测试场景、模型数量和测试的手机芯片数量上的综合表现最佳。

4 AI芯片评测工具分析及建议

对AI芯片能力的测试，关键在于选择评测场景和评测指标。本章从场景和指标出发，分析当前AI芯片评测工具的发展情况，并给出评测建议。

4.1 评测场景

手机上的应用程序越来越多，诸如拍照、人脸识别、语音交互等是必然要支持的功能，这些应用程序的使用效果会影响用户体验。手机AI芯片评测工具模拟手机的使用场景进行推断，具体分为以下几类。

①图像处理：评测场景包括图像分类、图像去模糊、图像超分、背景虚化、图像分割、图像增强和目标检测，其中分类、检测、分割和超分是测试的重点，这与卷积神经网络的发展历程是相符合的。值得注意的是，通常会在一个场景中测试多个主流模型，如用于图像分类的重量级模型VGG16和更适合移动设备的轻量级模型Resnet50。

②人脸识别：输入要识别人物的面部照片，模型比对已知人脸数据库，输出与给定照片中最相似的人脸信息。

③玩游戏：AI Benchmark通过集成DeepMind训练的LSTM RNN模型玩Atari游戏，目前，该模型只用于测试CPU性能。

④内存测试：不断增加输入图像分辨率，直到内存溢出，芯片评测得分与内存溢出时的图像分辨率成正比。

4.2 评测指标

手机的使用场景、芯片的硬件加速方案各异，单一的评测指标无法全面反映芯片的AI能力，因此手机AI芯片评测工具从多个维度给出一个整体评分，评测维度包含以下几个方面。

①推断速度：集成AI芯片很重要的一点就是为了提升手机的运算速度，给用户带来更快的使用体验，因此，芯片评测的首要关注点也是运算时间，有两种统计方法，一种只取模型的推断时间作为运算时间，又可分为单次推断时间和吞吐量推断时间，另一种是将运算时间细化为模型加载时间和模型推断时间，如中国电信AIT和AI Benchmark。

②结果校验：如果只将推断速度作为评估依据，不对推断结果进行校验，芯片厂商可能会针对评测模型做特定优化，以牺牲推断准确率为代价换取芯片速度的提升，这种做法显然违背了评测的初衷，不能真实反映芯片的AI能力。不同场景的推断结果准确率评估指标也不相同，这与模型输出结果的展现形式有关，如图像分类以Top1和Top5表示、而图像分割则是计算mIoU。

③模型精度：模型精度影响评测结果数据，浮点型性能低，推断结果准确率高，整型性能高，推断结果准确率低，各厂家的AI芯片解决方案对不同精度机器学习模型的支持情况也存在差异，高通的SNPE平台目前只支持整型运算，华为的HiAI平台对整型和浮点型运算都能提供较好支持，因此应该注明用于评测的模型精度。AI Benchmark分别评估了Float32、Float16和Int8的性能，在计算综合得分时对3种精度的性能赋予不同的权重。

④硬件单元：手机芯片加速单元种类繁多，传统的有CPU和GPU，提升AI算力的有NPU、APU、DSP等，芯片厂家推出的AI能力开放平台提供了调用不同硬件单元的函数，因此可以对比芯片在不同硬件单元的性能。

4.3 评测建议

经过两年多时间的发展，各方积累了一些测试数据和评测经验，但芯片评测仍处于探索阶段，市场上对于如何才能真实反映AI芯片能力尚未达成一致意见，现有的评测工具也还有需要完善的地方，对此本文提出以下优化建议。

①规范测试场景：当前用于测试的场景还不统一，图像分类、图像检测、图像分割和图像超分被使用的频率最高，建议将这四种场景作为基准评测场景，评测工具需对这四类场景进行测试，后续的场景可以在此基础上增加。

②拓展测试场景：图像、视频和游戏，本质上都是对图像的处理，因此，当前的芯片评测工具事实上也都是基于图像的能力测试。语音通话、语音转文字、文字识别等是手机的基础功能，现在与语音、文字处理相关的机器学习模型发展比较成熟，因此建议增加针对语音和文字的测试任务，拓展RNN模型的测试用例。

③规范测试模型：在图像分类中，使用了不同重量级的模型进行测试，模型大小可能会影响测试结果，因此建议每一种测试场景选择两个存在明显区别的主流模型进行评测，如不同重量级的模型等，使得评测结果更加有说服力。

④完善打分体系：芯片厂商对各款评测工具的支持力度不同，评测工具的打分权重各有偏重，这些都会影响芯片的得分和排名，因此建议在跑分榜单和评测报告中说明对芯片厂商的AI能力开放平台的支持情况，并均衡赋分规则，避免有所侧重，确保公平、合理地反应芯片的真实能力。

5 总结与展望

AI芯片已成为手机行业的关注点和卖点，评估芯片能力的方案仍在探索之中，评测企业、研究机构等推出了几款手机AI芯片评测工具，使用这些工具可以定量评估手机芯片的AI能力，并与其他款芯片进行对比。本文研究了几款国内外的芯片评测工具，分析评测场景和评测指标，给出评测建议。

当前手机AI芯片能力的评测方案还不统一，评测工具的打分体系也存在较大差异，规范测评方案，完善打分系统，还需要社会各界的共同努力。2020年上半年，5G手机相继发布，新一轮换机潮来临，国际半导体市场竞争激烈，对于相关领域从业者而言，评测手机AI芯片能力将有助于增强“新基建”带动性，释放经济发展新动能。