人工智能硬件：半导体企业的新机遇

2019-09-04

中国计算机报 2019年28期

相较以往数次技术革命，人工智能的发展对半导体产业意味着什么？哪些芯片有望引领科技创新？本报告通过对人工智能解决方案和相应半导体产品的分析，预测人工智能和深度学习可以使半导体企业从技术创新中获得总价值的40%到50%;存储产品将从发展红利中切得最大的“蛋糕”;半导体企业有望在高性能计算、存储和组网市场获得巨大收益。

AI技术创新将给半导体企业带来机遇

人工智能不断为半导体企业注入推力，今天，半导体企业该如何迎接人工智能带来的机遇和挑战？

过去的几十年，软件一直是高科技的明星，原因很容易理解。伴随着计算机和移动电话等定义了这个时代的颠覆性创新，技术系列中的架构和软件层使得许多科技成为可能。在这种环境下，半导体企业处境艰难。尽管在芯片设计和制造方面的创新催生了新一代设备，但半导体企业只从这种技术创新中获得很小一部分价值：个人电脑约占20%到30%，移动设备约占10%到20%。

但随着人工智能（AI）的发展，半导体企业的情况可能将有所改变。人工智能通常定义为机器执行与人类思维相关的认知功能的能力，例如感知、推理和学习。许多人工智能应用程序已经获得了广泛的重视，包括管理人们家庭的虚拟助手和跟踪罪犯的面部识别程序。这些多样化的解决方案与其他新兴的人工智能应用程序有一个共同特征：依赖硬件作为创新的核心推动因素，尤其是逻辑电路和内存功能。

这一发展对半导体销售和收入意味着什么？哪些芯片对未来的创新最重要？为了回答这些问题，麦肯锡回顾了当前的人工智能解决方案以及支持这些方案的技术。同时，还探讨了系列技术创新中半导体企业的机遇。本报告分析得出了价值创造的三个重要发现：一是人工智能可以使半导体企业从系列技术创新中获得总价值的40%到50%，这是半导体企业几十年来的难得机遇。二是存储设备将实现最高增长，但半导体企业将在计算能力、内存和组网方面获得最大价值。三是为了避免过去影响价值挖掘的错误，半导体企业必须采取新的價值创造策略，重点关注为特定行业提供端到端的定制解决方案。

基于以上观点，半导体领导者可以构建一个新的人工智能路线图。该报告首先回顾了技术创新带来的机遇，重点关注人工智能对数据中心和边缘设备需求的影响（例如设备的计算能力带来的应用），然后，探讨了计算能力、内存、存储设备和组网带来的特定机遇。本报告还讨论了有助于半导体企业在人工智能市场中获得优势的新策略，以及半导体领导者在制定下一步计划时应该考虑的问题。

人工智能技术自20世纪50年代出现以来，取得了重大进展。近几年，开发人员创建了复杂的机器学习（ML）算法，人工智能技术开始可以处理大型数据集，机器具备了“从经验中学习，并进行改进”的能力。此外，伴随深度学习技术（DL）的进步，人工智能发生了最大的飞跃。深度学习是一种可以处理更广泛数据的机器学习，仅需要人工操作人员进行很少的数据预处理，且通常可以产生更准确的结果。

这些技术创新有9个独立层级，能实现两项活动进而推动人工智能应用：训练和推理。当开发人员尝试改进训练和推理时，经常遇到硬件层的障碍，包括存储设备、内存、逻辑电路和组网。通过提供下一代加速器架构，半导体企业可以提高计算效率或改善通过内存和存储设备传输大型数据集。例如，人工智能的专用内存带宽是传统内存的4.5倍，因此更适合处理人工智能应用程序所需的大量数据。由于技术创新带来了性能的巨大提升，许多客户并不介意支付更高价格而选用专用内存（每GB大约25美元，相对而言，标准内存大约只需要8美元）。

半导体行业的大部分收入将来源于AI

由于硬件已经成为推动人工智能技术差异化发展的重要因素，应用市场将极大程度增加芯片的使用需求，半导体企业可以通过开发新技术（如特定工作的人工智能加速器）获利。麦肯锡创建了一个模型来预测人工智能市场需求将如何影响半导体企业收入，并确定人工智能相关芯片对未来半导体市场的影响程度（有关具体的方法，参见“如何进行价值估算”）。

麦肯锡的研究显示，与人工智能相关的半导体市场未来几年的年复合增长率约18%，是非人工智能应用中使用的半导体增速的5倍。到2025年，与人工智能相关的半导体可能占所有需求的近20%，这将实现约670亿美元的收入。数据中心和边缘计算设备都将出现机遇。如果这种增长按预期实现，半导体企业将从人工智能系列技术创新中获得比过去创新更多的价值，约占总价值的40%到50%。

如何进行价值估算

可采用自下而上的方法估算半导体企业的价值。以用于计算功能的加速器为例，首先确定用于人工智能的数据中心中服务器的百分比。然后确定常用的逻辑设备类型以及相关加速器的平均销售价格。对于边缘设备计算能力，可采用类似思路，但是应更注意确定用于人工智能而非服务器的设备数量。结合对数据中心和边缘设备的了解，便可以估算与计算功能相关的半导体企业的潜在价值。

存储设备创造价值的最佳机遇

麦肯锡进一步分析了半导体厂商在计算能力、内存、存储设备和组网方面的具体机遇。对于每个领域，报告研究了硬件需求在数据中心和边缘设备的变化，还量化了除组网之外的每个类别的预期增长，对于半导体企业而言，后者与人工智能相关的价值机会相对较小。

计算能力

计算性能依赖于中央处理单元（CPU）和加速器——图形处理单元（GPU）、现场可编程门阵列（FPGA）和专用集成电路（ASIC）。因为每种应用都有不同的计算要求，因此最佳的人工智能硬件架构会有所不同。例如，与自动驾驶或财务风险分级的应用相比，路线规划应用对处理速度、硬件接口和其他性能有不同的需求。

总体而言，到2025 年，对计算硬件的需求将增加约10%至15%。在分析了超过150个深度学习应用后，考虑了推理和训练要求，能够确定最有望在数据中心和边缘设备获得优势的架构。

数据中心。为满足人工智能应用的更高需求，大多数计算能力增长将来自云计算数据中心。在现有数据中心中，图形处理单元几乎用于所有训练应用。麦肯锡预计，图形处理单元将很快失去市场份额，并被专用集成电路所替代，直到2025年，计算市场被这两种解决方案平均瓜分。随着专用集成电路进入市场，图形处理单元可能会更加定制化以满足深度学习的需求。除了专用集成电路和图形处理单元外，现场可编程门阵列将主要被应用于必须快速进入的市场或满足专业数据中心的定制化需求，未来将在人工智能训练中发挥一定作用，具体应用包括用于新深度学习的原型应用。

在推理方面，目前中央处理单元约占市场的75%。随着深度学习应用程序的发展，专用集成电路所有望占据更多市场。预计至2025年，中央处理单元与专用集成电路的市场占比将分别为50%、40%。

边缘应用。目前大多数边缘训练出现在笔记本电脑和其他个人计算机上，但未来将有更多设备可以记录数据并在现场训练中发挥作用。例如，在石油和天然气勘探现场，使用的鉆头生成与油井地质特征相关的数据，以用于训练模型。对于加速器，现今中央处理单元和专用集成电路基本平分了训练市场份额。然而，在未来，麦肯锡预计内置在芯片系统的专用集成电路将占需求的70%，现场可编程门阵列将占需求的约20%，并将用于需要大量定制的应用程序。

在推理方面，现在大多数边缘设备依赖于中央处理单元或专用集成电路，图像处理单元则被应用在自动驾驶汽车等少数场景中。到2025年，预计在边缘推理市场，专用集成电路将占70%左右，图形处理单元占20%。

内存

因为深度神经网络中的计算层必须尽快将输入的数据传递到成千上万个内核，人工智能应用程序具有高内存带宽要求。通常需要动态随机存储器（DRAM）存储输入数据、权重模型参数，并在推理和训练中执行其他功能。以训练识别猫为例，识别过程中的所有中间结果，例如颜色、轮廓、纹理，因为模型会对算法进行微调，需要存储在内存中。因为这些要求，人工智能将为内存市场创造一个巨大机遇，其价值预计将从2017年的64亿美元，增加到2025年的120亿美元。在三个加速器类别中，内存的年复合增长率最低，大约5%到10%。这是因算法设计的效率提升、精度需求降低，以及行业能力的进步所致。

大部分内存市场短期增长将来自数据中心对运行人工智能、机器学习和深度学习算法所需的高带宽动态随机存储器的需求增加。但随着时间的推移，人工智能边缘应用对内存的需求将会增加，例如，联网汽车可能需要更多的动态随机存储器。

当前内存通常针对中央处理单元进行了优化，但开发人员正探索新的体系架构。更具吸引力的解决方案包括：

（1）高带宽内存（HBM）。该技术允许人工智能应用程序以最大速度处理大型数据集，同时功率最小化，并允许深度学习计算处理器通过称为硅通孔（TSV）的快速连接读取三维存储器中的数据。谷歌和英伟达等人工智能芯片领导者已采用高带宽内存作为首选内存解决方案，尽管其每GB成本是传统动态随机存储器的3倍。这表明客户不介意支付更高费用，以换取人工智能硬件性能的提升。

（2）片上存储器。对于深度学习计算处理器，在动态随机存储器或其他外部存储器中存储和读取数据所花费的时间比片上存储器多100倍。当谷歌设计专门用于人工智能的集成电路张量处理单元（TPU）时，该芯片包含了足够的内存以存储整个模型。像Graphcore这样的初创公司也在增加片上存储器的容量，通过一种最大化人工智能计算速度的新型架构，使其比典型图形处理单元的容量提高约1000倍。对于大多数应用而言，片上存储器的成本仍然过高，芯片设计人员必须应对这一挑战。

存储设备

开发人员在人工智能和深度学习训练中会使用更多数据，这也增加了对存储设备的需求。从2017年到2025 年，这些转变可导致存储设备25%至30%年增长率，这是本报告调查的所有细分市场中最高的增长率。由于供需关系导致的价格变化，制造商将增加存储加速器的产量。

与传统存储设备千篇一律的解决方案不同，人工智能解决方案必须适应不断变化的需求，而这些解决方案取决于应用是用于训练还是推理。例如，人工智能训练系统在改进算法时必须存储大量数据，但人工智能推理系统仅存储可能在将来训练中有用的数据。所以，人工智能训练比人工智能推理对存储设备的需求要高。

存储设备有一个潜在的颠覆性创新是新型非易失性存储器（NVM）。这种新型非易失性存储器的特性介于传统内存（如DRAM）和传统外部存储器（如NAND闪存）之间，比DRAM具有更高的密度，比NAND具有更好的性能，同时功耗比两者更小。这些特性将支持新应用，并允许非易失性存储器替代其他应用中的DRAM和NAND。目前，这些形式的非易失性存储器市场很小。在未来两年内该领域营业收入约为10亿美元至20亿美元，但预测到2025年营业收入将超过100亿美元。

非易失性存储器包括多种技术，各种技术在存储器读取时间和成本方面千差万别，且都处于不同的发展阶段。磁阻随机存储器（MRAM）具有最低的读写延迟、超过5年的数据保留时间和出色的耐用性。但是，磁阻随机存储器容量扩展有限，使其成为一种昂贵的替代方案，可用于频繁读取的缓存而非长期数据保留解决方案;电阻式随机存储器（ReRAM）可垂直扩展，使其在扩展和成本方面具有优势，但具有更慢的延迟和更低的耐用性;相变存储器（PCM）介于两者之间，其中最著名的例子就是3D XPoint。在这些技术被更广泛采用之前，可靠性和错误率是必须克服的关键障碍。

组网

人工智能应用程序在训练期间需要许多服务器，并且数量会随着时间而增加。例如，开发人员只需要一台服务器来构建初始人工智能模型，以及不到100台服务器用于改进其架构。但是，使用真实数据进行训练可能需要几百台（这是必然的发展方向）。自动驾驶模型需要140多台服务器才能在检测障碍物时达到97%的准确率。

连接服务器的网速过慢成为训练的瓶颈（这种情况屡见不鲜）。尽管目前大多数提高网络速度的策略都涉及数据中心硬件，但开发人员正在研究其他选项，包括可以将数据传输到不同方向的可编程交换机。此功能将加速最重要的训练任务之一：无论何时更新模型参数，都需要在多个服务器之间重新同步输入权重。借助可编程开关，几乎可以立即实现重新同步，并将训练速度提高2到10倍。随着使用更多服务器的大型人工智能模型的出现，其性能也将得到大幅度提升。

改善组网的另一个选择是在服务器中使用高速互连。这项技术可以使性能提高3倍，但其价格也将高出约35%。

半导体企业需引入新策略进军AI市场

机遇无处不在，但机遇却不能保证半导体企业成功。为最大程度地挖掘機遇带来的价值，半导体企业需要注重针对特定行业的端到端解决方案（也称为微观垂直解决方案）、生态系统开发，以及除计算能力、内存和组网技术以外的更多创新。

客户对微观垂直的端到端解决方案的认可能带来丰厚的投资回报。人工智能硬件解决方案只有在与系列技术创新的所有层级兼容时才有效，包括服务层级中的解决方案和应用。半导体企业可以采取两条途径实现这一目标，且有些企业已经开始了行动。首先，半导体企业可以与合作伙伴合作开发用于特定行业应用（例如石油和天然气勘探）的人工智能硬件，以创建端到端解决方案。

例如，Mythic开发了一种专用集成电路，以支持医疗保健和军事领域中图像和语音识别的边缘推理应用。其次，半导体企业可以重点开发人工智能硬件，以实现广泛的跨行业解决方案，就像英伟达开发的图形处理单元一样。

所采用的具体方式将因细分行业而异。对于内存和存储设备企业，解决方案往往在微观垂直上具有相同的技术要求。相比之下，在计算能力上，人工智能算法的要求可能会有很大差异。应用于自动驾驶汽车中的边缘设备加速器处理的数据与依赖于云的语言翻译应用的数据有很大不同。在这种情况下，企业不能指望第三方来构建新的层以实现与其硬件的兼容。

活跃的生态系统对成功至关重要。半导体企业需要创建一个软件开发者生态系统，通过提供具有广泛吸引力的产品使其硬件成为人们的首选，企业也将因此对设计选择具有更大的影响力。例如，喜欢某种硬件的开发人员将在构建应用程序时将其作为基础，并以此为出发点，寻找与其兼容的其他组件。

为方便软件开发人员融入这一生态系统，半导体企业应尽量降低复杂性。由于现在人工智能硬件的类型更多，包括新的加速器，半导体企业应提供简单的界面和软件平台功能。例如，英伟达为开发人员提供了统一计算设备架构（CUDA），一种可与多种编程语言协同工作的并行计算平台和应用程序编程接口（API）。该架构使软件开发人员能够使用基于该架构的图形处理单元进行通用处理。英伟达还为软件开发人员提供了使用深度学习应用程序的权限。该平台现已有数千个应用程序。

在具有重要战略意义的行业领域，英伟达还提供定制的软件开发套件。例如，为有助于开发自动驾驶汽车软件，英伟达创建了DriveWorks，这是一个带有现成软件工具的套件，例如对象检测库，可以帮助应用程序解读自动驾驶车辆摄像头和传感器的数据。

由于开发人员往往对某些硬件架构情有独钟，也有助于大大提升该硬件企业的知名度，从而提高品牌认知度。同时，还会获得更高的采用率和更高的客户忠诚度，从而带来持久的价值。

只有为最终用户带来真正价值的平台才能与大型高科技企业的各种产品展开竞争。例如，谷歌的TensorFlow（机器学习和深度学习模型与算法的开源库）。TensorFlow支持谷歌的核心产品，如谷歌翻译，也有助于谷歌公司巩固其在人工智能系列技术创新中的地位，因为TensorFlow能与多个计算加速器兼容。

创新是使企业立于不败之地的不二法宝。许多硬件厂商专注于改进计算流程，借以实现人工智能的创新。传统上，这一策略包括提供优化的计算加速器或精简内存、外部存储器和组网路径的创新。但是硬件制造商应摆脱传统的创新思路，寻求其他形式的创新模式。例如，用于智能手机安全认证的基于人工智能的面部识别系统，由专用软件和三维传感器来实现，该三维传感器投射数千个不可见的点以捕获用户脸部特征。由于这些点比摄像机的数百万像素更容易处理，因此认证系统只需几分之一秒即可完成，且不会影响用户体验。硬件企业还可以考虑传感器或其他创新技术如何实现新兴的人工智能应用。