APP下载

Graphcore携手微软:为人工智能未来提速

2020-06-03

中国自动识别技术 2020年1期
关键词:开发人员处理器卷积

去年冬季,Graphcore正式发布Microsoft Azure上Graphcore智能处理单元(IPU)的预览版。这是公有云领导供应商首次提供Graphcore IPU,这些IPU从构建之初便旨在支持下一代机器学习。这对Graphcore而言是具有里程碑意义的时刻,证明了其IPU硬件和Poplar®软件栈的成熟性。

微软和Graphcore已经紧密合作了两年多。在此期间,工程师Marc Tremblay领导的微软团队一直在开发的针对Azure系统并在IPU上提升高级机器视觉和自然语言处理(NLP)模型。Azure上的Graphcore IPU预览版现已开放并供用户注册,而专注于突破NLP界限并在机器智能方面取得新突破的开发者可获得优先访问权限。

Graphcore从零开始设计智能处理单元(IPU),旨在驱动机器智能领域的新突破。IPU和产品就绪的Poplar®软件栈为开发人员提供了功能强大、高效、可扩展和高性能的解决方案,从而助力实现AI创新。通过加速更复杂的模型并开发全新的技术,客户得以解决最困难的AI工作负载。

目前模型中最先进的性能

微软和Graphcore的开发人员使用BERT语言模型实现了最先进的性能和准确性,仅用一个IPU服务器系统和8个C2 IPU处理器PCIe卡就可以在56个小时内训练BERT Base。对于BERT推理,应用客户发现吞吐量提高了3倍,延迟改善了20%以上,从而可以更快地交付结果。

该水平的语言理解性能对于搜索引擎提供更有用的查询响应以及对于文本和对话式AI应用程序(如情感分析和需要人类水平理解能力的智能个人助手)至关重要。自然语言处理是人工智能的重要战略领域,预计到2025年,仅针对自然语言处理的人工智能硬件市场规模就将达到150亿美元。

“自然语言处理模型对于微软来说至关重要——在Microsoft Azure上运行我们的内部AI工作负载,以及服务我们的AI客户。”微软公司Azure计算事业部副总裁Girish Bablani说:“与Graphcore在处理器方面的新合作能够为我们的客户带来诸多裨益,Graphcore的产品扩展了Azure的能力,我们在此领域内所做的努力是我们确保Azure仍然是AI最佳云的战略的一部分。”

什么是IPU

智能处理单元(IPU)与当今的CPU和GPU处理器完全不同。它是一种高度灵活、易于使用的并行处理器,完全从零设计,并能在目前用于训练和推理的机器智能模型上实现最先进的性能。更重要的是,IPU的设计令实现新兴机器智能工作负载成为可能。

GraphcoreIPU的独特之处在于将整个机器学习知识模型保留在处理器内部。一个服务器内有16个与IPU-Link技术连接在一起的IPU处理器,这样的IPU系统将拥有超过100,000个完全独立的程序,所有程序都在机器智能知识模型上并行工作。我们正在将Graphcore技术推向更广泛的客户群体,期望能够支持创新者在IPU上实现机器智能的下一个重大突破。

全软件栈和框架支持

过去三年中,除了设计世界上最先进的硅处理器,Graphcore还建立了世界上第一个专门为机器智能设计的图形工具链——Poplar®软件栈。

Poplar与TensorFlow和开放神经网络交换(ONNX)无缝集成,从而使开发人员可以使用其现有的机器智能开发工具和现有的机器学习模型。Graphcore还为ONNX提供了训练运行时(run⁃time),与ONNX各组织紧密合作,以将其纳入ON⁃NX标准环境中。Graphcore已经与许多领先的早期客户和合作伙伴开展了一段时间的广泛合作,以确保Poplar图工具链的正常使用。

IPU使新的AI创新成为可能

除了为复杂AI模型(如BERT)提供最先进的性能外,IPU还擅长加速新技术。IPU将开辟新的研究领域,帮助公司探索新技术,建立用更少的数据进行训练更高效的机器学习系统。

欧洲搜索引擎Qwant是Graphcore IPU早期的客户之一,Qwant凭借运行搭载下一代图像识别模型ResNext的IPU,获得高性能,同时降低延迟。Qwant首席执行官埃里克·莱安德里(Eric Leandri)阐释:“Qwant的研究团队致力于AI的前沿技术,以便在用户搜索查询中快速提供最佳结果,同时确保结果是中立、公正和准确的,这是一个很高的要求。我们每天仅图像搜索就达到数百万次。Qwant正在实施的最新AI创新之一是称为ResNext的新型图像识别模型,可以提高提供图像搜索结果的准确性和速度。我们一直与微软和Graphcore紧密合作,在Azure中使用IPU处理器技术,并且在使用IPU上使用ResNext的图像搜索功能中看到了显著改变,即性能提高了3.5倍。Graphcore IPU在新的机器智能模型上具有巨大的创新潜力,我们正在研究这些方法来完善搜索,以便能够准确地提供客户所需的结果。”

ResNext使用分组卷积和深度可分离卷积来大幅提高效率(准确性及参数)。这涉及将卷积块拆分为较小的可分离块,以便IPU有效支持这些卷积块。

为了更深入地了解针对组卷积和完全深度可分离卷积的硬件适用性,客户工程团队制定了一组微基准测试,其中包括典型的卷积模块。测试表明,IPU具有明显的全面优势,分组卷积的吞吐量优势更高达77倍。

金融领域

Citadel高性能计算研发团队负责人 Daniele Scarpazza 说:“在 Citadel,我们的一个重点是利用尖端技术来优化一系列策略和资产类别的投资流程。我们相信不断重新评估和改进我们为投资团队提供的技术可以帮助我们在竞争中保持领先地位。作为Graphcore早期合作伙伴之一,测试新处理器技术在业务中可能实现的应用。Graphcore IPU是专为机器学习而设计的,其新颖的架构已经使我们能够探索以前效率低下或根本不可能实现的新技术。”

机器人技术领域

“新的处理器技术将在不久的将来在空间AI和SLAM(同步定位和地图构建)的发展中发挥关键作用。我们很高兴能够在早期获得Graphcore创新型新硬件的研究机会。完全通用的空间AI将需要图形上的稀疏概率和几何推理以及具有深层神经网络的计算。Graphcore对通信和计算同样重视,创造了一种新的可扩展架构,我们相信它具有低延迟和低功耗执行所有这些算法的潜力。”伦敦帝国理工学院计算机系机器人视觉教授Andrew Davison教授说。

Graphcore IPU与戴尔易安信DSS 8440服务器

Graphcore与戴尔公司一起展示第一个IPU技术,该技术旨在满足企业客户构建本地机器智能计算的需求,其中Dell EMC DSS 8440是一款采用Graphcore技术的机器学习服务器。该系统使用8个Graphcore C2 IPU处理器PCIe卡提供1.6Pet⁃aFlops的机器智能计算,每个卡有2个IPU处理器,所有卡都在标准4U机箱中与高速IPU-Link技术连接。

猜你喜欢

开发人员处理器卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
从滤波器理解卷积
Semtech发布LoRa Basics 以加速物联网应用
基于傅里叶域卷积表示的目标跟踪算法
后悔了?教你隐藏开发人员选项
ADI推出新一代SigmaDSP处理器
三星SMI扩展Java论坛 开发人员可用母语
火线热讯
AItera推出Nios II系列软核处理器