APP下载

AI芯片技术在安防行业的应用与发展

2019-10-23深圳云天励飞技术有限公司王和国

中国安全防范技术与应用 2019年5期
关键词:神经网络芯片深度

■ 文/深圳云天励飞技术有限公司 王和国

关键字:AI ASIC ASIP CPU GPU

1 引言

2017年至今,人工智能(Artificial Intelligence),英文缩写为AI,连续三年写进政府工作报告,语境描述从“加快”“加强”变为“深化”,人工智能已经上升为国家战略,而作为支撑人工智能应用落地的基石AI芯片,其发展就显得尤为重要。当前,关于 AI 芯片的定义并没有一个严格和公认的标准。比较宽泛的看法是,面向人工智能应用的芯片都可以称为AI芯片。

随着人工智能的发展,世界正逐步进入万物互联、万物智能的AIoT时代,互联网数据中心(IDC)预测,到2020年,物联网会有500亿感知设备,而50%的计算会在边缘设备上进行。据Gartner预估,人工智能神经网络芯片在2020年的全球市场将达到146亿美元,并且每年都保持高速增长。

图1 全球人工智能芯片市场规模(亿美元)

据统计,基于国家天网工程、雪亮工程的建设,我国已部署了近8000万个覆盖全国的网络高清摄像头,基本实现了关键道路、路口、大型商场、超市、公共场所的24小时视频监控覆盖,使得我国的民生安全保障迈上了一个新台阶。然而一个高清摄像头一天产生20GB的视频数据,8000万个摄像头每天产生160TB的海量视频数据,通过人工方式检索、传统视觉技术排查效率低下,并且几乎不可能实现实时有效监控,安防监控智能化亟待提高。同时,机器人作为智能安防建设的一环,起到无人值守的作用,对视觉智能有着更高的要求。近几年,随着人工智能深度学习检测和识别算法的成熟,静态、动态人脸识别技术已经在安防领域实现了规模落地应用,使得警务工作效率有了大幅提高。实际上,人工智能产业得以快速发展,无论是算法的实现、海量数据的获取和存储还是计算能力的体现都离不开目前唯一的物理基础——芯片。可以说,“无芯片不 AI”。

2 AI芯片发展及技术特点

最早开始研究AI芯片的是加州理工学院 Carver Mead,他在 20世纪 80年代开始研究神经拟态系统(neuromorphic electronic systems),利用模拟电路模仿生物神经系统结构。经过 30多年的发展,目前已经诞生了不同特色的各类 AI 芯片,主要包括中央处理器(Central Processing Uni,CPU)、图形处理器(Graphics Processing Unit,GPU)、现场可编程门阵列(Field-Programmable Gatearray,FPGA)、专用集成电路( Application Specific Integrated Circuit,ASIC)等。

2.1 AI芯片分类

2.1.1 CPU时代

2007年以前,人工智能研究和应用经历了数次起伏,一直没有发展成为成熟的产业;同时受限于当时算法、数据等因素,这一阶段人工智能对于芯片并没有特别强烈的需求,通用的CPU芯片即可提供足够的计算能力。

然而随着人工智能算法往深度学习方向的演进,传统的CPU并不适用于深度学习。从内部结构上来看,CPU中70%晶体管都是用来构建Cache(高速缓冲存储器)和部分控制单元,负责逻辑运算的部分(ALU模块)并不多。控制单元等模块的存在都是为了保证指令能够一条接一条的有序执行。

这种通用性结构对于传统的编程计算模式非常适合,但对于并不需要太多的程序指令,却需要海量数据运算的深度学习的计算需求,这种结构就显得有心无力了。

2.1.2 GPU时代

由于高清视频、游戏等行业的发展,GPU产品取得快速的突破。同时人们发现GPU的并行计算特性恰好适应人工智能算法大数据并行计算的要求,如GPU比之前传统的CPU在深度学习算法的运算上可以提高9倍到72倍的效率,因此开始尝试使用GPU进行人工智能的计算。

GPU 作为图像处理器,设计初衷是为了应对图像处理中需要大规模并行计算。因此,其在应用于深度学习算法时,有三个方面的局限性:

第一, 应用过程中无法充分发挥并行计算优势。深度学习包含训练和应用两个计算环节,GPU 在深度学习算法训练上非常高效,但在应用时一次性只能对于一张输入图像进行处理,并行度的优势不能完全发挥;

第二, 硬件结构可编程性不够。深度学习算法还未完全稳定,若深度学习算法发生大的变化,GPU无法像FPGA一样可以灵活的配制硬件结构;

第三, 运行深度学习算法的效率不高,虽然比CPU有很大的提升,但是功耗依旧很大。

2.1.3 FPGA时代

FPGA可以同时进行数据并行和任务并行计算,在处理特定应用时有更加明显的效率。对于某个特定运算,通用CPU可能需要多个时钟周期;而FPGA可以通过编程重组电路,直接生成专用电路,仅消耗少量甚至一次时钟周期就可完成运算。

此外,由于FPGA的灵活性,很多使用通用处理器或ASIC难以实现的下层硬件控制操作技术利用FPGA可以很方便的实现,从而为算法的功能实现和优化留出了更大空间。

尽管可以通过编程重构为不同电路结构,但是重构的时间开销过大,编程复杂性过高,需要用户具备专业的代码编写技能。同时,过多的冗余逻辑导致其成本和功耗太高,无法适应人工智能在嵌入式前端大规模部署的要求。

2.1.4 ASIC时代

ASIC 是一种为专用目的设计的,面向特定用户需求的定制芯片,在大规模量产的情况下具备性能更强、体积更小、功耗更低、成本更低、可靠性更高等优点。ASIC分为全定制和半定制。全定制设计需要设计者完成所有电路的设计,因此需要大量人力物力,灵活性好,但开发效率低下,时间成本高昂。如果设计较为理想,全定制能够比半定制的 ASIC 芯片运行速度更快。半定制使用库中标准逻辑单元,设计时可以从标准逻辑单元库中选择门电路、加法器、比较器、数据通路、存储器甚至系统级模块和 IP核,这些逻辑单元已经布局完毕,而且设计得较为可靠,设计者可以较方便地完成系统设计。

近年来越来越多的公司开始采用ASIC芯片进行深度学习算法加速,其中表现最为突出的是 Google 的TPU。TPU 的主要模块包括 24 MB 的局部内存、6 MB的累加器内存、256×256个矩阵乘法单元、非线性神经元计算单元,以及用于归一化和池化的计算单元。TPU比同时期的GPU或CPU平均提速15-30倍,能效比提升 30-80倍。北京寒武纪科技有限公司、北京比特大陆科技有限公司、北京地平线信息技术有限公司、深圳云天励飞等公司也都推出了用于深度神经网络加速的ASIC芯片。由于当前基于DNN的算法还没有统一的标准,算法还在不断快速演进当中,所以 ASIC的设计也需要保持一定的可编程性,采取软硬件协同设计。

2.2 AI芯片发展瓶颈

2.2.1 数据访存问题

在 AI 芯片实现中,基于冯·诺伊曼体系结构,提供运算能力相对是比较简单易行的,但由于运算部件和存储部件存在速度差异,当运算能力达到一定程度,由于访问存储器的速度无法跟上运算部件消耗数据的速度,再增加运算部件也无法得到充分利用,即形成所谓的冯·诺伊曼“瓶颈”,或“内存墙”问题,是长期困扰计算机体系结构的难题。人工智能工作负载多是数据密集型,需要大量的存储和各层次存储器间的数据搬移,导致“内存墙”问题更加突出。

AI芯片架构层面解决这一问题的基本思路体现在两大方面 :1)减少访问存储器的数量,比如减少神经网络的存储需求(参数数量,数据精度,中间结果)、数据压缩和以运算换存储等 ;2)降低访问存储器的代价,尽量拉近存储设备和运算单元的“距离”,甚至直接在存储设备中进行运算。主要有以下几方面的探索研究:一是采用富内存的处理单元,增加片上存储器的容量并使其更靠近计算单元,使得数据计算单元和内存之间的数据移动成本(时间和功耗)大大减少;二是采用具备计算能力的新型存储器。直接在存储器内部(或更近)实现计算。这种方法也被称为近存储计算或存内计算,当前已有大批创新公司,比如Rival Mythic、Syntiant等公司正在研究近存储计算和存内计算,解决计算带宽问题。

2.2.2 架构通用性问题

人工智能应用于各行各业,包括人脸识别、语音识别、自动驾驶、神经网络翻译等等,所使用的神经网络算法模型层出不穷,不同神经网络互连结构、基础计算部件不同,与之匹配的硬件架构需求也不同。比如针对CNN的加速架构,在执行LSTM模型时并行利用率可能还不到20%。由于硬件的固化性,架构实时可重构的空间有限,在架构设计时就应充分考虑通用性问题。

为解决架构通用性问题,同时保持较高的能耗比,一种比较可行的办法是使用ASIP(Application Specific Instruction Set Processor)的设计思路设计针对人工智能的神经网络处理器,通过指令编程的方式实现人脸识别等深度学习算法。ASIP是一种定制处理器的技术路线,通过开发面向深度学习的指令集,定制可编程的处理器IP,保留了很高的灵活性。在处理器上开发深度学习算法,当算法发生变化的时候,可以通过编程重构、重新修正函数等方式,使神经网络处理器芯片能学习、重新训练适应新的算法。ASIP设计思路既能提供ASIC级别的高性能和低功耗,也能提供处理器级别的指令集灵活性。它是高效性和灵活性之间最佳的平衡点。

3 安防行业AI芯片发展趋势

3.1 安防行业AI芯片现状

就目前安防行业人工智能技术来看,可分为生物识别、物体识别、视频结构化、3D结构光、3D视觉、自然语言处理等。其中以生物识别,包括人脸识别、指纹识别、指静脉识别、虹膜识别、声音识别等技术,经过一系列发展与行业关注,被大家认识较多,应用也更多。此外还有物体识别如车牌识别、车型识别等也比较常用,以及视频结构化数据,也是当前安防企业研究人工智能的重点内容之一。

而从应用层面看,安防人工智能技术的应用已经涉及多个领域,从公安领域到交通,再到校园、楼宇、民用安防,人工智能已经将触手伸到越来越多的角落。

从整体上来看,公安行业是安防人工智能技术最先的落脚点,也是当前应用项目比较多的领域,从图侦、实战到预判,可以满足公安从事前、事中到事后的需求。当然,除了为刑侦破案,预防犯罪等提供了强大的技术支持,对于日常的警民服务工作也提供了更多帮助,为缓解公安工作压力,提高办事效率带来新的改变。

在当前整个安防行业的生态链中,AI芯片覆盖着端、边、云三方面的应用,利用不同的形态和组合,实现对于安防行业AI落地,特别是视觉AI在端、边、云上的应用。在前端设备中,AI芯片以模组的形式实现人脸的处理和视频结构化的处理;在边缘端,AI芯片通过组成边缘智能的计算子板的方式,可以实现多路视频结构化的能力,边缘侧实际就是一个区域的中心和大脑;最后,所有边缘侧的信息汇聚到云侧(数据中心),在云侧完成针对安防行业所开发的所有AI任务。由于前端设备对AI芯片的功耗、成本的限制,当前端侧AI芯片的性能还无法完全满足AI计算的需求,很大一部分AI任务还需要放置于云端来完成,这样就对数据传输带宽带来了很大的挑战,同时对云端存储也带来很大的需求。

3.2 新型安防行业AI芯片需求

为了解决当前安防行业人工智能在云端处理所带来数据传输、存储等方面的问题,新型智能安防建设要求很大部分视频智能化处理工作前置到前端摄像头,这样可以极大的降低百万、千万摄像头对云端传输带宽的需求,可以大幅降低智能安防的建设成本,同时前端摄像头的智能化,可以保证目标识别的低延时,从而实现实时的犯罪预防、紧急事态预警。另外,随着4K人脸识别摄像头的发展,监控摄像头已经从1080P向4K分辨率发展,未来5年内,4K人脸识别摄像头的市场需求量超过1000万。这对数据传输、存储将带来更加严峻的挑战。

基于这些安防行业发展趋势以及所要解决的痛点,我们认为在未来安防行业端、边、云的协同工作中,端侧需要承载的人工智能任务更加复杂、多样、繁重,以解决端/云传输带宽、存储所带来的挑战。我们预测,未来嵌入的安防AI芯片需要能够支持的特性包括:人车物分类、识别、关键属性检测、文字识别、语意提取、跨镜追踪Re-ID、视频上下文的动态行为分析等神经网络算法,可以实现视频流的动态全结构化提取。同时,单机任务的动态配置、多机任务的协同和调度会极大的促进智能安防产业的升级换代。为了让AI芯片能够很好的支撑以上特性,我们认为,新型安防AI芯片需满足如下几个特性。

3.2.1 高能效

随着城市场景的日益复杂,对于人、车、物的分析深度和广度要求也越来越高,提升单算法的精度,以及多细分场景下的智能算法并行已经成为刚性需求,提升端设备人工智能芯片的算力迫在眉睫。在提升算力的同时,还需要保持芯片算力和功耗的平衡,因此在设计上要引入低数据精度和近存储计算方法。

3.2.2 可重构

AI芯片需要具备按需重定义的功能,一方面可以根据不同的应用场景按需加载不同的算法,甚至可以加载不同的算法组合来快速适配场景的应用演进;另一方面,对于同一种算法,也需要支持算法自身的演进以及精度的不断迭代等要求;芯片在架构设计上支持在线加载,减少重定义过程带来的无法连续工作的影响。

3.2.3 生态开放

AI芯片需要能提供完整的软件开发环境、工具链以及SDK,兼容业界主流的深度学习框架,打破目前“封闭智能”的现状,加速芯片多场景应用落地的开发进度。当然,在芯片平台开放的同时,芯片本身需要具备安全架构设计,保证算法模型、参数甚至视频码流的安全性。

3.3 基于场景定义AI芯片

基于以上人工智能的需求分析,展望未来,所有的终端都将具备人工智能的功能,而所有的这些人工智能的功能都将是由一系列AI芯片来承载,芯片将是人工智能大规模产业化过程中必将突破的一个瓶颈,比如AlphaGo1.0的系统曾经用了1920颗CPU和280颗GPU,训练一盘比赛的电费都要1000美元,这说明传统的芯片不匹配人工智能的复杂计算,我们需要面向神经网络的高性能、低功耗的芯片,去承载这样的复杂算法,能够将其植入到各类的终端中。这些芯片源于算法的定义,而这些算法是源于高质量的、可标注的一系列训练的数据,而数据又是源于场景,所以最终必将是场景定义芯片,人工智能的芯片必然是一系列的专用的、面向各类应用场景的芯片,将会嵌入到各类的终端设备中。不同场景所需的芯片对成本、功耗、安全以及性能的需求不尽相同。

4 结语

未来的安防将是,通过芯片将前端的传感器、本地结构化信息,通过云端大数据的分析,让感知、数据分析、人机互动可以无处不在。最终通过前端的一系列人工智能芯片承载的这些深度学习,和未来的人工智能的算法模型,通过后台海量大数据的分析,实现端到云的架构。这使得人工智能像电能一样无处不在,而人工智能的这些芯片将如同墙上的插座。

猜你喜欢

神经网络芯片深度
芯片会议
基于递归模糊神经网络的风电平滑控制策略
四增四减 深度推进
人体微芯片
关于射频前端芯片研发与管理模式的思考
深度理解一元一次方程
神经网络抑制无线通信干扰探究
简约教学 深度学习
基于神经网络的中小学生情感分析
基于支持向量机回归和RBF神经网络的PID整定