APP下载

“双碳”目标下绿色人工智能技术研究综述

2023-12-02卢毓东

浙江电力 2023年10期
关键词:剪枝双碳卷积

卢毓东,陈 益

(1.国网浙江省电力有限公司电力科学研究院,杭州 310014;2.国网浙江省电力有限公司,杭州 310007)

0 引言

随着新一代数字技术的快速发展,数字化转型浪潮正引领着一场深刻的社会变革。2012年以来,随着深度学习技术快速崛起,人工智能技术已在生产、生活的众多领域广泛应用。在能源电力行业,AI(人工智能)技术逐渐在新能源功率预测、电网调度、源网荷储协调运行、电网无功电压控制优化、电力市场、机器人与无人机巡检、智能营销客服、需求响应、安全生产管控等业务领域深入应用,逐步成为新型电力系统、数字电网建设中重要的基础支撑技术[1-3]。人工智能正为社会创造着巨大的经济效益和社会效益。

然而由于人工智能技术的快速发展严重依赖于模型参数的大规模扩张和大规模数据的训练,深度学习对高精度的追逐已催生出超大规模模型,模型参数的急速扩张导致了算力需求、能源需求及碳排放量的大幅增加。2000—2021年期间,模型规模每18~24个月翻倍,而语言模型规模自2016年之后每4~8个月翻倍[4]。2012—2018年期间,计算量总共增加了30万倍,计算需求每3~4个月翻倍[5]。2020年,文献[6]评估了包括GPT-3在内的5种NLP(自然语言处理)模型的能耗和碳足迹,训练GPT-3模型的耗电量高达1 287 MWh,产生的碳排放约552 t CO2e。深度学习模型越来越高的能源需求和碳排放量引起了社会与研究人员对AI能源需求和环境影响的关注[6]。

2020年,中国制定了力争2030年碳达峰、2060年碳中和的“双碳”目标。构建新型电力系统是落实“碳达峰与碳中和”目标的重要举措。在新型电力系统建设中,人工智能技术越来越高的能耗不仅使其自身实现“双碳”目标受到了严峻挑战,也限制了AI在电力巡检机器人、无人机等许多资源有限的边缘设备中的应用。边缘设备底层硬件可提供的算力、功耗、存储及内存带宽已无法支撑规模越来越大的DNN(深度神经网络)模型,迫使研发人员设计出低功耗、绿色、高效的小型DNN模型,实现模型性能和高效之间的权衡。

在“双碳”目标下的电网数字化转型期,开展绿色人工智能技术的研究,对促进新型电力系统建设和人工智能技术进步将产生积极的影响。为促进人工智能技术更好地支撑新型电力系统建设,本文首先引入了绿色人工智能的由来、定义及影响模型能耗的关键因素;接着,探讨了人工智能模型实现节能降碳相关技术的发展现状、关键问题、改进方法和效果,其中包括高效模型压缩与加速技术及高效神经架构搜索技术;然后讨论了高效硬件基础设施节能减碳的措施;最后,对绿色人工智能技术的未来发展提出相关建议和展望。

1 绿色人工智能

1.1 绿色人工智能由来与定义

2019年,Schwartz等人[7]首先引入了绿色人工智能的概念,主张在研发人工智能算法的过程中更多地关注能源效率与能源成本,鼓励降低计算成本。与不惜一切代价追求最先进性能的研究路径不同,绿色人工智能是指在不增加计算成本的条件下获得更先进的成果,使用尽可能少的计算资源和能源获得更好性能的人工智能研究[7]。Schwartz建议在每篇人工智能论文中公布实验的运行时间和碳排放量等相关信息。随后,针对AI能源需求和碳足迹的研究越来越多,同时提出了各种节能降碳的建议和措施[7-8]。

1.2 绿色人工智能相关技术

研究人员在不断探索绿色人工智能技术的过程中发现,模型架构、算法设计、硬件性能和数据中心绿电供应是影响模型性能、能效及碳排放量的关键因素,其中模型架构、模型参数量、内存访问时间、内存占用、操作数量、模型运行时间、功耗、FLOPs(浮点运算量)及碳排放强度等参数是衡量影响因素的重要指标[9-10]。基于上述指标,研究人员针对超大规模DNN模型,不断创新高效的模型压缩和加速技术,压缩模型参数量,减少内存占用,加速计算,节能降碳,方便边缘设备部署;对于早期神经网络架构搜索上万小时的训练时间及高能耗,不断研发高效搜索技术,减少搜索时间,提高能效;对于数据中心迅速增长的能源需求,不断创新零碳技术,降低碳排放强度,减缓碳足迹的增长。

2 高效模型压缩和加速技术

模型压缩与加速是在不影响任务完成的前提下,利用神经网络结构和参数的冗余性精简模型,获得轻量且准确性相当的模型,降低计算资源需求和内存需求,加速计算,提高能效,方便移动嵌入式设备上的部署。

2.1 高效紧凑架构

为加速密集型卷积计算,研究人员在常规卷积结构的基础上改进,提出了许多紧凑卷积架构。

2.1.1 深度可分离卷积

深度可分离卷积是将常规3维卷积分解并替换成两层:2维深度卷积和1维逐点卷积。深度可分离卷积将空间相关性与通道相关性解耦,计算量约为常规卷积的1/3。

MobileNets-v1[11]是专门针对移动设备设计的轻量级高效架构。MobileNets-v1采用深度可分离卷积替代常规卷积,在ImageNet数据集测试,其精度与GoogleNet和VGG-16相当,而参数量及乘加运算量减少了一个数量级。在移动端和嵌入式设备上测试,根据不同型号,用户预期延迟仅在10~100 ms之间。Xception[12]采用深度可分离卷积,计算量远小于Inception-V3,在ImageNet数据集上测试,在不增加参数量的情况下,精度更高,训练速度更快。此外,还产生了Mobilenetv2、Pydmobilenet等高级变体。

2.1.2 Fire模块

2016年,Iandola等人[13]提出了Fire模块,并以Fire模块作为基础模块构建了SqueezeNet。SqueezeNet的卷积层包含两层组件:1×1卷积核的squeeze卷积层和混合了1×1和3×3卷积核的扩展层。squeeze卷积层压缩了网络宽度,显著降低了计算复杂度。与AlexNet相比,SqueezeNet将参数量减少至1/50,在ImageNet数据集上测试精度相当。随后Gholami等人[14]提出了SqueezeNext。SqueezeNext在扩展阶段改进了可分离卷积核,将k×k卷积核分解为k×1和1×k卷积核。与SqueezeNet相比,这种可分离卷积核进一步减少了参数量,并实现了2.5倍的加速,在ImageNet上测试,与AlexNet精度相当。

2.1.3 分组卷积

分组卷积将输入通道分成若干组,各组独立采用不同的卷积核,组内先进行正常卷积,但不与其他组的通道进行通信,完成组内卷积后,不同组得到的特征图再按通道维度进行拼接,得到输出。

2017年,He等人[15]在ResNet[16]基础上引入“基数”超参数和分组卷积,提出了ResNext。2018年,针对移动设备,Zhang等人[17]在ResNext基础上提出了高效架构ShuffleNet,ShuffleNet引入了逐点组卷积和通道切换。Zhang等人注意到ResNext中大量的1×1逐点卷积耗费很多计算资源,于是将分组卷积思想应用于逐点卷积降低参数量,之后再进行通道切换,保证了不同分组间的信息交流。与AlexNet相比,ShuffleNet实现了约13倍的加速且精度相当。与MobileNet v1和ResNext相比,ShuffleNet大幅降低了计算复杂度,性能更优。Ma等人[18]提出了设计高效网络的4个基本准则,改进并提出了ShuffleNet-v2。与ShuffleNet[17]相比,ShuffleNet-v2通过通道混洗和通道分割,并选取同样输入和输出通道数,最小化计算1×1卷积所需的内存访问次数,减少碎片度和逐元素操作,进一步提高了网络精度和物理资源效率,加快了计算速度。研究者们在总结前期经验的基础上不断改进网络架构,加速计算,降低资源需求,提高能效。轻量级高效架构依然在不断演进之中。

2.2 模型剪枝

模型剪枝是通过修剪模型中不重要、影响小的冗余参数,在不显著降低模型准确率的情况下,减少模型大小,节省计算资源,提高模型训练和推断速度。剪枝技术主要围绕剪枝颗粒度、剪枝标准、剪枝策略和剪枝流程等方面不断改进,提升模型压缩效果,加快训练和推理速度。经典剪枝步骤包括三步:预训练、剪枝、微调。首先通过预训练获得高精度的大模型,再根据一定剪枝标准修剪模型中冗余参数,最后经过微调使模型恢复精度。

根据剪枝颗粒度不同,模型剪枝可分为非结构化剪枝和结构化剪枝。非结构化剪枝则包括对单一的权重、权重向量和单一卷积核的剪枝。结构化剪枝包括对滤波器、通道、层的剪枝,去除的主要是多余的通道和成组的卷积核。

2.2.1 非结构化剪枝

1)权重剪枝。1990年,Lecun等人[19]根据目标函数的二阶导数计算权重重要性,首次提出了对前馈网络进行权重剪枝的方法,称为OBD(最佳脑损伤)方法。1993年,Hassibi等人[20],提出了OBS(最优脑外科医生)方法,OBS采用Hessian的逆作为权重重要性分数,扩展了OBD方法。2015年,Han等人[21]针对全连接层和卷积层提出了基于权重幅值经典的三步方法进行权重剪枝,在保持模型精度的情况下,将AlexNet的权重数量减少了9倍。

2)网络连接剪枝。除了权重剪枝外,为了减少密集层中的连接数量,2001年,Suzuki等人[22]提出根据网络连接对训练损失的影响程度修剪网络连接。2016年,Ardakani等人[23]提出了稀疏连接网络,基于线性反馈移位寄存器生成随机掩码,删除密集层中的归零连接,与传统的全连接网络相比节省90%的内存。

3)神经元剪枝。与修剪单个权重不同,修剪神经元是指删除属于神经元的一组权重。2015年,Srinivas等人[24]注意到权重相似的神经元也会产生冗余,并基于欧几里得距离度量两个神经元的相似性,删除整个冗余的神经元。2016年,Hu等人[25]以每个神经元零激活的平均百分比为度量,根据给定压缩率修剪了具有高零激活百分比的神经元。2017年,Babaeizadeh等人[26]基于层内神经元激活的相关性,提出一种简单有效的NoiseOut方法减少全连接层神经元。2018年,Yu等人[27]提出重要性分数传播算法,根据整个网络所有层的重要性分数以及预先设定的每一层的剪枝率指导修剪不重要的神经元。

虽然非结构化剪枝提高了资源效率和准确性,但由于硬件难以加速稀疏矩阵计算,非结构化剪枝获得的稀疏性并没有明显提升推理速度。因此,研究者提出了过滤器、通道或层等几种结构化剪枝算法。与非结构化剪枝不同,结构化剪枝可以保持DNN的密集结构,进一步提高了硬件资源效率。

2.2.2 结构化剪枝

1)过滤器剪枝。CNN(卷积神经网络)在每个卷积层都有很多过滤器,从卷积层中修剪不重要的过滤器,可以减少计算开销,加速模型计算。2017年,Li等人[28]指出超过90%的计算成本来自卷积层,并采用L1范数计算过滤器的重要性排名,直接移除每一层中排名低且影响很小的过滤器,将VGG-16模型的MAC操作数从3.13×108降至2.06×108,极大的减少了计算成本。2018年,Luo等人[29]提出了高效的过滤器剪枝方法ThiNet,ThiNet使用前一层的输出特征计算过滤器的重要性分数,指导当前层剪枝。ThiNet将AlexNet的大小减少至2.66~5.05 MB,而精度与AlexNet相当,对嵌入式设备友好。

2)通道剪枝。2015年,Liu等人[30]提出了稀疏分解法修剪卷积网络的冗余通道。在ImageNet的测试表明,该方法将网络中90%卷积核参数归零,而精度损失小于1%。2017年,He等人[31]使用Lasso回归方法识别重要通道,修剪冗余通道。测试表明,对VGG-16的通道剪枝获得了5倍加速。2017年,Liu等人[32]采用Batch Norm层可学习缩放因子作为通道重要性分数,修剪缩放因子小的通道。测试表明,该方法将VGG网络参数压缩了82.5%,节省了30.4%的计算量。

3)层剪枝。层剪枝方法利用学习得到的卷积层特征,识别冗余卷积层并进行剪枝。2018年,Chen等人[33]提出了一种基于特征表示的逐层剪枝方法,去除CNN中冗余的卷积层。实验表明,该方法在保证精度的同时,显著降低了计算成本。

2.2.3 经典方法扩展

1)彩票假说。2019年,Frankle等人[34]提出了模型剪枝的“彩票假说”,突破了“预训练-剪枝-微调”的经典流程,模型剪枝后,将权重重置为原网络随机初始化的权重,再重新训练剪枝模型,得到的模型性能优于原始网络和剪枝后微调的网络性能,参数量和复杂度更低。基于彩票假说,2020年,Prasanna等人[35]对BERT(变换网络中双向编码表示)进行结构化剪枝,测试发现,“随机”子网重新训练后仍与“好”子网的精度相当,并通过删减冗余FFN(前馈神经网络)层和注意力头实现了更高的压缩率。

2)随机剪枝。2022年,Liu等人[36]等人重新审视了被低估的随机剪枝方法。在网络具有一定规模和逐层稀疏比条件下,不依赖任何先进的剪枝技术,不借助任何预训练方法,从零训练一个完全随机剪枝的稀疏网络,可以出人意料地达到和稠密网络一样的精度,训练随机剪枝网络可以非常高效。在ImageNet的测试表明,训练一个随机剪枝的Wide ResNet-50子网络性能优于强大的基准、稠密的Wide ResNet-50。

2.3 量化

量化是将信号的连续取值近似映射到区间内有限多个离散值的过程。与全精度相比,将高精度浮点值转化成低精度整型值,减少了表示权重值和激活值所需的比特数,压缩了原始网络,提高了系统推理吞吐量、降低延迟,节省内存成本和带宽,提高能效。以采用45 nm技术的处理器为例,执行INT8加法计算的能效比FP32加法计算提高30倍[37]。

根据需要量化的参数,量化分为权重量化和激活量化。根据量化间隔是否均匀,分为均匀量化和非均匀量化;根据微调方法,分为QAT(量化感知训练)和PTQ(训练后量化)。

1)非均匀量化。非均匀量化采用非均匀间隔的量化步长,能更好地反应、捕捉尺度内信号的细微变化,避免均匀量化造成的信息损失。Han等人[38]首先提出了参数量化方法压缩模型参数,采用非均匀分布的聚类中心,使用k-均值聚类共享权重的方法实现量化。Xu等人[39]应用相似的聚类策略,以逐层的方式进行量化。Miyashita等人[40]引入2次方函数进行非均匀量化。

2)均匀量化。均匀量化通常采用均匀间隔的量化步长。Li等人[41]将均匀量化应用于批归一化折叠的目标检测模型。Jung等人[42]提出参数量化间隔的均匀量化方法。Zhuang等人[43]提出了渐进式两阶段的均匀量化方法。

3)PTQ。PTQ是量化已预训练完成的FP32模型,以降低推理成本。PTQ无需对原模型进行重新训练,只需调整几个超参数即可完成量化过程,实现过程快速、高效。尽管训练后量化实现简单,但量化误差导致了模型精度的下降。为提高精度,Wang等人[44]使用新的启发式方法改进训练后量化。

4)QAT。Jacob等人[45]提出了量化感知训练,通过在训练期间微调量化模型,弥补精度损失。QAT出现了round函数无法求导的问题,使反向传播无法进行。文献[45]提出了STE(直通估计器)方法,近似其梯度值为1,解决了梯度计算问题,STE方法逐渐成为主流方法。PTQ和QAT的选择取决于应用的精度和功耗要求,这两种方法都是模型工具包的重要组成部分。

5)极限量化。为进一步压缩模型,文献[46-49]提出了不同的量化变体。BinaryConnect[46]使用符号函数sign(x)将32 bit浮点型实值权重随机转换成为二值权重{-1,1},加速计算。随后,BNN(贝叶斯神经网络)[47]、XNOR-Net(对权重和输入二值化神经网络)[48]、BCNN(双线性卷积神经网络)[49]将二进制量化扩展到激活,对权重和激活值都进行了二值化。原始的二值化方法使模型精度显著下降,随后研究者们提出了不同的改进方法。文献[50]采用了更精细地逼近二值化函数方法缓解反向传播中的梯度不匹配问题,达到了SOTA(最先进)性能。

6)应用。2022年,文献[51]提出了强化学习新范式ActorQ,将量化应用于强化学习训练。ActorQ将FP32转换为INT8,在保持性能的同时实现了1.5~5.4倍的计算加速,与全精度训练相比,碳足迹也减少了1.9~3.8倍。

2.4 低秩分解

低秩分解是将原先大的权重矩阵分解成多个小的矩阵,用低秩矩阵近似重构原权重矩阵的过程。比如将一个4×4的卷积核替换为两个级联的卷积核,一个4×1的行卷积核和一个1×4的列卷积核。模型低秩分解后可以达到降低计算量、缩减存储空间的目的。

常见的低秩分解有SVD(奇异值分解)、Tucker分解、Block Term分解、CP(典范/平行因子分解)、Tensor Train分解。CP分解可作为Tucker分解的特例,Tucker分解可视为张量奇异值分解的高阶扩展。

2014年Jaderberg等人[52]提出了使用SVD进行逐层张量分解的方法,将CNN满秩卷积核分解为若干秩1的低秩卷积核,测试表明在场景文本识别中可实现4.5倍加速,而准确度仅降低1%。为了加速大型CNN的卷积层,2015年,Lebedev等人[53]提出了基于张量分解和判别微调的两步方法,利用低秩CP分解加速4维卷积核张量分解为少量秩1张量的总和,将原始卷积层压缩成4个卷积层序列。与AlexNet相比,该方法将速度提升了4倍,而top-5分类错误仅增加1%。2015年,Novikov等人[54]通过张量分解将全连接层密集的权重矩阵转换成Tensor Train形式,将VGG(几何视觉分解)全连接层的参数量压缩了20万倍,网络整体参数量压缩了7倍,大幅减少参数量,并保持了模型精度。2017年,Yu等人[55]提出了基于权重矩阵低秩分解和稀疏分解相结合的DNN压缩统一框架,将一个大规模矩阵分解为两个或多个低维度矩阵的乘积与一个稀疏矩阵的和。在精度损失很小的情况下,将AlexNet和GoogLeNet分别压缩至原模型的1/10和1/4,大幅提升了传统压缩算法效果。

目前,对于大量采用1×1小卷积核的DNN模型,低秩分解已较难实现网络压缩与加速。

2.5 知识蒸馏

知识蒸馏是指将大型复杂网络(教师模型)在大型数据集上训练学习到的知识转移到一个更小、更轻的简单网络(学生模型)的过程[56]。知识蒸馏使轻量级的学生模型具备更好的性能、精度和泛化能力,显著减少了模型参数量和计算量。

不同知识蒸馏方法的核心区别在于知识来源、蒸馏策略、教师-学生架构等方面的差异,最终影响模型压缩效果和泛化精度。

为丰富知识来源渠道,研究人员将教师模型不同环节输出的信息和样本间丰富的关系结构作为知识源头,其中包括标签知识、中间层知识、参数知识、结构特征知识和关系特征知识等多种知识形式。

2015年,Hinton首次提出了知识蒸馏(暗知识提取)的概念[56],通过logits标签知识蒸馏,压缩深度神经网络。受Hinton启发,Romero等人[57]提出了Fitnets,利用信息更丰富的中间层表示和教师网络标签做知识来源,将其压缩为更薄、更深的学生网络。与原网络相比,学生模型参数缩小至教师模型的1/10,并提高了准确性。2016年,Chen等人[58]提出了Net2Net模型,利用知识迁移技术和中间层知识训练更紧凑的对象检测模型进行行人检测。与教师模型相比,学生模型参数缩小至教师模型的1/21,速度加快了8倍。Sanh等人[59]提出DistilBERT,将知识蒸馏技术简单地应用于BERT模型压缩。DistilBERT保留了原模型97%的精度,参数缩小至原模型的40%,速度提高了60%。MobileBERT[60]使用渐进式知识迁移策略,在BERT学生和教师模型之间进行逐层蒸馏,与BERT相比,体积约缩小至原模型的1/4,速度加快了5.5倍,精度损失很小。文献[61]提出了一种基于transformer结构的两阶段知识蒸馏模型TinyBERT,用于BERT的压缩和加速,将模型缩小为原来的1/8,推理时间减少为原来的1/9,并与原BERT模型精度相当。2022年,文献[62]提出解耦知识蒸馏方法,融合目标类别知识蒸馏和非目标类别知识蒸馏两部分,学生模型准确率提升至75.3%,使7年前Hinton的logits蒸馏方法重返最先进性能模型行列。

2.6 新型电力系统中的应用

作为新型电力系统建设中重要的基础支撑技术,人工智能已在电力巡检、新能源功率预测、电网调度、需求响应等业务领域深入应用。然而,由于传统深度神经网络模型体积大、运算量高、硬件资源占用大、功耗高、推理速度慢、过度依赖后端服务器、响应不及时等问题,导致了模型检测速度与精度无法兼顾。为解决这些问题,近年来,逐步在输电线路绝缘子缺陷识别、无人机航拍图像电力线检测、变电站安全帽佩戴检测、变压器有载分接开关运行工况识别、电力负荷非侵入式识别、变压器油温异常检测等领域开展了高效模型压缩与加速技术的应用研究。马进等人[63]采用轻量级模块GhostNet优化YOLO-v4主干网络,用于输电线路绝缘子缺陷检测。轻量化YOLO-v4模型与原始YOLO-v4相比,模型体积压缩至原来的62.47%,检测速度提升68.83%,准确率提升了1.07%,达到91.89%,且在小目标和复杂背景下表现突出。杨锴等人[64]提出Fast-Unet轻量化模型用于无人机航拍图像电力线检测。Fast-Unet采用深度可分离残差卷积替代Unet中的传统卷积,与Unet相比,轻量化模型体积缩减了91.3%,仅为10.31 MB,单张512×512大小图片耗时48 ms,检测速度提升了140%,精度仅降低1.4%,达到80.26%,较好地平衡了速度与精度。赵红成等人[65]基于YOLO-v5s提出了YOLOS轻量级模型用于安全帽佩戴检测。YOLO-S模型采用轻量级模块MobileNet-v2优化YOLO-v5s主干网络,并对冗余通道进行剪枝。与YOLOv5s相比,改进模型的参数量减少了2/3,体积缩小了3/4,大小仅13.9 MB,运算量减少了2/3,平均精度提升了1.9%,达到92.1%,平均每张图片的推理时间仅为17 ms,均优于YOLO-v5s。魏敏等人[66]提出RLCNN(强化轻量级卷积神经网络)模型用于有载分接开关运行工况识别,RLCNN采用MobileNet-v2替代传统卷积,模型体积缩减了87.7%,仅为67.5 MB,识别速度为0.75 s,平均识别准确率达到91.76%,均优于传统方法。肖昭男等人[67]提出GS-CNN(结合幽灵模块、挤压与激励模块的卷积神经网络)轻、量级模型用于非侵入式电力负荷识别。GS-CNN模型采用轻量级模块Ghostnet替代S-CNN(结合挤压与激励模块的卷积神经网络)中传统卷积。与S-CNN相比,模型参数量缩减了65%,仅含13 533个参数,运算量缩减70%,平均精度达到99.81%。与VGG-16模型相比,训练时间从850 min缩短至64 min。

目前,模型压缩与加速技术在电力行业中的应用主要着眼于权衡模型体积、速度和精度之间的关系,在模型能耗和碳足迹方面的研究仍有待进一步深入开展。

3 高效神经架构搜索

NAS(神经架构搜索)是以自动化的方式搜索性能最佳的网络架构和参数,主要包括搜索空间、搜索策略、性能评估策略等几个核心要素。

神经网络架构对模型性能的影响至关重要。早期的NAS技术,搜索时间长,能耗与碳排放高。其中,NAS-RL[68]及改进模型NASNet[69],MNasNet[70]的训练时长分别为22 400 GPU小时、32 400~43 200 GPU小时、50 000 GPU小时,算力与时间成本巨大,能耗与碳排放很高。其主要原因是由于早期NAS技术采用离散搜索策略、全局搜索空间、从零开始搜索网络架构、完全训练直至收敛等方法进行搜索,导致了搜索颗粒度过细、搜索空间巨大、未复用网络结构等问题。

后期的NAS技术主要围绕早期问题不断地改进,提出了连续搜索策略、模块化与层次化搜索空间、网络结构复用、参数共享、早停及不完全训练等改进策略,加速搜索进程。Pham等人[71]提出了采用候选子模型共享权重的ENAS(基于参数共享的高效神经结构搜索)方法,使用单张1 080 Ti GPU,搜索耗时不到16 h。Liu等人[72]提出了基于DARTS(梯度下降的可微架构搜索)方法,搜索开销仅为1.5~4 GPU days,解决了搜索耗时的问题。FBNet[73]结合了MNasNet的多目标优化函数和DARTS的可微分架构搜索方法,在216 GPU小时内完成搜索任务,Cai等人[74]提出可直接在大规模目标任务和硬件平台完成搜索任务的Proxyless-NAS方法,且无需代理数据集,在大约300 GPU小时内找到高效架构,在CIFAR-10上测试,仅用5.7M参数的模型实现了97.92%的精度。2020年,Han等人[75]提出了一种一劳永逸的OFA(架构搜索)方法,一次性训练一个适配各种不同硬件平台以及移动端边缘设备、支持所有体系结构设置(深度、宽度、内核大小和分辨率)的“全包式”超网络。在特定硬件平台和应用场景中部署时,只需从OFA超网络中选择子网络,无需再进行额外训练。与传统方法相比,它将训练成本(GPU小时数、能耗和二氧化碳排放量)降低了几个数量级,在40个部署场景的情况下,OFA的总计算资源消耗是ProxylessNAS的1/16,MnasNet的1/1 300。

4 低碳高效的数字基础设施

实现绿色人工智能技术不仅需要算法性能上的不断提升,也需要低碳高效的数字基础设施的不断发展。数字基础设施减碳降耗重点集中在IT设备、供电系统、制冷系统三个方面。

4.1 IT设备

集群层面,数据中心在虚拟化技术支持下,通过虚拟机迁移调度策略[76]、负载重分配策略[77]及动态调整集群规模策略[78],关闭或休眠空载服务器[79],实现虚拟机负载重分配、服务器整合和动态电源管理,提高数据中心资源利用率,降低数据中心能耗。

通常,深度学习作业与云计算中的大数据作业有一定区别。为提高GPU集群资源利用率,研究者们提出新的集群节能调度方法[80]。此外,由于DVFS(动态电压频率调制)技术有利于大幅降低GPU集群能耗[81],研究人员基于DVFS技术提出了不同的作业调度算法[82],实现集群高效调度、提高GPU集群能效、降低数据中心能耗和碳排放。

4.2 供配电系统

供配电系统减碳降耗的技术手段主要包括风电和光伏等可再生能源接入、“源-网-荷-储”协同、零碳或低碳调度、冷热电三联供、UPS和储能变流器PCS合一、储能、高压直流供电技术等。“东数西算”工程就地消纳光伏、风电等绿电,计划2025年绿电使用率提高至约80%。谷歌在2020年9月提出24/7零碳运营管理计划,并采用储能电池和低碳燃料(氢燃料)优化数据中心备用电源[10]。微软针对Microsoft Azure云平台上11种机器学习任务,利用数据中心一年及一天中不同时段PUE的差异性,实现跨时跨域的低碳调度[83],并在2020年成功完成氢燃料电池的测试,消除对柴油发电机备用电源的依赖。文献[84]在全太阳能数据中心整体技术方案中以光伏发电为主供电源,并配合高压直流配电系统和分布式内嵌UPS系统,运行结果表明能耗减少至常规数据中心的1/4,降耗效果十分显著。

4.3 制冷系统

针对制冷系统的能效优化,一方面要根据数据中心的现实情况,组合多种技术措施,发挥各自优势,降低成本与能耗。另一方面,要充分发挥自然条件天然优势,促进制冷系统降耗。“东数西算”工程[84]综合选择内蒙古、云南、贵州等自然冷源相对充裕的地区,采用自然冷源技术、间接蒸发冷却、余热综合利用、液冷技术(解决高功率密度设备散热)等多种技术减碳降耗。2016年,Google DeepMind基于数千个传感器数据,使用机器学习自动优化数据中心的制冷系统,实现平均约40%的能耗降低。2022年英伟达推出A100 80GB PCIe液冷版GPU卡,其液冷数据中心的PUE值降至约1.15。而戴尔公司Fresh Air硬件空冷方案,数据中心PUE值同样有机会降至1.05水平。

5 展望

1)在新型电力系统建设中,绿色高效的人工智能技术还有很大的发展空间。虽然机器学习技术的快速进展推动了电力人工智能云端训练和推理的应用,但边缘设备内存和计算资源的严苛限制对模型部署带来巨大挑战。算法与硬件协同设计,联合构建最优架构和硬件加速器,将是一个很值得研究的方向。

2)“双碳”目标下,深度学习的神经形态计算将带来电力人工智能的能源效率的巨大提升。神经形态计算是模拟大脑利用神经元、突触并以“尖峰”的数据形式进行信息处理的高效计算方式,具备极低功耗、极高并行度、自主学习决策等特征[85]。未来,深度学习的神经形态计算研究将更大限度地提高电力人工智能的能源效率。

3)近年来,人工智能领域的国际会议已倡议在论文中公布模型计算的能耗与碳排放数据。然而,目前依然缺乏监测数据中心计算能耗与碳足迹的工具,缺乏统一的测试标准,从业者无法准确了解人工智能模型训练、推理或超参数调整时的能耗与碳排放情况。建立电力领域相关标准和基准测试工具,部署具有统一标准的监测工具,将是未来重要的工作方向。

6 结语

人工智能技术作为支撑新型电力系统建设的关键技术,其自身的高能耗与巨大的碳排放量给电网绿色低碳转型带来挑战。本文主要结合人工智能模型及硬件基础设施的能效与碳排放等方面问题探讨了绿色人工智能技术,重点讨论了绿色人工智能技术节能减碳的主要方法及其研究现状,并展望了其发展方向,希望在“双碳”目标下电网数字化转型期间,对相关领域的研究人员和工程技术人员提供有益的帮助。绿色人工智能技术将是未来实现“双碳”目标的一个重要研究方向,依然有很长的路要走。

猜你喜欢

剪枝双碳卷积
常德市落实“双碳”目标要求的实施路径研究
人到晚年宜“剪枝”
基于3D-Winograd的快速卷积算法设计及FPGA实现
“双碳”目标下企业如何应对碳市场带来的挑战与机遇
专访奚国华:中信力争成为国企助力“双碳”目标的旗帜
“双碳”下县城发展新思维
基于YOLOv4-Tiny模型剪枝算法
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
剪枝