APP下载

基于贝叶斯优化的无标签网络剪枝算法

2023-02-03高媛媛余振华宋丽娟

计算机应用 2023年1期
关键词:压缩率剪枝网络结构

高媛媛,余振华,杜 方,2,宋丽娟,2

(1.宁夏大学 信息工程学院,银川 750021;2.宁夏大数据与人工智能省部共建协同创新中心(宁夏大学),银川 750021)

0 引言

近年来,深度神经网络(Deep Neural Network,DNN)在计算机视觉[1]、自然语言处理[2]等多种应用中呈现出卓越的性能,用于计算机视觉任务的传统人工神经网络[3]逐渐被深度神经网络所取代。深度神经网络对复杂的特征空间分布具有很强的拟合能力,因此已经在各类大型计算机视觉比赛中占据主导地位。但最近的研究[4]表明,深度神经网络在视觉任务上的性能可能受益于网络的深度和宽度,尽管取得了成功,但深度神经网络每层中存在大量冗余信息,模型推理过程中需要较高的计算量和存储成本,例如,使用AlexNet[5]处理一幅图像约产生6 000 万的参数,这显然限制了AlexNet在资源受限设备上的部署与应用。轻量化网络旨在保持模型精度基础上近一步减少模型参数量、降低复杂度,逐渐成为计算机视觉中的一个研究热点。轻量化网络既包含了对网络结构的设计,又包含了模型压缩技术的运用,而网络剪枝算法就是一种模型压缩技术[6-7]。

网络剪枝是提高模型推理速度和缩小模型尺寸的有效算法,通过有效去除网络模型中冗余的参数来减小模型的体积,从而使模型轻量化。近年来网络修剪的发展大致可分为非结构化和结构化两类,在早期,研究人员主要集中在非结构化剪枝上。Han 等[8]提出了一种基于幅度的剪枝算法来去除模型中的冗余权重,绝对值小的连接被认为不重要而被丢弃;为了得到一个弹性损失,Guo 等[9]将拼接操作加入到网络修剪中,一旦发现被修剪的连接很重要,它们可以在任何时候被恢复。然而,非结构化剪枝的缺点是显而易见的,由于不规则连接导致的缓存和内存访问问题,会对其实际推理速度产生不良影响,相比之下,结构化剪枝可以更好地压缩网络。Li 等[10]将之前的基于幅度的准则引入到过滤器修剪中,根据L1 范数计算过滤器重要性得分进行网络剪枝;He等[11]计算了层内过滤器的几何中值来指导修剪网络中的冗余信息;Lin 等[12]利用特征图的平均秩来评判每个过滤器的重要性,认为秩越低的特征图对模型性能的贡献越小,并对低秩特征图的过滤器进行修剪;Wang 等[13]提出一种全面的剪枝框架,不同于之前的研究中只对单个维度进行剪枝,它是对网络的三个维度进行全面的剪枝以获得最佳的结果。上述剪枝算法在小型或大型数据集上都取得了很好的效果,为网络剪枝的发展作出了很大的贡献。

网络结构搜索描述的是一个高维空间的最优参数搜索问题,它也是当下模型压缩的研究热点之一。随着深度学习的快速发展,神经网络的结构正在从人工设计转型为机器自动设计。这一进程的标志事件发生在2016 年,由Zoph 等[14]首次提出利用强化学习进行神经网络结构搜索(Neural Architecture Search,NAS),并在图像分类和语言建模任务上超越了此前人工设计的网络。随后,不断有新的网络结构搜索策略被提出,Real 等[15]将进化算法应用在NAS 任务中,并在图像分类任务上取得了不错的成绩。该算法首次对网络结构进行编码构成种群,然后从种群中挑选网络结构训练并评估,留下高性能网络而淘汰低性能网络。后续Real 等[16]对该算法进行改进,为候选网络结构引入“年代”的概念,即将整个种群放入一个队列,在队尾新加入一个元素就移除一个队首元素,使进化更趋于年轻化,也取得了网络性能上的突破。此外,为了避免对候选子网的广泛搜索,Cao 等[17]使用贝叶斯优化(Bayesian Optimization,BO)算法寻找子网的优先顺序,以便进行高效的评估。Liu 等[18]提出一种自动化结构剪枝算法,将结构化剪枝方案的组合有效地融入自动搜索剪枝过程,剪枝过程不依赖人工设计,实现了较高的压缩率。

虽然现有的网络剪枝算法与结构搜索策略都取得了很大的成功,但仍存在一些亟待解决的问题。在深层网络中,现有的很多算法以逐层剪枝的方式来确定最终的网络稀疏结构,这种逐层剪枝策略缺乏对网络结构全局信息的有效利用,往往会得到次优的压缩结果。而且,现有的网络剪枝策略大多建立在数据有标签的情况下,在剪枝过程中需要依赖标签数据,限制了在无标签情况下的应用。针对网络结构搜索策略,当下可将结构搜索策略分为两大类,分别是基于强化学习和基于进化算法策略。虽然这两类策略都取得了不错的成绩,但网络结构搜索本质上是一个优化问题,以上策略的设计都没有过多关注评估神经网络所产生的计算代价,而是强调如何谨慎地选择下一步要尝试的网络结构。如笔者团队前期工作LFGCL(Lable-Free Global Compression Learning)[19]提出利用强化学习作为网络结构搜索策略,该算法每一次迭代策略选择的过程中计算代价都很高。而贝叶斯优化算法使用贝叶斯模型来确定未来的评估,可以在低维空间内通过累加的先验知识更快地确定下一个网络结构,在更小的计算代价下能更有效地评估。

为解决上述问题,本文提出一种基于贝叶斯优化的无标签网络剪枝算法。首先,算法采用全局剪枝策略来有效避免以逐层方式修剪而导致的次优压缩率;其次,在网络模型进行压缩过程中该算法不依赖于数据标签,通过最小化剪枝网络与基线网络输出特征之间的差异性对剪枝网络体系结构进行优化;最后,算法通过贝叶斯优化去寻找一个最优的稀疏网络结构。

1 相关工作

1.1 贝叶斯优化

贝叶斯优化是一类基于机器学习的优化算法,该算法可以灵活解决黑盒优化问题,并能在功能评估中容忍随机噪声[20],也是一种十分有效的全局优化算法,目标是找到式(1)中的全局最优解,它假设超参数与最后所需要优化的损失函数存在一个函数关系:

其中:ai为超参数,A=a1,a2,…,an是一组超参数集合,f(ai)为目标优化函数。贝叶斯优化算法在优化过程中利用了著名的“贝叶斯定理”:

其中:D1:t={(a1,(fa1)),(a2,(fa2)),…,(at,(fat))}表示观测数据样本的集合;f表示未知目标函数;p(D1:t|f)表示在目标函数值中包含特定观测值的概率,即观测值的一个似然分布;p(f)表示目标函数f的先验概率分布;p(D1:t)表示观测值的先验概率;p(f|D1:t)表示给定观测数据样本D1:t,假设f成立的概率,即目标函数f的后验概率分布。

贝叶斯优化主要包含两个核心部分——概率代理模型和收益函数。

概率代理模型通过一个近似的函数来最大化拟合真实的目标函数。它包含先验概率模型p(f)和观测模型p(D1:t|f)。其思想为:利用先验概率模型产生一个更新后的后验概率分布,因此,更新概率代理模型意味着根据式(2)得到包含更多数据信息的后验概率分布p(f|D1:t)。

收益函数E(a|D1:t)是建立在后验概率分布上的,它判断一个样本能否给后验概率分布提供更多的收益,收益越大,其修正的概率代理模型会越接近目标函数的真实分布。

贝叶斯优化算法的本质是通过先验知识,产生一个后验函数去选择下一个新的信息。它是一个通过算法迭代去寻找目标函数最优值的过程,每一次迭代,算法通过最大化收益函数采样新的评估点,然后作为输入传入算法,获得新的输出,以此来更新观测数据集和概率代理模型。算法1 为贝叶斯优化算法的伪代码。

算法1 贝叶斯优化算法。

1.2 模型压缩

模型压缩是深度学习领域中一个较为热门的研究方向,通过对模型的网络结构或者权重表示方式进行简化,在精度损失可控的前提下,降低模型的计算复杂度和参数规模,以解决深度学习模型计算效率较低的问题。此技术对于实时应用有着重要的意义,本节将简要描述模型压缩的相关技术,这些技术大致可以分为网络剪枝、低秩分解、知识蒸馏和权值量化。其中,网络剪枝算法已经在本文引言中进行了介绍,本节将对其他算法进行介绍。

低秩分解技术主要利用矩阵分解对深度神经网络模型中的原始卷积核进行拆分。卷积运算在深度神经网络中产生了大量的计算操作,因此减少卷积层可以有效提高压缩率以及整体运算速率,为此不直接使用卷积层,而使用奇异值分解(Singular Value Decomposition,SVD)原理将其分解为低维度矩阵,以减少参数量达到压缩网络模型的效果。最初的工作主要是将三维卷积核分解为三个可分离的一维滤波器[21]。Minnehan 等[22]提出了一种基于低秩映射的压缩算法,将连续层的输出和输入滤波通道映射到统一低维空间,在不损失精度的情况下,减少了网络的参数量、计算负载和内存消耗。Gupta 等[23]通过用两个滤波器组替换原始滤波器,在top-5 错误率仅增加1.66%的情况下,使计算速度提升了3 倍。虽然低秩分解技术逐渐应用于模型压缩中,但是这类算法增加了网络的层次,在训练过程中容易造成梯度消失;并且低秩分解技术通常都会导致较大的精度下降,因此需要消耗更多的时间通过微调来缓解精度的下降。

知识蒸馏是一种经典的模型压缩技术,其目的是将知识从一个训练好的教师网络迁移到更小、更快的学生网络中。现有的知识蒸馏工作大致可分为两类,第一类是使用教师网络生成的软标签来指导学生网络,该算法由Ba 等[24]首先提出。之后Hinton 等[25]通过最小化网络输出之间的KL(Kullback-Leibler)散度,将有用信息从复杂教师网络转移到学生网络,然而,当教师网络变深时,仅仅学习软标签还不足以学到完整的网络特征信息。为解决这一问题,第二类知识蒸馏提出利用教师网络的内部表征来指导学生网络训练。Wang 等[26]提出了一种基于知识蒸馏的预训练模型的压缩算法,通过让小模型深度模仿复杂模型的最后一层自注意力知识,进一步提升知识蒸馏性能。Zhao 等[27]提出了一种循序渐进的分块蒸馏算法来学习教师网络的部分中间特征图,在蒸馏过程中缓解了联合优化的难度,但增大了学生模型和教师模型之间的差距。知识蒸馏不需要与原始网络具有相似结构,也意味着知识的提炼比较灵活,但是,如果没有预先训练好的教师网络,则需要更大的数据集和更多的时间来进行蒸馏。

量化技术通过减少网络参数所占的浮点数位数来降低网络模型所占的存储空间。量化的实现一般是将网络操作从高位转换为8 位以压缩存储空间,同时根据存储一个权重元素所需的位数,可以包含二进制神经网络和三元权重网络。Courbariaux 等[28]提出的二值化是一种极端的量化算法,其中权重和激活都用一个位表示,可以是+1 或-1。Li 等[29]在二值化的基础上,将权重约束用+1,0,-1 表示,提出了神经网络三值化算法。Hubara 等[30]提出一种新算法,使用4 位而不是8 位去训练网络子集,并使4 位网络模型能够实现接近全精度值。虽然量化技术可以减小深度网络模型的计算规模,加速计算,但是不恰当的压缩算法可能会导致模型性能大退化,比如,裁剪掉过多的连接或者将网络中所有数据都二值化,将使压缩后的模型失去应用能力。

2 算法描述

2.1 问题定义

本文将基线网络最终的输出特征用f(Y,W)表示,其中Y和W分别表示基线网络的输入和权重。剪枝网络的输出特征定义为g(Y,W′)。网络剪枝的目的是在保持模型一定精度的情况下最大限度地去除模型中的冗余参数,从而得到一个压缩的权重张量W′,经过剪枝后的网络结构记为s。算法通过减少f(Y,W)和g(Y,W′)之间的差异来定义均方误差(Mean Squared Error,MSE)损失:

其中:n为输入样本的总数量,i为网络结构的层数。算法通过最小化MSE 损失来定义模型性能指标Ras,用来评估不同的剪枝网络架构:

为了区分具有相似性能的不同剪枝网络架构,本文进一步定义了一种模型效率度量指标,如式(5)所示。该算法将每秒浮点运算次数(Floating Point of Operations,FLOPs)压缩率作为剪枝网络的效率度量,保证在小范围内的精度损失下将较大压缩率的剪枝网络给予更高的分数指标。

其中:Fs和Fb分别代表剪枝网络和基线网络的FLOPs;C表示剪枝网络相对基线网络的FLOPs 压缩率。

通过将网络模型性能与模型效率结合起来,本文进一步定义了新的度量指标:

因此,模型压缩问题被重新定义为:寻找最优的网络体系结构等价于搜索最高度量指标Rs的网络体系结构。在下面的章节中,本文通过贝叶斯优化算法,为优化问题提供了一个可行的解决方案。

2.2 算法框架

基于贝叶斯优化的无标签网络剪枝算法的工作流程如图1 所示。首先,使用基线网络对剪枝网络进行初始化;其次,在指定范围内的搜索空间中生成剪枝率,再由剪枝策略对网络结构进行压缩;最后,通过贝叶斯优化算法搜索最优的一组剪枝率,得到最佳的网络稀疏结构。算法框架主要可分为三部分,分别是指定网络搜索空间、网络架构搜索和剪枝策略。算法具体流程如下。

图1 本文算法框架Fig.1 Framework of proposed algorithm

1)指定网络搜索空间。在[0,1],步长为0.1 区间范围内,随机产生网络相应层数的剪枝率,保留指定FLOPs 范围下的剪枝率作为网络搜索的空间域。

2)网络架构搜索。选取若干组指定FLOPs 搜索空间下的剪枝率和其所对应的网络结构度量指标作为先验知识Dt-1,然后更新高斯过程代理函数解析求得均值μ(xt-1)和方差σ(xt-1),利用均值和方差计算收益函数,通过最大化收益函数选择下一个需要采样的剪枝率xt。

3)网络剪枝。将卷积核权重的L1 范数作为评价每个过滤器的重要性分数,并对分数从大到小排序,然后根据每层的剪枝率对网络进行剪枝。剪枝策略流程详见2.4 节。

4)网络微调。使用式(7)定义的度量指标来对剪枝算法进行评估,对剪枝后的网络进行微调,恢复模型精度。

2.3 基于贝叶斯优化的网络架构搜索

贝叶斯优化作为一种十分有效的全局优化算法,通过设计合适的概率代理模型和收益函数,只需经过少量的迭代次数,即可获得一个理想解。本文算法使用的概率代理模型为高斯过程(Gaussian Process,GP),收益函数为EI(Expected Improvement)函数,在指定FLOPs 范围内,通过贝叶斯优化在剪枝网络中去探索一组剪枝率,使剪枝后的网络性能损失最小,从而得到一个最优的网络稀疏结构。本文算法从贝叶斯的角度出发,通过不确定的后验参数探索网络最优的一组剪枝率,可以设计如下最优化问题加以求解:

其中:网络各层的剪枝率用向量x表示,X表示指定FLOPs 范围内剪枝率的域空间;f(x)=Rs,Rs为式(7)所定义。

贝叶斯优化算法中概率代理模型用于拟合真实目标函数,高斯过程是多元高斯概率分布的范化,采用基于高斯过程的贝叶斯优化算法来实现函数f(x)的最大化。高斯过程是由均值函数μ(·):K↦R 和协方差函数k(·,·):K×K↦R组成。为了寻找解决方案,首先从任意选择的架构x1开始,在经历步骤t后,评估网络架构xt,即获得函数f(xt)的值。然后利用前t个评估架构的先验知识,计算函数f的后验分布:

其中:Et表示p(f(x)|f(x1:t))在经历t步后的后验分布期望;函数=max[f(x1),f(x2),…,f(xt)]。一旦获得第t+1 神经网络体系结构,算法将重复上述过程,直到达到最大迭代次数,然后返回最佳的剪枝率作为最终解。

2.4 网络剪枝算法

L1 范数是指向量中各个元素的绝对值之和。在之前的研究[31]中卷积核权重的绝对值之和可以评价过滤器的重要性,卷积核权重的绝对值越大表明此过滤器在本层的重要性越高,因此本文使用L1 范数评分功能对每层过滤器进行降序排名,然后仅保留每层中得分最高的过滤器。对每层过滤器修剪过程的流程如图2 所示,其中,颜色越深表明该过滤器分数越高,具体流程如下:

图2 网络剪枝过程Fig.2 Network pruning process

1)计算层中每一个过滤器的L1 范数作为评估当前过滤器的重要性分数Si(i=1,2,…,n),通过L1 范数的值对当前层的过滤器进行降序排序。

2)计算当前层要删除过滤器的个数。假设该层剪枝率为a,过滤器的个数为n,则要删除的过滤器个数为t=a×n,如果t为小数则对其进行向下取整操作,只保留整数部分。

3)删除当前层不重要的过滤器。如果t<n则直接删除排名靠后的t个过滤器;如果t=n,则要将当前层上所有的过滤器进行删除,但为了保证网络前后层之间的连通性,对该层上重要性分数最高的过滤器给予保留。

3 实验与结果分析

本文采用CIFAR-10 和CIFAR-100 数据集,对VGG-16 和ResNet 两个网络模型进行评估。

CIFAR-10 和CIFAR-100 是许多计算机视觉方法中常用的测试数据集。CIFAR-10 数据集共包含60 000 张图像,分为10 个类别,每个类别有6 000 张图像。CIFAR-100 数据集和CIFAR-10 数据集类似,共包含60 000 张彩色图像,与CIFAR-10 不同的是,CIFAR-100 将类别从10 增加至100 类,每个类别分别包含600 个图像。

VGG-16 网络由13 个卷积层和3 个全连接层组成,为了提高VGG-16 网络的收敛性,将VGG-16 网络结构重新更改为由13 个卷积层和2 个全连接层组成,前13 个卷积层保持不变,最后2 个全连接层中过滤器的个数分别是512 和10。

本文中评估的ResNet 模型包括ResNet-20、ResNet-32、ResNet-56 和ResNet-110,为保证每个残差块的输出通道不变,本实验只压缩每个残差块中除最后一层之外的卷积层。

3.1 实验参数设置

CIFAR-10 和CIFAR-100 数据集都包含60 000 幅图像,本文将原始训练集分割为包含45 000 张图像的训练集和包含5 000 张图像的验证集。

网络模型训练过程的参数设置如下:使用随机梯度下降(Stochastic Gradient Descent,SGD)算法训练基线网络300 次,动量大小为0.9,权重衰减大小为5 × 10-4,学习率初始化为0.1,在第120、180 和240 次迭代时分别缩减为原来的1/10,批量大小为256。同时,为了避免网络模型在训练中出现过拟合现象,本文采用随机打乱、零填充和随机取样等技术进行数据增强。在每次网络搜索过程中,剪枝网络不进行微调,直至网络修剪结束后,设置初始学习率为0.01,并将其他参数设置为与基线网络相同的值来微调修剪后的网络。

贝叶斯优化参数设置如下:采用高斯过程作为代理函数,收益函数为EI 函数,初始化1 000 个采样点,网络搜索的空间域大小为1 000,算法迭代次数为3 000。

3.2 VGG-16的实验结果与分析

在网络剪枝过程中,为了探究在不同的FLOPs 压缩目标下网络的参数压缩率和精度损失情况,指定62%±1%和55%±1%范围内的FLOPs 的剪枝率约束网络每次探索的空间域,在CIFAR-10 数据集上对VGG-16 网络进行压缩实验,结果如表1 所示,精度损失指网络压缩后与基线精度的差值。将本文算法与SSS(Sparse Structure Selection)[31]、GAL(Generative Adversarial Learning)[32]、LFGCL 和HRank(High Rank)进行对比,实验结果如表1 所示。

由表1 可以看出,LFGCL 的FLOPs 压缩率为62.70%时,参数压缩率为92.32%,精度损失为0.37 个百分点;而本文算法的FLOPs 压缩率为63.00%时,参数压缩率为84.80%,精度损失仅0.34 个百分点,优于LFGCL。在接近的FLOPs下,本文算法无论是在参数压缩率还是精度损失上都优于HRank、SSS、GAL。由此可见在常规深度神经网络中,本文算法能够进行有效的网络压缩。

表1 CIFAR-10数据集上压缩VGG-16网络的实验结果Tab.1 Results of compressing VGG-16 on CIFAR-10 dataset

此外,进一步分析了VGG-16 网络每层的压缩率,如图3所示,FLOPs 压缩目标分别为62%±1%和55%±1%,第8、9、10 层都显示了较高的压缩率,表明这些层在整个网络结构中存在大量不重要的过滤器;同时,第5、7 层的剪枝力度最小,表明在VGG-16 网络中,这些层存在较多对该层输出值贡献大的过滤器,删除该过滤器会严重影响模型识别精度。实验结果表明,通过贝叶斯优化算法寻找网络最佳的体系结构,可以有效找到网络中每一层适当的剪枝压缩率。

图3 VGG-16在不同FLOPs压缩目标下各层的压缩率Fig.3 Compression ratios of VGG-16 layers under different FLOPs compression targets

3.3 ResNet的实验结果与分析

为了评估本文算法在具有残差结构的网络模型中的适用性,分别在ResNet-20,ResNet-32,ResNet-56 和ResNet-110上进行了压缩实验。在CIFAR-10 数据集上压缩ResNet-20(如表2 所示),本文算法的FLOPs 压缩率为47.70%时,参数压缩率为36.20%,精度损失为0.09 个百分点;在FLOPs 压缩率为38.50%时,参数压缩率为37.70%,模型精度提高了0.12 个百分点。此外,在模型精度损失极小的情况下压缩ResNet-32,模型的参数压缩率为48.20%,FLOPs 压缩率为33.25%。上述实验结果表明,本文算法可在模型精度损失极小的情况下,得到更加稀疏的网络结构。

表2 在CIFAR-10数据集上压缩ResNet(20,32)的结果Tab.2 Results of compressing ResNet(20,32)on CIFAR-10 dataset

为验证本文算法对深度复杂网络压缩的有效性,首先在CIFAR-10 和CIFAR-100 数据集上对ResNet-56 进行压缩实验;然后在CIFAR-10 数据集上对更深层的ResNet-110 进行实验,对比算法有:GAL、TAS(Transformable Architecture Search)[33]、FPGM(Filter Pruning via Geometric Median)[11]、LFPC(Learning Filter Pruning Criteria)[34]、HRank 和LFGCL。

表3 和表4 分别为在CIFAR-10 和CIFAR-100 数据集上压缩ResNet-56 的实验结果。在表3 中,GAL 的FLOPs 压缩率为60.20%时,精度损失1.68 个百分点;而本文算法在相同的FLOPs 压缩率下,精度损失了0.69 个百分点,前者的损失值大约是本算法的2 倍多。相较于TAS、FPGM 和LFPC,在相似的FLOPs 压缩率下,本文算法在参数压缩率为49.10%时,精度只损失0.27 个百分点,在模型压缩和加速上有更好的效果。在表4 中,在接近的FLOPs 压缩率下,本文算法的精度损失为0.53 个百分点,与其他三种算法性能相比具有一定优势。但在更深的网络结构ResNet-110 中,如表5 所示,LFPC、HRank 与LFGCL 都要优于本文算法,这是因为贝叶斯优化算法使用高斯过程对神经网络结构建模并定义其先验,而高斯过程是非参数模型,每次迭代推理都需要对所有的先验数据点进行运算,对于没有经过任何优化的高斯过程,n个样本点时间复杂度大概是O(n3),在数据维数高的情况下高斯过程会产生巨大的计算量,而ResNet-110 结构较深,使得网络结构的搜索空间显著增大,因此,在计算量有限的情况下,本文算法易收敛到局部最优。以上实验结果表明,本文算法也适用于具有残差块结构的ResNet 模型。

表3 在CIFAR-10数据集上压缩ResNet-56的实验结果Tab.3 Results of compressing ResNet-56 on CIFAR-10 dataset

表4 在CIFAR-100数据集上压缩ResNet-56的实验结果Tab.4 Results of compressing ResNet-56 on CIFAR-100 dataset

表5 在CIFAR-10数据集上压缩ResNet-110的实验结果Tab.5 Results of compressing ResNet-110 on CIFAR-10 dataset

4 结语

本文提出一种基于贝叶斯优化的无标签网络剪枝算法。不同于现有的网络剪枝算法,本文算法在剪枝过程中不需要依赖样本的标签信息,因此其具有更强的适用性。此外,通过利用贝叶斯优化算法,在不显著影响模型精度的情况下能更加有效地对原始模型进行压缩。实验结果表明,在常规的神经网络模型上,本文算法可以有效地压缩和加速模型。下一步将在原模型剪枝算法的基础上结合其他压缩算法,特别是知识蒸馏思想,在高维空间内进一步压缩网络模型。

猜你喜欢

压缩率剪枝网络结构
人到晚年宜“剪枝”
基于YOLOv4-Tiny模型剪枝算法
基于激活-熵的分层迭代剪枝策略的CNN模型压缩
水密封连接器尾部接电缆的优化设计
缠绕垫片产品质量控制研究
某型飞机静密封装置漏油故障分析
剪枝
分布式多视点视频编码在应急通信中的应用
基于广义混合图的弱节点对等覆盖网络结构
体系作战信息流转超网络结构优化