北大教授提出Gate Decorator 利用LSTM思想来做CNN剪枝

  • 时间:
  • 浏览:2
  • 来源:1分赛车-1分赛车平台_1分赛车网投平台

LSTM 用这人门控机制记住重要的信息而遗忘不重要的信息。在此以前,只是 机器学习法律法律方法都受到了门控机制的影响,包括 Highway Network 和 GRU 等等。北大的研究者同样也是,它们将门控机制加入到 CNN 剪枝中,让模型我本人决定哪几个滤波器不太重要,可不可不能能 了 它们就可不可不能能 删除了。

人太好对滤波器进行剪枝是这人最为有效的、用于加速和压缩卷积神经网络的法律法律方法。在这篇论文中,来自北大的研究者提出了这人全局滤波器剪枝的算法,名为「门装饰器(gate decorator)」。这人算法可不可不能能 通过将输出和通道方向的尺度因子(门)相乘,进而改变标准的 CNN 模块。当这人尺度因子被设0的以前,就如同移除了对应的滤波器。

研究人员使用了泰勒展开,用于估计因设定了尺度因子为 0 时对损失函数造成的影响,并用这人估计值来给全局滤波器的重要性进行打分排序。接着,研究者移除哪几个不重要的滤波器。在剪枝后,研究人员将所有的尺度因子合并到原始的模块中,或者不时要引入特别的运算或架构。此外,为了提升剪枝的准确率,研究者还提出了这人迭代式的剪枝架构—— Tick-Tock。

图 1:滤波器剪枝图示。第 i 个层另一一俩个滤波器(通道)。机会移除其中另一一俩个,对应的形态学 映射就会消失,而输入 i+1 层的通道也会变为3。

扩展实验说明了研究者提出的法律法律方法的效果。累似 于,研究人员在 ResNet-56 上达到了剪枝比例最好的 SOTA,减少了 70% 的每秒浮点运算次数,但可不可不能能 了 带来明显的准确率降低。

在 ImageNet 上训练的 ResNet-60 上,研究者减少了 40% 的每秒浮点运算次数,且在 top-1 准确率上超过了基线模型 0.31%。在研究中使用了多种数据,包括 CIFAR-10、CIFAR-60 、CUB-60 、ImageNet ILSVRC-12 和 PASCAL VOC 2011。

本文的主要贡献包括另一一俩个次责:第一次责是「门装饰器」算法,用于外理 GFIR 大问题。第二次责是 Tick-Tock 剪枝框架,用于提升剪枝准确率。

具体而言,研究者展示了怎么将门装饰器用于批归一化操作,并将这人法律法律方法命名为门批归一化(GBN)。给定预训练模型,研究者在剪枝前将归一化模块转加进门批归一化。剪枝开使英文英文后,大伙将门批归一化还原为批归一化。通过只是 的法律法律方法,不时要给模型引入特殊的运算或架构。

门控剪枝到底为何在么在做

可不可不能能 了 到底怎么使用门控机制外理全局滤波器重要性排序呢?研究者表示大伙会先将 Gate Decorator 应用到批归一化机制中,或者使用这人名为 Tick-Tock 的迭代剪枝框架来获得更好的剪枝准确率,最后再采用分组剪枝(Group Pruning)技术外理待条件的剪枝大问题,累似 于剪枝带残差连接的网络。

里边简要展示了叙述了门控剪枝三步走,里边会做另一一俩个简单的介绍,当然更全部的内容可查阅原论文。

门控批归一化

研究者将 Gate Decorator应用到批归一化中,并将该模块称之为门控批归一化(GBN),门控批归一化如下方程7所示,它和标准批归一化的不同之居于于 φ arrow的门控选泽。其中 φ arrow 是 φ 的另一一俩个向量,c 是 Z_in 的通道数。

机会 φ arrow 中的元素是零,可不可不能能 了 就表示它对应的通道被裁减了。此外,对于不使用BN 的网络,大伙也可不可不能能 直接将 Gate Decorator 应用到卷积运算中,从而达到门控剪枝的效果。

Tick-Tock 剪枝框架

研究者还引进了这人迭代式的剪枝框架,从而提升剪枝准确率,大伙将该框架称为Tick-Tok。其中 Tick 阶段会在训练数据的子集上执行,卷积核会被设定为不可更新情况汇报。而 Tock 阶段使用全部训练数据,并将稀疏约束 φ 加进到损失函数中。

图2:Tick-Tock剪枝框架图示。

其中 Tick 阶段主要希望能实现以下另一一俩个目标:加速剪枝过程;计算每另一一俩个滤波器的重要性分数 Θ;降低前面剪枝引起的结构协变量迁移大问题。

在 Tick 阶段中,研究者会在训练数据的子集中训练另一一俩个 Epoch,大伙仅允许门控  φ 和最终的线性层能更新,只是 能大大降低小数据集上的过拟合风险。通过训练后,模型会根据重要性分数 Θ 排序所有的滤波器,并将可不可不能能 了了 重要的滤波器移除。

在 Tock 阶段前,Tick 阶段能重复 T 次。Tock 阶段会微调网络以降低总体误差,哪几个误差机会是机会一处滤波器造成的。此外,Tock 阶段和一般的微调过程有两大不同:微调比 Tock 要训练更多的 Epoch;微调我不多 会给损失函数加进稀疏性约束。

分组剪枝:外理带约束的剪枝大问题

ResNet 和其变体中含残差连接,也只是在另一一俩个残差块产生的形态学 图上执行元素级的加法。机会单独修剪每个层的滤波器,机会会意味残差连接中形态学 图对不齐。这可不可不能能 视为这人带约束的剪枝大问题,大伙希望剪枝是在对齐形态学 图的条件下完成的。

为了外理无法对齐的大问题,作者们提出了分组剪枝:将通过纯残差法律法律方法连接的 GBN 分配给同一组。纯残差连接是居于侧分支上可不可不能能 了 卷积层的这人法律法律方法,如图3所示。

图3:组剪枝展示。同样颜色的GBN属于同一组。

每一组可不可不能能 视为另一一俩个 Virtual GBN,它的所有组成卷积共享了相同的剪枝模式。或者在分组中,滤波器的重要性分数只是成员卷积分数的和。

实验设置和数据集

数据集

研究者使用了多种数据集,包括 CIFAR-10,CIFAR-60 ,CUB-60 ,  ImageNet ILSVRC-12和 PASCAL VOC 2011。CIFAR-10 数据集包括了60 K的训练数据和10K的测试数据。CIFAR-60 和CIFAR-10相同,但有60 个类别,每个类别有60 0张图片。CUB-60 包括了将近60 00张训练图片和5700张测试图片,中含了60 种鸟类。ImageNet ILSVRC-12有1230万训练图像和60 K的测试图像,覆盖60 0个类别。研究者还使用了PASCAL VOC 2011分割数据集和其扩展数据集SBD,它有20个类别,共8498张训练样本图片和2857张测试样本图片。

被剪枝的模型

研究者使用了这人网络架构进行剪枝:VGGNet、ResNet和FCN。所有的网络都使用SGD进行训练,权重衰减和动量超参数分别设定为10-4和0.9。

研究者使用了多种训练数据和不同的批大小对哪几个网络进行了训练,同去加入了这人数据增强的法律法律方法。

在剪枝阶段,研究者在每个Tick阶段剪去ResNet0.2%的滤波器,在VGG和FCN上减去1%的滤波器。在每10个Tick操作后进行一次Tock操作。

剪枝效果

表1:在 ResNet-56上,使用CIFAR-10训练的模型剪枝后的表现。基线准确率为93.1%。

表 2:在ResNet-60 上,使用ImageNe训练的模型剪枝后的表现。P.Top-1、P.Top-5 分别表示 top-1和 top-5剪枝后的模型在验证集上的单中心裁剪准确率。[Top-1] ↓ 和 [Top-5] ↓分别表示剪枝后模型准确率和基线模型相比的下降情况汇报。Global 表示这人剪枝法律法律方法有无 全局滤波器剪枝算法。

图4:VGG-16-M在CUB-60 数据集上的剪枝效果。

下图5的基线模型是VGG-16-M,他在CIFAR-60 上的测试准确率为73.19%。其中「shrunk」版表示将所有卷积层的通道数减半,或者将FLOPs降低到了基线模型的1/4,从头训练后它的测试准确率会降低1.98%。「pruned」版表示采用Tick-Tock框架进行剪枝的结果,它的测试准确率会降低1.3%。

机会大伙从头训练「pruned」版模型,可不可不能能 了 它的准确率能达到71.02%,相当于降低了2.17%。不过重要的是,「pruned」版模型的参数量可不可不能能 了「shrunk」版模型的1/3。

进入“机器视觉”首页,浏览更多精彩内容 >>

猜你喜欢

回应格力举报,奥克斯以损害商誉为由报案:宁波警方已受理

IT之家6月11日消息6月10日晚,针对格力电器举报信,奥克斯在官方微博上发表声明称,格力举报不实,已向公安机关报案。6月11日,澎湃新闻从浙江宁波市鄞州区公安分局独家获悉,该

2020-01-24

360官宣与高通再联手,12月1日新品见面

11月29日,360 Ai家官方微博发布一张悬念海报,画面中央展示一颗标识“强”字的芯片,旁边还有一颗印有数字“2”的小芯片,并配有360 和高通的logo及“2019年12月

2020-01-24

美国麦当劳限时供应“油条”:2美元6根

IT之家3月14日消息 近日,美国麦当劳推出了一款限时供应的早餐,这款名为“Donut Sticks”的小吃被当地华人戏称为麦当劳“油条”。据当地华人介绍,该“油条”十分迷你,

2020-01-24

个人网贷大数据查询,怎么查自己是不是网贷黑名单

怎么能否 查询被委托人信用报告及被委托人信用报告网上查询解读1、央行查询被委托人征信报告一般也能去三个小多多 地方,第三个小多多 就说 央行的当地的总行,直接带上被委托

2020-01-24

打造云邮箱 139邮箱在云端行走

从2011年起,基于云计算的电子邮件服务将成为主流应用,“云存储”、“云计算”概念开始 英语 广为人知。而“云”在139邮箱中不仅仅是1个 多多 多概念,而是让每个用户在

2020-01-24