详解ResNet 网络,如何让网络变得更“深”了

详解,resnet,网络,如何,变得 · 浏览次数 : 325

小编点评

**ResNet18 网络结构分析** **残差模块数量:** [2, 2, 2, 2] **每个残差模块中包含的卷积层数:** 2 **总共的卷积层数:** 16 **第一层卷积的输出特征图尺寸:** 512×1024 **残差模块数量:** 18 **两层残差模块的总输出特征图尺寸:** 4×2×2×228 **其他网络结构:** * ResNet50 * ResNetv2 * Densenet * CSPNet * VOVNet

正文

摘要:残差网络(ResNet)的提出是为了解决深度神经网络的“退化”(优化)问题。ResNet 通过设计残差块结构,调整模型结构,让更深的模型能够有效训练更训练。

本文分享自华为云社区《Backbone 网络-ResNet 网络详解》,作者: 嵌入式视觉 。

摘要

残差网络(ResNet)的提出是为了解决深度神经网络的“退化”(优化)问题

论文指出,神经网络越来越深的时候,反传回来的梯度之间的相关性会越来越差,最后接近白噪声。即更深的卷积网络会产生梯度消失问题导致网络无法有效训练。

而 ResNet 通过设计残差块结构,调整模型结构,让更深的模型能够有效训练更训练。目前 ResNet 被当作目标检测、语义分割等视觉算法框架的主流 backbone。

一,残差网络介绍

作者认为,假设一个比较浅的卷积网络已经可以达到不错的效果,那么即使新加了很多卷积层什么也不做,模型的效果也不会变差。但,之所以之前的深度网络出现退化问题,是因为让网络层什么都不做恰好是当前神经网络最难解决的问题之一!

因此,作者可以提出残差网络的初衷,其实是让模型的内部结构至少有恒等映射的能力(什么都不做的能力),这样可以保证叠加更深的卷积层不会因为网络更深而产生退化问题!

1.1,残差结构原理

对于 VGG 式的卷积网络中的一个卷积 block,假设 block 的输入为 xx ,期望输出为 H(x)H(x),block 完成非线性映射功能。

那么,如何实现恒等映射呢?

假设直连(plain)卷积 block 的输入为 xx ,block 期望输出为 H(x)H(x),我们一般第一反应是直接让学习 H(x)=xH(x)=x,但是这很难!

对此,作者换了个角度想问题,既然 H(x)=xH(x)=x 很难学习到,那我就将 H(x)H(x) 学习成其他的,而让恒等映射能力通过其他结构来实现,比如,直接加个 shorcut 不就完事了!这样只要直连 block 网络输出学习为 0 就行了。而让直连卷积 block 输出学习为 0 比学习成恒等映射的能力是要简单很多的!毕竟前者通过 L2 正则化就能实现了!

因此,作者将网络设计为 H(x)=F(x)+xH(x)=F(x)+x,即直接把恒等映射作为网络的一部分,只要 F(x)=0F(x)=0,即实现恒等映射H(x)=xH(x)=x。残差块结构(resdiual block)。基本残差块结构如下图所示:

image-20230217211129945

从图中可以看出,一个残差块有 22 条路径 F(x)F(x) 和 xx,F(x)F(x) 路径拟合残差 H(x)−xH(x)x,可称为残差路径,xx 路径为恒等映射(identity mapping),称其为”shortcut”。图中的 ⊕ 为逐元素相加(element-wise addition),要求参与运算的 F(x)F(x) 和 xx 的尺寸必须相同!

这就把前面的问题转换成了学习一个残差函数 F(x)=H(x)−xF(x)=H(x)x。

综上总结:可以认为 Residual Learning 的初衷(原理),其实是让模型的内部结构至少有恒等映射的能力。以保证在堆叠网络的过程中,网络至少不会因为继续堆叠而产生退化!

注意,很多博客片面解释 resnet 解决了梯度消失问题所以有效的的观点是片面的且方向也错了!resnet 到底解决了什么问题以及为什么有效问题的更细节回答,可以参考这个回答

1.2,两种不同的残差路径

在 ResNet 原论文中,残差路径的设计可以分成 22 种,

  1. 一种没有 bottleneck 结构,如图3-5左所示,称之为“basic block”,由 2 个 3×33×3 卷积层构成。2 层的残差学习单元其两个输出部分必须具有相同的通道数(因为残差等于目标输出减去输入,即 H(x)−xH(x)x,所以输入、输出通道数目需相等)。
  2. 另一种有 bottleneck 结构,称之为 “bottleneck block”,对于每个残差函数 FF,使用 33 层堆叠而不是 2 层,3 层分别是 1×11×1,3×33×3 和 1×11×1 卷积。其中 1×11×1 卷积层负责先减小然后增加(恢复)维度,使 3×33×3 卷积层的通道数目可以降低下来,降低参数量减少算力瓶颈(这也是起名 bottleneck 的原因 )。50 层以上的残差网络都使用了 bottleneck block 的残差块结构,因为其可以减少计算量和降低训练时间。

image-20230217211429369

3 层的残差学习单元是参考了 Inception Net 结构中的 Network in Network 方法,在中间 3×33×3 的卷积前后使用 1×11×1 卷积,实现先降低维度再提升维度,从而起到降低模型参数和计算量的作用。

1.3,两种不同的 shortcut 路径

shortcut 路径大致也分成 22 种,一种是将输入 xx 直接输出,另一种则需要经过 1×11×1 卷积来升维或降采样,其是为了将 shortcut 输出与 F(x) 路径的输出保持形状一致,但是其对网络性能的提升并不明显,两种结构如下图所示。

image-20230217211358863

Residual Block(残差块)之间的衔接,在原论文中,F(x)+xF(x)+x 是经过 ReLU 后直接作为下一个 block 的输入 xx。

二,ResNet18 模型结构分析

残差网络中,将堆叠的几层卷积 layer 称为残差块(Residual Block),多个相似的残差块串联构成 ResNet。ResNet18 和 ResNet34 Backbone用的都是两层的残差学习单元(basic block),更深层的ResNet则使用的是三层的残差学习单元(bottle block)。

ResNet18 其结构如下图所示。

image-20230217212628578

ResNet18 网络具体参数如下表所示。

image-20230217212933666

假设图像输入尺寸为,1024×20481024×2048,ResNet 共有五个阶段。

  1. 其中第一阶段的 conv1 layer 为一个 7×77×7 的卷积核,stride 为 2,然后经过池化层处理,此时特征图的尺寸已成为输入的1/4,即输出尺寸为 512×1024512×1024。
  2. 接下来是四个阶段,也就是表格中的四个 layer:conv2_x、conv3_x、conv4_x、conv5_x,后面三个都会降低特征图尺寸为原来的 1/2,特征图的下采样是通过步长为 2 的 conv3_1, conv4_1 和 conv5_1 执行。所以,最后输出的 feature_map 尺寸为输入尺寸降采样 32=4×2×2×232=4×2×2×2 倍。

在工程代码中用 make_layer 函数产生四个 layer 即对应 ResNet 网络的四个阶段。根据不同层数的 ResNet(N):

  1. 输入给每个 layer 的 blocks 是不同的,即每个阶段(layer)里面的残差模块数目不同(即 layers 列表不同)
  2. 采用的 block 类型(basic 还是 bottleneck 版)也不同。

本文介绍的 ResNet18,使用 basic block,其残差模块数量(即units数量)是 [2, 2, 2, 2],又因为每个残差模块中只包含了 2 层卷积,故残差模块总的卷积层数为 (2+2+2+2)*2=16,再加上第一层的卷积和最后一层的分类,总共是 18 层,所以命名为 ResNet18。

ResNet50 为 [3, 4, 6, 3]。

个人思考

看了后续的 ResNeXtResNetv2DensenetCSPNetVOVNet 等论文,越发觉得 ResNet 真的算是 Backone 领域划时代的工作了,因为它让深层神经网络可以训练,基本解决了深层神经网络训练过程中的梯度消失问题,并给出了系统性的解决方案(两种残差结构),即系统性的让网络变得更“深”了。而让网络变得更“宽”的工作,至今也没有一个公认的最佳方案(InceptionResNeXt 等后续没有广泛应用),难道是因为网络变得“宽”不如“深”更重要,亦或是我们还没有找到一个更有效的方案。

参考资料

  1. Deep Residual Learning for Image Recognition
  2. https://github.com/pytorch/vision/blob/main/torchvision/models/resnet.py

 

点击关注,第一时间了解华为云新鲜技术~

与详解ResNet 网络,如何让网络变得更“深”了相似的内容:

详解ResNet 网络,如何让网络变得更“深”了

摘要:残差网络(ResNet)的提出是为了解决深度神经网络的“退化”(优化)问题。ResNet 通过设计残差块结构,调整模型结构,让更深的模型能够有效训练更训练。 本文分享自华为云社区《Backbone 网络-ResNet 网络详解》,作者: 嵌入式视觉 。 摘要 残差网络(ResNet)的提出是为

详解C#委托与事件

在C#中,委托是一种引用类型的数据类型,允许我们封装方法的引用。通过使用委托,我们可以将方法作为参数传递给其他方法,或者将多个方法组合在一起,从而实现更灵活的编程模式。委托类似于函数指针,但提供了类型安全和垃圾回收等现代语言特性。 基本概念 定义委托 定义委托需要指定它所代表的方法的原型,包括返回类

详解Web应用安全系列(8)不足的日志记录和监控

在Web安全领域,不足的日志记录和监控是一个重要的安全隐患,它可能导致攻击者能够更隐蔽地进行攻击,同时增加了攻击被检测和响应的难度。以下是对Web攻击中不足的日志记录和监控漏洞的详细介绍。 一、日志记录不足的问题 日志缺失或不完整 关键操作未记录:如用户登录、敏感数据访问、系统管理员操作等关键操作未

详解Web应用安全系列(5)敏感数据泄露漏洞

在最近几年,这是最常见的,最具影响力的攻击。这个领域最常见的漏洞是不对敏感数据进行加密。在数据加密过程中,常见的问题是不安全的密钥生成和管理以及使用弱密码算法,弱协议和弱密码。特别是使用弱的哈希算法来保护密码。在服务端,检测数据传输过程中的数据弱点很容易,但检测存储数据的弱点却非常困难。 敏感数据泄

详解Web应用安全系列(4)失效的访问控制

在Web安全中,失效的访问控制(也称为权限控制失效或越权访问)是指用户在不具备相应权限的情况下访问了受限制的资源或执行了不允许的操作。这通常是由于Web应用系统未能建立合理的权限控制机制,或者权限控制机制失效所导致的。 危害 数据泄漏:攻击者可能通过越权访问获取敏感数据,如用户个人信息、财务数据、家

详解Web应用安全系列(3)失效的身份认证

大多数身份和访问管理系统的设计和实现,普遍存在身份认证失效的问题。会话管理是身份验证和访问控制的基础,并且存在于所有有状态的应用程序中。攻击者可以使用指南手册来检测失效的身份认证,但通常会关注密码转储,字典攻击,或者在类似于钓鱼或社会工程攻击之后,发现失效的身份认证。 确认用户的身份,身份验证和会话

详解Web应用安全系列(2)注入漏洞之XSS攻击

上一篇介绍了SQL注入漏洞,今天我们来介绍另一个注入漏洞,即XSS跨站脚本攻击。XSS 全称(Cross Site Scripting) 跨站脚本攻击, 是Web应用中常见的漏洞。指攻击者在网页中嵌入客户端脚本(一般是JavaScript),当用户浏览此网页时,脚本就会在用户的浏览器上执行,从而达到

详解Web应用安全系列(1)注入漏洞之SQL注入

注入漏洞通常是指在可输入参数的地方,通过构造恶意代码,进而威胁应用安全和数据库安全。常见的注入漏洞包括:SQL注入和XSS跨站脚本攻击。 这篇文章我们主要讲SQL注入,SQL注入即是指web应用程序对用户输入数据的合法性没有判断或过滤不严,攻击者可以在web应用程序中事先定义好的查询语句的结尾上添加

详解Kubernetes Pod优雅退出

1、概述 Pod优雅关闭是指在Kubernetes中,当Pod因为某种原因(如版本更新、资源不足、故障等)需要被终止时,Kubernetes不会立即强制关闭Pod,而是首先尝试以一种“优雅”的方式关闭Pod。这个过程允许Pod中的容器有足够的时间来响应终止信号(默认为SIGTERM),并在终止前完成

详解联邦学习中的异构模型集成与协同训练技术

本文将详细介绍联邦学习中的异构模型集成与协同训练技术,包括基本概念、技术挑战、常见解决方案以及实际应用,结合实例和代码进行讲解。