深度学习(七)——神经网络的卷积操作

深度,学习,神经网络,卷积,操作 · 浏览次数 : 216

小编点评

**卷积操作一、torch.nn中Convolution Layers函数的介绍** **1. 参数介绍** * `input`:输入,数据类型为tensor,形状尺寸规定为:(minibatch, 几个通道(in_channels), 高, 宽) * `weight`:权重。更专业地来说可以叫卷积核,形状尺寸规定为:(输出的通道(out_channel), \(in\\_channel\\over{groups}\\)(groups一般取1), 高, 宽 ) * `bias`:偏置。 * `stride`:步幅。 * `padding`:填充。 * `dilation`:膨胀。 * `groups`:组数。 **2. 举例讲解参数paddingpadding的作用** * `padding`参数控制了在输入图像的左右两边进行填充的像素数量。 * 默认padding=0,即不进行填充。 * `padding=1`,图像的上下左右都会拓展一个像素,然后这些空地方像素(里面填充的数据)都默认为0。 **3. 举例说明padding在卷积计算中的作用** * `input`:5×5的图像。 * `padding=1`,输入图像将会变成下图,即图像的上下左右都会拓展一个像素。 * 卷积计算公式变为: ``` 0×1+0×2+0×1+0×0+1×1+2×0+0×2+0×1+1×0=1 ``` **4. 总结** * 卷积操作是将输入图像与权重进行矩阵乘积后进行求和的运算。 * padding参数控制了在输入图像的左右两边进行填充的像素数量。

正文

卷积操作

一、torch.nn中Convolution Layers函数的介绍

1. 参数介绍

  • nn.Conv1d: Conv取自Convolution的前四个字母,1d代表的是一个一维操作。

  • nn.Conv2d: 2d表示是一个二维的操作,比如图像就是一个二维的。

  • 其余参数不常用,见官网文档:torch.nn — PyTorch 2.0 documentation

2. torch.nn和torch.nn.functional的区别

  • torch.nn是对torch.nn.functional的一个封装,让使用torch.nn.functional里面的包的时候更加方便

  • torch.nn包含了torch.nn.functional,打个比方,torch.nn.functional相当于开车的时候齿轮的运转,torch.nn相当于把车里的齿轮都封装好了,为我们提供一个方向盘

  • 如果只是简单应用,会torch.nn就好了。但要细致了解卷积操作,需要深入了解torch.nn.functional

  • 打开torch.nn.functional的官方文档,可以看到许多跟卷积相关的操作:torch.nn.functional — PyTorch 2.0 documentation

二、torch.nn.functional.conv2d 介绍

官网文档:torch.nn.functional.conv2d — PyTorch 2.0 documentation

torch.nn.functional.conv2d(input, weight, bias=None, stride=1, padding=0, dilation=1, groups=1)

1. 参数详解

  • input: 输入,数据类型为tensor,形状尺寸规定为:(minibatch, 几个通道(in_channels), 高, 宽)

  • weight: 权重。更专业地来说可以叫卷积核,形状尺寸规定为:(输出的通道(out_channel), \(in\_channel\over{groups}\)(groups一般取1), 高, 宽 )

  • bias: 偏置。

  • strids: 步幅。

  • padding: 填充。

2. 举例讲解参数strids

(1)理论

输入一个5×5的图像,其中的数字代表在每个像素中的颜色显示。卷积核设置为3×3的大小。

  • strids参数的输入格式是单个数或者形式为 (sH,sW) 的元组,可以理解成:比如输入单个数:strids=1,每次卷积核在图像中向上下或左右移1位;如果输入strids=(2,3),那么每次卷积核在图像中左右移动(横向移动)时,是移动2位,在图像中上下移动(纵向移动)时,是移动3位。

  • 本例设置strids=1

第一次移位:

  • 基于上述的假设,在做卷积的过程中,需要将卷积核将图像的前三行和前三列进行匹配:

  • 在匹配过后,进行卷积计算对应位相乘然后相加,即

    \[1×1+2×2+0×1+0×0+1×1+2×0+1×2+2×1+1×0=10 \]

  • 上面的得出的\(10\)可以赋值给矩阵,然后作为一个输出

  • 之后卷积核可以在图像中进行一个移位,可以向旁边走1位或2位,如下图(向右走2位)。具体走多少位由strids参数决定,比如strids=2,那就是走2位。本例设置stride=1。

第二次移位:

  • 向右移动一位,进行卷积计算:

    \[2×1+0×2+3×1+1×0+2×1+3×0+2×2+1×1+0×0=12 \]

  • \(12\)可以赋值给矩阵,然后作为一个输出

第三次移位:

  • 向右移动一位,进行卷积计算:

    \[0×1+3×2+1×1+2×0+3×1+1×0+1×2+0×1+0×0=12 \]

  • \(12\)可以赋值给矩阵,然后作为一个输出

  • 第三次移位后,发现卷积核已经没办法向右移位,进行匹配了。所以我们在纵向上,向下走:

第四次移位:

  • 在最开始的位置上,向下移动一位,进行卷积计算:

    \[0×1+1×2+2×1+1×0+2×1+1×0+5×2+2×1+2×0=18 \]

  • \(18\)可以赋值给矩阵,然后作为一个输出

第五次移位:

  • 在上面的基础上,向右移一位,进行卷积计算:

    \[1×1+2×2+3×1+2×0+1×1+0×0+2×2+3×1+1×0=16 \]

  • \(16\)可以赋值给矩阵,然后作为一个输出

以此类推,走完整个图像,最后输出的矩阵如下图。这个矩阵是卷积后的输出

(2)程序操作

将上面的过程写到程序内:

import torch
import torch.nn.functional as F

# 构造输入图像(input参数输入的数据类型为tensor,并且为2维)
input=torch.tensor([[1,2,0,3,1],
                    [0,1,2,3,1],
                    [1,2,1,0,0],
                    [5,2,3,1,1],
                    [2,1,0,1,1]])

# 构造卷积核(数据类型也是tensor,并且为2维)
kernel=torch.tensor([[1,2,1],
                     [0,1,0],
                     [2,1,0]])

#查看尺寸,输出后发现并不符合参数输入的尺寸标准,所以需要进一步转换数据
print(input.shape) #[Run]  torch.Size([5, 5])
print(kernel.shape) #[Run]  torch.Size([3, 3])

#转换input、kernel数据
input=torch.reshape(input,(1,1,5,5))  #torch.reshape(tensor数据,想变成的格式尺寸(batch=1,通道=1,5×5))
kernel=torch.reshape(kernel,(1,1,3,3))

#查看尺寸,输出后发现符合参数输入的尺寸标准
print(input.shape) #[Run]  torch.Size([1, 1, 5, 5])
print(kernel.shape) #[Run]  torch.Size([1, 1, 3, 3])

# 进行卷积操作
#stride=1,输出结果与上面矩阵一致
output=F.conv2d(input,kernel,stride=1)
print(output)
"""
[Run]
tensor([[[[10, 12, 12],
          [18, 16, 16],
          [13,  9,  3]]]])
"""

#stride=2
output2=F.conv2d(input,kernel,stride=2)
print(output2)
"""
[Run]
tensor([[[[10, 12],
          [13,  3]]]])
"""

3. 举例讲解参数padding

padding的作用是在输入图像的左右两边进行填充,padding的值决定填充的大小有多大,它的输入形式为一个整数或者一个元组 ( padH, padW ),其中,padH=高padW=宽默认padding=0,即不进行填充。

(1)理论

  • 仍输入上述的5×5的图像,并设置padding=1,那么输入图像将会变成下图,即图像的上下左右都会拓展一个像素,然后这些空的地方像素(里面填充的数据)都默认为0。

  • 按上面的顺序进行卷积计算,第一次移位时在左上角3×3的位置,卷积计算公式变为:

    \[0×1+0×2+0×1+0×0+1×1+2×0+0×2+0×1+1×0=1 \]

  • 以此类推,完成后面的卷积计算,并输出矩阵

(2)程序操作

在上面的代码后,加入这串代码,以验证padding的操作:

output3=F.conv2d(input,kernel,stride=1,padding=1)
print(output3)
"""
[Run]
tensor([[[[ 1,  3,  4, 10,  8],
          [ 5, 10, 12, 12,  6],
          [ 7, 18, 16, 16,  8],
          [11, 13,  9,  3,  4],
          [14, 13,  9,  7,  4]]]])
"""

与深度学习(七)——神经网络的卷积操作相似的内容:

深度学习(七)——神经网络的卷积操作

关于torch.nn.functional操作的深入理解,主要介绍卷积计算过程。

深度学习(八)——神经网络:卷积层

主要介绍神经网络中的卷积层操作,包括构建卷积层、处理图像、可视化

算法金 | 读者问了个关于深度学习卷积神经网络(CNN)核心概念的问题

​大侠幸会,在下全网同名[算法金] 0 基础转 AI 上岸,多个算法赛 Top [日更万日,让更多人享受智能乐趣] 读者问了个关于卷积神经网络核心概念的问题,如下, 【问】神经元、权重、激活函数、参数、图片尺寸,卷积层、卷积核,特征图,平均池化,全家平均池化,全连接层、隐藏层,输出层 【完整问题】神

基于深度卷积神经网络的时间序列图像分类,开源、低功耗、低成本的人工智能硬件提供者

具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI人工智能 卷积神经网络(CNN)通过从原始数据中自动学习层次特征表示,在图像识别任务中取得了巨大成功。虽然大多数时间序列分类(TSC)文献都集中在1D信号上,但本文使用递归图(RP)将时间序列转换为2D纹理

深度学习项目-MobileNetV2水果识别模型

本项目旨在研究利用深度学习模型进行水果图像分类的方法,具体包括两个主要任务:一是使用卷积神经网络(CNN)模型进行水果图片的分类,二是探索轻量级神经网络模型MobileNetV2在水果图像分类中的应用。

使用小波分析和深度学习对心电图 (ECG) 进行分类 mcu-ai低成本方案 mcu-ai低成本方案

具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI人工智能 此示例说明如何使用连续小波变换 (CWT) 和深度卷积神经网络 (CNN) 对人体心电图 (ECG) 信号进行分类。 从头开始训练深度 CNN 的计算成本很高,并且需要大量的训练数据。在很多应用中

深度学习(六)——神经网络的基本骨架:nn.Module的使用

终于卷到神经网络了 ...(˘̩̩̩ε˘̩ƪ)

构建基于深度学习神经网络协同过滤模型(NCF)的视频推荐系统(Python3.10/Tensorflow2.11)

毋庸讳言,和传统架构(BS开发/CS开发)相比,人工智能技术确实有一定的基础门槛,它注定不是大众化,普适化的东西。但也不能否认,人工智能技术也具备像传统架构一样“套路化”的流程,也就是说,我们大可不必自己手动构建基于神经网络的机器学习系统,直接使用深度学习框架反而更加简单,深度学习可以帮助我们自动地从原始数据中提取特征,不需要手动选择和提取特征。

深度学习(九)——神经网络:最大池化的作用

主要介绍神经网络中的最大池化操作,以及最大池化的作用

深度学习(十一)——神经网络:线形层及其他层介绍

主要介绍神经网络线性层的计算,即torch.nn.Linear的原理及应用。并插入一些神经网络的其他层介绍,及调用pytorch中网络模型的方法。