基于卷积神经网络的MAE自监督方法

基于,卷积,神经网络,mae,监督,方法 · 浏览次数 : 58

小编点评

**基于CNN的MAE自监督方法** **引言** 图像自监督预训练算法在近年来取得了巨大进步,MAE是其中基于ViT实现的代表性方法。 **MAE的结构** MAE使用非对称的ViT编码解码器结构,将输入图片的patch以较大的比例进行mask。 **性能优越性** 与以前的方法相比,MAE具有更高的性能。 **ICLR2023方法** 作者借鉴了3D点云领域的稀疏卷积,以处理不规则的输入。 **分层次解码器** 为了学习到多尺度的特征,作者设计了分层次的解码器。 **实验结果** 该方法的性能媲美原始的MAE方法,并在各种下游任务中取得了SOTA的结果。 **结论** 该方法有效地将CNN应用于自监督预训练,并具有广阔的应用范围。

正文

本文分享自华为云社区《基于卷积神经网络的MAE自监督方法》,作者: Hint 。

图像自监督预训练算法是近年来的重要研究方向,MAE是其中基于ViT实现的代表性方法,学习到了鲁棒的视觉特征。MAE全称是Masked Autoencoders,是由何凯明提出的自监督预训练方法,借鉴了BERT的预训练任务,将输入图片的patch以较大的比例进行mask,并通过非对称的ViT编码解码器结构,进行masked patches的重建任务。该方法在性能上超过了以往的对比学习方法,如MoCo系列等。然而ViT的结构复杂,计算量庞大,基于CNN的类MAE方法具有极高研究价值,但受限于CNN的结构特性,常规的MAE方式无法直接在CNN上应用。本文介绍ICLR2023的方法Spark[1],实现了基于CNN的MAE。

cke_146.png

如上图所示,对于一个masked的输入图片,对ViT输入和CNN的输入计算统计直方图,ViT的直方图是和未mask的图片分布一致的,而CNN的直方图发生了很大变化。这是由于ViT结构天然适合处理变长、不规则的输入,且不同的输入之间不会重叠计算。CNN的滑窗操作和规则的卷积核形状,导致模型会严重受到mask部分的影响。

cke_147.png

因此作者借鉴了3D点云领域的稀疏卷积,该卷积只对未mask的像素进行计算,忽略masked的像素,可以处理不规则的输入,实现了和ViT类似的效果。另外,为了学习到多尺度的特征,作者设计了分层次的解码器,参考了UNet的结构设计,使模型学习到多尺度的特征,适应CNN的多层级结构。

cke_148.png

从以下的实验结果来看,该方法的性能媲美原始的MAE方法,并在各种下游任务中取得了SOTA的结果,作者也证明了各个设计模块的有效性以及该方法的通用性。

cke_149.pngcke_150.pngcke_151.pngcke_152.pngcke_153.png

[1]Tian K, Jiang Y, Diao Q, et al. Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling[J]. arXiv preprint arXiv:2301.03580, 2023.

 

点击关注,第一时间了解华为云新鲜技术~

 

与基于卷积神经网络的MAE自监督方法相似的内容:

基于卷积神经网络的MAE自监督方法

本文介绍ICLR2023的方法Spark,实现了基于CNN的MAE。

基于深度卷积神经网络的时间序列图像分类,开源、低功耗、低成本的人工智能硬件提供者

具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI人工智能 卷积神经网络(CNN)通过从原始数据中自动学习层次特征表示,在图像识别任务中取得了巨大成功。虽然大多数时间序列分类(TSC)文献都集中在1D信号上,但本文使用递归图(RP)将时间序列转换为2D纹理

基于改进MFCC特征和卷积递归神经网络的心音分类

具体的软硬件实现点击http://mcu-ai.com/MCU-AI技术网页_MCU-AI人工智能 心音分类在心血管疾病的早期发现中起着至关重要的作用,特别是对于小型初级卫生保健诊所。尽管近年来心音分类取得了很大进展,但其中大多数都是基于传统的分段特征和基于浅层结构的分类器。这些传统的声学表示和分类

基于毫米波雷达的手势识别算法

摘要 基于毫米波的手势识别技术提供了良好的人机交互体验。先前的工作专注于近距离手势识别,但在范围扩展方面不够,即他们无法识别距离相当大的噪声运动超过一米的手势。在本文中,我们利用一种新的数据处理方法和定制的人工卷积神经网络(CNN)设计了一个远程手势识别模型。首先,我们将手势分解为多个反射点,并提取

何为神经网络卷积层?

摘要:本文深度讲解了卷积计算的原理,并详细介绍了构成所有卷积网络主干的基本元素,包括卷积层本身、填充和步幅的基本细节、用于在相邻区域汇聚信息的汇聚层,最后给出卷积层和汇聚层的代码示例和CNN框架结构图。 本文分享自华为云社区《神经网络基础部件-卷积层详解》,作者: 嵌入式视觉 。 前言 在全连接层构

算法金 | 读者问了个关于深度学习卷积神经网络(CNN)核心概念的问题

​大侠幸会,在下全网同名[算法金] 0 基础转 AI 上岸,多个算法赛 Top [日更万日,让更多人享受智能乐趣] 读者问了个关于卷积神经网络核心概念的问题,如下, 【问】神经元、权重、激活函数、参数、图片尺寸,卷积层、卷积核,特征图,平均池化,全家平均池化,全连接层、隐藏层,输出层 【完整问题】神

深度学习(六)——神经网络的基本骨架:nn.Module的使用

终于卷到神经网络了 ...(˘̩̩̩ε˘̩ƪ)

【OpenVINO™】在 C# 中使用OpenVINO™ 部署PP-YOLOE实现物体检测

PP-YOLOE是基于PP-YOLOv2的优秀单级无锚模型,超越了各种流行的YOLO模型。PP-YOLOE有一系列型号,命名为s/m/l/x,通过宽度乘数和深度乘数进行配置。PP-YOLOE避免使用特殊的运算符,如可变形卷积或矩阵NMS,以便友好地部署在各种硬件上。 在本文中,我们将使用OpenVI...

算法学习笔记(∞):杂项

杂项 目录杂项代码规范算法优化的本质记忆化搜索基于边的记忆化动态规划树上每一个点求答案计数题关于仙人掌 DAG 的拓扑序计数关于微扰贪心的证明组合数前缀和单位根反演\(O(n^2)\) 状态求和矩形式子求和\(O(n^2)\) 状态 \(O(n)\) 单点问题CDQ 分治FFT 循环卷积根号多项式算

基于ReAct机制的AI Agent

当前,在各个大厂纷纷卷LLM的情况下,各自都借助自己的LLM推出了自己的AI Agent,比如字节的Coze,百度的千帆等,还有开源的Dify。你是否想知道其中的原理?是否想过自己如何实现一套AI Agent?当然,借助LangChain就可以。