论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能

论文,解读,cvpr,使用,人工,标注,提升,文字,识别器,性能 · 浏览次数 : 92

小编点评

**摘要** 本文提出了一种针对文字识别的半监督方法,区别于常见的半监督方法。该方法采用 teacher-student 网络结构,并采用字符级别的一致性约束对 teacher 和 student 网络的预测进行对齐。为了避免student网络在当前时刻的预测结果受到之前时刻错误预测的影响,本文将当前时刻之前,teacher 的预测结果作为student 的当前时刻之前的预测结果,从而获得更鲁棒的一致性约束。 **主要技术** * Teacher-student 网络结构:使用强监督方法预先训练 teacher 网络,并将其结果作为 student 网络的初始化模型。 * 字符级别的一致性约束:使用交叉熵等损失函数来对 student 网络的预测进行一致性约束。 * 域适应模块:为了减轻合成数据与真实数据之间的域间差距,本文使用字符级别的域适应模块来进行对齐。 **实验结果** 在标准文字识别数据集上,该方法能够稳步提升现有的 STR 模型,并得到最先进的结果。此外,该方法是第一个将一致性约束应用到文字识别领域的全新方法。

正文

摘要:本文提出了一种针对文字识别的半监督方法。区别于常见的半监督方法,本文的针对文字识别这类序列识别问题做出了特定的设计。

本文分享自华为云社区《[CVPR 2022] 不使用人工标注提升文字识别器性能》,作者:Hint。

本文提出了一种针对文字识别的半监督方法。区别于常见的半监督方法,本文的针对文字识别这类序列识别问题做出了特定的设计。具体来说,本文首先采用了teacher-student的网络结构,然后采用字符级别的一致性约束对teacher和student网络的预测进行对齐。此外,考虑到文字识别是step-by-step,每一个字符的预测都和之前时刻的预测结果相关。为了避免student网络在当前时刻的预测结果受到之前时刻错误预测的影响,本文将当前时刻之前,teacher的预测结果作为student当前时刻之前的预测结果,这样可以得到比较鲁棒的一致性约束,从而提升性能。

近年来,场景文本识别(STR)因其广泛应用而备受关注。大多数识别模型需要大量的有标注数据进行强监督训练。虽然合成数据可以缓解识别模型对数据量的需求,但是合成数据和真实场景的域间差距极大地限制了识别模型在真实场景下的性能。在本文中,作者希望通过同时利用有标注的合成数据以及无标注的真实数据来提升STR模型的性能,完全不需要任何人工标注。本文提出了一种鲁棒的基于一致性约束的半监督方法,可以有效解决合成数据与真实数据域不一致导致的不稳定问题。字符级的一致性约束旨在减轻序列识别过程中错误识别导致的不对齐问题。在标准文字识别数据集上,大量实验证明了所提出方法的有效性。该方法能够稳步提升现有的STR模型,并得到最先进的结果。此外,本文也是第一个将一致性约束应用到文字识别领域的工作。

方法:

本框架包括两个分支,一个是输出有标签合成数据的强监督分支,一个是输入无标签真实数据的半监督分支。强监督分支和一般的识别模型一样。关于半监督分支,采用teacher-student进行一致性约束。具体来说,将强监督得到的预训练模型作为teacher和student网络的初始化模型,然后对同一张输入图像进行弱数据扩增和强数据扩增,并分别输入到teacher和student网络中;将teacher网络的预测结果作为伪标签对student的输出进行监督。

由于文字识别是一个序列识别问题,当前时刻的预测结果和之前时刻的预测结果相关。为了尽可能减少target和online模型在同一时刻预测结果的不对齐问题,online分支之前时刻的预测结果会和target分支之前时刻的预测结果保持一致,然后再进行当前时刻的字符预测。字符级别的一致性loss如下公式所示,Dist()可以是交叉熵,KL-Div或者MSE,本文采用的是KL-Div。

此外,为了减轻合成数据与真实数据之间的域间差别,本文还使用了字符级别的域对齐模块。该模块首先分别将合成数据和真实数据每个时刻的视觉特征收集起来构成一个集合H

,然后计算他们各自的协方差矩阵cov()。

最终,整个框架的loss由强监督识别loss,一致性约束loss和域适应loss构成:

实验:

在引入无标签数据之后,当前识别模型的性能能够得到稳定的提升。

相比于其他利用无标签数据的方法而言,本文提出的基于一致性约束的方法能够优于其他几种方法。

该实验主要证明了online model中的projection layer,使用EMA更新的target model和domain adaptation模块的有效性。

该实验证明了在online model中使用和target model相同的之前时刻预测结果的有效性。

该实验主要讨论了一致性loss的类型对最终性能的影响,可以看到交叉熵和KL-Div性能差不多,且优于MSE。

论文链接:[2204.07714] Pushing the Performance Limit of Scene Text Recognizer without Human Annotation (arxiv.org)

 

点击关注,第一时间了解华为云新鲜技术~

与论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能相似的内容:

论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能

摘要:本文提出了一种针对文字识别的半监督方法。区别于常见的半监督方法,本文的针对文字识别这类序列识别问题做出了特定的设计。 本文分享自华为云社区《[CVPR 2022] 不使用人工标注提升文字识别器性能》,作者:Hint。 本文提出了一种针对文字识别的半监督方法。区别于常见的半监督方法,本文的针对文

论文解读丨CIKM'22 MARINA:An MLP-Attention Model for Multivariate Time-Series Analysis

摘要:华为云数据库创新Lab在论文《MARINA: An MLP-Attention Model for Multivariate Time-Series Analysis》中提出了华为自研的自回归时序神经网络模型,可用于时序数据的预测以及异常检测。 本文分享自华为云社区《CIKM'22 MARIN

AlexNet论文解读

前言 作为深度学习的开山之作AlexNet,确实给后来的研究者们很大的启发,使用神经网络来做具体的任务,如分类任务、回归(预测)任务等,尽管AlexNet在今天看来已经有很多神经网络超越了它,但是它依然是重要的。AlexNet的作者Alex Krizhevsky首次在两块GTX 580 GPU上做神

Mind2Web: Towards a Generalist Agent for the Web 论文解读

We introduce MIND2WEB, the first dataset for developing and evaluating generalist agents for the web that can follow language instructions to complete...

OctConv:八度卷积复现

摘要:不同于传统的卷积,八度卷积主要针对图像的高频信号与低频信号。 本文分享自华为云社区《OctConv:八度卷积复现》,作者:李长安 。 论文解读 八度卷积于2019年在论文《Drop an Octave: Reducing Spatial Redundancy in Convolutional

多主架构:VLDB技术论文《Taurus MM: bringing multi-master to the cloud》解读

华为《Taurus MM: bringing multi-master to the cloud》论文被国际数据库顶会VLDB 2023录用,这篇论文里讲述了符合云原生数据库特点的超燃技术。

【论文阅读】自动驾驶光流任务 DeFlow: Decoder of Scene Flow Network in Autonomous Driving

再一次轮到讲自己的paper!耶,宣传一下自己的工作,顺便完成中文博客的解读 方便大家讨论。 Title Picture Reference and pictures paper: https://arxiv.org/abs/2401.16122 code: https://github.com/K

全渠道定价、库存决策,混合整数规划建模求解,MNL选择模型,内附代码!

敲敲敲详细的高分牛刊论文阅读笔记,还有Python的PyLogit包详解!全渠道、运筹规划领域入门/基础模型,内附论文的主要内容翻译解读、模型讲解和代码实现!

流水线中便捷迭代,鲲鹏DevKit 23.0新能力抢先看

在华为全联接大会2023鲲鹏DevKit分论坛上,鲲鹏DevKit的技术专家们详细解读了鲲鹏DevKit 23.0版本即将上线的最新能力,并且邀请了华海智汇、志凌海纳等行业伙伴,共同分享基于鲲鹏DevKit的原生开发实践。

深度学习论文翻译解析(二十二):Uniformed Students Student-Teacher Anomaly Detection With Discriminative Latent Embbeddings

论文标题:Uniformed Students Student-Teacher Anomaly Detection With Discriminative Latent Embbeddings 论文作者: Paul Bergmann Michael Fauser David Sattlegger C