#论文阅读# MORAN


论文地址:https://arxiv.org/pdf/1901.03003.pdf
代码地址:MORANv2-pytorch版本

1 abstract

不规则文本识别由于有着各种各样的形状,因此仍有较大的困难,本文提出MORAN:包含一个多目标蒸馏网络(multi-object rectification network)和一个基于注意力机制的识别网络。多目标蒸馏网络旨在大致确定文本所在区域以减弱识别难度,它仅需要图片和标签就可以进行训练。注意力识别网络则集中解决预测文本的任务。提出fractional pickup以提高注意力识别网络的灵敏度(sensitivity)。

2 motivation

  • irregular text → \rightarrow ​​ shapes and distorted patterns

3 method

  • overview

moran_overview.png

3.1 multi-object rectification network(MORN)

  • 常用的修改图片的方法受限于几何约束(即几何约束问题),比如对于affine transformation network,它只能rotation,scaling,translation(平移),但一张图片可能存在形变(deformation),以上三种基本变换无法表示形变(figure 3)。另外一种是deformable conv network,但面对seq2seq问题时网络可能发散。
    comparison_morn_affine.png

  • Offset Maps

每个卷积层包含一个conv+BN+ReLU,除了最后一层(具体参数看论文),之后添加一层激活函数Tanh,将结果锁在区间(-1,1)。

最后resize将输出的尺寸更改到和输出相同。

如 input:(1×32×100) → C N N \rightarrow^{CNN} CNN​(2×3×11) → r e s i z e \rightarrow^{resize} resize​​(2×32×100)

输出以后:在sampling之前,两个channel分别归一化至[0, W]和[0, H]

  • Basic Grid

将图像所有的pixel映射至区间[1,1],左上角为(-1,-1),右下角为(1,1)。原图不同通道(RGB三个channel)同一位置有着相同的basic grid,输出有两个channel,分别代表x轴和y轴。

它的输出尺寸与offset maps输出尺寸一致。

  • sampling

I ( i , j ) ′ = I ( i ′ , j ′ ) i ′ = o f f s e t ( 1 , i , j ) ′ , j ′ = o f f s e t ( 2 , i , j ) ′ I'_{(i,j)} = I_{(i',j')}\\ i'=offset'_{(1,i,j)},j'=offset'_{(2,i,j)} I(i,j)=I(i,j)i=offset(1,i,j),j=offset(2,i,j)

o f f s e t ′ offset' offset是Resized Offset Maps的输出, I I I是原图像, I ′ I' I是sampling的输出

  • analysis
    • rectified images 在regular文本情况下效果更好
    • 能解决之前提到的几何约束问题

3.2 attention-based sequence recognition network(ASRN)

主要是基于CNN-BLSTM结构,具体结构如下:

TypeConfigurationSize
Input1×32×100
conv64,k3,s1,p164×32×100
MaxPoolingk2,s264×16×50
conv128,k3,s1,p1128×16×50
MaxPoolingk2,s2128×8×25
conv256,k3,s1,p1256×8×25
conv256,k3,s1,p1256×8×25
MaxPoolingk2,s2×1,p0×1256×4×26
conv512,k3,s1,p1512×4×26
conv512,k3,s1,p1512×4×26
MaxPoolingk2,s2×1,p0×1512×2×27
conv512,k3,s1512×1×26
BLSTMhidden unit:256256×1×26
BLSTMhidden unit:256256×1×26
GRUhidden unit:256256×1×26

BLSTM:bidirectional-LSTM

GRU:包含在attention-based decoder中
主要用到的计算公式:
y t = S o f t m a x ( W o u t s t + b o u t ) s t = G R U ( y p r e v , g t , s t − 1 ) y p r e v = E m b e d d i n g ( y t − 1 ) g t = ∑ i = 1 L ( α t , h i ) α t , i = e x p ( e t , i ) / ∑ j = 1 L ( e x p ( e t , j ) ) e t , i = T a n h ( W s s t − 1 + W h h i + b ) y_t = Softmax(W_{out}s_t+b_{out}) \\ s_t=GRU(y_{prev},g_t,s_{t-1})\\ y_{prev}=Embedding(y_{t-1})\\ \\ g_t=\sum_{i=1}^L(\alpha_t,h_i)\\ \alpha_{t,i}=exp(e_{t,i})/\sum_{j=1}^L(exp(e_{t,j}))\\ e_{t,i}=Tanh(W_ss_{t-1}+W_hh_i+b)\\ yt=Softmax(Woutst+bout)st=GRU(yprev,gt,st1)yprev=Embedding(yt1)gt=i=1L(αt,hi)αt,i=exp(et,i)/j=1L(exp(et,j))et,i=Tanh(Wsst1+Whhi+b)
​ 其中, s t s_t st为t时刻hidden state; h i h_i hi是seq feature vector,是最后一个LSTM的输出
​ L是特征图的长度, α t , i \alpha_{t,i} αt,i​​是attention weights的向量

  • Fractional Pickup

    decoder的每一步都加上FP操作
    迭 代 公 式 : { α t , k = β α t , k + ( 1 − β ) α t , k + 1 α t , k + 1 = ( 1 − β ) α t , k + β α t , k + 1 β = r a n d ( 0 , 1 ) k = r a n d [ 1 , T − 1 ] , T = m a x _ n u m ( s t e p s ) 迭代公式:\begin{cases} \alpha_{t,k}=\beta\alpha_{t,k}+(1-\beta)\alpha_{t,k+1} \\ \alpha_{t,k+1}=(1-\beta)\alpha_{t,k}+\beta\alpha_{t,k+1} \end{cases} \\ \beta = rand(0,1) \ k=rand[1,T-1], \ T=max\_num(steps) {αt,k=βαt,k+(1β)αt,k+1αt,k+1=(1β)αt,k+βαt,k+1β=rand(0,1) k=rand[1,T1], T=max_num(steps)
    对第k+1步而言,FP提供了第k步的信息并允许其遗忘,提升了ASRN的鲁棒性

4 experiments

4.1 MORAN各结构影响的实验

fp_influence.png

4.2 with benchmarks

benchmarks.png

4.3 irregular results

results_irregular.png

(除此之外还有几个实验:与STAR-Net、RARE的对比)

一点想法:

由于笔者目前主要研究的方向是针对规则文本,因此我主要提炼的是论文中MORN部分。而未精读ASRN部分,感兴趣的读者可以从文章开头的论文地址链接中下载全文阅读。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57920.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文阅读_MAE

论文信息 name_en: Masked Autoencoders Are Scalable Vision Learners name_ch: 带遮蔽的自编码器是大规模的视觉学习者 paper_addr: https://ieeexplore.ieee.org/document/9879206/ doi: 10.1109/CVPR52688.2022.01553 date_read: 2023-04-08 date_publish: 2022-06-01 tag…

eval有时候也可以用,而且有奇效

ChatGPT取代程序员还是给程序员加Buff? 这两周,AI新闻一个接着一个,3月23日,Google开放了内测已久的AI对话服务Bard,Google强调,这是一款定位为用户提供创意之源的产品,可生成写作草稿或生活中…

chatgpt赋能python:Python数据散点图:用于数据可视化的强大工具

Python数据散点图:用于数据可视化的强大工具 数据可视化是将数据转化为图表或图形的过程,以使人们更容易理解和解释数据。散点图是一个强大的数据可视化工具,可以使用Python来制作。 什么是散点图 散点图是一种在二维平面上以点的形式展示…

chatgpt赋能python:PythonU盘:如何使用Python为U盘增加更多功能

Python U盘:如何使用Python为U盘增加更多功能 Python已经成为了世界上使用最广泛和最流行的编程语言之一。它具有易于上手,简洁明了的语法,以及强大的库和工具生态系统,使得Python在开发各种不同类型的应用程序和系统时非常受欢迎…

缓存那些事

作者:熊明辉,美团点评酒旅事业群酒店住宿研发团队B端商家业务平台负责人,主导构建商家业务平台系统,支撑美团点评酒店住宿业务的飞速发展需求。曾任职于联想集团、百度。 责编:钱曙光,关注架构和算法领域&a…

《程序员》3月精彩内容:大数据技术辨析与深度实践

随着技术迭代的不断加速,大数据极大改变了行业领域对信息流动的限制。本期封面报道聚焦领域内热门技术与应用实践,带领大家深度解析大数据技术难点和发展趋势。厉兵秣马今点将,群雄逐鹿正当时——本期精彩不容错过。 探讨数据时代构建高可用…

关于缓存

作者:熊明辉,美团点评酒旅事业群酒店住宿研发团队B端商家业务平台负责人,主导构建商家业务平台系统,支撑美团点评酒店住宿业务的飞速发展需求。曾任职于联想集团、百度。 责编:钱曙光,关注架构和算法领域&…

旅游推荐系统的演进

作者:郑刚,美团点评高级技术专家。2010年毕业于中科院计算所,2011年加入美团,参与美团早期数据平台搭建,先后负责平台、酒旅数据仓库和数据产品建设,目前在酒旅事业群数据研发中心,重点负责酒店…

逻辑学 导论1

2010 中山大学大一新生的导论课,熊明辉视频46节每节22分钟左右,以前居然没看过,先看前6章 在中国大学MOOC上有 李静 的课程,不太一样 大学生和中学生最主要的区别是什么?就是学习要主动。 第一章 引论 4个问题 逻辑学…

大连工业大学计算机科学与技术在哪个学院,大连工业大学信息科学与工程学院到计算机与软件工程学院交流...

1月11日,大连工业大学信息科学与工程学院副院长于晓强一行到计算机与软件工程学院调研。计算机与软件工程学院院长何明星、副院长杜亚军及学院各系、办公室相关老师参加了此次交流会。双方在6A519进行了两个多小时的热烈研讨与交流。 何明星代表学院向到访的于晓强一…

ChatGPT刷力扣面试题01.01:判定字符是否唯一

Java解法: 方法一:我们可以使用一个HashSet来存储已经遍历过的字符,如果遍历到的字符已经存在于HashSet中,则说明字符串中有重复字符,返回false;否则,将字符加入HashSet中。最后,如果…

ChatGPT 最强助攻书单

GPT 是否有人的智能?昨晚,科学作家万维钢与图灵联合创始人刘江老师在图灵社区直播间进行了一场深入的对话探讨,这是我们系列直播的第二场,围观人数超过30000!没来得及看的小伙伴可以去图灵社区视频号观看回放&#xff…

CiteSpace多数据库一键去重-知网、万方、维普数据库

看完本文你将学会利用CiteSpace、Ucinet、Vosviewer、gephi等文献计量与可视化软件同时处理知网、万方、维普数据库,结果更加客观、科学、权威! ​ 目前,我们利用可视化软件,诸如CiteSpace、Ucinet、Vosviewer、gephi、pajek等处理…

广告投放黑科技Cloak

广告投放黑科技:什么是Cloak,Cloak的原理是什么? 一、Cloak/Cloaking是什么意思? 很多人一定对Cloak/Cloaking这个英文单词产生疑问,或者很多人是第一次听这个词,究竟这个词是什么意思?其实&a…

英文SEO站群操作模式介绍

英文站群,是指一个人批量做了很多站,统一操作一批网站,这个就叫站群。 站群是非常好的英文SEO引流手段,一但英文站群打造完毕,你就能获得持续稳定的流量。 很多人通过英文SEO站群,仅仅是做联盟广告&#xf…

外贸独立站谷歌SEO做外链常见的100个问题总结

外贸独立站谷歌SEO做外链常见的100个问题总结 For the next 21 days,you can explore Freshsales for free.Here are a few steps to get you started Import your data or migrate from another CRM 2-way email sync for a seamless communicationFor the next 21 days,you …

采用预训练模型来训练新的模型

一、为什么需要使用预训练模型? 当可用的数据集较少时,我们从头开始训练的自己的卷积神经网络,想要将模型的精度会十分困难,如果我们想要进一步提高精度,因此下一步我们需要使用预训练的模型。 想要将深度学习应用于…

【国际知名-hacker`动态`】洞悉-最新 hacker技术 新闻

国际知名-黑客动态 1、【导读】黑客 最新 技术&新闻 平台 2、【动态】每日必看的朋友圈 3、【多看看】跳出舒适圈,你要学的还有很多 ​ The Hacker News 报道黑客攻击、网络安全、科技新闻(内容深入浅出>提供及时、可靠的信息) 链接&#xff1a…

PoseiSwap 参赛,参与斯坦福、Nautilus等联合主办的 Hackathon 活动

近日,由 Stanford Blockchain Accelerator、Zebec Protocol、 Nautilus Chain、Rootz Lab 共同主办的“ Boundless Hackathon Stanford ” 主题的黑客松活动,目前已接受报名。该活动旨在帮助更多的优质开发者参与到 Web3 世界的发展中,推动链…

StartDT奇点云邀您参加2022云栖大会,11月3-5日杭州见

亚洲顶级的数字科技盛会 在这个金秋如约而至 今年,全新升级的StartDT (奇点云、GrowingIO) 将再再再度回归云栖大会 从2009到2022 云栖大会见证了中国互联网十四载风云变幻 今年,1000数字科技领军者 数万名科技从业者和爱好…