【读点论文】Text Recognition in the Wild: A Survey 非常纯粹的OCR研究，专业细致，脉络清晰

Text Recognition in the Wild: A Survey

文本的历史可以追溯到几千年前。文本所携带的丰富而精确的语义信息在广泛的基于视觉的应用场景中非常重要。因此，自然场景中的文本识别一直是计算机视觉和模式识别中一个活跃的研究领域。近年来，随着深度学习的兴起和发展，许多方法在创新性、实用性和效率方面表现出良好的前景。本文旨在（1）总结与场景文本识别相关的基本问题和最新进展；（2）介绍新的见解和想法；（3）对公开可用的资源进行全面的回顾；（4）指出未来工作的方向。总之，这篇文献综述试图呈现场景文本识别领域的全貌。它为进入该领域的人们提供了全面的参考，并有助于启发未来的研究。相关资源可在我们的 Github 存储库中找到：https://github.com/HCIILAB/Scene-Text-Recognition。
论文地址：[2005.03492] Text Recognition in the Wild: A Survey (arxiv.org)

INTRODUCTION

文本是用于记录、交流或传承文化的符号系统。作为人类最具影响力的发明之一，文本在人类生活中发挥着重要作用。具体而言，文本所携带的丰富而精确的语义信息在各种基于视觉的应用场景中都非常重要，例如图像搜索、智能检测、工业自动化、机器人导航和即时翻译。因此，自然场景中的文本识别引起了研究人员和从业人员的关注，最近的“ICDAR 稳健阅读竞赛”的出现就表明了这一点。
识别自然场景中的文本，也称为场景文本识别 (STR)，通常被视为光学字符识别 (OCR) 的一种特殊形式，即基于相机的 OCR。尽管扫描文档中的 OCR 已经很成熟，但由于背景复杂、字体多样、成像条件不完善等诸多因素，STR 仍然具有挑战性。图 1 比较了扫描文档中 STR 和 OCR 的以下特征。
- 图 1. 扫描文档中的 STR 和 OCR 的比较。
- 背景：与扫描文档中的 OCR 不同，自然场景中的文本可以出现在任何东西上（例如，招牌、墙壁或产品包装）。因此，场景文本图像可能包含非常复杂的背景。此外，背景的纹理在视觉上可能与文本相似，这给识别带来了额外的挑战。
- 形式：扫描文档中的文字通常为单一颜色、字体规则、大小一致、排列均匀。在自然场景中，文字会以多种颜色出现，字体不规则，大小不一，方向多样。文字的多样性使得扫描文档中的 STR 比 OCR 更难，挑战性更高。
- 噪声：自然场景中的文本通常会受到噪声干扰而扭曲，例如光照不均匀、分辨率低、运动模糊等。成像条件不完善会导致 STR 失败。
- 访问：扫描的文字通常位于正面，占据图像的主要部分。但场景文字是随机采集的，会导致不规则的变形（例如透视失真）。文字形状多样，增加了字符识别和文本字符串预测的难度。
近年来，自然场景中的文本识别因其重要性和挑战性而引起了学术界和工业界的极大兴趣。早期研究主要依赖于手工制作的特征。这些特征的能力较低，限制了识别性能。随着深度学习的发展，神经网络显著提高了 STR 的性能。有几个主要因素推动了基于深度学习的 STR 算法的发展。第一个因素是硬件系统的进步。高性能计算系统可以训练大规模识别网络。此外，现代移动设备能够实时运行复杂的算法。第二个因素是基于深度学习的 STR 算法中的自动特征学习，这不仅使研究人员从设计和选择手工制作特征的繁重工作中解放出来，而且显著提高了识别性能。第三个因素是对 STR 应用日益增长的需求，自然场景中的文本能够提供丰富而精准的信息，有利于对场景的理解，在大数据时代，自然场景中文本的自动识别具有经济可行性，吸引了众多研究者和实践者。
本文试图全面回顾 STR 领域，并为公平比较算法建立基准。我们通过总结基本问题和最新技术、介绍新见解和想法以及展望未来趋势来呈现 STR 的全貌。因此，本文旨在为研究人员提供参考，并有助于未来的工作。此外，我们还对公开资源进行了全面回顾，包括标准基准数据集和相关代码。
以前大多数调查都已过时。许多最新进展，例如 2018 年至 2020 年开发的算法，均未包含在这些调查中。我们请读者参阅这些论文，以获得更全面的历史文献回顾。此外，Zhu 等人和 Long 等人回顾了场景文本检测和识别的方法。Yin 等人调查了视频中的文本检测、跟踪和识别算法。与这些调查不同，我们的论文主要关注 STR，旨在提供对该领域更详细、更全面的概述。
本文的其余部分安排如下。第 2 节介绍背景、基本问题和与文本相关的特殊问题。第 3 节介绍近年来为 STR 开发的新见解和想法。第 4 节总结了标准基准数据集和评估协议，并比较了识别算法的性能。最后，第 5 节总结了本文并确定了 STR 未来工作的潜在方向。

BACKGROUND

为了全面了解 STR 领域，我们将描述与文本相关的基本问题和特殊问题。此外，本节还将列出和分析 STR 的一些代表性应用。

Text in Images

文本在图像中的显示方式可能有所不同。图 2 显示了示例和典型分类。例如，如果按文本形式分类，手写文本和印刷文本是两个基本类别。值得注意的是，分类方法可能会重叠。由于各种笔迹风格和字符触摸问题，手写文本识别比印刷文本识别更具挑战性。根据脚本/语言的不同，图像中的文本可能包含不同的字符，例如拉丁语、中文或印地语。
- 图 2. 图像中文本的典型分类。
文本特征（例如文本类别和阅读顺序）在不同语言中差异很大。按照 [Text detection and recognition in imagery: A survey] 中的定义，图像中的文本也可以分为“图形文本”和“场景文本”。前者是指以数字方式添加到视频或图像上的叠加层的文本。后者是指在其原生环境中捕获的对象上的文本。场景文本具有多种风格，可以出现在任何表面上，这使得很难将文本与复杂的背景区分开来。通常，本文总结的大多数方法都涉及印刷的拉丁场景文本。

Fundamental Problems and Special Issues with Text

文本所携带的丰富而精确的信息在许多基于视觉的应用场景中都很重要。然而，从自然场景中提取文本并将其用于另一个应用程序是一个复杂的过程。如图 3 所示，文献中在此任务的各个阶段定义了各种基本问题：文本定位、文本验证、文本检测、文本分割、文本识别和端到端系统。此外，由于文本的独特挑战，还存在与文本相关的特殊问题。本文还简要介绍了文本增强、文本跟踪和自然语言处理 (NLP)。清晰地理解这些常见概念可以帮助研究人员分析不同任务之间的差异和联系。
- 图 3. 端到端系统的图示，其中定义了各个阶段的各种基本问题：文本检测、文本定位、文本验证、文本分割和文本识别。有些阶段在端到端系统中不予考虑。

Fundamental Problems.

文本定位：文本定位的目标是精确定位文本成分，并将它们分组到背景尽可能少的候选文本区域中。早期的文本定位方法基于低级特征，例如颜色、梯度、笔画宽度变换、最大稳定极值区域 (MSER) 、Canny 检测器和连通分量分析。目前大多数方法基于深度神经网络。
文本验证：文本验证旨在验证文本候选区域是文本还是非文本。它通常在文本定位后用于筛选候选区域，因为文本定位有时会引入误报。文本验证的方法包括先验知识、支持向量机 (SVM) 分类器和条件随机场 (CRF) 。最近的研究使用卷积神经网络 (CNN) 来提高文本/非文本的区分能力。
文本检测：文本检测的功能是使用定位和验证程序确定文本是否存在。作为端到端系统的基础，它为文本识别提供精确而紧凑的文本实例图像。文本检测方法大致可分为基于回归的方法和基于实例分割的方法。
文本分割：文本分割被认为是最具挑战性的问题之一。它包括文本行分割和字符分割。前者是指将多行文本的区域分割成多个单行文本的子区域。后者是指将文本实例分成多个单字符区域。字符分割通常用于早期的文本识别方法。
文本识别：文本识别 将裁剪的文本实例图像转换为目标字符串序列。它是端到端系统的重要组成部分，可提供可靠的识别结果。传统的文本识别方法依赖于手工制作的特征，例如方向梯度描述符的直方图、连通分量和笔划宽度变换。最近的研究使用了深度学习编码器解码器框架。
端到端系统：给定一个场景文本图像，端到端系统可以直接将所有文本区域转换为目标字符串序列。它通常包括文本检测、文本识别和后处理。构建实时高效的端到端系统已成为近年来的新趋势。一些研究人员将文本检测和文本识别解释为两个独立的子问题，将它们结合起来构建端到端系统。另一种方法是通过共享信息来联合优化文本检测和文本识别。

Special Issues.

Script identification：文字识别旨在预测给定文本图像的文字。它在多语言系统中发挥着越来越重要的作用。检测文字和语言有助于文本识别选择正确的语言模型。文字识别可以解释为图像分类问题，其中通常会设计判别性表示，例如中级特征、卷积特征和笔画部分表示。
文本增强：文本增强可以恢复退化的文本，提高文本分辨率，消除文本的扭曲，或删除背景，从而降低文本识别的难度。许多算法已被研究用于文本增强并取得了有希望的结果，例如反卷积、基于学习的方法和稀疏重构。
文本跟踪：文本跟踪的目的是保持文本位置的完整性并跟踪视频中相邻帧之间的文本。与图像中的静态文本不同，移动文本的跟踪算法必须在像素级或子像素级识别精确的文本区域，因为错误跟踪可能会将文本与其背景或噪声文本混合在一起。时空分析通常用于视频中的文本跟踪。最近的一项研究 [Method and a device for tracking characters that appear on a plurality of images of a video stream of a tex] 也预测了跟踪字符的运动。
自然语言处理：自然语言处理 (NLP) 探索如何使用计算机理解和处理自然语言文本或语音。NLP 是人机通信的桥梁。文本作为最重要的非结构化数据类型，是 NLP 的主要对象。NLP 基于文本的应用范围很广，包括机器翻译、自动摘要、问答和关系提取。

Applications

文本作为沟通和感知世界的最重要载体，丰富了我们的生活。场景文本识别在各个行业和我们的日常生活中有着广泛的应用：i）智能交通。构建自动地理编码系统不仅方便出行，而且还可以帮助用户克服语言障碍，例如自动识别路标并将文本翻译成另一种语言。ii）信息提取。虽然图片中的文字包含精确的信息，但在大数据时代，仅靠人工几乎不可能输入海量数据。例如，2017年中国的快递业务量已超过400亿。自动识别自然场景中的文本可以节省大量资源并保护客户隐私。iii）视觉输入和访问。根据世界卫生组织1的数据，世界上至少有22亿人患有视力障碍或失明。除了先进的医疗方法外，场景文本识别技术还可以改善人们的生活，例如开发文本转语音设备来帮助理解书籍、ATM 说明和药品标签。除了上面我们提到的应用之外，还有一些特定的 STR 应用场景，例如文本视觉问答 (text VQA) 、电子发现、多媒体检索、自动身份验证，它们也在悄悄地改变我们的生活质量。

METHODOLOGIES

在早期的研究中，手工制作的特征被用于文本识别，例如方向梯度描述符直方图、连通分量和笔画宽度变换。然而，这些方法的性能受到低容量特征的限制。随着深度学习的兴起和发展，社区见证了各种方法在创新性、实用性和效率方面的长足进步。与传统方法相比，深度学习方法具有以下优势：i）自动化：自动特征表示学习可以使研究人员从经验性地设计手工制作的特征中解放出来。ii）有效性：出色的识别性能远超传统算法。iii）泛化：算法可以轻松应用于类似的基于视觉的问题。在本节中，我们介绍了深度学习时代为STR和端到端系统提出的新见解和想法。回顾了每种方法的主要贡献。如果有多个贡献，我们将分别进行分析。

Cropped Scene Text Image Recognition

STR 的目标是将裁剪后的文本实例图像转换为目标字符串序列。自然界中有两种类型的场景文本，即规则和不规则。STR 主要分为两类：基于分割的方法和无分割方法。对于无分割方法，它们可以粗略地分为基于 CTC 的方法和基于注意力的方法。此外，本节还介绍了其他有前途的想法，例如标签嵌入。表 1 给出了这些识别方法的综合列表和分类。
- 表 1. 现有识别方法总结。‘SK’、‘ST’、‘ExPu’、‘ExPr’ 和 ‘Un’ 分别表示使用 Synth90K 数据集、SynthText 数据集、额外公开数据、额外私有数据和未知数据的方法。‘Regular’ 表示目标是规则数据集，其中大多数文本实例是正面和水平的。‘Irregular’ 表示目标是不规则数据集，其中大多数文本实例是低分辨率、透视扭曲或弯曲的。‘*’ 表示使用 Synth90k 和 SynthText 以外的额外数据集的方法。
基于分割的方法。一类 STR 方法基于分割，通常包括三个步骤：图像预处理、字符分割和字符识别。基于分割的方法尝试从输入文本实例图像中定位每个字符的位置，应用字符分类器识别每个字符，并将字符分组为文本行以获得最终的识别结果。
早期成功的基于深度学习的 STR 系统是由 Wang 等人开发的，该系统使用一个图形模型，将字符的分数和位置作为输入，从一个小词典中确定特定单词的最佳配置。所提出的识别算法优于领先的商业 OCR 引擎 ABBYY FineReader ，后者是 STR 的基线。后来，受到深度卷积神经网络在视觉理解中成功的启发，将多层神经网络与无监督特征学习相结合，训练了一个高精度的字符识别器模块。对于后处理，使用具有字符间距的字符响应、集束搜索算法或基于加权有限状态传感器的表示来识别定义词典中的目标词。为了进一步提高识别性能，研究人员探索了鲁棒的词图像表示方法，如尺度不变特征变换 (SIFT) 描述子、笔画特征和中级特征。
上述所有方法都依赖于词典来获得最终的识别结果。然而，查询时间与词典的大小线性相关。**在开放词典的情况下，由于搜索空间太大，这些策略并不实用。**为了解决这个问题，人们尝试对 STR 进行无词典处理。一些研究人员通过采用大型词典作为高阶统计语言模型，克服了对限制词表的需求。其他人则利用更大规模的数据和更复杂的神经网络，例如卷积 Maxout 网络，以无词典的方式解决了 STR。最近，Wan 等人建立了一个基于语义分割的识别系统，该系统可以用两个独立的分支预测字符的类别和几何信息，进一步提高识别性能。
尽管基于分割的 STR 方法取得了重大进展，但仍存在关键缺陷：i) 所有这些流程都需要准确检测单个字符，这已被确定为社区中最具挑战性的问题之一。因此，字符检测器/分割器的质量通常会限制识别性能。ii) 基于分割的识别器无法对单个字符以外的上下文信息进行建模，这可能导致训练期间的词级结果不佳。
无分割方法。第二类是无分割方法。该方法将文本行作为一个整体进行识别，并通过编码器-解码器框架将整个文本实例图像直接映射到目标字符串序列中，从而避免字符分割。图 4 展示了一种典型的无分割方法，它包含图像预处理、特征表示、序列建模和预测四个阶段。
- 图 4. 无分割 STR 方法概述。图像预处理和序列建模阶段不是必需的。此外，可以组合图像预处理的元素以进一步提高识别性能。
Image Preprocessing Stage：图像预处理旨在通过减轻不完美成像条件的干扰来提高图像质量，从而改善特征表示和识别。
- 背景去除。文本可能出现在具有复杂背景的各种场景中。背景的纹理特征在视觉上可能与文本相似，这会给识别带来额外的困难。除了复杂的特征表示和合成方法，一种直观但很少被注意到的解决方案是将文本内容与复杂背景分离。虽然传统的二值化方法在文档图像上效果很好，但它们无法处理自然图像中文本外观和噪声的显著变化。最近，Luo 等人使用生成对抗网络 (GAN) 去除背景同时保留文本内容，这降低了识别难度并显著提高了性能。
- 文本图像超分辨率 (TextSR)。场景文本通常会因各种噪声干扰而失真，例如低分辨率。低分辨率可能导致字符或单词识别错误。文本图像超分辨率 (TextSR) 可以输出与给定低分辨率图像一致的可信高分辨率图像。这种方法可以帮助低分辨率图像中的文本识别。经典方法（例如双线性、双三次或设计滤波）旨在重建自然图像的细节纹理，但不适用于模糊文本。Wang 等人并没有简单地将超分辨率视为回归问题，而是首先将 TextSR 方法与识别任务相结合，这显著提高了文本识别器的性能。
- 校正。校正的作用是规范化输入文本实例图像，消除扭曲，降低不规则文本识别的难度。具体而言，不规则文本是指具有透视扭曲或任意弯曲形状的文本，这通常会给识别带来额外的挑战。空间变换器网络 (STN) 被用作早期的校正模块，以校正整个文本图像或单个字符区域。后来，Shi 等人和 Jeonghun 等人采用薄板样条 (TPS) 来处理更复杂的扭曲。最近，一些精心设计的校正网络被提出。例如，开发了一个多目标校正网络，通过预测输入图像各个部分的偏移量来校正不规则文本。Zhan 等人设计了一种新颖的线拟合变换和一个基于 TPS 的迭代校正框架，以实现最佳场景文本校正。基于中心线、尺度和方向等局部属性，Yang 等人提出了一种对称约束校正网络。
- 为了处理各种扭曲，需要复杂的校正模块，并成为一种新趋势。然而，这会影响识别算法的速度和内存消耗。从业者应该根据不同应用场景下的需求选择最佳的权衡。此外，随着不规则文本检测的发展，值得重新考虑 STR 系统是否需要校正模块。
图像预处理包括但不限于上述类型。它可以通过提高图像质量来显著降低识别难度。各种方法可以组合使用。虽然存在许多识别算法，但这些用于文本的辅助预处理方法在社区中并不常用，尤其是对于背景去除和 TextSR。此外，大多数通用的现成算法都专注于单个对象的风格，而场景文本图像通常包含多个角色。因此，精心设计的 STR 预处理算法值得研究人员在未来的工作中关注。
Feature Representation Stage：特征表示将输入文本实例图像映射到反映字符识别相关属性的表示，同时抑制字体、颜色、大小和背景等不相关的特征。
- 受到 [Word spotting in the wild]、[Top-down and bottom-up cues for scene text recognition]、[End-to-end scene text recognition] 成功的启发，Su 等人 [A simple and effective solution for script identification in the wild] 在他们的 STR 系统中使用了方向梯度直方图 (HOG) 特征来构建单词图像的序列特征。后来，CNN 被广泛应用于特征表示阶段，例如 VGGNet 。为了实现更强大的特征表示，一些复杂的神经网络被应用于 STR 算法中，例如 ResNet 和 DenseNet 。最近，人们从不同角度尝试改进特征表示模块。Lee 等人使用递归 CNN 进行参数高效且有效的图像特征表示，这可以在相同参数容量下增加传统 CNN 的深度并产生更紧凑的特征响应。受到图像分类中循环卷积神经网络 (RCNN) 的启发，Wang 等人通过在 RCNN 中引入门控来控制上下文调制，设计了一个用于特征序列表示的门控循环卷积层。刘等人专注于实时 STR，并提出了一种新颖的二元卷积层。他们声称二元表示显著加快了运行时推理速度并减少了内存使用。一些研究人员 认为直接用 CNN 处理源图像会引入额外的噪音。因此，他们将 CNN 与注意力机制相结合，以增强前景文本的表示并抑制背景噪音。
- 更深层次、更先进的特征提取器通常可以提高表征能力，适合用于改进具有复杂背景的 STR。然而，性能提升是以内存和计算消耗为代价的。未来研究可能会将背景去除技术与简单的特征提取器相结合。
Sequence Modeling Stage：序列建模作为视觉特征和预测之间的桥梁，可以捕捉字符序列中的上下文信息，以供下一阶段预测每个字符，这比独立处理每个符号更稳定、更有帮助。
- 多重双向长短期记忆 (BiLSTM) 模型于中被引入，并因其能够捕获长程依赖关系而在中被广泛用作序列建模模块。Litman 等人在网络层上添加了中间监督，成功训练了更深的 BiLSTM 模型以改进上下文依赖关系的编码。然而，一些研究人员认为 BiLSTM 不是 STR 算法的重要组成部分。他们认为，虽然 BiLSTM 可以有效地建模上下文，但其结构计算密集且耗时。此外，它可能导致训练期间梯度消失/爆炸。因此，使用滑动窗口或深度一维 CNN 代替 BiLSTM。特别地，虽然 CNN 在早期研究中被广泛用于单个字符的特征提取，但通过精确控制感受野，CNN 也可以建模上下文。最近，Yu 等和 Qiao 等专注于引入全局语义信息来建模上下文。因此，Yu 等设计了一个全局语义推理模块，通过多路并行传输来捕获全局语义上下文，而 Qiao 等从预训练的语言模型中预测由词向量监督的额外全局语义信息。
- 上下文线索对基于图像的序列识别大有裨益。虽然基于循环神经网络（RNN）的结构（如 BiLSTM 或 LSTM）可以对字符序列进行建模，但存在一些固有的局限性。相比之下，CNN 或 Transformer 不仅可以有效处理长序列，而且可以高效并行化。使用 CNN 或 Transformer 结构对语言序列进行建模可能成为序列建模的新趋势，因为它具有内在的优越性
Prediction Stage：预测阶段的目标是根据输入文本实例图像的已识别特征估计目标字符串序列。连接主义时间分类 (CTC) 和注意力机制是两种主要技术。此外，本节还介绍了有关预测阶段的其他潜在想法。
- 联结主义时间分类：CTC 由 Graves 等人提出，用于训练 RNN ，以直接标记未分割的序列。CTC 在许多领域都取得了显著的进步，例如语音识别和在线手写文本识别。CTC 通常用作 STR 中的预测模块，即通过计算条件概率将 CNN 或 RNN 生成的输入特征转换为目标字符串序列的转录层。具体而言，CTC 可以通过有效地对所有可能的输入-输出序列比对求和来最大化输出序列的可能性，并允许在输入和目标序列之间没有任何先前比对的情况下训练分类器。
- 条件概率的公式可以简要描述如下。输入特征表示为 𝑦 = (𝑦1, 𝑦2…𝑦𝑇 )，其中 𝑇 是序列长度。每个 𝑦𝑡 都是 L 上的概率分布。具体而言，L 表示所有标签的集合，包括所有字符和表示无效输出的额外空白符号。CTC 路径 𝜋 是长度为 𝑇 的序列，由空白符号和标签索引组成。由于存在多种将这些路径映射到转录 𝑙 的可能方法，因此定义了一个 CTC 映射函数 B 来删除重复的标签并从每条路径中删除空白符号。然后，通过对 B 映射到 𝑙 的所有路径的概率求和来计算条件概率：
- $p(l|y)=\sum_{\pi:B(\pi)=l}p(\pi|y)$
- 其中 𝜋 的概率定义为 $p(\pi|y)=\prod^T_{t=1}y^t_{\pi_t}$ ， $y^t_{\pi_t}$ 是在时间步骤 t 具有标签 𝜋𝑡 的概率。由于直接计算上述方程的计算成本很高，大多数研究人员采用前向-后向算法来高效计算。
- 受到 CTC 在语音处理中成功的启发，Su 等、He 等和 Shi 等首次将其应用于 STR。此后，众多基于 CTC 的预测算法都表现出了良好的转录性能。然而，刘等认为 CTC 容易产生高度尖锐和过度置信的分布，这是过拟合的症状。为了解决这个问题，他们提出了一种基于最大条件熵的正则化方法来增强 CTC 的泛化和探索能力。冯等通过融合焦点损失对传统 CTC 进行了修改，以解决极度不平衡样本的识别问题。最近，Hu 等人通过在 STR 中使用图卷积网络 (GCN) 提高了 CTC 的准确性和鲁棒性。
- CTC 具有出色的转录性能和稳定性。然而，它也面临一些固有的局限性：i）CTC 的底层方法非常复杂，这会导致长文本序列的计算成本很高。ii）CTC 存在峰值分布问题，其性能通常会因重复模式而下降。iii）CTC 很难应用于二维 (2D) 预测问题，例如不规则场景文本识别，其中输入文本实例图像中的字符分布在空间结构中。为了解决这个问题，Wan 等人通过在高度方向上添加另一个维度来扩展原始 CTC。虽然识别性能在一定程度上有所提高，但提出的 2D-CTC 模型并未完全解决 2D 预测问题。因此，应用 CTC 解决 2D 预测问题可能是未来研究的一个潜在方向。
注意机制：注意机制由Bahdanau等人在神经机器翻译领域提出，可以自动搜索与给定源句子部分相关的预测词。许多基于注意机制的方法在各个领域取得了显着的改进，例如图像标题，文本识别和遥感图像的场景分类。对于STR，注意机制通常与RNN结构结合作为预测模块。
- 具体来说，注意力机制通过参考目标字符的历史和编码的特征向量来学习输入实例图像和输出文本序列之间的对齐。设输出预测序列表示为𝑜 = (𝑜1, 𝑜2…𝑜𝑀 )，其中𝑀 表示最大解码步长。在第𝑡 步，输出预测𝑜𝑡 由以下公式给出：
- $o_t=Softmax(W_os_t+b_o)$
- 其中 𝑠𝑡 是时间步 𝑡 处的 RNN 隐藏状态。通常，门控循环单元 (GRU) 用于更新 𝑠𝑡 并建模长期依赖关系。因此，𝑠𝑡 的计算方式如下
- $s_t=GRU(o_{prev},g_t,s_{t-1})$
- 其中 𝑜𝑝𝑟𝑒𝑣 是前一个输出 𝑜𝑡−1 的嵌入向量。此外，𝑔𝑡 表示 glimpse 向量，计算为特征的加权和 ℎ = (ℎ1, ℎ2…ℎ𝑁 )
- $g_t=\sum^N_{t=1}\alpha _{t,j}h_j$
- 其中 𝑁 是特征长度。这里，𝛼𝑡 是注意力权重向量，计算如下：
- 其中 𝑒𝑡,𝑗 是对齐分数，表示高级特征表示与当前输出之间的相关程度。在上面的公式 2 – 6 中，𝑊𝑜 、𝑏𝑜 、𝑊𝑠 、𝑊ℎ 和 𝑏 都是可训练参数。
- 受神经机器翻译系统发展的启发，STR 领域出现了大量基于注意机制的方法。此外，人们从不同角度进行了改进原始注意力机制的尝试：
  - i）应用于二维预测问题。对于不规则场景文本识别，字符的不同位置显著增加了识别难度。原始注意力机制被用于执行一维特征选择和解码。直接应用原始注意力机制存在二维文本分布和一维特征表示之间的显著冲突。因此，Yang 等提出了用于不规则文本识别的二维注意力机制。
  - ii）改进隐式语言模型的构建。 Chen 等人认为生成的 glimpse 向量不足以表示预测的字符。因此，将高阶字符语言模型引入 vanilla 注意力模型，而 Wang 等人通过输入部分已生成的字符序列和所有已关注的对齐历史，构建了一个记忆增强注意力模型。Shi 等人指出，基于 vanilla 注意力模型的预测模块只能捕获一个方向的输出依赖关系，而忽略了另一个方向。因此，他们提出了一种基于双向注意机制的解码器，即两个解码器方向相反。
  - iii）提高并行化程度并降低复杂度。虽然基于 RNN 结构的 vanilla 注意机制可以捕获长距离依赖关系，但它计算量大且耗时。最近的一种注意机制变体，即 Transformer ，在中被广泛采用，以提高并行化程度并降低 STR 的复杂度。
  - iv）解决注意力漂移。注意力漂移现象意味着注意力模型无法准确地将每个特征向量与输入图像中相应的目标区域相关联。一些研究人员通过将偏离的注意力集中回目标区域来解决这个问题，比如定位监督和编码坐标。其他以级联方式提高了注意力的对齐精度。具体而言，Wang 等人认为其递归对齐机制导致了严重的对齐问题。因此，他们将对齐操作与使用历史解码结果分离。
- 近年来，基于注意机制的预测方法已经成为STR领域的主流方法，由于其能够聚焦于信息丰富的区域，在解码方面的表现优于CTC。此外，注意机制方法可以轻松扩展到复杂的二维预测问题。然而，注意机制存在一些缺点：
  - i）由于该方法依赖于注意模块进行标签对齐，因此需要更多的存储和计算。
  - ii）对于长文本序列，由于输入实例图像和输出文本序列之间的不对齐，即注意力漂移现象，注意力机制很难从头开始训练。
  - iii）目前的注意力机制研究主要集中在只涉及少数字符类别的语言（例如英语、法语）。据我们所知，目前还没有关于有效应用注意力机制来处理大规模类别文本识别任务（如中文文本识别）的公开报道。
讨论：CTC 和注意机制都有其优点和局限性。最近，一些研究人员 [GTC]、[SCATTER] 同时应用了 CTC 和注意机制来实现准确的预测并保持快速的推理速度。丛等人 [A Comparative Study of Attention-based Encoder-Decoder Approaches to Natural Scene Text Recognition] 在大型真实场景文本句子识别任务中全面比较了这两种预测方法。基于大量实验，他们为研究人员和从业者提供了实用建议。例如，与基于 CTC 的方法相比，基于注意的方法在孤立词识别任务上可以获得更高的识别准确率，但在句子识别任务上的表现较差。因此，应根据不同的应用场景和约束选择正确的预测方法。此外，在未来的工作中探索替代的预测策略也很有价值。例如，聚合交叉熵函数被设计来取代 CTC 和注意机制；它以更快的实现、更少的存储要求和方便使用实现了具有竞争力的性能。
其他潜在方法。人们从不同的角度考虑和探索了其他方法。受“整体大于部分之和”的启发，Goel 等人通过使用加权动态时间规整 (wDTW) 方法匹配场景和合成图像特征来识别自然场景中的文本。后来，Almazán 等人和 Rodriguez 等人将识别和检索任务解释为最近邻问题。他们将单词图像和文本字符串嵌入到一个公共矢量子空间或欧几里得空间中，将标签嵌入与属性学习相结合。具体而言，表示同一个单词的图像和字符串会靠得很近。最近，Jaderberg 等人将 STR 表述为多类分类问题。他们仅基于合成数据训练了一个深度 CNN 分类器：来自 90k 词词典的大约 900 万张图像。由于每个单词对应一个输出神经元，因此提出的文本分类器无法识别词典外的单词。此外，他们将 CNN 与 CRF 图形模型相结合，实现无约束文本识别。

End-to-End Systems

给定具有复杂背景的文本图像作为输入，端到端系统旨在将所有文本区域直接转换为字符串序列。通常，它包括文本检测、文本识别和后处理。过去，文本检测和识别被解释为两个独立的子问题，它们结合起来从图像中检索文本。最近，构建实时高效的端到端系统已成为社区的新趋势。表 2 比较了这些端到端方法的特点。
- 表2.现有端到端系统方法的总结。
有几个因素促进了端到端系统的出现：i）错误会以文本检测和识别的级联方式积累，这可能导致大量的垃圾预测，而端到端系统可以防止训练过程中的错误积累。ii）在端到端系统中，文本检测和识别可以共享信息，并可以联合优化以提高整体性能。iii）端到端系统更易于维护和适应新领域，而维护具有数据和模型依赖关系的级联管道需要大量的工程工作。iv）端到端系统具有更快的推理速度和更小的存储要求，表现出具有竞争力的性能。
许多近期研究已经证明了联合优化的端到端模型的有效性，该模型通常包括检测分支和识别分支。Bartz 等人集成并联合学习了 STN 来检测图像的文本区域。相应的图像区域被直接裁剪并输入到简单的神经网络中以识别文本内容。然后使用高级检测和识别算法构建联合端到端系统。通过裁剪检测分支的兴趣区域 (RoIs) 特征并将其输入到识别分支来连接两个分支。通常，Girshick 提出了 RoIPool，将不同尺度和长宽比的 RoI 转换为固定大小的特征图以进行对象检测。然而，由于文本长度变化很大，这种方法可能会导致严重的失真。为了解决这个问题，Li 等人提出了不同大小的 RoIPool 来适应原始的长宽比。由于 RoIPool 执行的量化会导致 RoI 和提取的特征之间出现错位，因此许多方法使用双线性插值来提取文本实例特征，例如双线性采样、RoIRotate 和文本对齐层。
最近的端到端系统专注于任意形状的弯曲文本。例如，Liao 等人及其扩展工作使用 RoIAlign 来保留更准确的位置信息，将每个字符作为通用对象检索，并使用字符级注释组成最终文本。 Feng 等人生成了密集的检测四边形，并使用提出的 RoISlide 将从每个四边形裁剪的特征转换为校正特征。然后将所有文本特征输入基于 CTC 的识别器，使框架摆脱字符级注释。 Wang 等人没有将文本检测分支制定为边界框提取或实例分割任务，而是在边界上定位一组点，并采用 TPS 变换来展平每个文本的特征。 Qiao 等提出了形状变换模块，该模块迭代生成潜在的基准点，并使用 TPS 将检测到的文本区域转换为规则形态，而无需额外参数。刘等引入参数化贝塞尔曲线来自适应地拟合任意形状的文本，并设计了一种新颖的 BezierAlign 层来精确计算弯曲形状中文本实例的卷积特征。上述双线性插值方法的目的是将不规则形状的特征校正为文本识别器的轴对齐特征，不同之处在于生成采样网格的方式。然而，秦等认为特征校正是推广到不规则形状文本的关键瓶颈。他们引入了 RoI 掩码来滤除相邻的文本和背景，这使得识别器不需要校正。Xing 等直接对全特征进行字符检测和识别，无需任何 RoI 操作。
尽管目前的端到端系统在许多实际场景中表现良好，但它们也存在局限性。需要考虑以下困难：i）如何在文本检测和识别之间有效地桥接和共享信息？ii）如何平衡文本检测和识别之间在学习难度和收敛速度方面的显著差异？iii）如何改进联合优化？此外，一个简单、紧凑且功能强大的端到端系统尚未开发。

EVALUATIONS AND PROTOCOLS

多样化的数据集和统一的评估协议分别为社区带来了新的挑战和公平的比较，但两者对于推进 STR 领域都是必要的。在本节中，我们将研究标准基准数据集和评估协议。表 4 和表 5 比较了当前先进算法在 STR 和端到端系统中的性能。

Datasets

有几个主要原因证明需要额外的数据集：i）大多数深度学习方法都是数据驱动的。大规模数据集对于训练良好的文本识别器非常重要且至关重要。 ii）高级 STR 算法在以前的数据集上被过度使用，这表明可以研究更具挑战性的方面。iii）新数据集通常代表未来工作的潜在方向，例如无词典文本识别、不规则文本识别、无监督或弱监督文本识别以及大规模类别文本识别。
根据数据集收集的类型，我们将标准基准数据集分为两类：合成数据集和现实数据集。具体来说，现实数据集包括常规拉丁语数据集、不规则拉丁语数据集和多语言数据集。表 3 描述了这些数据集的全景，图 5 – 8 显示了代表性样本。
- 表 3.基准数据集比较。‘50’、‘1k’和‘full’是词典大小。
合成数据集。大多数深度学习算法都依赖于足够的数据。然而，现有的现实数据集对于训练高精度场景文本识别器来说相对较小，因为它们仅包含数千个数据样本。此外，手动收集和注释大量现实世界数据将涉及巨大的精力和资源。因此，合成和人工数据生成一直是一个热门的研究课题。
- Synth90k。Synth90k 数据集包含来自 90k 个常用英语单词的 900 万张合成文本实例图像。单词通过随机变换和效果（例如随机字体、颜色、模糊和噪声）渲染到自然图像上。Synth90k 数据集可以模拟场景文本图像的分布，可以代替真实数据来训练需要大量数据的深度学习算法。此外，每幅图像都用一个基本事实词进行注释。
- SynthText。SynthText 数据集包含 800,000 张图像，其中有 600 万个合成文本实例。与 Synth90k 数据集的生成一样，文本样本使用随机选择的字体进行渲染，并根据局部表面方向进行变换。此外，每幅图像都用一个真实单词进行注释。
- Verisimilar Synthesis. 逼真合成数据集包含 500 万张合成文本实例图像。给定背景图像和源文本，首先确定语义图和显著性图，然后将它们组合起来以识别语义上合理且适合文本嵌入的位置。根据背景图像中嵌入位置周围的颜色、亮度和上下文结构，进一步自适应地确定源文本的颜色、亮度和方向。
- UnrealText。UnrealText 数据集包含 600K 合成图像和 1200 万个裁剪文本实例。它基于 Unreal Engine 和 UnrealCV 插件开发。文本实例被视为平面多边形网格，文本前景加载为纹理。这些网格被放置在 3D 世界中的合适位置，并与整个场景一起渲染。与 SynthText 一样，使用来自 Google Fonts 的相同字体集和相同的文本语料库，即 Newsgroup20。
现实数据集。目前现实数据集大多仅包含数千张文本实例图像。因此，对于 STR，现实数据集通常用于评估现实条件下的识别算法。随后，我们将列出并简要描述现有的现实数据集：常规拉丁语数据集、不规则拉丁语数据集和多语言数据集。
Regular Latin Datasets：对于常规的拉丁语数据集，大多数文本实例是正面和水平的，而其中一小部分是扭曲的。
- IIIT5K-Words (IIIT5K)。IIIT5K 数据集包含 5,000 个文本实例图像：2,000 个用于训练，3,000 个用于测试。它包含来自街景和原始数字图像的单词。每幅图像都与一个 50 字词典和一个 1,000 字词典相关联。具体来说，词典由一个基本事实词和一些随机挑选的词组成。
- 街景文本 (SVT)。SVT 数据集包含 350 幅图像：100 幅用于训练，250 幅用于测试。有些图像因噪声、模糊和低分辨率而严重损坏。每幅图像都与一个 50 个单词的词典相关联。
- ICDAR 2003（IC03）。IC03 数据集包含 509 幅图像：258 幅用于训练，251 幅用于测试。具体来说，在丢弃包含非字母数字字符或少于三个字符的图像后，它包含 867 个裁剪的文本实例。每幅图像都与一个 50 字词典和一个全词词典相关联。此外，全词词典结合了所有词典单词。
- ICDAR 2011（IC11）。IC11 数据集包含 485 幅图像。这是 ICDAR 2003 文本定位竞赛所用数据集的扩展。
- ICDAR 2013（IC13）。IC13 数据集包含 561 张图像：420 张用于训练，141 张用于测试。它继承了 IC03 数据集的数据，并用新图像对其进行了扩展。与 IC03 数据集类似，IC13 数据集在删除了非字母数字字符的单词后包含 1,015 张裁剪的文本实例图像。没有与 IC13 相关的词典。值得注意的是，IC03 训练数据集和 IC13 测试数据集之间存在 215 张重复的文本实例图像。因此，在 IC13 测试数据上评估模型时，应注意重叠数据。
- 街景门牌号 (SVHN)。SVHN 数据集包含自然场景中超过 600,000 位门牌号。它是使用自动算法和 Amazon Mechanical Turk (AMT) 框架 5 的组合从大量街景图像中获得的。SVHN 数据集通常用于场景数字识别。
Irregular Latin Datasets：对于不规则基准数据集，大多数文本实例都是低分辨率、透视扭曲或弯曲的。不规则文本的各种字体和扭曲图案给 STR 带来了额外的挑战。
- StreetViewText-Perspective (SVT-P)。SVT-P 数据集包含 238 幅图像和 639 个裁剪文本实例。它专门用于评估透视扭曲文本识别。它基于原始 SVT 数据集构建，通过选择 Google 街景上同一地址但视角不同的图像。因此，大多数文本实例都因非正面视角而严重扭曲。此外，每幅图像都与一个 50 字词典和一个全字词典相关联。
- CUTE80（CUTE）。CUTE 数据集包含 80 张高分辨率图像和 288 个裁剪文本实例。它专注于弯曲文本识别。CUTE 中的大多数图像背景复杂、透视失真且分辨率较差。没有与 CUTE 相关的词典。
- ICDAR 2015（IC15）。IC15 数据集包含 1,500 张图像：1,000 张用于训练，500 张用于测试。具体来说，它包含 2,077 个裁剪文本实例，包括 200 多个不规则文本样本。由于文本图像是由 Google Glasses 拍摄的，没有确保图像质量，因此大多数文本非常小、模糊且方向性多变。没有提供词典。
- COCO-Text。COCO-Text 数据集包含 63,686 幅图像，其中有 145,859 个裁剪文本实例。它是第一个大规模的自然图像文本数据集，也是第一个使用可读性和文本类型等属性注释场景文本的数据集。然而，COCO-Text 没有相关的词典
- Total-Text。Total-Text 包含 1,555 幅图像，其中 11,459 幅为裁剪文本实例图像。它专注于弯曲场景文本识别。Total-Text 中的图像有三种以上的不同方向，包括水平、多方向和弯曲。Total-Text 没有与之关联的词典。
Multilingual Datasets：现代城市中随处可见多语言文本，多种文化的代表在这里生活和交流。双语数据集是最简单的形式。随后，下面介绍一些双语或多语场景文本数据集。本文介绍的双语数据集主要由拉丁语和中文组成。
选择中文作为双语场景文本数据集的第二语言的原因有三点。首先，中文是世界上使用最广泛的语言之一。其次，虽然存在许多STR算法，但大多数算法都针对拉丁字符，中文场景文本的识别问题一直没有得到很好的解决。第三，中文文本与拉丁文本相比具有独特的特点：i）中文是一个大规模的类别文本，字符集比拉丁文本大得多。ii）由于字符集较大，中文字符的类别不平衡问题更加明显。iii）中文中存在许多结构相似的易混淆字符，难以区分。因此，在野外阅读中文是一个重要且具有挑战性的问题。
- 在野外阅读中文文本 (RCTW-17)。RCTW-17 数据集包含 12,514 幅图像：11,514 幅用于训练，1,000 幅用于测试。大多数是相机或手机收集的自然图像，而其他则是数字原生图像。文本实例带有标签、字体、语言等注释。
- 多类型网络图像 (MTWI)。MTWI 数据集包含 20,000 幅图像。这是第一个由中文和拉丁文网络文本构建的数据集。MTWI 中的大多数图像分辨率相对较高，涵盖了多种类型的网络文本，包括多方向文本、紧密堆叠文本和复杂形状文本。
- 野外中文文本 (CTW)。CTW 数据集包括 32,285 张高分辨率街景图像，包含 1,018,402 个字符实例。所有图像都有字符级注释：底层字符、边界框和其他六个属性。
- SCUT-CTW1500。SCUT-CTW1500 数据集包含 1,500 幅图像：1,000 幅用于训练，500 幅用于测试。具体来说，它提供了 10,751 张裁剪的文本实例图像，其中 3,530 张带有弯曲文本。这些图像是从互联网、Google Open-Image 等图像库或手机摄像头中手动采集的。该数据集包含大量水平和多方向文本。
- 大规模街景文本 (LSVT)。LSVT 数据集包含 20,000 个测试样本、30,000 个完全注释的训练样本和 400,000 个带有弱注释（即带有部分标签）的训练样本。所有图像均从街道上拍摄，反映了各种复杂的现实世界场景，例如店面和地标。
- 任意形状文本 (ArT)。ArT 数据集包含 10,166 幅图像：5,603 幅用于训练，4,563 幅用于测试。ArT 是 Total-Text、SCUT-CTW1500 和百度曲线场景文本 6 的组合，收集这些文本是为了介绍任意形状的文本问题。此外，所有现有的文本形状（即水平、多方向和曲线）在 ArT 数据集中都有多次出现。
- 识别招牌上的中文文本 (ReCTS-25k)。ReCTS-25k 数据集包含 25,000 张图像：20,000 张用于训练，5,000 张用于测试。所有文本行和字符都标注了位置和转录。所有图像均来自美团点评集团，由美团商家在不受控制的条件下使用手机摄像头收集。具体来说，ReCTS-25k 数据集主要包含招牌上的中文文本图像。
- 多语言文本 (MLT-2019)。MLT-2019 数据集包含 20,000 张图像：10,000 张用于训练（每种语言 1,000 张），10,000 张用于测试。该数据集包含十种语言，代表七种不同的文字：阿拉伯语、孟加拉语、中文、天城文、英语、法语、德语、意大利语、日语和韩语。每种文字的图像数量相等。
图 5.来自 Synth90k、SynthText、Verisimilar Synthesis 和 UnrealText 数据集的文本合成样本图像。
图 6.来自 IIIT5K、SVT、IC03、IC11、IC13 和 SVHN 数据集的常规拉丁文本的真实样本图像。
图 7. 来自 SVT-P、CUTE80、IC15、COCO-Text 和 Total-Text 数据集的不规则拉丁文本的真实样本图像。
图 8.来自 RCTW-17、MTWI、CTW、SCUT-CTW1500、LSVT、ArT、ReCTS-25k 和 MLT 数据集的多语言场景文本的真实样本图像。

Evaluation Protocols

在本节中，我们总结了拉丁文本和多语言文本的评估协议。

Evaluation Protocols for Latin Text. Recognition Protocols

单词识别准确率（WRA）和单词错误率 (WER) 是两种广泛使用的拉丁文本识别评估协议。
$WRA=\frac{W_r}{W}\\ WER=1-WRA$
- 其中 W 是单词总数，Wr 表示正确识别的单词数
End-to-End Protocols ：拉丁语端到端系统的广泛使用的评估协议在中定义，其中识别算法以两种方式进行评估：端到端识别和单词识别。具体而言，在端到端识别下，应检测和识别场景文本图像中的所有单词。在单词识别下，仅应检测和识别词汇表中提供的单词。此外，为候选转录提供了三种不同的词汇表：强语境化、弱语境化和通用（分别简称为 S、W 和 G）。
- 强语境化（S）。每个图像的词汇表由 100 个单词组成，包括相应图像中的所有单词以及从其余训练/测试集中选择的干扰项。
- 弱语境化（W）。词汇表包括训练/测试集中的所有单词。
- 通用（G）。通用词汇表包含约 90K 个单词，源自 Jaderberg 等人 [Reading text in the wild with convolutional neural networks] 的数据集。
多语言文本的评估协议：在本节中，我们简要介绍最近比赛中广泛使用的多语言文本评估协议，例如 RCTW 、MTWI 、LSVT 、ArT 、ReCTS 和 MLT 比赛。
Recognition Protocols：大多数竞赛通过传统的评估指标——归一化编辑距离（NED）来衡量算法识别性能：
- $NED=\frac1N\sum^N_{i=1}D(s_i,\hat s_i)/max(l_i,\hat l_i)$
- 其中D(·)表示编辑距离。𝑠𝑖 和 𝑠ˆ𝑖 分别表示预测文本和对应的事实文本。此外，𝑙𝑖 和 ˆ 𝑙𝑖 是文本长度。𝑁 是文本行数。NED 协议测量的是预测文本和对应的事实文本之间的不匹配程度。因此，识别分数通常计算为 1-NED。
End-to-End Protocols：最近的比赛中使用了两种主要的端到端系统评估协议：
- 第一种协议从多个方面评估算法性能，包括基于 NED 的准确率、召回率和 F 分数。根据预测和真实边界框之间的匹配关系，预测文本和真实文本的 1-NED 作为准确率和召回率得分。F 分数是准确率和召回率得分的调和平均值。这是同时评估检测和识别性能的主流指标。
- 第二个协议通过平均 NED（即 AED）来衡量算法性能。具体来说，计算预测文本与相应基本事实之间的 NED。然后，将所有 NED 相加并除以测试图像的数量，结果称为 AED。具体来说，AED 越低，性能越好。以提高长文本检测和识别的公平性，这对现实世界的系统非常有用。
- 这两类评估方案从不同角度对算法进行了评估。如表6所示，最近几次端到端竞赛的获胜系统的性能表明端到端识别问题仍未得到解决。
- 表 6. 竞赛性能比较。NED 代表归一化编辑距离。

Discussion

各种新的具有挑战性的数据集激发了新的研究，促进了该领域的进步。然而，由于不同的数据集、先验、评估协议和测试环境的多样性，很难评估新提出的算法是否以及如何改进现有技术。因此，未来工作需要进行全面而公平的比较[What is wrong with scene text recognition model comparisons? dataset and model analysis]，[Tightness-aware evaluation protocol for scene text detection]。
最近的数据集和竞赛表明，社区正在转向更具挑战性的文本识别任务（例如，从水平文本到不规则文本，从拉丁文本到多语言文本）。除了挑战之外，高质量的注释对于良好的数据集也至关重要。此外，新的数据集和竞赛可能会弥合学术界和业界之间的差距。

DISCUSSION AND FUTURE DIRECTIONS

文本在人类生活中扮演着重要的角色。自动读取自然场景中的文本具有很大的实用价值。因此，场景文本识别已成为计算机视觉和模式识别中一个重要且充满活力的研究领域。本文总结了与场景文本识别相关的基本问题和最新方法，介绍了新的见解和想法，并对公开资源进行了全面的回顾。在过去的几十年里，识别方法在创新性、实用性和效率方面取得了长足的进步。然而，未来的研究仍有很大的空间：
- 泛化能力。泛化能力是指识别算法在一系列输入和应用中有效的能力。虽然由合成数据集训练的识别算法在几个真实的评估数据集上取得了良好的表现，但它们无法适应不同的输入，例如字符较长、尺寸较小和字体样式不常见的文本实例。此外，大多数识别算法对环境干扰很敏感，难以应对现实世界的复杂性，例如 COCO-Text 数据集上报告的糟糕表现。因此，研究人员和从业者必须根据特定的输入和场景从头开始训练模型。
- 相比之下，人类在较少监督学习的情况下，就能在复杂场景下熟练地识别不同风格的文本，这表明目前机器的理解水平与人类的表现之间仍然存在巨大的差距。除了简单地使用丰富多样的数据作为训练样本外，一个可行的解决方案可能是探索文本独特而本质的表示，如视觉层面和语义层面。
- 评估协议。近年来提出的许多方法都声称已经突破了技术的界限。然而，数据集、先验和测试环境的不一致使得很难公平地评估表 4 和表 5 中报告的数字。研究人员和从业者必须确认和比较新提出的算法中的实验设置。例如，使用了哪些训练数据集，例如合成数据集、真实数据集还是两者的混合？使用了哪些注释，例如单词级、字符级还是像素级？考虑到这一点，社区需要进行公平的比较。例如，未来的工作可能会报告统一训练/测试数据集上的识别性能，甚至报告单个模型上的识别性能，即评估同一模型在不同数据集上的性能。此外，论文中介绍的清晰详细的实验设置对于推动研究进展也很重要。
- 表 4. 基准数据集上识别算法的性能比较。‘50’、‘1k’和‘Full’为词典大小。‘None’表示无词典。‘*’表示使用除 Synth90k 和 SynthText 之外的额外数据集的方法。粗体代表最佳识别结果。‘†’表示使用额外数据集的最佳识别性能。
- 表 5. 端到端系统算法在基准数据集上的性能比较。‘50’ 和 ‘Full’ 是词典大小。‘None’ 表示无词典。‘S’、‘W’ 和 ‘G’ 代表三种不同的词汇，即强语境化、弱语境化和通用。‘*’ 表示使用多个尺度进行测试。粗体代表最佳结果。
- 数据问题。大多数深度学习算法高度依赖于足够数量的高质量数据。现有的现实数据集仅包含数千个数据样本，这对于训练准确的场景文本识别器来说相对较小。此外，手动收集和注释大量现实世界数据将涉及巨大的精力和资源。因此，有两个方面需要考虑。一方面，合成尽可能真实有效的数据在社区中具有潜力。与现实数据集相比，在合成过程中可以轻松获得多级注释信息（即单词级、字符级和像素级），可用于训练数据密集型算法。例如，一些研究人员正在努力通过 3D 引擎合成真实的文本实例。另一方面，使用未标记的现实世界数据的方法值得在未来考虑。
- 探索如何有效利用现有数据是有价值的。例如，随着许多现实数据集的出现，我们应该重新考虑统一的合成数据集是否是训练模型的唯一选择，然后用现实数据集进行评估。（这种策略在大多数当前研究中被广泛采用。）现实数据集和合成数据集之间的平衡需要进一步发展。此外，开发有效的文本数据增强方法可能是一种可行且有前途的解决方案，它应该更多地关注多对象的风格。
- 场景。研究旨在提高人类的生活质量。然而，对于 STR 来说，研究与应用之间的差距仍然存在。在实际应用中，文本通常出现在图像质量较差、背景更复杂、噪声更多的情况下，这需要识别系统具有处理现实世界复杂性的能力。同时，对于简单但基于视觉的隐私场景，例如银行卡，识别性能尤为重要。因此，研究人员和从业者不应局限于几个标准基准。现实应用中的挑战可能会提供新的研究机会并推动未来的研究进展，例如现代城市中的多语言文本识别、隐私场景中的超高精度识别以及移动设备的快速文本识别。
- 图像预处理。为了提高算法的识别性能，越来越复杂的识别器已成为社区的新趋势。然而，这并不是唯一值得考虑的视角。一些潜在的图像预处理问题值得研究人员关注，例如 TextSR 和背景去除【Separating Content from Style Using Adversarial Learning for Recognizing Text in the Wild】，它们可以显著降低 STR 的难度并从新的角度提高性能。
- 端到端系统。构建实时高效的端到端系统引起了研究人员和从业人员的兴趣。然而，端到端系统的性能与扫描文档中的 OCR 相比仍然远远落后。需要考虑一些困难，例如有效地桥接和共享文本检测和识别之间的信息，平衡文本检测和识别之间学习难度和收敛速度的显著差异，以及改进联合优化。在这方面，还有很多工作要做。此外，值得考虑的是，端到端解决方案是否对工业应用是必要的。
- 语言。多种文化的代表在现代城市中生活和交流。多语言文本识别对于人类交流以及智慧城市发展至关重要。除了构建大规模合成/现实多语言训练数据集外，可行的解决方案可能与脚本识别相结合。此外，虽然存在许多识别算法，但大多数算法仅关注拉丁文本。非拉丁语的识别尚未得到广泛研究，例如中文场景文本，它是大规模类别文本，与拉丁文本相比具有独特的特征。现有的识别算法不能很好地推广到不同的语言。开发针对特定语言的语言相关识别算法可能是一个可行的解决方案。
- 安全性。由于 STR 算法可以适应许多基于隐私视觉的场景（例如银行卡、身份证和驾驶执照），因此识别方法的安全性非常重要。尽管性能很高，但大多数基于深度学习的文本识别器都很容易受到对抗性示例的攻击。加强 STR 算法的安全性将是未来的一个潜在方向。
- STR + NLP。NLP 是人机交流的桥梁。同时，文本是世界上最重要的交流和感知载体。NLP 与 STR 的结合可能是各个领域的重要趋势，例如文本 VQA 、文档理解和信息提取。