【超分】A Benchmark for Chinese-English Scene Text Image Super-resolution

中英文场景文本图像超分辨率的基准

摘要:场景文本图像超分(STISR,Scene Text Image Super-resolution)就是将低分辨率图像恢复为具有令人愉快的视觉和可读的文本内容。现有工作都是处理笔画简单的英文字符而不是复杂的中文字符。本文中,作者提出了一个真实场景下的中英文基准数据集,命名为Real-CE,目的是为了恢复低精度的中文字符。这个基准数据集拥有1935/783的真实的高精度-低精度的文本图像对(包括3378个文本行),训练/测试可使用2X,4X缩放的方式,并有细节性的标注,包括检测框和文本记录。此外,作者还设计了边缘增强的学习方法,这种方法提供了结构性的监督和特征区域,有效的重建了中文字符的密度结构。作者在提出的数据集上评估了已有超分方法,对比了使用边缘增强的损失函数的算法效果。代码和数据链接:https://github.com/mjq11302010044/Real-CE。

1.介绍

2.相关工作

3.Real-CE基准

        提出的数据集基准包括中文和英文的高清-低清图像对,评估协议有5个度量方法。

3.1 Dataset Construction(数据集构造)

        通过多个步骤重构了数据集,包括数据收集,登记( registration),文本裁剪和文本标注,如图2。

3.2  Dataset Statistics(数据集统计信息)

        作者整理的数据包含2X和4X放缩方式进行训练和测试,数据信息统计如表1,Real-CE中包含33789个文本行对子。其中24666为中文,剩下的为英文。

3.3  Evaluation Protocol(评估协议)

        在Real-CE数据集上评估STISR模型的性能,作者使用了5种度量,包括结构相似性指数测度(SSIM)【39】,峰值信噪比(PSNR),学习感知图像块相似性(LPIPS)【42】,得到的归一化编辑距离(NED)和单词准确性(ACC)。在这些度量方法中,PSNR,SSIM和LPIPS测试的误差是重建高清图像和真实结果的误差。特定的,PSNR和SSIM评估图像空间,LPIPS评估特征空间。ACC和NED使用文本识别模型来评估重建高清图像的精度。作者使用了预训练的CRNN【32,5】作为文本识别模型用于评估。ACC计算预测序列的单词级准确性。NED在预测的文本序列P和真实文本图像标签G计算方式如下:

NED(P,G)=1-\frac{​{ED(P,G)}{}}{max(|P|,|G|)},(1)

 ED(.)代表编辑距离计算,|P|和|G|分别表示预测标签和真实标签。因而,当NED值较大时,被预测的序列更加精确,更加逼近真实标签。当作者评估长文本,当我们测量长文本时,ACC指数可能不能完全反映字符级别的识别正确性,而NED可以以更细粒度的方式进行测量。

         在测试过程中,训练STISR模型在原始的LR文本区域重建HR的图像。文本行在重建HR图像时会被裁剪,保持原始比例,用于ACC和NED识别评估。评估处理如图4(b)。评估TextZoom的度量协议【35】(看图4(a)),训练和评估文本行使用固定尺寸和形状,作者的协议体以避免文本信息需要进行缩放操作。如图4(a)这种操作对中文处理不是很有话,由于低重建质量和识别精度。

4. 文本边缘增强STISR

        不同于英文字符,中文字符是由笔画构成(可参看【5】),有更多复杂的内部结构。因而,需要对中文文本的重建进行精细的设计。本节中,作者提出了一种边缘感知学习方法,使用边缘图作为输入,使用边缘感知作为监督。

4.1 Text Edge Map(文本边缘图)

        图像中的文本信息不可避免的混合有复杂的背景信息。这就弱化了文本结构的显著性,也在某种程度上影响着文本重建处理。文本边缘信息有助于处理问题,因为它有效引导了STISR模型,更好地注意到文本结构和笔画。

        作者使用了Canny边缘检测器【3】计算文本边缘图,在训练过程中用C表示。文本边缘图区域用1表示轮廓区域,0代表背景。因而,文本边缘图包含文本结构。图5中,可以看到字符的形状和结构,在LR-HR图像对中可能不够清晰,但是使用canny 边缘图之后,文本形状和结构被增强。作者计算LR和HR图像的边缘信息。LR边缘图像CLR和LR图像在通道维度上进行concat作为网络结构的输入,如图6所示,因为这种额外的输入,STISR模型可以学到更加强壮的精炼的文本结构特征表征。

4.2  Edge-aware Loss(边缘感知损失)

        作者基于计算的边缘特征图提出了边缘感知损失。首先,STISR模型输出用于重建HR文本图像\bar{I}_{H},估计的HR文本边缘特征图\hat{C}_{H}。被估计的文本边缘特征用于在训练阶段获得额外的监督,但是在测试阶段就不在需要。EA损失用于计算估计的文本边缘特征图和真实边缘图在像素级别和特征级别的损失。

        在像素级别,我们在图像区域使用L1损失用于估计HR边缘特征图\hat{C}_{H}。被估计的文本边缘特征用于在训练阶段获得额外的监督,但是在测试阶段就不在需要。EA损失用于计算估计的文本边缘特征图和真实边缘图在像素级别和特征级别的损失。

在像素级别,我们在图像区域使用L1损失用于估计HR边缘特征图\hat{C}_{H}和真实的HR图像的边缘特征图CH之间的损失。因此,EA损失用于像素级别损失,表示如下:

L_{EA}^{P}=|C_{H}-\hat{C}_{H}|, (2)

此外像素级别的监督,计算特征级别的EA损失L_{EA}^{F}:

L_{EA}^{F}=|F(\hat{I}_{H})\cdot F(\hat{C}_{H})-F(I_{H}).F(C_{H})|,(3)

        这里F表示预训练特征提取网络(本文中使用VGG19【34】)。F(\hat{I}_{H})F({I}_{H})表示估计的特征表征和真实HR的图像的特征表征。F(\hat{C}_{H})F(C_{H})分别表示估计的特征表征的文本边缘图和真实HR的文本边缘图。图像特征通过边缘特征进行element-wise操作进行加权(例如F(\hat{I}_{H})\cdot F(\hat{C}_{H}))增强结构区域。最终,L1损失用于在固执结构和真实结构中增强特征。可以再补充文档中查看细节分析。最后,与彩色图像张的L1损失和EA损失项一起,整个损失韩式L就计算如下:

L=L^{_{1}}+\alpha L_{EA}^{P}+\beta L_{EA}^{F}, (4)

其中\alpha\beta是平衡参数。

5. 实验结果

        本章节,作者使用提出的基准数据集,通过对比已有的STISR算法,验证了提出的EA loss可以提升STISR算法的性能。优化器使用Adam。当在Real-CE训练集上训练,epoch总数是400.学习率设置是2X10-4.在计算EA损失L_EA.作者使用了预训练VGG19【34】预训练中的Conv5-4。公式(4)中的参数alfa和bata分别设置为1和5X10-4.当计算基于识别的度量,作者首先从全文本图像中裁剪文本行,然后缩放高清文本行用于字符识别。

5.1  Effectiveness of Real-CE Dataset(Real-CE数据集的有效性)

        本章节中,作者展示了实验验证提出的Real-CE数据集超越现有真实SR数据集的优势,例如TextZoom【35】和RealSR【2】。TextZoom是用于英文超分算法的数据集,没有汉字字符。RealSR是为真实世界的自然图像超分辨率而构建。作者在三个数据集上评估了5个SOTA的SISR模型和4个SOTA的STISR模型。这5个SISR模型分别是SRRes【20】,RRDB【38】,EDSR【22】,RCAN【45】,和ELAN【44】,前四个是基于CNN的模型,最后一个是基于transformer的模型。四个STISR模型分别是TSRN【35】,TPGSR【25】,TBSRN【4】和TATT【26】,前两个是基于CNN的模型,后面2个是基于transformer的模型。

        所有的STISR和SISR模型分别使用Real-CE,TextZoom和RealSR数据集合训练,测试使用Real-CE。SISR模型一般支持任意的属于尺寸,原始的测试图片作为输入,PNSR,SSIM和LPIPS度量用于原始图像尺寸上。请注意,这是我们基准测试的默认评估协议,如3.3节描述。但是,大多数STISR模型【35,25,4,26】仅仅支持固定尺寸的输入。所以,开始的时候裁剪和缩放测试图片到固定的尺寸作为网络的输入,然后将网络输出与调整大小的真实图片作比较如:PNSR,SSIM和LPIPS。

        比较SISR和STISR模型的量化结果如表2。在TextZoom上训练的模型结果在基于图像度量和基于识别度量上获得了更差的结果。这是因为TextZoom训练集合中缺乏复杂的字符结构,因而训练的模型不能够处理复杂Real-CE测试集的中文字符。此外,使用TextZoom,超分辨模型只能够使用固定尺寸的数据进行训练,这就很难处理其他尺寸的字符。在RealSR【2】上训练的模型也获得了较差的结果,因为RealSR主要基于自然图像SISR。相比而言,STISR和SISR模型在Real-CE上训练获得了更好的文本恢复能力。此外,应当注意评估SISR的度量得分和STISR的度量的分方法是不一样的,SISR是将整图作为输入,而STISR是将文本行作为输入。

        图7可视化在SISR和STISR模型在三个数据集上训练后的SR结果。为了方便,作者输入不同的图像道不同的模型中,并使用更加复杂的评估方式。模型的文本恢复结果使用TextZoom非常模糊,并包含伪影。这也是因为TextZoom缺乏复杂的中文字符结构的训练样本。此外,TextZoom仅仅支持固定尺寸的训练和训练算法结构不能够泛化到其他尺寸的测试数据集上。在RealSR上的算法模型结果伪影较少,复杂笔画才会比较模糊。对比而言,在Real-CE数据上模型训练结果拥有更加清晰的边缘,在中英文字符上拥有更多的可读性。更多的可视化结果可以查看补充性材料。在合成的LR-HR数据集和Real-CE数据集上比较STISR,请查看补充材料。

5.2  Effectiveness of the EA loss(EA loss的有效性)

        作者使用不同的loss(L_{1},L_{EA}^{P},L_{EA}^{F}),通过测试SISR和STISR算法模型验证了EA损失的有效性。这里作者使用了三个SISR算法模型,包括SRRes【20】,RRDB【38】和ELAN【44】,和2个STISR模型,包括TBSRN【4】和TATT【26】,在实验中,评估结果和5.1节的一样。

        量化评估结果如表3,通过比较只使用L1损失,算法模型训练使用L1和L_{EA}^{P}强调了增强PSNR/SSIM得分。因为L_{EA}^{P}对图像边缘进行了像素级的监督,可以从而改进像素度量。但是,感知度量(如:LPIPS)的提升和识别度量也是有限的。通过增加L_{EA}^{F}损失训练,所有的模型在LPIPS和识别精度上得到了显著的提升,特别是4X结果上。这表明字符结构信息对文本易读性很重要。因为字符结构可以使用L_{EA}^{F}来增强,文本识别得到有效提升。

        通过使用RRDB模型,作者可视化了STISR使用不同损失时的结果,如图8.首先,只使用RRDB和L1算是训练结果与双线性插值相比,展示了性能有限的提升。通过L_{EA}^{P}损失训练,重建后的文本图像具有更清晰的字符边缘,得到了很大的增强。如图8(c)。通过进一步整合L_{EA}^{F}损失,有效提升了边缘清晰度和局部的对比对,有效的提升了中文文本内容的可视化,如图8(d)。此外,更多的结果可以查看补充性文档。

5.3 Failure Cases(失败的例子)

        作者提出的方法在某些情况下会失败:当字符图像非常模糊和字符结构很复杂,如图9所示。尽管输出边缘清晰,但是有些笔画却错了。这是因为细笔画在低精度的图像中非常模糊。这种情形下,可以合并语义信息以提供帮助文本修复,这将是我们未来的工作。

6.结论

        本文中,作者创立了中英文基准数据集,命名为Real-CE,可用于图像超分辨率(STISR)模型的训练。包括了1935张训练样本和783张测试样本。文本区域中包括33789行文本行,里面有24666行是复杂结构的中文文本。作者进一步提出了边缘增强(EA, edge-aware)学习方法用于重建中文文本,该方法用于计算文本边缘图,部署EA损失引导STISR模型学习星恋。实验结果正面使用Real-CE数据集训练可以使文字变得更加清晰,更加可读。EA学习策略可以有效的有效的提升图像质量。Real-CE数据集为研究者提供了一个基准,可供研究者研究中文文本图像的恢复方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/154375.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安科瑞ARB5系列弧光保护装置,智能电弧光保护,保障用电安全

安科瑞虞佳豪壹捌柒陆壹伍玖玖零玖叁 什么是弧光 电弧是放电过程中发生的一种现象,当两点之间的电压超过其工频绝缘强度极限时就会发生。当适当的条件出现时,一个携带着电流的等离子产生,直到电源侧的保护设备断开才会消失。空气在通常条件…

slamplay:用C++实现的SLAM工具集

0. 项目简介 slamplay 是一个功能强大的工具集合,可用于开始使用 C 来玩和试验 SLAM。这是一项正在进行的工作。它在单个 cmake 框架中安装并提供一些最重要的功能 后端框架(g2o、gtsam、ceres、se-sync 等)、 前端工具(opencv、…

Python教程——配置环境,再探IDE

文章目录 一、Python安装下载安装验证 二、第一个Python程序常见问题 三、Python解释器四、PyCharm工具安装和配置安装使用PyCharm基本使用 一、Python安装 下载 如果我们想要使用Python语言编写程序,我们必须下载Python安装包并配置Python环境,我们现…

Apache Ranger:(一)安装部署

1.Ranger简介 Apache Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对Hadoop生态的组件如HDFS、Yarn、Hive、Hbase等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。 说白了就是管理大多数框架的授权问题。 …

arcgis地形分析全流程

主要内容:DEM的获取与处理、高程分析、坡度分析、坡向分析、地形起伏度分析、地表粗糙度分析、地表曲率分析; 主要工具:镶嵌至新栅格、按掩膜提取、投影栅格、坡度、坡向、焦点统计 一 DEM的获取与处理 1.1 DEM是什么? DEM(D…

ceph版本和Ceph的CSI驱动程序

ceph版本和Ceph的CSI驱动程序 ceph查看ceph版本Ceph的CSI驱动程序 ceph ceph版本和Ceph的CSI驱动程序 查看ceph版本 官网ceph-releases-index Ceph的CSI驱动程序 Ceph的CSI驱动程序 https://github.com/ceph/ceph-csi

F. Vasilije Loves Number Theory

Problem - F - Codeforces 思路:分析一下题意,对于第一种操作来说,每次乘以x,那么nn*x,然后问是否存在一个a使得gcd(n,a)1并且n*a的约数个数等于n,有最大公约数等于1我们能够知道其实这两个数是互质的&…

wireshark抓包分析HTTP协议,HTTP协议执行流程,

「作者主页」:士别三日wyx 「作者简介」:CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」:对网络安全感兴趣的小伙伴可以关注专栏《网络安全入门到精通》 使用WireShark工具抓取「HTTP协议」的数据包&#…

RedissonClient中Stream流的简单使用

1、pub端 //获取一个流 RStream rStream redissonClient.getStream("testStream"); //创建一个map&#xff0c;添加数据 Map<String, Object> rr new HashMap<>(); rr.put("xx", RandomUtil.randomString(5)); //添加到流 rStream.addAll(r…

Allegro如何查看器件的管脚号?

Allegro在默认情况下,器件是不显示管脚号的。 Allegro默认情况下,器件不显示管脚编号。 在PCB布局时,有时候我们需要看器件的管脚号,然后才能方便布局。那如何查看器件的管脚号呢? 这里介绍两种查看器件的管脚编号的方法。 方法一: (1)选择菜单Display→Color/Visi…

一款好用的PDF文档解密软件

PDF Decrypter pro 纯免费&#xff0c;没有页数限制&#xff0c;没有额外水印&#xff0c;强烈推荐&#xff01;

提升后端API性能的几种解决方案

&#x1f514;目的 提升后端API性能的主要目的是为了提高系统整体的响应速度、并发能力以及可用性。主要原因包括: 提高用户体验 后端API性能好可以减少响应延迟,给用户流畅的体验。 提高系统吞吐量 优化API性能可以提高系统的整体吞吐量,处理更多用户请求。 节省服务器资源…

深入理解强化学习——强化学习和有监督学习

分类目录&#xff1a;《深入理解强化学习》总目录 通过前文的介绍&#xff0c;我们现在应该已经对强化学习的基本数学概念有了一定的了解。这里我们回过头来再看看一般的有监督学习和强化学习的区别。以图片分类为例&#xff0c;有监督学习&#xff08;Supervised Learning&…

利用Python构建自定义报告生成器支持SEO分析实战总结

在进行SEO&#xff08;搜索引擎优化&#xff09;分析时&#xff0c;定制化的报告生成器是非常有价值的工具之一。通过利用Python编程语言构建自定义报告生成器&#xff0c;可以更好地满足个性化的需求&#xff0c;并提供详尽的SEO分析结果。本文将分享一些实践经验&#xff0c;…

3、在 CentOS 8 系统上安装 PostgreSQL 15.4

PostgreSQL&#xff0c;作为一款备受欢迎的开源关系数据库管理系统&#xff08;RDBMS&#xff09;&#xff0c;已经存在了三十多年的历史。它提供了SQL语言支持&#xff0c;用于管理数据库和执行CRUD操作&#xff08;创建、读取、更新、删除&#xff09;。 由于其卓越的健壮性…

对比纯软开与嵌入式硬件开发谁更好呢?

对比纯软开与嵌入式硬件开发谁更好呢&#xff1f; 你的纠结和犹豫是理解的&#xff0c;职业选择确实是一个重要的决策。我明白你在嵌入式和软件开发之间犹豫不决的原因。让我给你提供一些建议&#xff0c;帮助你做出更明智的决定。最近很多小伙伴找我&#xff0c;说想要一些嵌入…

MySQL对日期计算

mysql日期计算 前言使用场景一 日期作减法操作二 获取前一天或后一天的日期三 获取前一个月或后一个月的日期四 获取前一年或后一年的日期五 查询一个月内的申请记录 总结 前言 在MySQL中&#xff0c;日期计算是非常常见的操作。其中&#xff0c;日期减法操作可以用来计算两个…

Springboot接收http参数总结(最简单易懂)

1. 前端能携带请求参数的地方 http请求一半前端请求参数放在三个地方&#xff1a;请求头&#xff0c;请求查询参数&#xff08;Query String&#xff09;&#xff0c;请求体。 请求体需要获取HttpServletRequest对象才能获取。 2. 请求体常见格式 而请求体中可以存放多种格式…

Springboot 订餐管理系统idea开发mysql数据库web结构java编程计算机网页源码maven项目

一、源码特点 springboot 订餐管理系统是一套完善的信息系统&#xff0c;结合springboot框架和bootstrap完成本系统&#xff0c;对理解JSP java编程开发语言有帮助系统采用springboot框架&#xff08;MVC模式开发&#xff09;&#xff0c;系统具有 完整的源代码和数据库&…

大数据与Hadoop入门理论

一、大数据的3种数据类型 1、结构化数据 可定义&#xff0c;有类型、格式、结构的强制约束 如&#xff1a;RDBMS&#xff08;关系型数据库管理系统&#xff09; 2、非结构化数据 没有规律没有数据约束可言&#xff0c;很复杂难以解析 如&#xff1a;文本文件&#xff0c;视…