Python 全栈体系【四阶】(五十三)

第五章 深度学习

十二、光学字符识别(OCR)

2. 文字检测技术

2.3 DB(2020)

DB全称是Differentiable Binarization(可微分二值化),是近年提出的利用图像分割方法进行文字检测的模型。前文所提到的模型,使用一个水平矩形框或带角度的矩形框对文字进行定位,这种定位方式无法应用于弯曲文字和不规范分布文字的检测。DB模型利用图像分割方法,预测出每个像素的类别(是文字/不是文字),可以用于任意形状的文字检测。如下图所示:

在这里插入图片描述

左图:原图;右图:检测结果,红色部分为预测成文字的像素区域,蓝色为非文字像素区域
2.3.1 基本流程

在这里插入图片描述

DB之前的一些基于图像分割的文字检测模型,识别原理如上图蓝色箭头所标记流程:

  • 第一步,对原图进行分割,预测出每个像素的属于文本/非文本区域的概率;

  • 第二步,根据第一步生成的概率,和某个固定阈值进行比较,产生一个二值化图;

  • 第三步,采用一些启发式技术(例如像素聚类)将像素分组为文本示例。

DB模型的流程如上图红色箭头所示流程:

  • 第一步,对原图进行分割,预测出每个像素的属于文本/非文本区域的概率。同时,预测一个threshold map(阈值图)

  • 第二步,采用第一步预测的概率和预测的阈值进行比较(不是直接和阈值比较,而是通过构建一个公式进行计算),根据计算结果,得到二值化图。在计算二值化图过程中,采用了一种二值化的近似函数,称为可微分二值化(Differentiable Binarization),在训练过程中,该函数完全可微分;

  • 第三步,根据二值化结果生成分割结果。

2.3.2 标签值生成

在这里插入图片描述

对于每个经过原始标记的样本(上图中第一张图像),采用Vatti clipping algorithm算法(一种用于计算多边形裁剪的算法)对多边形进行缩放,得到缩放后的多边形作为文字边沿(如上图中第二张图像绿色、蓝色多边形所示)。计算公式:

D = A ( 1 − r 2 ) L D = \frac{A(1 - r^2)}{L} D=LA(1r2)

其中,D是收缩放量,A为多边形面积,L为多边形周长,r是缩放系数,设置为0.4. 根据计算出的偏移量D进行缩小,得到缩小的多边形(第二张图像蓝色边沿所示);根据偏移量D放大,得到放大的多边形(第二张图像绿色边沿所示),两个边沿间的部分就是文字边界。

2.3.3 模型结构

Differentiable Binarization模型结构如下图所示:

在这里插入图片描述

模型经过卷积,得到不同降采样比率的特征图,经过特征融合后,产生一组分割概率图、一组阈值预测图,然后微分二值化算法做近似二值化处理,得到预测二值化图。传统的二值化方法一般采用阈值分割法,计算公式为:

B i , j = { 1 , i f P i , j ≥ t 0 , o t h e r w i s e (1) B_{i, j} = \begin{cases} 1,\quad if \ P_{i,j} \ge t \\ 0, \quad otherwise \end{cases} \tag{1} Bi,j={1,if Pi,jt0,otherwise(1)

上式描述的二值化方法是不可微分的,导致在训练期间无法与分割网络部分一起优化,为了解决这个问题,DB模型采用了近似阶跃函数的、可微分二值化函数。函数定义如下:

B ^ i , j = 1 1 + e − k ( P i , j − T i , j ) \hat B_{i, j} = \frac{1}{1+e^{-k(P_{i,j} - T_{i, j})}} B^i,j=1+ek(Pi,jTi,j)1

其中, P i , j P_{i,j} Pi,j表示预测概率, T i , j T_{i, j} Ti,j表示阈值,两个值相减后经过系数 K K K放大,当预测概率越大于阈值,则输出值越逼近1。

在这里插入图片描述

标准二值化函数与可微分二值化函数比较。SB:standard binarization其梯度在0值被截断无法进行有效地回传。DB:differentiable binarization是一个可微分的曲线
# 可谓分二值化函数示例
import mathP1 = 0.6 # 预测概率1
P2 = 0.4 # 预测概率2
T = 0.5  # 阈值
K = 50B1 = 1.0 / (1 + pow(math.e, -K * (P1 - T)))
print("B1:", B1) # B1:0.9933  趋近于1B2 = 1.0 / (1 + pow(math.e, -K * (P2 - T)))
print("B2:", B2) # B2:0.00669 趋近于0
2.3.4 损失函数

DB模型损失函数如下所示:

L = L s + α × L b + β × L t L = L_s + \alpha \times L_b + \beta \times L_t L=Ls+α×Lb+β×Lt

其中, L s L_s Ls是预测概率图的loss部分, L b L_b Lb是二值图的loss部分, α \alpha α β \beta β值分别设置为1和10. L s L_s Ls L b L_b Lb均采用二值交叉熵:

L s = L b = ∑ i ∈ S l y i l o g x i + ( 1 − y i ) l o g ( 1 − x i ) L_s = L_b = \sum_{i \in S_l} y_i log x_i + (1 - y_i) log(1-x_i) Ls=Lb=iSlyilogxi+(1yi)log(1xi)

上式中 S l S_l Sl是样本集合,正负样本比例为1:3.

L t Lt Lt指经过膨胀后的多边形区域中的像素预测结果和标签值之间的 L 1 L1 L1距离之和:

L t = ∑ i ∈ R d ∣ y i ∗ − x i ∗ ∣ L_t = \sum_{i \in R_d} |y_i ^* - x_i ^*| Lt=iRdyixi

R d R_d Rd值膨胀区域 G d G_d Gd内的像素索引, y i ∗ y_i ^* yi是阈值图的标签值。

2.3.5 涉及到的数据集

模型在以下6个数据集下进行了实验:

  • SynthText:合成数据集,包含80万张图像,用于模型训练
  • MLT-2017:多语言数据集,包含9种语言,7200张训练图像,1800张验证图像及9000张测试图像,用于模型微调
  • ICDAR 2015:包含1000幅训练图像和500幅测试图像,分辨率720*1280,提供了单词级别标记
  • MSRA-TD500:包含中英文的多语言数据集,300张训练图像及200张测试图像
  • CTW1500:专门用于弯曲文本的数据集,1000个训练图像和500个测试图像,文本行级别标记
  • Total-Text:包含各种形状的文本,及水平、多方向和弯曲文字,1255个训练图像和300个测试图像,单词级别标记

为了扩充数据量,论文采用了随机旋转(-10°~10°角度内)、随机裁剪、随机翻转等策略进行数据增强。

在这里插入图片描述

对各种形状的文本实例的一些可视化结果,包括弯曲文本、多向文本、垂直文本和长文本行。对于每个单元,右上角是阈值映射;右下角是概率图。
2.3.6 效果
  • 不同设置结果比较,“DConv”表示可变形卷积。“P”、“R”和“F”分别表示精度、召回率和F度量。

在这里插入图片描述

  • Total-Text数据集下测试结果,括号中的值表示输入图像的高度,“*”表示使用多尺度进行测试,“MTS”和“PSE”是Mask TextSpotter和PSENet的缩写

在这里插入图片描述

  • CTW1500数据集下测试结果。括号中的值表示输入图像的高度。

在这里插入图片描述

  • ICDAR 2015数据集下测试结果。括号中的值表示输入图像的高度,“TB”和“PSE”是TextBoxes++和PSENet的缩写。

在这里插入图片描述

  • MSRA-TD500数据集下测试结果。括号中的值表示输入图像的高度。

在这里插入图片描述

  • MLT-2017数据集下测试结果。“PSE”是PSENet的缩写。

在这里插入图片描述

2.3.7 结论
  • 能有效检测弯曲文本、不规范分布文本
  • 具有较好的精度和速度
  • 局限:不能处理文本中包含文本的情况

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/333195.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何评价 OpenAI 最新发布支持实时语音对话的模型GPT-4o?OpenAI发完GTP-4o,国内大模型行业还有哪些机会?

文章目录 OpenAI发完GTP-4o,国内大模型行业还有哪些机会?详细了解一下OpenAI最新发布的支持实时语音对话的模型GPT-4o国内大模型如何寻找发展机会?想要发展技术必须要创新与追赶或许应用场景拓展也是一种出路产业生态构建 ChatGPT 问世才 17 …

网络安全之重发布与路由策略详解

重发布;import (路由导入) 将不同方式(直连、静态、缺省、其他协议)的路由器重发布进入RIP,OSPF中。 注意:1、华为中不能将缺省路由重发布进入RUO协议(思科也是一样)。…

DrugBank数据库的功能与使用

众所周知的是DrugBank数据库有两个主要辅助角色: ①临床导向的药品知识。DrugBank提供关于药品靶点和药物作用的生物或生理结果的详细、最新、定量分析或分子量的信息。 ②化学导向的药品数据库。提供计算机检索药物、药物“复原”、计算机检索药物结构数据、药物…

二叉树——堆的实现

一.前言 前面我们讲解了二叉树的概念以及二叉树的存储结构:https://blog.csdn.net/yiqingaa/article/details/139224974?spm1001.2014.3001.5502 今天我们主要讲讲二叉树的存储结构,以及堆的实现。 二.正文 1.二叉树的顺序结构及实现 1.1二叉树的顺序…

9. C++通过epoll+fork的方式实现高性能网络服务器

epollfork 实现高性能网络服务器 一般在服务器上,CPU是多核的,上述epoll实现方式只使用了其中的一个核,造成了资源的大量浪费。因此我们可以将epoll和fork结合来实现更高性能的网络服务器。 创建子进程函数–fork( ) 要了解线程我们先来了解…

聊天软件鼻祖 ICQ 将于 6 月 26 日关闭;40 光年外发现一颗潜在宜居的类地行星丨 RTE 开发者日报 Vol.212

开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「…

就业班 第三阶段(ELK) 2401--5.22 day3 filebeat+elk云部署

kafka集群 Windterm同步输入,多台机子可以同时输入同步输入 启动kafka需要启动两个 第一个 [rootkafka1 ~]# cd /usr/local/kafka_2.11-2.0.0/ [rootkafka1 ~]# nohup bin/zookeeper-server-start.sh config/zookeeper.properties &第二个 [rootkafka1 ~]#…

关于0成本部署个人博客

分享一个文章关于零成本搭建个人博客 参考:‘关于部署博客hexoshokagithub的流程以及问题’ - 关于博客部署 | XiaoYang Guo Welcome to Guo Xiaoyangs personal blog 欢迎来到郭晓阳的个人博客 (1330303.github.io) 这个博主讲的流程很全,而且回答也…

Spark项目实训(一)

目录 实验任务一:计算级数 idea步骤分步: 完整代码: linux步骤分布: 实验任务二:统计学生成绩 idea步骤分布: 完整代码: linux步骤分步: 实验任务一:计算级数 请…

消费者相关高效读写ZK作用

消费者分区分配策略 目录概述需求: 设计思路1.消费者分区分配策略2. 消费者offset的存储3. kafka消费者组案例4. kafka高效读写&Zk作用5. Ranger分区再分析 实现思路分析 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show …

[Java EE] 网络编程与通信原理(三):网络编程Socket套接字(TCP协议)

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏:🍕 Collection与数据结构 (92平均质量分)https://blog.csdn.net/2301_80050796/category_12621348.html?spm1001.2014.3001.5482 🧀Java …

Spring MVC+mybatis项目入门:旅游网(四)用户注册——mybatis的配置与使用以及Spring MVC重定向

个人博客:Spring MVCmybatis项目入门:旅游网(四)用户注册2-持久化 | iwtss blog 先看这个! 这是18年的文章,回收站里恢复的,现阶段看基本是没有参考意义的,技术老旧脱离时代(2024年…

网络协议——FTP(简介、搭建FTP服务端)

一、简介 1、什么是FTP? FTP(File Transfer Protocol,文件传输协议) TCP/IP 协议组的协议之一。常用20(数据)、21(命令)端口作为通讯端口。(22为SSH端口)F…

BookStack VS HelpLook两款知识库软件的区别

现在很多企业都会进行知识管理,在这个过程中,选择一个合适的知识库软件是一个不可避免的问题。在众多知识库软件中,HelpLook和BookStack这两款软件备受企业瞩目。不知如何选择,今天LookLook同学就简单介绍一下这两款知识库的区别&…

微信公众号完成自动回复,自定义菜单

微信公众号完成自动回复,自定义菜单 首先要获取到微信公众号的开发者权限,这一步省略,可以自行百度 微信公众号对接自己的服务器 首先第一步需要有自己的服务器和固定的ip, 其中,80/443端口需要有其中一个&#xff0…

唯众云课堂:领航智慧教育,赋能职教未来,打造高效人才培养新平台

随着《中国智慧教育发展报告 2023》的发布,智慧教育被正式定义为数字教育发展的高级阶段。然而,各职院在智慧教育的发展道路上,往往面临着诸多挑战,如缺乏一体化教学平台、优质教学资源不足等。唯众凭借深厚的产业洞察与教育实践经…

【云原生】K8s管理工具--Kubectl详解(一)

一、陈述式管理 1.1、陈述式资源管理方法 kubernetes 集群管理集群资源的唯一入口是通过相应的方法调用 apiserver 的接口kubectl 是官方的 CLI 命令行工具,用于与 apiserver 进行通信,将用户在命令行输入的命令,组织并转化为apiserver 能识…

一文搞透常见的Python编码陷阱(上)(分析+案例)

一个认为一切根源都是“自己不够强”的INTJ 个人主页:用哲学编程-CSDN博客专栏:每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 一、别忘了冒号 1. if 语句 2. while 语句 3. for 语句 4. 函数定义 5. 类定义 6. try/except 语句 …

太速科技-基于FPGA Spartan6 的双路光纤PCIe采集卡(2路光纤卡)

基于FPGA Spartan6 的双路光纤PCIe采集卡(2路光纤卡) 1、板卡概述   板卡采用xilinx Spartan6系列芯片,支持 PCI Express Base Specification 1.1 x1。内含丰富的逻辑资源和存储单元,板卡FPGA外接双片32M*16bit DDR2缓存器,支持乒乓操作。…

Ubuntu执行命令出现乱码,菱形符号

1、问题描述 如题,Ubuntu执行命令出现乱码,菱形符号(见下图): 2、解决办法 export LC_ALLC 再运行就好了