【基础介绍】【OCR】

注:若有冒犯,请问候留言,会尽快删除。

文章目录

      • 注:若有冒犯,请问候留言,会尽快删除。
      • 背景介绍
      • OCR基本概念介绍
      • 基础实现算法
      • 深度学习方法
        • 1. CNN(卷积神经网络)
        • 2. RNN(循环神经网络) & LSTM(长短期记忆网络)
        • 3. Attention机制
      • 顶尖算法组合拳:CRNN + CTC
      • 未来发展:Transformer登场(Vision Transformer,ViT)
      • 总结
      • END

背景介绍

  • 知乎上看到一篇写的不错的文章,介绍了OCR 的基本概念和历史实现思路。
  • 在此进行笔记摘录,笔记性质,无意冒犯。
  • 原文链接:https://www.zhihu.com/question/366685668/answer/3608456631

OCR基本概念介绍

  • OCR(Optical Character Recognition),光学字符识别。
  • 目的:用计算机看图识字。
    • 这活儿听上去不难,小时候上课抄作业咱不也靠眼睛一扫一抄吗?不过计算机就得靠算法来做这个活儿。(原作者描述的很形象,哈哈)

基础实现算法

  • 最早的OCR算法基本都是基于图像处理的。(预处理+模板匹配)
    • 边缘检测、灰度处理。
    • 然后配上模式识别算法,比如模板匹配、特征提取啥的。
      • 你可以理解成就是把字形切成一块一块的,然后跟它数据库里存的样本对比,看看哪个像,哪个不像。
  • 这些传统的算法好处是速度快,资源占用少。
  • 但缺点也明显:一碰到字歪了、字模糊了、或者字形不规则了,它就开始抓瞎,结果基本上就是“一看就是字,但就是不认识”。所以这玩意儿在应付像咱们手机拍的这种歪歪扭扭的图像时,基本等于玩儿完。

深度学习方法

1. CNN(卷积神经网络)
  • CNN算是深度学习里的一员猛将了,大家都用它来做图像处理,OCR当然也不例外。CNN能干的活就是搞图像特征提取,它能自动从图像里找出那些有用的信息,比如边缘、线条、曲线啥的,再经过几层卷积,把这些信息逐层抽象,最后变成对字符的理解。
  • 就像你拍一张图,CNN能从图像的不同部分提取到不同的特征,然后把这些特征汇总,搞出个“这玩意儿是个字”的结论来。
2. RNN(循环神经网络) & LSTM(长短期记忆网络)
  • 光提取特征还不够,因为OCR不只是识别单个字符,还得考虑字符的顺序,这时候RNN就上场了。RNN擅长处理序列数据,比如文字、语音啥的,它能记住前面的信息,用来影响后面的识别。这就像你在看一段文字时,前后的字有关系嘛。
  • LSTM是RNN的加强版,主要解决RNN容易忘事儿的问题。用了LSTM后,网络就能记住更长的上下文信息,识别结果更准了。
3. Attention机制
  • 最后,还有个神器叫Attention机制,这玩意儿能让模型自动关注图像里那些重要的部分,比如一张图里哪儿有字,它就盯着哪儿看,不重要的地方一笔带过。这就像你在开会时,重点内容多看两眼,废话直接略过。
  • Attention机制的加入让OCR模型在处理复杂图像时,识别效率和准确度都有了质的飞跃。

顶尖算法组合拳:CRNN + CTC

  • 现在说说最顶尖的OCR算法,那肯定少不了CRNN(卷积循环神经网络)+ CTC(连接时序分类)。这套组合拳可是当前OCR领域的标杆,很多大厂的OCR引擎背后都是它。
  • CRNN结合了CNN和RNN的优点,前面用CNN提取图像特征,后面用RNN处理字符序列,简直就是天作之合。而CTC呢,专门处理序列对齐的问题,因为有时候识别结果跟输入长度对不上,这时候CTC就能帮助网络在不需要手工对齐的情况下,搞定文字识别。
    你用 OCR时,哪怕图片模糊不清或者字儿东倒西歪,这套算法组合依然能搞出个准儿来。

未来发展:Transformer登场(Vision Transformer,ViT)

  • 不过话说回来,科技是不断进步的。现在Transformer架构
  • (对,你没看错,就是那个火遍NLP的Transformer)也开始在OCR领域展露头角。比如Vision Transformer(ViT)就是用来处理图像的Transformer变种,这玩意儿比传统的CNN + RNN组合更牛,可以更好地处理复杂图像和长序列。
  • 未来几年,估计Transformer架构会成为OCR的新宠,反正现在大厂都在疯狂搞这套东西,谁家搞得快,搞得好,谁就能在OCR领域继续称王。

总结

  • 现在最顶尖的OCR算法,一定是深度学习的天下,像CRNN + CTC这种组合是目前的主流,但未来Transformer架构肯定会慢慢抢占市场。

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/443755.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【大数据】数据分析之Spark框架介绍

文章目录 概述一、发展历程与背景二、核心特点三、生态系统与组件四、应用场景五、与其他大数据技术的比较 核心概念1. 弹性分布式数据集(RDD, Resilient Distributed Dataset)2. 转换(Transformations)和动作(Actions…

【网络篇】计算机网络——应用层详述(笔记)

目录 一、应用层协议原理 1. 进入应用层 2. 网络应用程序体系结构 (1)客户-服务器体系结构(client-server architecture) (2) P2P 体系结构(P2P architecture) 3. 进程间通讯 …

Java之String类

目录 初识String 字符串比较相等 字符串常量池 理解字符串的不可变 字符与字符串 字符串常见操作 字符串比较 compareTo()函数的原码 字符串查找 字符串替换 字符串拆分 字符串截取 其它操作 StringBuffer和StringBuilder 面试题:请解释String、Strin…

Cocos_鼠标滚轮放缩地图

文章目录 前言一、环境二、版本一_code2.分析类属性方法详细分析详细分析onLoad()onMouseWheel(event)详细分析 总结 前言 学习笔记,请多多斧正。 一、环境 通过精灵rect放置脚本实现鼠标滚轮放缩地图。 二、版本一_code import { _decorator, Component, Node }…

第十一章:规划过程组(11.18规划风险管理--11.24规划干系人参与)

前面几次考试几乎都考了风险管理的相关内容和试题~!尤其是下午题所以感觉还是挺重要的! 11.18 规划风险管理 11.18.1 风险基本概念 每个项目都在两个层面上存在风险:一是每个项目都有会影响项目达成目标的单个风险;二是由单个风险和不确定性的其他来源联…

一文了解,ARM 工业计算机的发展历程

ARM 工业计算机的发展历程主要经历了以下几个阶段: 早期探索阶段(20 世纪 80 年代 - 90 年代初): 起源背景:20 世纪 80 年代,计算机工业蓬勃发展,英国的 Acorn 公司在这一时期积极探索芯片技术…

VRRP协议个人理解+报文示例+典型配置-RFC2338/RFC3768/RFC5798/RFC9568

个人认为,理解报文就理解了协议。通过报文中的字段可以理解协议在交互过程中相关传递的信息,更加便于理解协议。 因此本文将在VRRP协议报文的基础上进行介绍。 VRRP协议发展 关于VRRPv2基本原理,可重点参考2004年发布的RFC3768-Virtual Ro…

Qt5.15.2静态编译 MinGW with static OpenSSL

如果想用VS2017编译,可参考:Qt5.15.2静态编译 VS2017 with static OpenSSL 一.环境 系统:Windows 10 专业版 64位 编译器:MinGW 8.1.0 第三方工具:perl,ruby和python PS:经验证,用MinGW 12.1.0来编译Qt5.15.2会报错 我用Phthon 2.7.18虽然可以编过,但是强烈建议Pyth…

CSS响应式布局

CSS 响应式布局也称自适应布局,是 Ethan Marcotte 在 2010 年 5 月份提出的一个概念,简单来讲就是一个网站能够兼容多个不同的终端(设备),而不是为每个终端做一个特定的版本。这个概念是为解决移动端浏览网页而诞生的。…

可以让你干一辈子的10大项目,想赚钱的别错过!

1、卖项目 很多想要创业、或者从事自由职业的小伙伴,都经常会因为找不到合适的项目而苦恼,所以那些即靠谱又赚钱的好项目,一直都是人们的刚性需求,而且还是可持续的需求,倘若谁能解决这个问题,那么自然就可以赚到大钱,毕竟现在原因付费买项目的大有人在! 2、卖技术 掌…

win10电脑导航栏经常卡死改善方法

我成功使用的一个方法:关闭资讯(需要正版的win10,如果是盗版需要激活) 有两个入口 1.在任务栏上点击右键,选择“资讯和兴趣”,然后关闭它。这可能会解决任务栏卡顿的问题 在Windows 10中,任务栏…

提高ROI:低代码平台如何助力企业实现成本效益最大化

引言:成本效益与ROI的重要性 在当今竞争异常激烈的商业环境中,企业面临着前所未有的挑战。如何在有限的资源下,最大化投资回报率(ROI),已经成为企业管理者不可忽视的关键课题。ROI不仅仅是衡量投资回报的指…

战略会牺牲眼前利益

战略需要解决能力和目标之间的差异,必然要投入资源,牺牲眼前的利益,目的是获取更长远更全面的利益和价值。 很多基层员工,单独从企业利润角度来讲,是排斥战略的,因为战略投入资源会影响分红、影响奖金。 …

考研笔试/上机经典编程题集合(持续更新并完善解题思路)

目录 一、程序设计经典编程题(C语言实现)1.1 判断一个字符串是否由另一个字符串旋转得到1.2 字符串左旋1.3 求最大公约数以及最小公倍数 二、力扣2.1 面试题 17.04. 消失的数字 三、牛客网3.1 OR62 倒置字符串 一、程序设计经典编程题(C语言实现) 1.1 判断一个字符串是否由另一…

C++ | Leetcode C++题解之第467题环绕字符串中唯一的子字符串

题目&#xff1a; 题解&#xff1a; class Solution { public:int findSubstringInWraproundString(string p) {vector<int> dp(26);int k 0;for (int i 0; i < p.length(); i) {if (i && (p[i] - p[i - 1] 26) % 26 1) { // 字符之差为 1 或 -25k;} els…

“Flash闪存”基础 及 “SD NAND Flash”产品的测试

本篇除了对flash闪存进行简单介绍外&#xff0c;另给读者推荐一种我本人也在用的小容量闪存。 自带坏块管理的SD NAND Flash&#xff08;贴片式TF卡&#xff09;&#xff0c;尺寸小巧&#xff0c;简单易用&#xff0c;兼容性强&#xff0c;稳定可靠&#xff0c;标准SDIO接口&a…

Elasticsearch基础_5.ES聚合功能

文章目录 一、数据聚合1.1、桶聚合1.1.1、单维度桶聚合1.1.2、聚合结果排序1.1.3、限定聚合范围 1.2、Metric聚合 二、聚合总结 本文只记录ES聚合基本用法&#xff0c;后续有更复杂的需求可以查看相关书籍&#xff0c;如《Elasticsearch搜索引擎构建入门与实战》 一、数据聚合…

Mybatis-plus的基础用法

文章目录 1. 核心功能1.1 配置与编写规则1.2 条件构造器1.3 自定义SQL1.4 IService接口1.4.1 Lambda方法1.4.2 批量新增 1.5 分页查询 2. 拓展功能2.1 代码生成器2.2 DB静态工具2.3 逻辑删除2.4 枚举处理器 参考 1. 核心功能 1.1 配置与编写规则 Maven依赖&#xff1a; <…

基于IOU匹配的DeepSort目标跟踪与匈牙利算法解析

在多目标跟踪任务中&#xff0c;如何将检测框与已有轨迹进行关联&#xff0c;进而维持目标的连续跟踪&#xff0c;是一个关键问题。DeepSort&#xff08;Deep Simple Online and Realtime Tracking&#xff09;是一种常用的多目标跟踪算法&#xff0c;它结合了IOU&#xff08;交…

用GPT-4o打造LLM+OS(10+实用技能),代码开源,指令曝光,科技演示惊艳全场!

目录 前言 LLM操作系统能力概况&#xff08;phidata中前5个已经实现&#xff09;&#xff1a; 可以读取/生成文本 拥有比任何单个人类更全面的知识 可以浏览互联网 可以使用现有的软件基础设施&#xff08;计算器、Python、鼠标/键盘&#xff09; 可以与其他LLMs通信 可…