OCR的评价指标和常用数据集

1.OCR任务简介

OCR(Optical Character Recognition,光学字符识别)是指对包含文本内容的图像或者视频进行处理识别,并提取其中所包含的文字及排版信息的过程。例如,一个常见的应用是将包含文档图像的不可编辑状态的 PDF 文档通过 OCR 技术识别后,转换为可编辑状态的 Word 格式文档[1]。例如,一个常见的应用是将包含文档图像的不可编辑状态的 PDF 文档通过 OCR 技术识别后,转换为可编辑状态的 Word 格式文档。

1.1 应用场景

通常来说,根据不同文本内容的特性而言,OCR应用场景可以分为以下几类:

  • 印刷体文本识别:现代计算机字体编排并印刷的文本内容识别。

  • 手写文本识别:签名等手写文本识别。

  • 公式文本识别:数学公式等文本识别,比如将数学公式图片转为LaTex或者MD代码。

  • 场景文本识别:发票、火车票、招牌等文本识别。

  • 古籍文本识别:古籍文档与现代印刷的排版和布局通常具有很大的差别,例如,阅读顺序可能自上而下,自右向左等。因此,使用基于现代文档数据开发的 OCR 技术和模型在包含这些内容的图像上的识别效果往往不够好。因此,在对大量古籍进行数字化保护的过程中,催生了专门针对该类型文档内容进行识别的 OCR 技术。

1.2 OCR任务流程

OCR任务按照算法可分为传统方法和深度学习方法。

传统方法主要包括图像预处理(噪声过滤、灰度转换、图像旋转矫正、二值化等)、版面分析(表格线检测、关键区域的特征匹配、文字区域分段分行等)、字符切分、字符特征提取、字符特征匹配、版面理解、格式化数据输出。

深度学习方法有图像预处理、文字检测/分割、文字识别等,文字检测/分割从包含文字的目标图片中准确找到文字所在位置,标注形式通常为polygon、bbox或图片。文字识别从纯文字图片或上述的检测框中得到文字内容,标注形式为text。

深度学习方法分为两阶段和端到端两种,两阶段就是上面的先进行图片文字检测,然后在进行文字识别。端到端方式直接输入图片,得到文字识别结果。

2. OCR任务的评价指标

2.1 两阶段算法的评价指标

检测阶段跟图像目标检测中的使用指标相似,一般使用检测框和标注框的IOU值进行评估。IOU大于某个阈值判断为检测正确,但是不同于一般的通用目标检测框的点在于有部分的检测框和标注框是采用多边形进行表示。

文字识别阶段的评价指标有CER(Character Error Rate,字符错误率)、WER(Word Error Rate,单词错误率)、编辑距离、准确率、召回率、F1 Score等

  • 准确率:正确识别的字符数占总字符数的比例。适用于字符清晰、字体规范的数据集。正确识别的字符数占总字符数的比例。适用于字符清晰、字体规范的数据集。

  • 召回率:实际识别出的字符数与所有应被识别的字符数的比例。反映系统的查全率。实际识别出的字符数与所有应被识别的字符数的比例。反映系统的查全率。

  • 精准率:识别出的文本与原始文本的匹配度,通常使用编辑距离或Levenshtein距离来衡量。

  • WER:衡量识别出的句子与原始句子之间的差异。它是插入、删除和替换错误的总和与总词数的比值。

  • CER:类似于WER,但关注单个字符的错误。CER是插入、删除和替换错误的总和与总字符数的比值。

为了更全面地评估OCR系统,通常会结合使用以上多种指标。此外,还可以进行交叉验证来评估模型在不同数据子集上的泛化能力。为了更全面地评估OCR系统,通常会结合使用以上多种指标。此外,还可以进行交叉验证来评估模型在不同数据子集上的泛化能力。

可以使用token accuracy来作为识别效果的评价指标,跟wer和cer相似,根据分词后的token识别准确率进行评估。

端到端(End-to-End)的OCR方式的评价指标跟两阶段中的识别阶段一样,基本也是采用上述那些评估指标。

2.2 其它OCR评估指标

除了识别精度,识别的速度也是非常重要的衡量ocr性能的指标,尤其在移动端和嵌入式平台的推理,决定是否可用的衡量标准。除了识别精度,识别的速度也是非常重要的衡量ocr性能的指标,尤其在移动端和嵌入式平台的推理,决定是否可用的衡量标准。

预训练模型大小,即存放训练模型参数文件的大小,这对移植到移动端或嵌入式台的使用很重要即存放训练模型参数文件的大小,这对移植到移动端或嵌入式台的使用很重要

3. OCR任务常用数据集

4. 评价指标实例

用单词错误率WER指标评估:

import evaluatewer = evaluate.load("wer")
wer_res = wer.compute(predictions=["hello there"], references=["hello there, i am"])
print(wer_res)

使用字符错误率CER指标评估:

import evaluatecer = evaluate.load("cer")
cer_res = wer.compute(predictions=["hello there"], references=["hello there, i am"])
print(cer_res)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/485010.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决el-select数据量过大的3种方法

在准备上线的后台管理系统中,我们发现有两个下拉框(select),其选项数据量超过 1 万条,而在测试环境中这些数据量只有几百条。这导致在页面加载时,浏览器性能出现瓶颈,页面卡顿甚至崩溃。 想了一…

计算机网络 第5章 运输层

计算机网络 (第8版) 第 5 章 传输层5.4 可靠传输的原理5.4.1 停止等待协议5.4.2 连续ARQ协议 5.5 TCP报文段的首部格式5.6 TCP可靠传输的实现5.6.1 以字节为单位的滑动窗口5.6.2 超时重传时间的选择 5.7 TCP的流量控制5.7.1 利用滑动窗口实现流量控制 5.…

【PyTorch】(基础三)---- 图像读取和展示

图像读取和展示 pytorch本身并不提供图像的读取和展示功能,利用pytorch执行计算机视觉任务的时候,通常是利用opencv等工具先进行图像处理,然后将结果转化成tensor类型传递给pytorch,在pytorch执行之后,也可以将tensor…

Java课程设计项目-servlet+jsp美食系统、菜品管理系统

文章目录 Java课程设计项目-servletjsp美食系统一、项目介绍二、技术介绍2.1 环境需要2.2 技术栈 环境需要三、功能实现3.1登录注册3.2首页菜品展示、轮播图3.3美食菜品分类、查询3.4作品动态、个人简介、菜品收藏3.5创建菜谱、添加步骤 四、系统代码展示4.1项目架构&#xff0…

使用Unity脚本模拟绳索、布料(碰撞)

效果演示: 脚本如下: using System.Collections; using System.Collections.Generic; using UnityEngine;namespace PhysicsLab {public class RopeSolver : MonoBehaviour {public Transform ParticlePrefab;public int Count 3;public int Space 1;…

Python 【图像分类】之 PyTorch 进行猫狗分类功能的实现(Swanlab训练可视化/ Gradio 实现猫狗分类 Demo)

Python 【图像分类】之 PyTorch 进行猫狗分类功能的实现(Swanlab训练可视化/ Gradio 实现猫狗分类 Demo) 目录 Python 【图像分类】之 PyTorch 进行猫狗分类功能的实现(Swanlab训练可视化/ Gradio 实现猫狗分类 Demo) 一、简单介绍 二、PyTorch 三、CNN 1、神经网络 2、卷…

【Python网络爬虫笔记】8- (BeautifulSoup)抓取电影天堂2024年最新电影,并保存所有电影名称和链接

目录 一. BeautifulSoup的作用二. 核心方法介绍2.1 构造函数2.2 find()方法2.3 find_all()方法2.4 select()方法 三. 网络爬虫中使用BeautifulSoup四、案例爬取结果 一. BeautifulSoup的作用 解析HTML/XML文档:它可以将复杂的HTML或XML文本转换为易于操作的树形结构…

ZLMediaKit+wvp (ffmpeg+obs)推拉流测试

这里使用了两种方式: ffmpeg命令和 OBS OBS推流在网上找了些基本没有说明白的, 在ZLMediaKit的issues中看到了一个好大哥的提问在此记录一下 使用OBS推流,rtmp,报鉴权失败 推流 1. ffmpeg命令推流 官方说明文档地址: 推流规则 rtsp://192.168.1.4:10554…

Linux入门攻坚——40、Linux集群系统入门-lvs(1)

Cluster,集群,为了解决某个特定问题将多台计算机组合起来形成的单个系统。 这个单个集群系统可以扩展,系统扩展的方式:scale up,向上扩展,更换更好的主机;scale out,向外扩展&…

威胁驱动的网络安全方法论

本文主要内容取自洛克希德马丁公司的论文:A Threat-Driven Approach to Cyber Security,想要全面准确了解论文内容的朋友建议阅读原文。希望能够抛砖引玉,为相关领域的相关工作人员带来一点不同的思路或启发,从而更好地维护企业/组…

【Verilog】实验三 数码管实验

目录 一、实验目的: 二、实验内容: 三、实验要求: 四、实验步骤: 一、实验目的: 进一步熟悉Modelsim和VIVADO工具;掌握7段数码管显示译码器;掌握7段数码管数码管动态输出显示的方法。 二、实验内容: 实现按动开关…

Spring Cloud + MyBatis Plus + GraphQL 完整示例

Spring Cloud MyBatis Plus GraphQL 完整示例 1、创建Spring Boot子项目1.1 配置POM,添加必要的依赖1.2 配置MyBatis-Plus 2、集成GraphQL2.1 定义schema.graphqls2.2 添加GraphQL解析器2.3 配置schame文件配置 3、访问测试3.1 查询测试(演示&#xff…

MySQL书籍推荐

《高性能MySQL(第4版)》-西尔维亚博特罗斯 系统层次 Mysql性能优化和高可用架构实践 2020 系统基础 MySQL性能调优与架构设计 系统基础 Mysql技术大全 2021 综合 MySQL数据库应用案例教程 综合实战 从入门到项目实践 综合实战 丰富 超值 MySQ…

MR30分布式IO模块赋能喷水织机

纺织行业作为我国传统支柱产业,历经数千年的演变,如今仍面临着诸多困境,在纺织行业中,每一次技术的飞跃都是对行业边界的勇敢探索。在纺织行业,喷水织机作为关键生产设备,其性能直接影响到产品质量和产能。…

nodejs循环导出多个word表格文档

文章目录 nodejs循环导出多个word表格文档一、文档模板编辑二、安装依赖三、创建导出工具类exportWord.js四、调用五、效果图nodejs循环导出多个word表格文档 结果案例: 一、文档模板编辑 二、安装依赖 // 实现word下载的主要依赖 npm install docxtemplater pizzip --save/…

LabVIEW中“this VI‘s owning library is missing”错误及解决

问题描述 当加载或打开一个VI时,如果其所属的项目库未加载到内存,LabVIEW将提示错误:“this VIs owning library is missing”(该VI的所属库不存在)。 该问题通常发生在以下情况下: 项目库文件丢失或路径…

LongVU:用于长视频语言理解的空间时间自适应压缩

晚上闲暇时间看到一种用于长视频语言理解的空间时间自适应压缩机制的研究工作LongVU,主要内容包括: 背景与挑战:多模态大语言模型(MLLMs)在视频理解和分析方面取得了进展,但处理长视频仍受限于LLM的上下文长…

sphinx基本使用

sphix是一个文档生成工具 本文介绍一些基础技能,如果想深入学习,可以查看官方文档 Sphinx官方文档 1.安装虚拟环境 # ubuntu # 使用 venv 创建 .venv虚拟环境 python3 -m venv .venv# 激活虚拟环境 source .venv/bin/activate# windows # 创建虚拟环境…

爬虫第四篇:Xpath 路径表达式全解析:从网页基础到爬取百度贴吧图片实战

简介:本文围绕 Xpath 路径表达式展开讲解,先是介绍了网页相关基础如 html、css、vue 以及前后端分离的概念与示例,包括各部分的结构、作用及简单代码展示,随后详细阐述了 xml 的节点关系、选取节点、谓语等理论知识,最…

HarmonyOS NEXT开发进阶(一):初识 HarmonyOS NEXT开发

文章目录 一、前言二、HarmonyOS NEXT 开发框架三、HarmonyOS NEXT开发指导3.1 Windows环境准备 四、项目拆解4.1 工程目录4.2 全局配置4.2.1 APP全局配置: AppScope层(AppScope/app.json5)4.2.3 签名全局配置 4.3 APP代码初始化4.4 APP签名文件配置4.5 …