文档解析效果全维度测评标准

TextIn文档解析测评工具,全面评测文档解析产品能力

关注TechLead,复旦AI博士,分享AI领域全维度知识与研究。拥有10+年AI领域研究经验、复旦机器人智能实验室成员,国家级大学生赛事评审专家,发表多篇SCI核心期刊学术论文,上亿营收AI产品研发负责人。

file

今天向大家介绍一款全面展示文档解析产品能力的工具——TextIn文档解析测评工具,https://github.com/intsig/markdown_tester

这个工具的主要作用是帮助需要解析PDF的用户直观地筛选出最适合自己场景的产品。

用户需求的多样性

TextIn团队在与用户的交流中发现,用户的需求非常多样化,包括年报、财报、论文、政策文件、企业内部文件、教科书、试卷和公式等。尽管所有解析产品的目标都是成为“全能选手”,但在当前阶段,各产品能力的差异仍然存在。因此,提供一个能节省用户选择和测试时间的工具是非常必要的,这也是我们推出TextIn文档解析测评工具的初衷。希望这个工具能够帮助用户更好地聚焦于业务场景。

测评指标介绍

TextIn文档解析测评工具将测评指标分为五个维度:表格、段落、标题、阅读顺序和公式。这些维度通过定量测评来展示各解析产品的具体表现。
file

工具使用方法

测评工具的使用方法非常便捷,支持上传任意样本。以下是具体的操作步骤:

安装软件包

运行以下命令安装必要的软件包:

./install.sh

样本文件组织

将待测评样本按照以下结构放置:

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/

运行测评命令

使用以下命令进行测评:

python run_test.py --pred_path path_to_pred_md --gt_path path_to_gt_md

其中:

  • path_to_pred_md:预测值文件所在文件夹。
  • path_to_gt_md:真值文件所在文件夹。

示例与结果展示

TextIn官方提供了一个测试集案例来展示用法。输出结果包括表格数据结果和直观的雷达图。这款工具被称为文档解析效果评估的“瑞士军刀”,无论用户是文档处理的专家,还是有文档解析需求的用户,都能快速、高效地评估各款解析产品在业务场景下的能力。
file
file

工具公开的初衷

TextIn团队决定将这款内部使用的“瑞士军刀”公开,主要是因为近期收到越来越多的测评工具需求。在没有测试工具之前,用户评估各款解析产品效果主要依靠问答效果随机测试,并人工二次检索文档,这种方式不仅耗费人力,而且科学性低、准确度低。

在使用TextIn团队分享的测试工具后,客户不再需要“肉眼观测”解析效果。这主要是因为大语言模型的发展改变了需求和产品形态。传统的OCR技术在处理表格时,可能只输出每个单元格的位置和数值。但当用大模型来回答问题时,更需要的是表格中的数据内容,而且数据越清晰,答案的质量就越高。

评估文档解析产品

如何比较不同文档解析产品在业务场景下的表现?TextIn团队公开测评工具的目的就是将这些问题透明化。因此,在设计和优化这套工具的过程中,TextIn团队关注以下要素:

  1. 确定评测的主要目标和关键指标
  2. 选择能够准确反映性能的评价指标
  3. 减少不必要的复杂性
  4. 确保符合行业标准和最佳实践
  5. 让评价结果易于解读和理解
  6. 保持评价过程的透明度

希望TextIn团队的测评工具能够帮助大家解决评估所需产品的难题。

测评工具入口链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/381961.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

品牌设计宝典:打造独特视觉形象

今天,我们来谈谈品牌设计。品牌设计是视觉设计师非常重要的内容。如果你了解品牌设计的相关知识,你会更好地了解“包装”自己、运营自己或建立个人品牌内容。 理论上,品牌是一个广义的概念。比如公司从外到内建立的一些内容属于品牌概念下的…

Unity DOTS中的world

Unity DOTS中的world 注册销毁逻辑自定义创建逻辑创建world创建system group插入player loopReference DOTS中,world是一组entity的集合。entity的ID在其自身的世界中是唯一的。每个world都拥有一个EntityManager,可以用它来创建、销毁和修改world中的en…

Python机器学习入门:从理论到实践

文章目录 前言一、机器学习是什么?二、机器学习基本流程三、使用Python进行机器学习1.数据读取2.数据规范化3. 数据降维(主成分分析)4. 机器学习模型的选择5. 线性回归模型的实现6. 可视化结果 总结 前言 机器学习是人工智能的一个重要分支&…

安装好anaconda,打开jupyter notebook,新建 报500错

解决办法: 打开anaconda prompt 输入 jupyter --version 重新进入jupyter notebook: 可以成功进入进行代码编辑

功能测试与APPSCAN自动化测试结合的提高效率测试策略

背景 手工探索性测试(Manual Exploratory Testing,简称MET)是一种软件测试方法,它依赖于测试人员的直觉、经验和即兴发挥来探索应用程序或系统。与传统的脚本化测试相比,手工探索性测试不遵循固定的测试脚本&#xff0…

基于 PyTorch 的模型瘦身三部曲:量化、剪枝和蒸馏,让模型更短小精悍!

基于 PyTorch 的模型量化、剪枝和蒸馏 1. 模型量化1.1 原理介绍1.2 PyTorch 实现 2. 模型剪枝2.1 原理介绍2.2 PyTorch 实现 3. 模型蒸馏3.1 原理介绍3.2 PyTorch 实现 参考文献 1. 模型量化 1.1 原理介绍 模型量化是将模型参数从高精度(通常是 float32&#xff0…

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第三篇 嵌入式Linux驱动开发篇-第四十四章 注册字符设备号

i.MX8MM处理器采用了先进的14LPCFinFET工艺,提供更快的速度和更高的电源效率;四核Cortex-A53,单核Cortex-M4,多达五个内核 ,主频高达1.8GHz,2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…

【Linux】汇总TCP网络连接状态命令

输入命令: netstat -na | awk /^tcp/ {S[$NF]} END {for(a in S) print a, S[a]} 显示: 让我们逐步解析这个命令: netstat -na: netstat 是一个用于显示网络连接、路由表、接口统计等信息的命令。 -n 选项表示输出地址和端口以数字格式显示…

Armv8/Armv9架构的学习大纲-学习方法-自学路线-付费学习路线

本文给大家列出了Arm架构的学习大纲、学习方法、自学路线、付费学习路线。有兴趣的可以关注,希望对您有帮助。 如果大家有需要的,欢迎关注我的CSDN课程:https://edu.csdn.net/lecturer/6964 ARM 64位架构介绍 ARM 64位架构介绍 ARM架构概况…

Wi-SUN无线通信技术 — 大规模分散式物联网应用首选

引言 在数字化浪潮的推动下,物联网(IoT)正逐渐渗透到我们生活的方方面面。Wi-SUN技术以其卓越的性能和广泛的应用前景,成为了大规模分散式物联网应用的首选。本文将深入探讨Wi-SUN技术的市场现状、核心优势、实际应用中的案例以及…

JavaEE (1)

web开发概述 所谓web开发,指的是从网页中向后端程序发送请求,与后端程序进行 交互. 流程图如下 Web服务器是指驻留于因特网上某种类型计算机的程序. 可以向浏览器等Web客户端提供文档,也可以放置网站文件,让全世界浏览; 它是一个容器&…

C++ —— 关于模板初阶

1.什么是模板 在C中,模板(template)是一种通用的编程工具,允许程序员编写通用代码以处理多种数据型或数据结构,而不需要为每种特定类型编写重复的代码,通过模板,可以实现代码的复用和泛化提高代…

QT5.9.9+Android开发环境搭建

文章目录 1.安装准备1.1 下载地址1.2 安装前准备2.安装过程2.1 JDK安装2.1.1 安装2.1.2 环境变量配置2.2 SDK配置2.2.1 安装2.2.2 环境变量配置2.2.3 adb 错误解决2.2.4 其他SDK安装2.2.5 AVD虚拟机配置2.3 NDK配置2.4 QT 5.9.9安装配置2.4.1 QT安装2.4.2 配置安卓环境3.QT工程…

【Linux】进程信号 --- 信号处理

👦个人主页:Weraphael ✍🏻作者简介:目前正在学习c和算法 ✈️专栏:Linux 🐋 希望大家多多支持,咱一起进步!😁 如果文章有啥瑕疵,希望大佬指点一二 如果文章对…

Java---异常

乐观学习,乐观生活,才能不断前进啊!!! 我的主页:optimistic_chen 我的专栏:c语言 ,Java 欢迎大家访问~ 创作不易,大佬们点赞鼓励下吧~ 文章目录 什么是异常异常的分类编译…

安装 VMware vSphere vCenter 8.0

安装 VMware vSphere vCenter 8.0 1、运行安装程序 2、语言选择中文 3、点下一步 4、接受许可协议,点下一步 5、填写部署vCenter服务的ESXI主机IP地址以及对应ESXI主机的账号密码,这里将vCenter服务部署在192.168.1.14这台ESXi主机上 6、接受证书警告 7…

新手小白的pytorch学习第十弹----多类别分类问题模型以及九、十弹的练习

目录 1 多类别分类模型1.1 创建数据1.2 创建模型1.3 模型传出的数据1.4 损失函数和优化器1.5 训练和测试1.6 衡量模型性能的指标 2 练习Exercise 之前我们已经学习了 二分类问题,二分类就像抛硬币正面和反面,只有两种情况。 这里我们要探讨一个 多类别…

基于关键字驱动设计Web UI自动化测试框架!

引言 在自动化测试领域,关键字驱动测试(Keyword-Driven Testing, KDT)是一种高效且灵活的方法,它通过抽象测试用例中的操作为关键字,实现了测试用例与测试代码的分离,从而提高了测试脚本的可维护性和可扩展…

记录解决springboot项目上传图片到本地,在html里不能回显的问题

项目场景: 项目场景:在我的博客系统里:有个相册模块:需要把图片上传到项目里,在html页面上显示 解决方案 1.建一个文件夹 例如在windows系统下。可以在项目根目录下建个photos文件夹,把上传的图片文件…

[PM]产品运营

生命周期 运营阶段 主要工作 拉新 新用户的定义 冷启动 拉新方式 促活 用户活跃的原因 量化活跃度 运营社区化/内容化 留存 用户流失 培养用户习惯 用户挽回 变现 变现方式 付费模式 广告模式 数据变现 变现指标 传播 营销 认识营销 电商营销中心 拼团活动 1.需求整理 2.…