PDF文件在线处理工具(侧重数理及论文)

因为频繁用到PDF文件,有时候需要编辑,有时候需要转成文字,需要OCR批量识别,有时候需要批量解析论文中的大量公式及表格,用手工截图毕竟太慢了,下面汇总一些常用的PDF解析工具,多数都引入了Ai辅助工具:

1、Doc2x(付费)
可以将 PDF 文件转换为 Markdown、LaTeX、DOCX
可以解析排版、数学公式、表格、图片、图表等,对包含表格和公式的文档处理效果较好,国内的不少大模型厂商在使用,中英文档处理效果比mathpix好。

体验地址:https://doc2x.noedgeai.com

2、gptpdf(开源)
只用293行代码,几乎完美地解析了排版、数学公式、表格、图片、图表等,上限是gpt-4o的能力,期待后续进步一步的迭代。

方法:
使用 PyMuPDF 库,对 PDF 进行解析出所有非文本区域,并做好标记
使用视觉大模型(如 GPT-4o)进行解析,得到markdown 文件

github:https://github.com/CosmosShadow/gptpdf

3、RAGFlow(开源)
RAGFlow是基于深度文档理解的开源 RAG(检索增强生成)引擎,为了解决幻觉问题,项目方在文档解析模块做了创新,采用了自创的deep document understanding方法

支持Word、幻灯片、Excel、txt、图像、扫描件、结构化数据、网页等复杂的非结构化数据解析,包含各种不同场景模版,比如发票、简历、财报等

github:https://github.com/infiniflow/ragflow

4、mathpix(据说claude数学能力强因为用了mathpix,付费)

可以解析文本、数学、化学、手写识别、表格、外语和完整PDF文档,输出LaTeX 、Markdown、Word等格式。
支持类似谷歌的搜索功能。

体验地址:https://mathpix.com

5、庖丁PDFlux(国产,但是付费)
提取 PDF / 图片中的表格和文字,AI 智能生成摘要/搜索/改写/翻译。

体验地址:https://pdflux.com

6、pix2text(开源)
支持多语言,可以识别图片中的版面、表格、图片、文字、数学公式等,输出Markdown 格式
也可以把整个 PDF 文件(PDF 可以是扫描图片或者其他任何格式)转换为 Markdown

体验地址:https://huggingface.co/spaces/breezedeus/Pix2Text-Demo

github:https://github.com/breezedeus/Pix2Text

7、TextIn
可以识别文档或图片中的文字信息,按常见阅读顺序进行还原。
支持标准的年报、文书、函件、合同等文档,兼容扫描文档和电子PDF文件。

体验地址:https://textin.com/experience/pdf_to_markdown

8、腾讯云文档识别 (量小优先选用吧)
可将图片或PDF文件转换成Markdown格式文件,包括表格、公式、图片和文本等,并转换为阅读顺序,可将文档内容转换成阅读格式(其实很强大,微信拍照单页识别也可以)

体验地址:https://ocrdemo.cloud.tencent.com

9、marker(开源)
支持多语言多文档类型,针对书籍和科学论文做了优化。

github:https://github.com/VikParuchuri/marker

10、paddle(付费)
通用表格识别是飞桨特色的端到端表格识别系统,可精准预测论文、报告等文档中的表格位置和内容。

体验地址:https://aistudio.baidu.com/community/app/91661/webUI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/374354.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

项目管理工具评测:2024年国内外最顶级的10款项目管理工具排行

国内外涌现出众多优秀的项目管理工具,它们各自在功能、易用性、集成能力等方面展现出独特优势。以下是国内外顶级的10款项目管理工具: 一、进度猫 推荐理由:进度猫以其直观的任务管理和进度跟踪功能,成为许多团队和项目的首选…

javaweb学习day4--《maven篇》maven的项目创建及其依赖管理详解(基于最新版本的idea)

一、前言 javaweb学习的第四天,不知道今天你们是否坚持下去了。今天学习到的是maven,温馨提示一下,idea中自带maven不用自行去下载了。前期的配置工作太过复杂了,小编感觉自己能力有限并不能将其讲的太清楚,还请大家在…

PlugLink的技术架构实例解析(附源码)

在探讨PlugLink这一开源应用的实际应用与技术细节时,我们可以从其构建的几个核心方面入手,结合当前AI编程的发展趋势,为您提供既有实例又有深度解析的内容。 PlugLink的技术架构实例解析 前端技术选型 —— layui框架: PlugLi…

maven——(重要)手动创建,构建项目

创建项目 手动按照maven层级建好文件夹,并写上java,测试代码和pom文件 构建项目 在dos窗口中执行如下命令 compile编译 当前maven仓库中什么都没有。 在pom所在层级下,执行: mvn compile 就开始显示下面这些,…

MQTT是什么,物联网

写文思路: 以下从几个方面介绍MQTT,包括:MQTT是什么,MQTT和webSocket的结合,以及使用场景, 一、MQTT是什么 MQTT(Message Queuing Telemetry Transport)是一种轻量级的发布/订阅消息…

JavaScript(7)——数组

JavaScript中数组的用法与Java差不多&#xff0c;但还是有一些区别 声明数组 语法: let 数组名 [数据1,数据2,数据...] let arr new Array(数据1,数据2,...数据n) 添加数据 数组.push()方法将一个或多个元素添加到数组末尾&#xff0c;并返回该数组新长度 <script>…

[k8s源码]1.client-go集群外部署

client-go是由k8s发布且维护的专门用于开发者和kubernetes交互的客户端库。它支持对k8s资源的CRUD操作&#xff08;create、read、update、delete&#xff09;&#xff0c;事件监听和处理&#xff0c;访问kubernetes集群的上下文和配置。 client go是独立于kubernetes集群之外…

SpringBoot项目架构实战之“网关zuul搭建“

第三章 网关zuul搭建 前言&#xff1a; 1、主要功能 zuul主要提供动态路由&#xff08;内置ribbon实现&#xff09;和过滤&#xff08;可以做统一鉴权过滤器、灰度发布过滤器、黑白名单IP过滤器、服务限流过滤器&#xff08;可以配合Sentinel实现&#xff09;&#xff09;功能…

css简单易懂的加载动画,看不会算我输好吧

效果展示 步骤 第一阶段 先准备结构&#xff0c;并且放置12个div&#xff0c;每一个div旋转30*n度&#xff0c; 做一个圆圈 dom <div class"modal"><div class"loading"><div class"item1"></div><div class&quo…

Vue 项目中 history 路由模式的使用

在最近帮客户开发的一个项目中&#xff0c;由于项目的特殊性&#xff0c;需要用到 Vue 中的 history路由模式。该模式使用时会涉及到“上传白屏”和“刷新 404 问题”。在帮助客户解决这两个问题的过程中&#xff0c;总结问题的解决方案并记录下来&#xff0c;希望能够保留这篇…

分布式训练

一、分布式计算 跟多GPU不同是&#xff1a;数据不是从主存拿的&#xff0c;是在分布式文件系统拿的&#xff0c;有多个工作站&#xff0c;工作站中有多个GPU&#xff0c;通过网络读取数据到GPU中&#xff0c;GPU通过网络接收到来自参数服务器的参数进行运算计算梯度&#xff0c…

怎样免费在线文字转语音?5个配音工具一键包揽

日常在享受有声读物的乐趣时&#xff0c;不知道大家是否也曾渴望将手中的精彩文本以生动的声音演绎出来&#xff1f; 无论是为了自我沉浸&#xff0c;还是为家人朋友创造独特的听觉盛宴&#xff0c;一款支持文本转语音的配音软件都能成为你的得力助手。它不仅能让文字跃然耳边…

【C++深度探索】全面解析多态性机制(一)

hello hello~ &#xff0c;这里是大耳朵土土垚~&#x1f496;&#x1f496; &#xff0c;欢迎大家点赞&#x1f973;&#x1f973;关注&#x1f4a5;&#x1f4a5;收藏&#x1f339;&#x1f339;&#x1f339; &#x1f4a5;个人主页&#xff1a;大耳朵土土垚的博客 &#x1…

演唱会售票系统(Springboot+MySQL+Mybatis+BootStrap)

本演唱会售票系统结合了多个流行的技术栈&#xff0c;提供了全面的功能模块&#xff0c;包括用户和管理员两个角色。前端采用Bootstrap框架设计响应式界面&#xff0c;后端采用Spring Boot和MyBatis Plus实现业务逻辑和数据库操作&#xff0c;Sa-Token确保系统的安全性。通过这…

深入分析与解决4.3问题:iOS应用版本更新审核被拒原因解析

深入分析与解决4.3问题&#xff1a;iOS应用版本更新审核被拒原因解析 在iOS应用开发和发布过程中&#xff0c;遇到4.3问题&#xff08;设计 - 垃圾邮件&#xff09;是一个常见且令人头疼的情况。即使您的应用已成功发布其第一个版本&#xff0c;但在进行版本更新时&#xff0c…

【机器学习】初学者经典案例(随记)

&#x1f388;边走、边悟&#x1f388;迟早会好 一、概念 机器学习是一种利用数据来改进模型性能的计算方法&#xff0c;属于人工智能的一个分支。它旨在让计算机系统通过经验自动改进&#xff0c;而不需要明确编程。 类型 监督学习&#xff1a;使用带标签的数据进行训练&…

队列+二叉树广度优先

题目出自力扣-n叉树的层序遍历 我是原始人&#xff0c;递归写出一道题就只有递归思路&#xff0c;开始的想法是写深搜函数&#xff0c;传一个随着层数递增的int参数q&#xff0c;节点空就return&#xff0c;否则遍历所有节点&#xff0c;每个子节点又以q1为层数递归&#xff…

C++ | Leetcode C++题解之第226题翻转二叉树

题目&#xff1a; 题解&#xff1a; class Solution { public:TreeNode* invertTree(TreeNode* root) {if (root nullptr) {return nullptr;}TreeNode* left invertTree(root->left);TreeNode* right invertTree(root->right);root->left right;root->right …

js字符串文字添加不同颜色,replace的妙用$1...$9

更改字符串第一个数字为红色显示&#xff0c;第二个数字为黄色显示 $1匹配的是正则第一个括号选中的字符串&#xff0c;可以使用正则不断用括号匹配然后更改样式 const testStr "剩余12个名额&#xff0c;截止时间12月25日" testStr this.testStr.replace(/(\d)(\D…

简单状压dp(以力扣464为例)

目录 1.状态压缩dp是啥&#xff1f; 2.题目分析 3.解题思路 4.算法分析 5.代码分析 6.代码一览 7.结语 1.状态压缩dp是啥&#xff1f; 顾名思义&#xff0c;状态压缩dp就是将原本会超出内存限制的存储改用更加有效的存储方式。简而言之&#xff0c;就是压缩dp的空间。 …