零代码编程:用ChatGPT批量识别图片PDF中的文字

有些PDF页面是图片格式,要怎么批量把图片中的文字识别出来?借助ChatGPT可以轻松完成这个任务。

首先要安装一些相关的软件和Python库。

安装tesseract-ocr(OCR)软件,最新版的是tesseract-ocr-w64-setup-v5.3.0.20221214.exe ,下载地址是https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.3.0.20221214.exe

要从图片中识别字符,就得使用光学字符识别(OCR)技术。

注意安装中文字库。

然后把D:\Program Files (x86)\TesseractOCR 添加到环境变量。

安装OCR库::pip install pytesseract

安装poppler-windows软件。Poppler 是一个用来生成 PDF 的 C++ 类库,从 xpdf 继承而来。它使用了很多先进的类库例如 freetype 和 cairois 来达到更好的输出效果,同时也提供了一组命令行工具包。下载地址:https://github.com/oschwartz10612/poppler-windows/releases/tag/v23.07.0-0

安装完成后,添加到系统环境变量:D:\Program Files (x86)\poppler-23.07.0\Library\bin

然后在ChatGPT中输入提示词:

写一段Python程序,实现PDF文件中图片识别出文字的任务。具体步骤如下:

F盘“北交所精选层招股说明书”文件夹里面有很多PDF文件,用pdf2image库将PDF文件第一页转为PNG图片,保存图片到“北交所精选层招股说明书”文件夹;

用pytesseract库将图片识别为文本,保存文本文件到“北交所精选层招股说明书”文件夹;

注意:每一步都要输出信息;图片中的文本为中文字符;

这是PDF文件中的图片:

这是识别出的文字:

效果还是不错的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17101.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

android 调用短信,Android实现接收短信和发送短信功能

在学接收短信和发送短信之前,先简单介绍一下 SMS 短消息服务。 SMS(Short Message Service,短信息服务)是一种存储和转发服务。也就是说,短信息并不是直接从发信人发送到接收人,而是始终通过 SMS 中心进行转发。如果接收人处于未连接状态(可能电话已关闭),那么信息将在接收…

SMS发送接收流程

1.短信发送的起点是在短信编辑界面,点击发送按钮开始的 public class ComposeMessageActivity extends Activity ...{ ....public void sendMessage(boolean bCheckEcmMode) { ....//这里面准备发送的数据处理,比如生成PDU数据,存储到数据mWorkingMess…

android短信接收处理和发送

关于短信接收处理方面,当前已经有一些app做的比较好了,比如发给手机发验证码验证的问题,很多app在手机接收到验证码后,不需要输入,就直接可以跳过验证界面,这就是用到了对接收到的短信的处理。至于短信的发…

被 ChatGPT “霍霍”的文学界:由 AI 编写的投稿激增,17 岁老牌杂志宣布暂停征稿...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 上线近三个月,这把名为 “ChatGPT” 的火,燃到了科技圈、烧到了教育界,如今终于也向文学界蔓延了——越来越多人开始用 ChatGPT 写文章甚至书籍。 在众多“尝鲜者”…

再不玩Midjourney Ai 绘画你就落伍了 超详细入门指南

本文来源:chatgoo 认识的设计朋友,他已经用Midjourney,从每天工作6小时,变成每天工作2小时了。 尤其是当甲方自己都不明确需求时,可以快速给出多种风格图片,确定后进行精修。标准版也就30美刀而已。 设计、…

2023 IJCAI YES 报名通道正式开启!快来上海与学术大咖、青年学者们来一场双向奔赴吧...

内容一览:2023 IJCAI YES 报名通道正式开启。本次盛会中,HyperAI超神经将作为协办单位参与其中。 关键词:2023 IJCAI YES WAIC IJCAI ChatGPT 的出现引领了一场人工智能界的狂欢,在科技巨头们前赴后继打响「诸神之战」的同…

万字干货:10 位科学、人文大咖论道,Max Tegmark 贡献思想火花,共同直面 AI 奇点时刻...

点击蓝字 |关注我们 2023 年 7 月 7 日,由世界人工智能大会 (WAIC) 组委会指导,国际人工智能联合会 (IJCAI) 中国办公室、华东师范大学联合主办,华东师范大学政治与国际关系学院承办,华东师范大学奇点政治研究院、安远…

马斯克称英伟达不会永远垄断AI芯片市场;苹果大幅削减MR头显销售目标;谷歌DeepMind发布新AI系统丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 星环科技:拟定增募资不超过15.2亿元 用于数据分析大模型建设等项目 6月7日,星环科技公告称,拟定增募资不超过15.2亿元,用于数据分析大模型建设项目、智能量化投研…

重磅!2023 智源大会完整日程公布,百场精彩报告研讨邀你参加

2023北京智源大会将于6月9日召开,我们邀请AI领域的探索者、实践者、以及关心智能科学的每个人,分享研究成果、交换实践经验、建立联系合作。本次大会核心议题包括:图灵奖得主Yann LeCun等领衔探讨大模型发展现状与未来趋势;未来生…

生成式 AI 或致全球三亿人失业

大家好,我是校长。 前几天看到一条新闻:几个月来,越来越多的知名人士预计,年内大热的 ChatGPT 有望掀起一场新的工业革命。而纵观历史,历次工业革命往往会深远改变当时的社会结构 —— 从机械织布机到内燃机再到第一台…

被陆奇文章刷屏了,细思极恐

大家好,我是校长。 最近陆奇的文章在网络上刷屏了。 2023 年 4 月 22 日,陆奇在上海举行小规模演讲,讲了他目前对大语言模型的一看自己的思考和看法。我看了腾讯新闻发布的长篇文章了,演讲的内容质量确实很高。 陆奇是谁呢&#x…

科大讯飞上半年营收78亿元;福特与英特尔协同开发自动驾驶;蚂蚁拟回购约7.6%股份丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 千方科技:公司目前已经完成自动驾驶产业链布局,并不断完善中 7月10日,千方科技在互动平台表示,公司从2015年开始布局无人驾驶相关业务,主要涉及如下几…

Python实现彩票双色球、大乐透随机预测出号

彩票要是能通过预测都能拿奖,那也是需要攒多少人品才行呀 老老实实做好事,多积德行善,做公益 近期出差的时候,闲来没事,下班路过彩站每天都顺便买一张彩票。 同时,就引发了对所学专业的应激反应&#xff…

放大招啦,用Python来预测双色球

一、需求简介 之前偶然见到一位网友提出了关于双色球数据的分析需求,感觉颇有趣味,便着手操作了一番。如下为某双色球发布站的页面,可以看到每期会产生红/蓝两种颜色的数字,其中红球为 33 选 6,蓝球为 16 选 1&#x…

java实现双色球彩票中奖游戏

目录 前言 一、游戏规则 二、代码实现 编程思想 代码展示 三、结果展示 前言 根据游戏规则,设计一个双色球号码竞猜游戏,根据规则,获得不同的奖项和奖金。 一、游戏规则 二、代码实现 编程思想 设置两个数组,分别记录输入的双色…

Python项目分析:预测双色球福利彩票中奖号码(随便玩玩,不要当真)

前言 双色球是中国福利彩票的一种玩法。 红球一共6组,每组从1-33中抽取一个,六个互相不重复。然后蓝球是从1-16中抽取一个数字,这整个组成的双色球 python从零基础入门到实战,想要源码数据集的,戳我 今天&#xff…

用Python预测双色球福利彩票中奖号码(请不要当真)

前言 双色球是中国福利彩票的一种玩法。 红球一共6组,每组从1-33中抽取一个,六个互相不重复。然后蓝球是从1-16中抽取一个数字,这整个组成的双色球 python从零基础入门到实战 今天,我们就用Python来统计一下各号码的中奖概率&…

Python预测双色球福利彩票中奖号码(随便玩玩,不要当真)

前言 铁子们应该都是听说过双色球的吧 双色球是中国福利彩票的一种玩法 红球一共6组,每组从1-33中抽取一个,六个互相不重复。然后蓝球是从1-16中抽取一个数字,这整个组成的双色球 今天,我们就用Python来统计一下各号码的中奖概…

双色球的程序代码

双色球其实是有个很有趣的小游戏,仅供大家参考和学习,别无他意. 代码: package test;import java.util.Arrays; import java.util.Random; import java.util.Scanner;public class ShuangSeQiu {public static void main(String[] args) throws InterruptedException {//彩票双…

Python项目分析:预测双色球福利彩票中奖号码

前言 大家早好、午好、晚好吖 ❤ ~ 双色球是中国福利彩票的一种玩法。 红球一共6组,每组从1-33中抽取一个,六个互相不重复。 然后蓝球是从1-16中抽取一个数字,这整个组成的双色球 python从零基础入门到实战,想要源码数据集的&…