借助 AI 我为 Raycast 制作了一个可以 OCR 中文的插件

本文速通:最近用了 Raycast,真的很棒!但是没有好用的中文 OCR 插件,不怎么会写 Typescript 的我,在 ChatGPT 的指导下,整了一个小插件。开发过程非常不严肃,充满了野路子,不敢妄称指南,所以就用指北替代一下吧。

原来少数派也用 Raycast?

最近,少数派首页上的一篇文章吸引了我的注意:Raycast 该怎么用?我们帮你准备了一份实用指南。

其实我关注 Raycast 也有一段时间了。在他们初期的 Beta 阶段时,我就已经申请了内测。作为一个和 Spotlight 对标的产品,在原有搜索功能的基础上,对搜索结果进行了更好的1现。同时,丰富的插件社区也让他的可用性大大增强。

作为联想,我最优先想到的对标产品是 Utools 和 Alfred,都有很好的搜索结果和丰富的第三方插件社区。但是他们各自也都有一些小小的问题。

首先聊聊 Utools。不得不说 Utools 在 MaxOS 上的搜索做的确实不够优秀,且在性能上也有不小的问题,使用翻译等网页插件响应时间过长。在搜索上,Utools 也不尽如人意。在 Windows 上,有 Everything 对 NTFS 格式的加持,Utools 也确实有足够优秀的效率。而在 Linux 和 MacOS 上,姑且不说没有了搜索性能带来的红利,插件设计也发生了严重割裂。和 Windows 的文件查找使用了不同 UI ,而且不能对文件进行预览。这些都限制了 Utools 在 Mac 以及 Linux 平台上取得更大的成功。而且在前些年,不合理地收费行为属实是让 Utools 口碑崩坏的一张烂牌。在剪贴板、录屏等最吸引用户的核心插件上,Utools 加上了「仅限会员」的使用限制。但是日子还得过,而且有好心人提供的第三方插件作为替代,我也就这么用下去了。

再聊聊 Alfred。作为老牌产品,Alfred 的设计非常精妙,不得不提的是,它对开发者来说出乎意料友好。哪怕是编程小白,面对 Alfred 的插件编辑也可以一目了然。既有丰富的节点可以拖拽使用,也可以在 Shell 节点中进行各种操作,兼顾了不同编程能力的用户。相比之下,Raycast 和 Utools 的开发依赖 Typescript 和 JavaScript,对开发者还是有相对比较高的门槛的。以及最重要的一点,Alfred 有一点小贵,而且其中大部分功能都有平替。作为价格敏感的用户,我最终还是没有选择长期使用 Alfred。

所以,在 Raycast 横空出世之后,我果断选择了这一新秀。精致的 UI 以及对苹果原生的设计吸引了我。此外 Raycast 的竞争力还凸显在 AI 上。它将 ChatGPT 中的许多功能直接接入,提供了「文章润色」、「代码修改」等内置 Prompt,极大的提升了生产力。根据我个人的 OpenAI API 的使用频率,我的月使用量在 $8-12 之间不等。这个区间和 Raycast 的价格区间不谋而合。如果我没有充值 ChatGPT,我大概率会直接选择 Raycast Pro 了。

所以……我最终的决定是,使用「免费版 Raycast」 + 「ChatGPT 插件」。毕竟自己还是个学生党,能省点还是省点吧。Pro 提供的 AI 可以用 ChatGPT 插件替代。免费版可以提供一周的剪贴板记录,这对我个人而言也非常够用,Pro 提供的过多记录反而会有潜在的安全问题。

在整理了自己的需求之后,我慢慢地把自己 Utools 的插件迁移到 Raycast 中,大部分 Utools 工具在 Raycast 上都有对应的插件,而且 Raycast 的全局快捷键功能让插件使用变得更加方便。一切都是那么完美,直到昨天晚上和朋友聊天的时候,发生了一些尴尬的小插曲。中途想将网页图片上的文字复制给他,所以使用了 Raycast Store 中的 「Recognize Text」 插件。可是不论我怎么扫描,都只能识别出乱码。一开始以为是 OCR 的问题,以为图片不够清楚。可是图片存储到本地之后,MacOS Preview 中原生的 OCR 是可以进行精确识别的,那么问题就锁定在了插件上。

ChatGPT 助力,开发不再难

如果只是需要使用插件可以跳过本章节,在后记 1 和 2 中对插件如何使用进行了介绍。

既然发现了问题,就要解决问题。而从其他成功案例中汲取经验无疑是一条捷径。作为一个 Utools 的老用户,对它的各种 OCR 文字识别插件都有一定的使用经验。大体上来看,Utools 大部分的 OCR 插件都是通过调用 API 进行实现的。为此,当时我自己还注册了搜狗和百度账号,当时的 API Key 和 Secret Key 还有存留。所以我脑海中一个最为直观的想法是:直接做个新的 OCR 插件,支持 Baidu OCR API。

虽然说起来轻松,但是我看到 Raycast 的插件开发介绍页面时,心里还是咯噔了一下。上来就是一个import { ... } from '@raycast/api',陌生的包让我直接感到了害怕。不过稍加浏览之后,发现 raycast package 里的各个组件模块都有丰富且完善的例子作为参考。稍稍放松了下来之后,就开始莽起来了。

首先整理思路:我需要的是获取 OCR API Key,连同将剪贴板中的图片一并送入 OCR API,将最后的结果复制回剪贴板中。拆解之后,就是 4 个简单的小步骤:

思路明确之后,开始逐个击破。在 Raycast Create Extension 中填写了插件的名称、功能等信息之后,使用模板创建了一个插件:

插件的基本信息和模块在 package.json 中进行注明,参考官方指南的 Manifest 页面。这里参考了 Raycast preferences 中的说明,设置了 API Key 和 Secret Key 的输入窗口。直接把 Key 在代码中写死确实过于僵硬了。

代码主体则在 src 目录下,开发语言是 Typescript。我的个人开发习惯是模块化设计,我把最重要的 OCR 功能模块进行了独立实现,放在utils.ts文件中。为了更好的使用 Baidu OCR,我在官方文档中进行了浏览和检索。出乎我意料的是,官方不仅给了 API 手册,还给了一些调试工具。最让我惊讶的是,官方直接给了不同语言的范例。这下好了,可以直接可以抄作业了。

登录百度智能云的控制台,选择「文字识别」服务。在「公有云服务」-「API 在线调试」中,可以看到如下的界面;

直接拿了 Node.js 的「通用文字识别-标准版」的代码。不过代码是 JavaScript 的,和 Typescript 有一些差异,直接编译会有一些报错。而我个人其实并没有太多的 Typescript 开发经验,仅限于在别人的代码上涂涂改改。所以我借助了 Raycast AI 的帮助,趁着自己还没结束 Beta 版本的使用,赶快多薅点羊毛。

问题在 import 模块上,拷贝过来的代码上有大量的require('xxx')。在 JavaScript 中,确实没有问题,但是 Typescript 中发生了报错。我认为这个大问题是两个潜在问题共同构成的:

Raycast 的回复也让我非常满意:

之后是关于剪贴板的处理,Raycast Clipboard 中有详细的关于复制和粘贴的接口说明。初次使用的时候我遇到了一些小小的问题,尽管我获取了剪贴板中的图片路径,但是无法对文件内容进行读取。为了测试,我使用console.log输出了剪贴板中文件的路径:

我的个人猜测是,可能是其中的 %20 导致的,其正确对应的字符应该是空格,而编码之后变成了这样的形式。那么事不宜迟,问问 GPT 我应该怎么读文件:

两次问答之后得出了我想要的结论,让我非常满意。之后的步骤就是将之前的工作串联起来,我也很快就弄出了自己满意的插件:raycast-baidu-ocr。

在这里再次对 ChatGPT 表达诚挚的感谢。出于偷懒,我直接对剪贴板中的图片进行识别。于是自用的 Baidu OCR 插件就这么诞生了。

做完一切之后,我也想试着发布这个插件,但是随之而来的繁琐步骤也确实让我产生了动摇。

在 Raycast Publish 上对插件的发布进行了详细的规范:

规范确实是一件好事情,不过这些也确实打消了我共享插件的热情。但是我个人觉得,Raycast 的插件社区未来一定会有更好的发展空间,有了规范的插件社区管理和运维,就不容易出现管理上的问题了。

所以作为一个懒人,我就直接偷个懒,选择在少数派上发布自己的插件了。使用方法也非常简单,在下载 Github 上的代码之后,使用 Raycast 的 「Manage Extensions」,即可将插件导入:

之后在插件配置中输入自己的 API Key 和 Secret Key 即可使用:

由于这款插件更多的目的是自用,所以使用方法和 Recognize Text 插件有所区别:

这里如果少数派有好心人愿意帮忙,可以一起交流探讨一下后续发布的事情,非常欢迎大家和我进行讨论交流。此外还有很多提升和发展的空间:

思来想去,我觉得目前位置的 OCR 插件不应该这么鸡肋。如果 MacOS 的 Preview 都能够自动识别中文和多语种混合,那么 Raycast 的 OCR 理应也可以做到才对。

在这种好奇心驱使之下,我重新审查了一下 「Recognize Text」 的代码。他的 OCR 确实也是直接调用了 MacOS 原生的接口,而且通过 Swift 语言,直接对 OCR 部分进行了封装。那么 Swift 中 OCR 能否支持中文呢?ChatGPT 给出了肯定的答案,并且塞给了我参考代码:

之后的事情也就变得简单起来了,具体步骤如下:

首先 Clone 了原项目的地址:ScreenOCR - Github。之后同样在「Manage Extensions」中导入插件。

在项目的Sources/recognize-text/main.swift的 68 行加上中文和英文的支持:

request.recognitionLanguages = ["zh-Hans", "en"]

最后,编译 Swift 模块并打包插件:

npm run build-swiftnpm run build

此时,Recognize Text 插件也能够识别中文了。

小结

这次的开发故事确实是一个非常不严谨的整活。代码风格、开源规范等一系列的开源社区的规矩我也没有过多注意,也请大家轻喷。毕竟是一个自用项目,我觉得勉强也说得过去。Raycast,确实是一个好工具。而 ChatGPT 也确实是我现在日常开发的助力神器。期待 GPT 早日帮我处理发布、代码规范等后续的繁琐步骤,真正解放生产力。

后续

关于多语种识别的问题已经向 ScreenOCR 作者提交 Pull Request,相信多语种的 OCR 很快就会正式进入 Raycast Store 了。

> 下载 少数派 2.0 客户端 、关注 少数派公众号,解锁全新阅读体验

> 实用、好用的 正版软件,少数派为你呈现

最后:下方这份完整的软件测试视频教程已经整理上传完成,需要的朋友们可以自行领取【保证100%免费】

在这里插入图片描述

软件测试面试文档

我们学习必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有字节大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

图片

整套资料获取

  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32271.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT令人触目惊心的地方

前两天,马斯克联合数千名AI科技人员,要求暂停巨型AI实验的新闻,想必大家都知道了。 这个消息挺爆炸,一度加剧了人们的恐慌情绪。 鸣哥当时灵光一闪,这件事ChatGPT是如何看待的? 于是我输入这一新闻事件&a…

卷积神经网络与循环神经网络实战 --- 手写数字识别及诗词创作

卷积神经网络与循环神经网络实战 — 手写数字识别及诗词创作 文章目录 卷积神经网络与循环神经网络实战 --- 手写数字识别及诗词创作一、神经网络相关知识1. 深度学习2. 人工神经网络回顾3. 卷积神经网络(CNN)3.1 卷积层3.2 汇集(池化&#x…

chatgpt赋能python:如何在Python中中断程序并退出程序

如何在Python中中断程序并退出程序 在Python编程的过程中,有时候我们需要中断程序的执行,并让程序退出。这在调试程序时尤为重要。本文将介绍Python中如何中断程序并退出程序。 使用sys.exit()函数 在Python中,我们可以使用sys.exit()函数…

常见快捷令与指令

快捷指令 ctrlc:复制 ctrlv:粘贴 ctrla:全选 ctrlx:剪切 ctrlz:撤销 ctrls:保存 altF4:关闭窗口 打开cmd的方式 开始Windows系统找到命令提示符 win键R 输入cmd打开控制台(推荐使用) 管理员身份运行:右键选择以管理员方式运行即可 …

linux基本功系列之chattr命令

文章目录 一. chattr命令介绍二. 语法格式及常用选项三. 参考案例3.1 给指定文件添加隐藏属性,阻止文件被修改:3.2 撤销i属性3.3 允许补充(追加)内容,无法覆盖/删除内容 总结 前言🚀🚀&#x1f…

外箱标签是怎么制作的

外箱标签设计都较为复杂,无论条码类型还是数据都比较多,且在出库时每个标签上的条码、数字一般都是流水变化的。外箱标签一般包含了供应商、收货人、产品编码、生产日期、发货日期等信息。下面我们就看看这样的外箱标签是如何制作的。 启动条码标签软件&…

5分钟包你搞懂箱形图分析!

最近有很多用户说到了年终需要回顾这一年的工作,根据这一年的数据看看有没有异常的情况,那么哪种图能够清晰直观地展现出这一信息呢? 答案只有一个,那就是... 箱形图 箱形图(英文:Box plot)&…

Python绘制箱型图-boxplot()

boxplot()语法格式如下: boxplot(x,notchnone,symnone,vertnone,whisnone,positionsnone,widthsnone,patch_artistnone,meanlinenone,showcapsnone,showboxnone,showfliersnone,boxpropsnone,) x:表示箱型图的数据。 sym:表示异常值对应的符号&#x…

【java基础】包装类,自动装箱和自动拆箱

文章目录 基本介绍包装类自动装箱自动拆箱包装类注意事项包装类比较包装器内容不可变 基本介绍 有时,需要将int这样的基本类型转换为对象。所有的基本类型都有一个与之对应的类。 例如,Integer类对应基本类型int。通常,这些类称为包装器&…

纸箱外观设计 包装盒版面设计 纸箱尺寸设计 纸箱纸盒包装设计 纸箱设计图

瓦楞纸板是由面纸、里纸、芯纸和加工成波形瓦楞的瓦楞纸通过粘合而成。根据商品包装的需求,瓦楞纸板可以加工成单面瓦楞纸板、三层瓦楞纸板、五层、七层、十一层等瓦楞纸板。 不同波纹形状的瓦楞,粘结成的瓦楞纸板的功能也有所不同。即使使用同样质量的面…

今年下半年程序员生存指南!

​ 见字如面,我是军哥! 今天早上一醒来发现今天都 7 月 3 日,2023 的上半年已经悄然无声的离开我们了,你今年上半年目标达成如何? 最近看到新闻报道 5 月份,我国青年失业率 20.8%,比 4 月还高了…

脉脉、兼职猫逐梦AIGC,在线招聘江湖酝酿新变?

配图来自Canva可画 求职难与招聘难同时出现,人力资源行业供需双方互相嫌弃的问题如何解决?人力资源平台给出了新答案——AIGC。 2023年是AIGC在人力资源市场集中爆发的一年。脉脉平台上线类ChatGPT产品“万能的脉友”;数字化灵活用工平台兼…

AutoGPT太火了,无需人类插手自主完成任务,GitHub2.7万星

点击上方“AI遇见机器学习”,选择“星标”公众号 第一时间获取价值内容 来自|机器之心 OpenAI 的 Andrej Karpathy 都大力宣传,认为 AutoGPT 是 prompt 工程的下一个前沿。 近日,AI 界貌似出现了一种新的趋势:自主人工…

Ubuntu下不能切换中文,qt creator无法输入中文,sogo输入法(详细步骤)

目录: 1、解决ubuntu 不支持切换中文,并安装sogo输入法步骤; 2、解决Qt Creator不支持中文输入: 详细步骤: 一、解决ubuntu 不支持切换中文,并安装sogo输入法步骤: 1、如果在键盘输入法系统中&a…

经典文献阅读之—OverlapNet

点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 作者丨lovely_yoshino 来源丨古月居 简介 我们在之前的博客中讨论了一些激光回环检测的方法,但是基本都是围绕着点云特征去做的,并未涉足过深度学习的相关方法,之前作者在查…

文献阅读——How to give an Academic Talk

How to give an Academic Talk v4.0 By Paul N. Edwards,School of Information University of Michigan The awful academic talk 令人讨厌的学术演讲
这一场景你也许经历了上百次:
演讲者走进房子低下头,坐在桌边,不几乎不能透过眼前的…

一分钟get✔一个文献阅读的最核心技巧(用的是小绿鲸文献阅读器)

文章目录 最最核心的技巧——建立个人语料库其他技巧思维导图模板以及导图和大纲的相互转换一键导入知网文献自定义数据库的网址翻译 博主申请的福利 最最核心的技巧——建立个人语料库 参考我的语料库标签 每读一篇 就积累一些语料, 这样写的时候 写引言&#xff…

英文文章写作|文献管理|​​​​​​​阅读文献|引用文献|国内文章

目录 英文文章写作 1.阅读10篇文献,总结100个常用句型和常用短语 2.找3-5篇技术路线和统计方法与你的课题接近的文章,精读 3.针对论文的每一部分,尤其是某种具体方法、要讨论的某一具体方面,各找5-8 篇文献阅读,充…

英文不好的人如何阅读外文文献?

文章目录 0 前言1 工具2 查找文献3 阅读4 总结 0 前言 疫情在家,又要赶毕业设计。会遇到诸多烦恼。学校没有购买相应的数据库,买了也不能远程访问,怎么才能下载外文文献?英语不好,怎么才能读懂外文文献?不…

经典文献阅读之--OverlapNet

0. 简介 我们在之前的博客中讨论了一些激光回环检测的方法,但是基本都是围绕着点云特征去做的,并未涉足过深度学习的相关方法,之前作者在查找《经典文献阅读之–BoW3D》资料时看到了一个比较感兴趣的工作《OverlapNet: Loop Closing for LiD…