在文档内容搜索这件事情上,它能比 ChatGPT 做的更好

公众号关注 “GitHubDaily”

设为 “星标”,每天带你逛 GitHub!

b44e182255f643c7f8f6a8900cccbb49.png

自 OpenAI 开放 GPT3.5/4 的 API 接口以来,不少人开始基于它来搭建本地知识库,并尝试用 AI 训练自己的客服系统、智能助理、法律或金融顾问等等。

但是,这里面有一个问题,就是通过 ChatGPT 返回的答案,并不一定 100% 真实可信,这对于一些对内容比较严谨的论文、行业分析报告、法律合同文件来说,用 ChatGPT 就不是最优解了。

那么,怎么做到数据真实可信,在保证隐私安全的前提下,快速提升文档检索效率呢?

这里给大家推荐一个我最近在 GitHub 看到的开源解决方案:Semantra,一款方便人们进行语义搜索的开源工具。

与传统的文本匹配方式不同的是,它能够直接使用语义查询。

e4de5724c113baccf65049414e27884f.png

GitHub:https://github.com/freedmand/semantra

使用命令行即可快速运行,快速处理本地的文本和 PDF 文件。在任务完成后,它会在本地搭建一个 Web 搜索页面,让你能在界面上对文档进行查询。

Semantra 的设计目的是方便易用,可定制,并且注重隐私。适合需要在大量文档中进行精确搜索的个人或团体,例如新闻从业者、研究员、学生或教师等。

下面说下怎么安装和使用。

安装 & 使用

首先,你需要确认电脑当前的 Python 版本 >= 3.9。

最简单的安装方式是使用 pipx。如果你还没有安装 pipx,可以运行如下命令:

python3 -m pip install --user pipx 
python3 -m pipx ensurepath

打开一个新的命令行终端窗口,让 pipx 设置的新路径设置生效。然后运行:

pipx install semantra

这个命令会将 Semantra 安装到你的电脑上,并添加到环境变量中。

这时,你可以在终端中输入 semantra --help 命令,看看有没有对应的输出结果。

Semantra 的主要作用,是对存储在本地计算机上的文档(文本或 PDF 文件)进行操作,你可以选择处理单个或多个文档。

PS:所有文档在第一次运行处理时,花费的时间会比较长,但是第二次处理会快很多,按作者的说法,基本上能做到瞬间完成处理。

使用 semantra 命令,对单个文档进行处理:

semantra doc.pdf

同时处理多个文档:

semantra report.pdf book.txt

文档处理成功后,将在本地启动一个 Web 服务器。默认情况下,链接指向 localhost:8080

打开该链接后,便可以开始在此网页上对文档进行语义查询,并根据返回的结果,使用 +- 给结果打标签,优化下一次查找。

也即是说,你用的越多,它查找的结果就越准确。

该项目对文档的处理有两种方式:「内嵌模型」和调用「OpenAI API」。默认是用的 MPNet 语言模型。

如果你电脑配置还过得去,或者想离线处理文档,可以优先选择下载大语言模型,这种方式可以最大程度保证你的隐私安全。

如果想用 OpenAI API,项目也提供了相对应的方案,不过所产生的 Token 消耗,你需要自行承担。

针对这两种方案,作者都在 GitHub 中给出了详细文档,这里便不再赘述。

具体选用哪个,我个人建议是,在这个需求上,没必要用 OpenAI,因为语义理解,大部分语言模型已经做的很不错了。

ChatGPT 的主要能力,是基于它原有知识,帮你发散思维,给你提供多种解决方案。在文档查询这件事情上,只需要 AI 能够清晰理解我们的表达,并给出明确指向即可。

自 ChatGPT 火了之后,很多人都想着把所有工作交给它来处理,但面对一些需要保证数据真实性、操作严谨性的工作,强行让 ChatGPT 来处理, 反而是一种舍本逐末的行为。

这也是 semantra 项目本次给我的最大启发。

如果你想了解更多有趣、实用的 AI 技术,以及 ChatGPT 新进展,欢迎点击下方链接,加入我们社群进一步交流探讨。

👇 每个进群的人,都会收到我们赠送的一枚 ChatGPT 账号。

社群入口:ChatGPT 社群,正式上线!

为了能够第一时间接收到文章推送,建议大家给 GitHubDaily 公众号加个星标。

cadc2b2e096f6e0f559e3780ccdba381.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41148.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:如何快速复制粘贴Python代码?

如何快速复制粘贴Python代码? 如果你是一名有10年Python编程经验的工程师,那么你一定知道Python的优点之一是它所拥有的简洁而优美的语法。然而,当你需要复制大量的Python代码时,手动复制粘贴会浪费很多时间和精力。 在本文中&a…

两年网罗13位扫地僧,阿里达摩院最新架构完整曝光

谁在驱动达摩院? 阿里达摩院,这是马云一手发起创办、并且是退休前最看重的人才聚集地。 号称要 3 年投入超1000 亿人民币,重点进行基础科学和颠覆式技术创新研究。 如今,2年已过,达摩院驱动下,阿里也有了新…

Github账户开启双重验证(two-factor authentication)

GitHub官方教程是这个:https://docs.github.com/en/github/authenticating-to-github/configuring-two-factor-authentication 但是过程没那么简单,先说一下大概: 大概是鼠标点头像旁边的小箭头,出现下图,然后点击Se…

IOS学习之——mac 图片无法在windows 显示(黑图的问题)

很多想要把mac png图片传给window 电脑上无法正常显示,有的显示白图,有的显示黑图,其实很简单,http://bbs.feng.com/read-htm-tid-3598951.html 打开这个网址 下载其中的内容, 转换一下就可以显示了。 显示效果如图

mac修改用户头像时显示照片图库未找到图片

上次重装系统后,导入时间机器的备份后,会有两个照片图库。或者不小心把原来的照片图库删了,之后再重新创建照片图库。这两种情况在修改用户头像的时候(包括修改苹果ID账号的头像)都会发现找不到默认的照片图库路径了&a…

Github 图床无法正常显示图片-解决

Github 图床无法正常显示图片-解决 前 言:此篇为上次搭建的 Typora PicGo Github 笔记系统续篇,解决 Github 图床无法正常显示图片问题。 方案一:补充本地的hosts文件 (此前已设置过的请看方案二) 1、打开文件&am…

Mac上浏览器无法联网的解决方法

最近更新了macOS Monterey 12.6.2,更新完之后发现自带的Safari浏览器与Google浏览器连不了网了,而其他应用程序依旧可以正常使用。排查一些原因后发现是DNS故障。下面提供解决方法。 步骤一: 桌面点击前往,选择前往文件夹 步骤二&…

移动硬盘在mac上无法显示 读不出来-(刷新)

实际上以下没有什么卵用的,等你操作完下面的,MAC已经实别出来了,实际就是等,等个10开分钟就好。特别是你硬盘使用量高的,mac需要时间去读取,因此其实USB插好,等就好了。 移动硬盘在mac上无法显示…

【已解决】windows电脑上无法打开iPhone中的照片

出门旅游后,想必很多小伙伴的手机里都会存下一大堆照片,回来后想直接导入Windows查看筛选,可有些人会发现无法显示图片的内容,提示不支持该格式或文件损坏,这是为什么呢? 这是因为用iPhone手机的话&#xf…

Mac突然无法连网 或 连上网可以上QQ、微信等,但无法打开网页

目录 一、操作 1、设置个人静态ip 2、改变DNS为114 或 8 3、重启电脑 二、其他 1、一般严谨做法,首先要ping 2、常见疑问 一、操作 1、设置个人静态ip 2、改变DNS为114 或 8 高级,DNS 3、重启电脑 二、其他 1、一般严谨做法,首先要…

picgo 上传成功,无法显示图片

picgo 腾讯云踩坑记录 将图片上传云端,方便访问,在安装时遇到到了一些问题,在这里记录解决的办法。首先我的使用场景是 typora ,将图片上传云端,在发布分享笔记时就无需重新上传本地图片了!!t…

解决Mac中微信\QQ无法截图的问题

第一种:Mac中没有给微信授权 截图时,提示没有给微信或者QQ授权截取屏幕的权限1.依次选择,【系统偏好设置】->【屏幕录制】->【隐私】,将「微信」应用勾选上。2.设置完毕后,重启微信,就可以正常的使用快捷键进行…

macbook无法打开移动硬盘 为什么mac上显示不了移动硬盘

今天在将硬盘插入macbook后就发现没办法打开移动硬盘了,经过一番仔细排查后,总算解决了这个问题。下面就来简单描述下为什么macbook无法打开移动硬盘,为什么mac上显示不了移动硬盘。 一、macbook无法打开移动硬盘 macbook目前支持市面上绝大…

mac上qq 聊天记录中图片不显示 的解决办法

2019独角兽企业重金招聘Python工程师标准>>> /Users/yourname/Library/Containers/com.tencent.qq/Data/Library/Application Support/QQ 找到上面这个路径,然后把文件夹里你的号码文件夹删除掉,就可以了,记得把yourname改成你的用…

mac上html无法显示图片,Safari 无法显示/加载网页图片解决方案

如果不想听我的啰嗦,直接跳到文章末尾看解决方案。 最近打开百度现实的内容,总是这,图片无法显示出来,可是打开其他网站又是正常的,这让我内心很崩溃。 ​忍受了好几天是在无法忍受,忍无可忍,不…

mac os (Windows 10也一样)下,opencv imshow 显示的图片无法关闭

mac os 下,cv2.imshow 显示的图片无法关闭 问题描述:解决方案: 问题描述: 一开始用jupyter lab,还以为是jupyter lab的问题。后面发现在pycharm里面一样出问题,参考各种博客后,代码如下&#x…

解决github图片不显示的问题(Mac版)

提交到GitHub上的图片发现无法访问,如图所示: 在网上查了一下,主要思路解决方法如下: 就是使用本地hosts文件对网站进行域名解析,一般的DNS问题都可以通过修改hosts文件来解决,github的CDN域名被污染问题也不例外&…

解决MacOS中访达缩略图、预览图、视频预览无法正常显示

问题来源 在Mac访达中通常会遇到系统卡顿导致mp4视频格式文件、照片无法预览这种情况。 解决方法 打开启动台,找到实用工具中的活动监视器 或者直接通过commandspace(空格键)打开聚焦中心输入活动监视器 在活动监视器中,在…

Github图片无法显示解决(Mac版)

标题Github图片无法显示解决(Mac版) 【问题如下】: 【解决】 及时更新github.com等一些域名对应的ip地址 ip地址查询网址,在该网址查询对应域名对应的ip,如: mac下:执行命令sudo vi /etc/hosts修改对应文件 # GitH…

在Mac上解决浏览器无法显示图片问题

一、问题描述 打开 https://support.apple.com/zh-cn/guide/iphone/iphfed2c4091/ios,无法显示图片,如图所示 二、问题分析 DNS无法解析图片地址,或者是加载图片的地址较慢 三、问题解决 步骤1:分析图片地址 通过浏览器开发…