ChatGPT结合本地数据_llamaindex

1 功能

大模型学习的主要是通用数据,而用户可能需要让ChatGPT在本地的知识库中寻找答案。
普通用户不太可能训练大模型;由于本地数据格式丰富,内容烦多,且考虑到使用成本和token大小限制,也不可能在每次提问时都将所有数据传给ChatGPT。
llamaindex提供了解决此问题的方法:通过ChatGPT把本地文本转成Embedding,然后在本地建立数据索引;询问时先在本地查询,再用ChatGPT将查询结果合成答案,llamaindex是用户数据和大模型之间的接口。

2 原理

2.1 模块

llama_index由三个主要模块组成:

  • 数据模块:用于读取本地或网络数据,并将大块文本切分成Node块。
  • 索引和存储模块:将文本块通过ChatGPT转换成Embedding嵌入表示存储在本地,构建本地知识库。
  • 搜索模块:根据使用者提出的问题,在本地知识库中定位可能的答案,然后将问题和答案传给ChatGPT整合出最终答案。

2.2 组织数据

当用户提出问题时,需要与本地知识库进行匹配,如果数据库中内容很多,会花费大量匹配时间。为节约时间,可以对文章中的章、节、文本文件整体内容、目录内容等生成总结,逐层构造树结构,图结构,或者关键字映射表,以节约搜索时间。
llamaindex提供了各种结构支持,需要开发者自行调用。

2.3 核心概念

  • Node & Index
    Node指切分后的文本块;Index索引可以理解为Node数据块通过ChatGPT转换后在本地的存储方式。索引结构支持List, Tree, Keyword方式;除了创建index以外,还提供对其中的子块进行增删的编辑操作,以节约token。另外,除了对纯文本进行索引,还提供图索引,表索引,SQL中数据索引。

  • Embedding & Vector
    这里的Embedding和Vector指的都是通过ChatGPT转换后的数据;当前版本嵌入的维度是 1536(问题的和Node一样长);假设将每个块设成最大600(Node: chunk size),如果是18K大小的文本文件,存储了utf-8的中文文字,每字占3字节,6000多字,约使用10来个Node存储;每个Node被转换成1538个float值,存储在本地,即Vector store。

  • Query & Response Synthesis
    Query询问指的是用户提出的问题;Response Synthesis指的是从索引中定位出可选答案后,组织答案的方法。

3 文档

3.1 文档内容

代码中的docs目录数据用于生成网页版的说明文档,也可通过以下网址直接查看文档:
https://gpt-index.readthedocs.io/en/latest/
通过操作界面左上图标可调出帮助目录,操作左下角切换不同版本文档。

3.2 学习路径

文档内容很多,包含文本和源码示例,推荐使用以下顺序阅读文档:

  • gallery: 看别人用该库实现的功能
  • getting_started: 最简单的安装方法和示例
  • guides: 一般用户使用方法
  • use_case: 使用案例(做了什么,怎么做,相对简单)
  • how_to (KEY COMPONENTS): 原理和用法的主索引,从上到下由浅入深(前三项最重要)
  • reference: 细节的详细信息, 大部分是源码自动生成的文档 (具体使用时查看)

4 代码分析

  • benchmarks: 用于评测
  • build/dist/scripts: 打包过程中产生的目录文件
  • tests: 测试用例
  • llama_index: 核心源码 (200多个源码文件)
    • readers: 从各种数据源读入数据的解析工具, 其file支持多种模式
    • index, storage, query等,建议以文档为入口开始学习
  • examples: 分门别类的示例
  • experimental: 一些不重要的实验
  • README.md:示例了最简单的使用方法

4.1 安装

4.1.1 pip安装

llamaindex 是个 python库,用pip安装即可(需要Python 3.8及以上版本)。

pip install llama-index

4.1.2 源码安装

由于版本更替太快,建议使用源码安装。
源码地址:https://github.com/jerryjliu/llama_index

5 注意事项

  • 使用ChatGPT需要设置APIKEY
  • 需要指定数据在本地存放的目录
  • 如果需要可以做多个索引
  • 注意安装的版本和源码一致,否则example将无法运行
  • 推荐使用最新版本,目前最新版本0.6.x的数据模式以及log信息都优于之前版本

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5055.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

上海亚商投顾:沪指震荡上行 大消费板块全线走强

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 三大指数今日震荡反弹,沪指全天低开高走,深成指、创业板指均涨超1%。工程机械板块集体大涨…

上海亚商投顾:沪指四连阳重回3300点 中字头个股再发力

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 大小指数今日走势分化,沪指低开后震荡反弹,创业板指盘中跌超1%。中字头个股再度发力&#…

上海亚商投顾:沪指低开高走 国产芯片板块掀涨停潮

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 三大指数今日低开高走,深成指尾盘涨近1%,科创50指数大涨超2%。芯片板块掀涨停潮&#xff0…

上海亚商投顾:三大指数集体调整 消费板块逆市活跃

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 三大指数今日集体调整,沪指全天弱势震荡,创业板指盘中跌超1%。旅游、食品、乳业等大消费板…

互联网晚报 | 爱奇艺回应因限制投屏被起诉事件;“鱼跃医疗”回应被罚270万元;2022年全国城市GDP十强全部出炉...

爱奇艺:已收到关于投屏清晰度变更应诉通知,会认真审慎对待 据信号财经报道:近日,爱奇艺因为“限制投屏”一事连上多个热搜。据现代快报消息,广东一名用户因此将爱奇艺告上法庭,北京市互联网法院已于1月29日…

AIGC能否助力三六零实现“戴维斯双击”?

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 4月21日,有着“网络安全巨头”光环的三六零发布了2022年财报。 数据显示,2022年,三六零实现收入95.21亿,同比下降12.54%,连续四年下滑;净利润-22.04亿&…

研报精选230528

目录 【行业230528华金证券】传媒行业深度研究:AIGC最新应用与场景研究 【行业230528国海证券】电动船舶行业深度报告:绿色智能大势已至,驶向电化百亿蓝海 【行业230528华西证券】纺织服装行业周报:5月增长放缓无碍中长期出清逻辑…

五月&六月券商金工精选

✦研报目录✦ ✦简述✦ 按发布时间排序 海通证券 通往绝对收益之路(八):“固收”产品股票端的量化解决方案 发布日期:2023-05-05 关键词:固收、股票、量化策略 主要内容:本研报研究了优秀的“固收”产品…

港联证券|龙头齐聚,本周7股将申购!今年第三高价新股也要来了?

随着2023年上半年收官,券商金股组合上半年收益率也已“交卷”。 券商中国记者梳理发现,在沪深300指数今年上半年微跌的背景下,六成券商金股组合今年以来取得了正收益,还有10家券商的组合收益率超过10%。 香港港联证券有限公司&am…

3000辆特斯拉“报废” ChatGPT竟成“罪魁祸首”

由OpenAI自主开发的聊天应用ChatGPT风靡全球后,立即在全球范围内掀起了大模型开发的热潮。但准备参战的玩家们很快便认清现实,这不过是一场由巨头主宰的游戏,其中的关键,就是能耗。 知名计算机专家吴军的形容并不夸张——ChatGPT…

破万亿!英伟达的市值

文章目录 破万亿 🤨 英伟达的市值🤨 英伟达市值几近破万亿🤖 ChatGPT 伪造 6 个法律案例🗡️ AI 巨头的呼吁,是真担心还是想垄断?🏠 硅谷诈骗犯开启女性监狱新家📈 美国房价春季反弹…

用ChatGPT 辅导复杂数学作业

俗话说:不辅导作业,都是父慈女孝!一辅导作业,真的是鸡飞狗跳一样。家人们!辅导数学作业再也不头痛啦!本教程详细探讨了如何利用ChatGPT插件Wolfram解决算法问题,并提供了一种结合linkreader阅读…

文心一言 VS chatgpt (7)-- 算法导论2.3 3~4题

三、使用数学归纳法证明:当n刚好是2的幂时,以下递归式的解是 T(n)nlgn。若n2,T(n)2;若n2^k,k>1,T(n)2T(n/2)n。 文心一言: chatgpt: 首先,当 n2 时,T(n)2log₂n2,显…

ChatGPT做2023高考数学卷子。

前几天,我们让ChatGPT写了高考作文。 有人说写得层次分明、条理清晰,感慨自己幸好早早毕业,不然就要被ChatGPT超过了。 有人则认为ChatGPT写的作文中规中矩、平淡无奇,十分正确但没有什么意义。 今天,我们准备再让Chat…

ChatGPT废了,连五年级的数学题都能答错

起因 社区群里有人给五年级的孩子打印数学题,然后自己不会,发给群友看题目,结果群友给了答案。出于好奇,我给题目发给ChatGPT让他回答 开始调戏 一个长方形,长是宽的 1.4 倍,如果宽增加 2 厘米&#xff…

北大“韦神”出了道数学题,有老师用ChatGPT做答,结果出乎意料

近日,北京大学北京国际数学研究中心推出的一道数学题,获得了数学爱好者的广泛关注。 出题的是北京大学数学科学学院研究员,第49届、第50届国际数学奥林匹克竞赛满分金牌得主韦东奕。 题目 截至目前,已有近百位读者提交了解答。出题…

89%美国大学生竟用ChatGPT写作业!纽约大学教授警告:用AI就是剽窃

新智元报道 编辑:Aeneas 好困 【新智元导读】调查发现,89%的美国大学生已经在用ChatGPT写作业了,而其中的72%也同时支持封杀。对此,老师们的态度倒是褒贬不一,值得玩味。 ChatGPT诞生才两个月,但它给全世…

ChatGPT解答一道1-2年级水平的袋鼠数学竞赛题,答案竟出乎意料

最近一段时间ChatGPT风光无限,可真是火出了圈内圈外。ChatGPT是一个人工智能聊天机器人程序,由OpenAI基于GPT-3.5架构的大型语言模型进行训练,通过人机交互的问答,和用户进行真实自然的交流。 刚才正好在看一篇微信公众号的文章&…

chatGPT做了这么一道数学题,我陷入了沉思

已知 2 c o s 2 3 c o s a s i n a − 3 s i n 2 a 1 , 并且 a ∈ ( − 3 2 π , − π ) 2cos^{2}3cosasina-3sin^{2}a1 ,并且a\in(-\frac{3}{2}\pi,-\pi) 2cos23cosasina−3sin2a1,并且a∈(−23​π,−π) 求 2 s i n ( π − a ) − 3 s i n ( π 2 a ) ) 4 s i n a − …

因为支持chatGPT,我又爱上狐猴浏览器了

用过狐猴浏览器的应该都知道这是一个可以安装很多chrome和edge扩展的手机浏览器。这个功能对于用户来说已经是块宝了,谁知道chatgpt大火后,狐猴的开发者又火速把gpt融入了浏览器中,这速度谁看了不说一句牛。 我已经用了一段时间了&#xff0…