AI本地部署

在这里插入图片描述

  • 文档加载(Document Loading):从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器,包括PDF在内的非结构化的数据、SQL在内的结构化的数据,以及Python、Java之类的代码等​ •
  • 文本分割(Splitting):文本分割器把Documents 切分为指定大小的块,我把它们称为“文档块”或者“文档片”​
  • 存储(Storage):存储涉及到两个环节,分别是:​
    ◦ 将切分好的文档块进行嵌入(Embedding)转换成向量的形式​
    ◦ 将Embedding后的向量数据存储到向量数据库​
  • 检索(Retrieval):一旦数据进入向量数据库,我们仍然需要将数据检索出来,我们会通过某种检索算法找到与输入问题相似的嵌入片​
  • Output(输出):把问题以及检索出来的嵌入片一起提交给LLM,LLM会通过问题和检索出来的提示一起来生成更加合理的答案

文本加载器(Document Loaders)​

文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理​ ​

文本切割器(Text Splitters)​

文本分割器把Documents 切分为指定大小的块,我把它们称为“文档块”或者“文档片”​ 文本切割通常有以下几个原因​
• 为了更好的进行文本嵌入以及向量数据库的存储​
• 通常大语言模型都有上下文的限制,如果不进行切割,文本在传递给大模型的时候可能超出上下文限制导致大模型随机丢失信息​

文本切割器的概念是非常容易理解的,这里我们简单了解下文本切割器的工作流程​

  1. 将文本切割成小的,语义上有意义的块(通常是句子)​
  2. 开始将这些小块组成一个较大的块,直到达到某个块的大小(这个会通过某种函数测量)​
  3. 一旦达到该大小,就将该块作为自己的文本片段,并开始创建一个新的文本块,同时保留一些重叠(以保持块之间的上下文)。​ ​

文本嵌入模型(Text Embedding models)​

文本嵌入模型是用来将文本转换成数值向量的工具,这些向量能够捕捉文本的语义信息,使得相似的文本在向量空间中彼此接近。这对于各种自然语言处理任务,如文本相似性比较、聚类和检索等,都是非常有用的。下面是一段对嵌入的解释

在这里插入图片描述
在这里插入图片描述

文本检索​

一旦数据进入向量数据库,我们仍然需要将数据检索出来,我们会通过某种检索算法找到与输入问题相似的嵌入片。这里主要利用了大模型的能力

AnythingLLM 本地安装、配置

  1. 选择大模型
    在这里插入图片描述
  2. 选择文本嵌入模型
    在这里插入图片描述
  3. 选择向量数据库
    在这里插入图片描述

构建本地知识库

AnythingLLM中有一个Workspace的概念,我们可以创建自己独有的Workspace跟其他的项目数据进行隔离。

  1. 首先创建一个工作空间
    在这里插入图片描述
  2. 上传文档并且在工作空间中进行文本嵌入

在这里插入图片描述
3. 选择对话模式​
AnythingLLM提供了两种对话模式:​

  • Chat模式:大模型会根据自己的训练数据和我们上传的文档数据综合给出答案​
  • Query模式:大模型仅仅会依靠文档中的数据给出答案
    在这里插入图片描述
  1. 测试对话​
    当上述配置完成之后,我们就可以跟大模型进行对话了
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32877.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机视觉算法实战——驾驶员分心检测(主页有源码)

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​ ​​​ 1. 领域简介:驾驶员分心检测的意义与挑战 驾驶员分心检测是智能驾驶安全领域的重要研究方向。据统计,全球每…

2025因果机器学习好中高区idea汇总

机器学习变天了!近来因果机器学习大热,这便意味着机器学习已经从“预测”向“理解”的范式转变。同时,这也是我们发论文、找创新的好时机。 因果机器学习可谓是,提高模型决策科学性和可靠性的“仙丹”!其核心就在于&a…

Linux笔记---文件系统硬件部分

1. 文件系统 文件系统是操作系统用于明确存储设备(常见的是磁盘,也有基于NAND Flash的固态硬盘)或分区上的文件的方法和数据结构,即在存储设备上组织文件的方法。 1.1 基本组成 索引节点(inode)&#xff…

AutoSar架构-----XCP模块与协议介绍

1、XCP 模块定义 XCP 一般要求如下图: XCP 导入的类型需要如下表这些头文件: 2、ETAS 工具配置 2.1、XcpGeneral 配置 3、XCP 协议 ASAM-MCD-1MC:ECU 和标定测量系统接口 ASAM-MCD-2MC:即 A2L 文件,是控制器内部信息…

江科大51单片机笔记【10】DS1302时钟可调时钟(下)

写在前言 此为博主自学江科大51单片机(B站)的笔记,方便后续重温知识 在后面的章节中,为了防止篇幅过长和易于查找,我把一个小节分成两部分来发,上章节主要是关于本节课的硬件介绍、电路图、原理图等理论知识…

字节流 InputStream/OutputStream

一、java的I/O java的I/O(输入/输出)流是用于处理数据输入和输出的抽象类。 java的I/O流主要分为两大类,字节流跟字符流。 字节流:用于处理二进制数据,包括InputStream和OutputStream两个主要类及其子类。 字符流:用于处理字符…

使用位运算如何找到数组中只出现一次的数?

题目链接:137. 只出现一次的数字 II - 力扣(LeetCode) 算法解析 位运算是用于二进制的运算符号。而对于多次出现的数字,其二进制都是一模一样的,这里是3次重复的出现是数字。由此我们可以想到,如果我们由低…

最节省服务器,手搓电子证书查询系统

用户预算150元,想要一个最简单证书查询系统。前台能查询证书、后台管理员能登录能修改密码,证书能够手动输入修改删除、批量导入导出删除数据、查询搜索。能够兼容苹果、安卓、PC三端浏览器,最后帮忙部署到云服务器上。 用户预算不多&#xf…

.net 6程序在IIS中部署后点击IIS设置报错“执行此操作时出错”

.net 6写的程序,需要在Windows服务器的IIS中部署,由于是刚装的系统,先安装.net 6运行时,装了才发现没有IIS,于是又通过“添加角色和功能”添加与IIS相关的功能。安装完毕后,在IIS中添加网站,并将…

探针泄露(WEB)

##解题思路 题目提示是探针泄露,未及时删除的探针可能造成严重的数据泄露 探针的文件常见命名为tz.php,访问它 对于php相关参数,我们是可以点击的,点击phpinfo访问 跳转后搜索flag,得到flag

考研复试c语言常见问答题汇总2

11. 关键字和一般标识符有什么不同? C语言中关键字与一般标识符区别: 定义:关键字是C语言预定义的特殊单词(如int、for),有固定含义;标识符是自定义的名称(如变量名、函数名&#xf…

贝壳找房:以 OceanBase 为 JuiceFS 元数据引擎,构建 AI 存储底座

本文作者:王天庆,贝壳计算存储方向容器引擎团队负责人,他专注于云原生技术和AI基础设施的架构设计与实践,在为公司搭建高效、可靠的基础设施的同时,促进了大模型技术在企业内部的快速落地与应用。 导语:随着…

人工智能-周志华ML版|系列习题参考答案与综合测试目录

YI时间|松子茶碎碎念|MM-DFW|LAMBDA系列 星标🌟松子茶 更新不掉队🌟 作者 | 松子茶 © 原创内容(除图片外) 未经作者授权,严禁转载或镜像 机器学习是人工智能领域的核心课程之一。机器学习的基本概念…

OSPF-单区域的配置

一、单区域概念: 单区域OSPF中,整个网络被视为一个区域,区域ID通常为0(骨干区域)。所有的路由器都在这个区域内交换链路状态信息。 补充知识点: OSPF为何需要loopback接口: 1.Loopback接口的…

基于Bert模型的增量微调3-使用csv文件训练

我们使用weibo评价数据,8分类的csv格式数据集。 一、创建数据集合 使用csv格式的数据作为数据集。 1、创建MydataCSV.py from torch.utils.data import Dataset from datasets import load_datasetclass MyDataset(Dataset):#初始化数据集def __init__(self, s…

C语言 —— 此去经年梦浪荡魂音 - 深入理解指针(卷一)

目录 1. 内存和地址 2. 指针变量和地址 2.1 取地址操作符(&) 2.2 指针变量 2.3 解引用操作符 (*) 3. 指针的解引用 3.1 指针 - 整数 3.2 void* 指针 4. const修饰指针 4.1 const修饰变量 4.2 const修饰指针变量 5…

【Linux】线程

文章目录 线程(Thread)1. 什么是线程? 创建线程多线程中的重入问题线程异常线程等待总结 线程(Thread) 1. 什么是线程? 线程是进程中的一个执行单元,它是 CPU 调度的基本单位。线程依赖于进程…

SpringBoot第二天

目录 1.Web开发 1.1简介 1.2SpringBoot对静态资源的映射规则 1.3模板引擎 1.3.1引入thymeleaf; 1.3.2Thymeleaf语法 1.3.2.1标准表达式语法 1.变量表达式 1.3.2.2表达式支持的语法 1.3.2.3常用的thymeleaf标签 1.4Springboot整合springmvc 1.4.1Springmvc…

如何接入DeepSeek布局企业AI系统开发技术

在当今科技飞速发展的时代,人工智能(AI)已成为企业提升竞争力、实现创新突破的关键驱动力。DeepSeek作为一款强大的AI工具,为企业开发自身AI系统提供了有力支持。那么,企业该如何接入DeepSeek进行AI系统开发呢&#xf…

日期累加(注意点)

注意点&#xff1a;①月可能超过12月 ②新年需要重新判断闰年 日期累加 #include <stdio.h>int pd(int year) {return (year % 4 0 && year % 100 ! 0) || (year % 400 0); }int main() {int m;int year, month, day, add;scanf("%d", &m);f…