基于LLama3、Langchain,Chroma 构建RAG

概要:

使用Llama3 Langchain和ChromaDB创建一个检索增强生成(RAG)系统。这将允许我们询问有关我们的文档(未包含在训练数据中)的问题,而无需对大型语言模型(LLM)进行微调。在使用RAG时,首先要做一个检索步骤,从一个特殊的数据库中提取任何相关的文档,本文使用的是《欧盟人工智能法案》文本。

LLAMA3

Meta Llama 3是Meta股份有限公司开发的一系列模型,是最先进的新型模型,有8B和70B参数大小(预先训练或指导调整)。Llama3模型是用15T+(超过15万亿)tokens和800亿至700亿参数进行预训练和微调的,这使其成为强大的开源模型之一。这是对Llama2模型的高度改进。

结构

Meta Llama 3使用的token结构

  • <|begin_of_text|>:这相当于BOS令牌
  • <|eot_id|>:这表示消息依次结束。
  • <|start_header_id|>{role}<|end_header_id |>:这些标记包含特定消息的角色。可能的角色可以是:系统、用户、助理。
  • <|end_of_text|>:这相当于EOS令牌。生成此代币后,Llama 3将停止生成更多代币。
    提示应包含单个系统消息,可以包含多个交替的用户和助手消息,并且始终以最后一条用户消息结尾,后跟助手标头。

结构样式

<|begin_of_text|>{{ user_message }}

Llama 3 的对话格式

在这里插入图片描述

  1. List item指定提示的开始
  2. 指定消息的角色,即“用户”
  3. 输入消息(来自“用户”)
  4. 指定输入消息的结尾
  5. 指定消息的角色,即“助理”

LLaMA模型的特点包括:

规模和效率:LLaMA模型设计为在保持较小模型尺寸的同时,实现与更大模型相似的性能。

多任务学习:这些模型通常在多种语言和任务上进行训练,以提高它们的通用性和跨领域的表现。

自注意力机制:LLaMA模型使用自注意力(self-attention)机制来处理长距离的依赖关系,这是现代大型语言模型的一个关键技术。

预训练和微调:它们通常首先在大量文本数据上进行预训练,然后针对特定任务进行微调。

可扩展性:设计时考虑到了模型的可扩展性,使其能够通过增加参数数量来提升性能。

研究和开源:Meta可能会将这些模型用于研究目的,并且可能会开源部分或全部模型,以便学术界和工业界可以使用和进一步研究。

RAG

大型语言模型(LLM)已经证明了它们理解上下文并在提示时为各种NLP任务提供准确答案的能力,包括摘要、问答。虽然他们能够很好地回答有关他们所接受训练的信息的问题,但当话题是关于他们“不知道”的信息时,即没有包括在他们的训练数据中时,他们往往会产生幻觉。检索增强生成将外部资源与LLM相结合。因此,RAG的主要两个组成部分是检索器和生成器。

代码实现

加载依赖

import sys #sys模块提供了与Python解释器和操作系统底层进行交互的功能。
from torch import cuda, bfloat16
import torch
import transformers
from transformers import AutoTokenizer
from time import time
#import chromadb
#from chromadb.config import Settings
from langchain.llms import HuggingFacePipeline #huggingface 管道
from langchain.document_loaders import PyPDFLoader #python 加载
from langchain.text_splitter import RecursiveCharacterTextSplitter #分词
from langchain.embeddings import HuggingFaceEmbeddings #矢量化
from langchain.chains import RetrievalQA #构建对话系统
from langchain.vectorstores import Chroma #Chroma 向量数据库

加载模型

#加载本地模型
model_id = 'D:\临时模型\Meta-Llama-3-8B-Instruct'
#设定使用cpu 还是gpu
device = f'cuda:{cuda.current_device()}' if cuda.is_available() else 'cpu'# 设置量化配置以加载GPU内存较少的大型模型
# 这需要“bitsandbytes”库
# 模型量化
bnb_config = transformers.BitsAndBytesConfig(load_in_4bit=True, # 指定以 4 位精度加载模型bnb_4bit_quant_type='nf4', # 选择使用 NF4(Normal Float 4)数据类型bnb_4bit_use_double_quant=True,# 启用嵌套量化bnb_4bit_compute_dtype=bfloat16 #更改计算期间将使用的数据类型 16位浮点数据类型
)print(device)

模型实例化

time_start = time()#AutoConfig.from_pretrained 根据预训练模型的名称或路径创建配置对象 模型配置文件
model_config = transformers.AutoConfig.from_pretrained(model_id,#模型路径trust_remote_code=True,#默认情况下,trust_remote_code 设置为 True。这意味着使用 from_pretrained() 方法加载模型配置文件时,它将下载来自 Hugging Face 模型中心或其他在线资源的配置文件。max_new_tokens=1024 #新生成令牌的数量
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
# 设置 pad_token_id 为 eos_token_id 的值
#pad_token_id = tokenizer.eos_token_id #指定填充标记(pad_token)使用结束标记(eos_token)# AutoModelForCausalLM 加载自动模型因果语言模型
model = transformers.AutoModelForCausalLM.from_pretrained(model_id,#模型的名称或地址trust_remote_code=True,#信任的存储库设置为Trueconfig=model_config, #加载配置文件quantization_config=bnb_config,#加载模型量化device_map='auto',#使用cpu 或GPU
)time_end = time()
print(f"Prepare model, tokenizer: {round(time_end-time_start, 3)} sec.")

构建管道

time_start = time()
#构建管道
query_pipeline = transformers.pipeline("text-generation",#文本生成管道model=model,#模型加载tokenizer=tokenizer,#tokan加载torch_dtype=torch.float16,max_length=1024,#最大长度1024device_map="auto",)
time_end = time()
print(f"Prepare pipeline: {round(time_end-time_start, 3)} sec.")

测试没有RAG的回答

#在没有RAG的情况下进行测试
def test_model(tokenizer, pipeline, message):time_start = time()sequences = pipeline(message,#输入的提示do_sample=True,#模型将生成确定性的输出,即在给定输入的情况下,每次运行都会产生相同的结果top_k=10,#模型将只考虑概率最高的10个词汇 top_k通常与另一个参数top_p一起使用,top_p也用于控制生成过程中的随机性。top_p是累积概率阈值,它考虑了概率最高的词汇,直到累积概率达到或超过这个阈值。num_return_sequences=1,#对于给定的输入,生成模型将只产生一个输出序列。eos_token_id=tokenizer.eos_token_id,pad_token_id = tokenizer.eos_token_id,max_length=1000,)#这里输出需要足够大time_end = time()total_time = f"{round(time_end-time_start, 3)} sec."question = sequences[0]['generated_text'][:len(message)]answer = sequences[0]['generated_text'][len(message):]return f"Question: {question}\nAnswer: {answer}\nTotal time: {total_time}"

信息美化

#`Markdown` 类是 IPython 提供的一个工具,用于将字符串格式化为 Markdown 格式的文本。
#`display` 函数用于在 Notebook 中显示对象。它能够自动选择最合适的显示方式,
from IPython.display import display, Markdown#数据回复样式
def colorize_text(text):for word, color in zip(["Reasoning", "Question", "Answer", "Total time"], ["blue", "red", "green", "magenta"]):text = text.replace(f"{word}:", f"\n\n**<font color='{color}'>{word}:</font>**")return text    

演示

#演示
response = test_model(tokenizer,query_pipeline,"Please explain what is EU AI Act.")
display(Markdown(colorize_text(response)))

这里只是部分回复的内容
在这里插入图片描述

#测试
response = test_model(tokenizer,query_pipeline,"In the context of EU AI Act, how is performed the testing of high-risk AI systems in real world conditions?")
display(Markdown(colorize_text(response)))

在这里插入图片描述

hugging face 管道构建

query_pipeline = transformers.pipeline("text-generation",#文本生成管道model=model,#模型加载tokenizer=tokenizer,#tokan加载torch_dtype=torch.float16,max_length=1024,#最大长度1024device_map="auto",eos_token_id=tokenizer.eos_token_id,pad_token_id = tokenizer.eos_token_id,
)#转换成 huggingface 的管道
llm = HuggingFacePipeline(pipeline=query_pipeline,# 再次检查是否一切正常
time_start = time()
question = "Please explain what EU AI Act is."
response = llm(prompt=question)
time_end = time()
total_time = f"{round(time_end-time_start, 3)} sec."
full_response =  f"Question: {question}\nAnswer: {response}\nTotal time: {total_time}"
display(Markdown(colorize_text(full_response)))                         )

返回
在这里插入图片描述

开始构建RAG

数据加载与切分

#数据加载
loader = PyPDFLoader("./aiact_final_draft.pdf")
documents = loader.load()#数据切分实例化
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
#切分加载的数据
all_splits = text_splitter.split_documents(documents)model_name = "G:\hugging_fase_model2\all-mpnet-base-v2"#加载向量模型
model_kwargs = {"device": "cuda"}# 加载embedings 向量模型
try:embeddings = HuggingFaceEmbeddings(model_name=model_name, model_kwargs=model_kwargs)
except Exception as ex:print("Exception: ", ex)# 加载本地模型#local_model_path = r"G:\hugging_fase_model\all-MiniLM-L6-v2"#local_model_path =r'E:\hugging_face_embeding\bert-base-uncased'local_model_path ='all-MiniLM-L6-v2'print(f"Use alternative (local) model: {local_model_path}\n")embeddings = HuggingFaceEmbeddings(model_name=local_model_path, model_kwargs=model_kwargs)

all-mpnet-base-v2

all-mpnet-base-v2 是一个基于sentence-transformers库的预训练模型,它专门设计用于处理句子和段落级别的文本,并将其映射到一个768维的密集向量空间。这个模型可以用于多种自然语言处理任务,包括但不限于聚类(clustering)和语义搜索(semantic search)。

以下是关于all-mpnet-base-v2模型的一些关键点:

  • 向量空间映射:该模型将输入的文本(句子或段落)转换成一个768维的向量,这个向量能够捕捉文本的语义信息。

  • 使用简便:如果已经安装了sentence-transformers库,使用这个模型将变得非常简单。用户可以通过几行代码加载模型并生成文本的嵌入表示。

  • 预训练和微调:all-mpnet-base-v2模型基于microsoft/mpnet-base进行预训练,然后在超过10亿句子对的数据集上进行微调。

  • 自监督学习:在微调阶段,该模型使用对比学习目标,通过计算批次中可能的句子对之间的余弦相似度,并应用交叉熵损失来优化模型。

  • 训练细节:模型在TPU v3-8上训练了100,000步,使用1024的批量大小,序列长度限制为128个标记,采用AdamW优化器,学习率为2e-5,并应用了学习率预热。

  • 多任务应用:生成的向量可以用于信息检索、文本聚类或句子相似性任务,适用于商业应用、学术研究、语言理解和生成等多个领域。

  • 模型性能:all-mpnet-base-v2模型在多个自然语言处理任务中表现出色,包括语义相似度计算、实体关系抽取和文本分类等。

  • 资源消耗:相比于更高维度的模型,all-mpnet-base-v2生成的768维向量占用的存储空间更少,这使得它在资源有限的环境中更为实用。

all-MiniLM-L6-v2

all-MiniLM-L6-v2 是一个由sentence-transformers库提供的预训练模型,专门设计用于生成句子和段落的嵌入表示(embeddings)。这个模型能够将文本映射到一个384维的密集向量空间,这些向量可以用于多种下游任务,如聚类(clustering)、语义搜索(semantic search)等。

以下是关于all-MiniLM-L6-v2模型的一些关键特点:

  • 文本嵌入:模型接收句子或段落作为输入,并输出一个固定大小的向量,该向量捕捉了输入文本的语义信息。

  • 使用简便:如果已经安装了sentence-transformers库,使用这个模型将变得非常容易。用户可以通过简单的代码调用模型并生成文本的嵌入表示。

  • 预训练和微调:all-MiniLM-L6-v2模型基于MiniLM架构,并在超过10亿句子对的数据集上进行了微调。

  • 自监督学习:在微调阶段,该模型使用对比学习目标,通过计算批次中句子对的余弦相似度,并应用交叉熵损失来优化模型。

  • 向量空间映射:模型将句子映射到向量空间中,使得语义相似的句子在该空间中距离较近,这有助于执行语义搜索和相似性计算。

  • 多任务应用:生成的向量可以用于多种NLP任务,如信息检索、文本聚类或句子相似性评估等。

  • 环境要求:使用all-MiniLM-L6-v2模型需要有适当的Python环境和必要的库,如PyTorch和Transformers。

  • 资源消耗:相比于更高维度的模型,all-MiniLM-L6-v2生成的384维向量占用的存储空间更少,这使得它在资源有限的环境中更为实用。

  • 开源和社区支持:all-MiniLM-L6-v2模型是开源的,并且得到了活跃的社区支持,用户可以从Hugging Face模型库中轻松下载和使用。

向量搜索

#灌库
vectordb = Chroma.from_documents(documents=all_splits, embedding=embeddings, persist_directory="chroma_db")#矢量化搜索
#将一个查询向量检索器(retriever)集成到向量数据库中。
#将查询向量与数据库中的向量进行比较,以找到最相似的数据条目
retriever = vectordb.as_retriever()#构建对提问对话系统
qa = RetrievalQA.from_chain_type(llm=llm, #加载实例化模型#使用“stuff”链的优势在于能够综合利用多个文档中的信息,从而提高系统对问题的理解和回答的准确性。然而,它也可能导致信息的冗余和噪音,需要在实际应用中进行权衡和调整。chain_type="stuff", #`chain_type`参数指定用于组合检索到的文档的链的类型。使用stuff”链将检索到的文档连接在一起并将它们作为单个输入传递给LLMretriever=retriever, #加载检索的信息verbose=True,#`verbose是一个布尔标志,当设置为True时,它将导致RetrievalQA实例打印出有关其操作的其他信息。
)

测试

# 测试
def test_rag(qa, query):time_start = time()#用run 方法执行response = qa.run(query)time_end = time()#查看耗时total_time = f"{round(time_end-time_start, 3)} sec."full_response =  f"Question: {query}\nAnswer: {response}\nTotal time: {total_time}"#美化输出display(Markdown(colorize_text(full_response)))query = "How is performed the testing of high-risk AI systems in real world conditions?"
test_rag(qa, query)

在这里插入图片描述

query = "What are the operational obligations of notified bodies?"
test_rag(qa, query)

在这里插入图片描述

用相似性搜索方法来查找文档

#用相似性搜索方法来查找文档
docs = vectordb.similarity_search(query)
"""
# K=3用于指定返回的文档数量
docs = vectordb.similarity_search(question,k=3)
"""
print(f"Query: {query}")
print(f"Retrieved documents: {len(docs)}")
for doc in docs:doc_details = doc.to_json()['kwargs']print("Source: ", doc_details['metadata']['source'])print("Text: ", doc_details['page_content'], "\n")

在这里插入图片描述
以上是文本的全部内容,感谢阅读。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/319722.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql 指定根目录 迁移根目录

mysql 指定根目录 迁移根目录 1、问题描述2、问题分析3、解决方法3.1、初始化mysql前就手动指定mysql根目录为一个大的分区(支持动态扩容)&#xff0c;事前就根本上解决mysql根目录空间不够问题3.1.0、方法思路3.1.1、卸载mariadb3.1.2、下载Mysql安装包3.1.3、安装Mysql 8.353…

jupyter notebook使用与本地位置设置

本地安装好Anaconda之后&#xff0c;自带的有Jupter notebook。 使用jupyter notebook 使用jupyter notebook时&#xff0c;可以直接打开或者搜索打开&#xff1a; 打开后&#xff0c;我们生成的或者编辑的一些文件&#xff0c;都可以看到&#xff0c;如下&#xff1a; j…

学习STM32第二十天

低功耗编程 一、修改主频 STM32F4xx系列主频为168MHz&#xff0c;当板载8MHz晶振时&#xff0c;系统时钟HCLK满足公式 H C L K H S E P L L N P L L M P L L P HCLK \frac{HSE \times PLLN}{PLLM \times PLLP} HCLKPLLMPLLPHSEPLLN​&#xff0c;在文件stm32f4xx.h中可修…

uniapp 自定义相机插件(组件版、缩放、裁剪)组件 Ba-CameraView

自定义相机插件&#xff08;组件版、缩放、裁剪&#xff09; Ba-CameraView 简介&#xff08;下载地址&#xff09; Ba-CameraView 是一款自定义相机拍照组件&#xff0c;支持任意界面&#xff0c;支持裁剪 支持任意自定义界面支持手势缩放支持裁剪&#xff08;手势拖动、比…

R语言中,查看经安装的包,查看已经加载的包,查看特定包是否已经安装,安装包,更新包,卸载包

创建于&#xff1a;2024.5.4 R语言中&#xff0c;查看经安装的包&#xff0c;查看已经加载的包&#xff0c;查看特定包是否已经安装&#xff0c;安装包&#xff0c;更新包&#xff0c;卸载包 文章目录 1. 查看经安装的包2. 查看已经加载的包3. 查看特定包是否已经安装4. 安装包…

【Cpp】类和对象#拷贝构造 赋值重载

标题&#xff1a;【Cpp】类和对象#拷贝构造 赋值重载 水墨不写bug 目录 &#xff08;一&#xff09;拷贝构造 &#xff08;二&#xff09;赋值重载 &#xff08;三&#xff09;浅拷贝与深拷贝 正文开始&#xff1a; &#xff08;一&#xff09;拷贝构造 拷贝构造函数&…

上位机开发PyQt(五)【Qt Designer】

PyQt5提供了一个可视化图形工具Qt Designer&#xff0c;文件名为designer.exe。如果在电脑上找不到&#xff0c;可以用如下命令进行安装&#xff1a; pip install PyQt5-tools 安装完毕后&#xff0c;可在如下目录找到此工具软件&#xff1a; %LOCALAPPDATA%\Programs\Python\…

Excel 批量获取sheet页名称,并创建超链接指向对应sheet页

参考资料 用GET.WORKBOOK函数实现excel批量生成带超链接目录且自动更新 目录 一. 需求二. 名称管理器 → 自定义获取sheet页名称函数三. 配合Index函数&#xff0c;获取所有的sheet页名称四. 添加超链接&#xff0c;指向对应的sheet页 一. 需求 ⏹有如下Excel表&#xff0c;需…

EPAI手绘建模APP资源管理和模型编辑器2

g) 矩形 图 26模型编辑器-矩形 i. 修改矩形的中心位置。 ii. 修改矩形的长度和宽度。 h) 正多边形 图 27模型编辑器-内接正多边形 图 28模型编辑器-外切正多边形 i. 修改正多边形的中心位置。 ii. 修改正多边形中心距离端点的长度。 iii. 修改正多边形的阶数。阶数为3&…

Day30:热帖排行、生成长图、将文件上传到云服务器、优化热门帖子列表、压力测试

热帖排行 不同的算分方式&#xff1a; 只存变化的帖子到redis中&#xff0c;每五分钟算一次分&#xff0c;定时任务 存redis 构建redis键 //统计帖子分数 //key:post:score -> value:postId public static String getPostScoreKey() {return PREFIX_POST SPLIT "…

练习题(2024/5/5)

1左叶子之和 给定二叉树的根节点 root &#xff0c;返回所有左叶子之和。 示例 1&#xff1a; 输入: root [3,9,20,null,null,15,7] 输出: 24 解释: 在这个二叉树中&#xff0c;有两个左叶子&#xff0c;分别是 9 和 15&#xff0c;所以返回 24示例 2: 输入: root [1] 输…

LeetCode 131 —— 分割回文串

阅读目录 1. 题目2. 解题思路3. 代码实现 1. 题目 2. 解题思路 首先&#xff0c;按照 LeetCode 5——最长回文子串 中的思路&#xff0c;我们先求出 d p dp dp&#xff0c;这样我们就知道了所有的子串是否是回文子串。 然后&#xff0c;我们进行一个 dfs 搜索&#xff0c;起…

5月4(信息差)

&#x1f384; HDMI ARC国产双精度浮点dsp杜比数码7.1声道解码AC3/dts/AAC环绕声光纤、同轴、USB输入解码板KC33C &#x1f30d; 国铁集团回应高铁票价将上涨 https://finance.eastmoney.com/a/202405043066422773.html ✨ 源代码管理平台GitLab发布人工智能编程助手DuoCha…

AI大模型探索之路-训练篇11:大语言模型Transformer库-Model组件实践

系列篇章&#x1f4a5; AI大模型探索之路-训练篇1&#xff1a;大语言模型微调基础认知 AI大模型探索之路-训练篇2&#xff1a;大语言模型预训练基础认知 AI大模型探索之路-训练篇3&#xff1a;大语言模型全景解读 AI大模型探索之路-训练篇4&#xff1a;大语言模型训练数据集概…

QT5带UI的常用控件

目录 新建工程&#xff0c;Qmainwindow带UI UI设计器 常用控件区 Buttons 按钮 containers 容器 控件属性区域 对象监视区 布局工具区 信号与槽区 简单例子1 放置一个按钮控件&#xff0c;改文本为发送&#xff0c;该按键为Button1&#xff1b; 按钮关联信号和…

Redisson 分布式锁和同步器

系列文章目录 文章目录 系列文章目录前言前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 redisson 是基于redis的扩展库,使得redis除了应用于缓存以外,还能做队列…

golang学习笔记(内存模型和分配机制)

操作系统的存储管理 虚拟内存管理 虚拟内存是一种内存管理技术&#xff0c;它允许操作系统为每个进程提供一个比实际物理内存更大的地址空间。这个地址空间被称为虚拟地址空间&#xff0c;而实际的物理内存则被称为物理地址空间。使用虚拟内存有以下几点好处&#xff1a; 内…

【机器学习-21】集成学习---Bagging之随机森林(RF)

【机器学习】集成学习---Bagging之随机森林&#xff08;RF&#xff09; 一、引言1. 简要介绍集成学习的概念及其在机器学习领域的重要性。2. 引出随机森林作为Bagging算法的一个典型应用。 二、随机森林原理1. Bagging算法的基本思想2. 随机森林的构造3. 随机森林的工作机制 三…

JVM的垃圾回收机制(GC机制)

在Java代码运行的过程中&#xff0c;JVM发现 某些资源不需要再使用的时候&#xff0c;就会自动把资源所占的内存给回收掉&#xff0c;就不需要程序员自行操作了。“自动回收资源”就是JVM的“垃圾回收机制”&#xff0c;“垃圾回收机制”也称"GC机制"。 对于Java代码…

【论文笔记】Training language models to follow instructions with human feedback A部分

Training language models to follow instructions with human feedback A 部分 回顾一下第一代 GPT-1 &#xff1a; 设计思路是 “海量无标记文本进行无监督预训练少量有标签文本有监督微调” 范式&#xff1b;模型架构是基于 Transformer 的叠加解码器&#xff08;掩码自注意…