记忆增强检索能力的实践

文章目录

- 记忆增强检索能力的实践
- - 获取外部数据
  - 加入记忆组件

记忆增强检索能力的实践

本文将深人探讨如何通过集成记忆组件，增强数据增强模块LEDVR工作流的数据检索能力，从而提升QA问答应用的回答质量。

获取外部数据

首先，使用WebBaseLoader从网络加载文档：

from langchain.document loaders import WebBaseLoader
openai_api_key="填人你的密钥"
loader =WebBaseLoader ("http://developers.minil.cn/wiki/luawh.html")
data =loader.load()

也可以选择其他的加载器和其他的文档资源。接下来，使用OpenAIEmbeddings创建一个嵌人模型包装器：

from langchain.embeddings.openai import OpenAIEmbeddings
embedding =OpenAIEmbeddings (openai api key=openai_api_key)

使用RecursiveCharacter TextSplitter将文档切割成一系列的文本块：

from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter =RecursiveCharacterTextSplitter(chunk size=500,chunk overlap=0)
splits= text_splitter.split_documents(data)

然后，创建一个向量存储库。这里使用FAISS创建向量存储库：

from langchain.vectorstores import FAISS
vectordb =FAISS.from documents (documents=splits,embedding=embedding)

加入记忆组件

首先导入ConversationBufferMemory类，这是最常见的记忆组件，其工作原理非常简单：仅将所有聊天记录保存起来，而不使用任何算法进行截取或提炼压缩。在提示词模板中，可以看到所有的聊天记录。

from langchain.memory import ConversationBufferMemory
memory=ConversationBufferMemory (memory_key="chat history",return messages=True)

初始化记忆组件后，可以看到其内部的存储情况。由于刚刚进行了初始化，所以存储的聊天记录为空。然后，通过add_user_message方法添加一条“HumanMessage”信息，向程序介绍“名字”。此时，再次查看记忆组件，就可以看到添加了一条信息。

#打印memory.chat_memory.messages
[]
memory.chat_memory.add_user_message("我是李特丽")

第一次打印memory…chat_memory.messages时，输出的结果为“[]”。在推送一条自我介绍后，可以看到程序里添加了一条“HumanMessage”信息。

[HumanMessage(content='我是李特丽'，additional kwargs=(),example=False)]

使用memory组件的load_memory_.variables方法，可以查看保存在程序运行内存中的memory对象。该对象的主键是chat history,正如初始化ConversationBufferMemory时设置的：memory_.key=“chat_history”。

#打印memory.load memory_variables({})
('chat_history':[HumanMessage(content:='我是李特丽'，additional_kwargs-=(),example=False)]}

下面使用最直接的方式来演示记忆组件是如何与链组件协同工作的。从提示词模板开始，然后逐步增加组件。这一次使用的链组件是load ga chain。这个链组件专门用于QA问答，这里不必掌握链的使用方法，只要在链上指定类型即可。导入loadqa_chain、ChatOpenAI和PromptTemplate。.当提示词模板用于初始化load ga chain时，需要个性化配置提示词。

from langchain.chat models import ChatopenAI
from langchain.chains.question_answering import load qa_chain
from langchain.prompts import PromptTemplate
#这里需使用聊天模型包装器，并且使用新型号的模型
llm =ChatopenAI(openai_api_key=openai_api_key,temperature=0,
model="gpt-3.5-turbo-0613")

使用向量存储库实例的similarity search方法，测试是否可以检索到与问题相关的文档。可以打印len(docs),看看关于这个问题，搜索到了几个文档片段。检索到的相关文档，要输入提示词模板包装器中。这一步先测试向量存储库是否正常工作。

query="LUA的宿主语言是什么？"
docs= vectordb.similarity search(query)
docs
输出的结果为4，说明有4个相关文档片段被检索到。
4

创建提示词是最重要的环节。在创建的过程中你可以理解为什么加入记忆组件后，“聊天备忘录”有了内容，让链组件有了“记忆”。使用提示词模板包装器，自定义一个提示词模板字符串。提示词内容分为四部分：一是对模型的指导词：“请你回答问题的时候，依据文档内容和聊天记录回答，如果在其中找不到相关信息或者答案，请回答不知道。”；二是使用问题检索到的相关文档内容：“文档内容是：{context}”;三是记忆组件输出的记忆内容：“聊天记录是：{chat history}”;四是用户的输入：“Human:{human_input}”。

template="""你是说中文的chatbot.“

请你回答问题的时候，依据文档内容和聊天记录回答，如果在其中找不到相关信息或者答案，请回答不知道。

文档内容是：{context)
聊天记录是：{chat history】
Human:(human input)
Chatbot:
prompt =PromptTemplate(
input_variables=["chat history","human input","context"],
template=template）

除了需要指定记忆组件存储对象的键值，还要指定input key。load_qa_chain链组件在运行时，解析input key,并将值对应到模板字符串的用户输人human_input占位符中。

memory=ConversationBufferMemory
memory_key="chat_history",input_key="human_input")
chain= load qa_chain(
llm=llm,chain_type="stuff",memory=memory,prompt=prompt）

上面代码把记忆组件加人load_qa_chain链组件中，于是这个链组件就有了记忆能力。向这个链组件发出第一个问题：

“LUA的宿主语言是什么？
query="LUA的宿主语言是什么？"
docs= vectordb.similarity search(query)
chain({"input documents":docs,"human input":query),
return_only_outputs=True)

不出意外，运行链组件后，得到了正确的答案。这个答案正是来源于之前检索到的四个文档片段。

('output_text':'LUA的宿主语言通常是C或C++。·)

接着可以相互之间来个自我介绍。

query="我的名字是李特丽。你叫什么？"
docs= vectordb.similarity_search(query)
chain (("input documents":docs,"human input":query),
return_only_outputs=True)
大语言模型的回答是：“我是一个中文的chatbot。”
('output_text':'我是一个中文的chatbot。')

继续模拟正常的聊天，问一些别的问题。目的是测试一下，问过几个问题后，它是否还能记得名字，如果它能记得，则证明它有了记忆能力。

query="LUA的循环语句是什么？"
docs =vectordb.similarity_search(query)
chain (("input documents":docs,"human input":query),
return only outputs=True)

回答依然是正确的。

('output text':'LUA的循环语句有while循环、for循环和repeat.,.until循环。')

现在可以测试它是不是记住名字了。

query="我的名字是什么？"
docs =vectordb.similarity_search(query)
chain (("input_documents":docs,"human input":query),
return only outputs=True)

可以看到，它记住名字了。

('output text':'你的名字是李特丽。)

打印看看它记住的是什么内容。

print (chain.memory.buffer)

显然，这个记忆组件将多轮对话的用户输人和模型响应都记录了下来。

Human:LUA的宿主语言是什么？
AI:LUA的宿主语言通常是C或C++。
Human:我的名字是李特丽。你叫什么？
AI:我是一个中文的chatbot。
Human:LUA的循环语句是什么？
AI:LUA的循环语句有while循环、for循环和repeat.·.until循环。
Human:我的名字是什么？
AI:你的名字是李特丽。

在这个代码示例中，同时使用了记忆组件与load ga chain链组件，从而让链组件具有了记忆能力。通过问一系列问题，观察链组件的回答，从而验证其记忆能力。例如，当问了几个关于LUA语言的问题之后，再问聊天机器人“我的名字是什么”，它还能正确回答，这就证明它具有记忆能力了。需要注意的是，这些聊天记录并不会一直被保存着，它们只保留在运行程序的内存中，一旦程序停止运行，这些记录就会消失。这个示例的目的是演示如何让一个QA问答链具备“记忆”的能力，增强检索能力。如果没有记忆的能力，对于用户来说，这个程序就会看起来很木讷，因为凡是“关于人”的问题，它的回答都是“不知道”。通过以上的代码实践，我们了解了如何使用ConversationBufferMemory这个最基本的记忆组件，包括如何实例化记忆组件，如何使用其存储和读取聊天记录，以及如何将其与其他组件（例如load ga_chain链组件)组合使用，来增强程序的功能。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/16653.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！