文章目录
- 记忆增强检索能力的实践
- 获取外部数据
- 加入记忆组件
记忆增强检索能力的实践
本文将深人探讨如何通过集成记忆组件,增强数据增强模块LEDVR工作流的数据检索能力,从而提升QA问答应用的回答质量。
获取外部数据
首先,使用WebBaseLoader从网络加载文档:
from langchain.document loaders import WebBaseLoader
openai_api_key="填人你的密钥"
loader =WebBaseLoader ("http://developers.minil.cn/wiki/luawh.html")
data =loader.load()
也可以选择其他的加载器和其他的文档资源。接下来,使用OpenAIEmbeddings创建一个嵌人模型包装器:
from langchain.embeddings.openai import OpenAIEmbeddings
embedding =OpenAIEmbeddings (openai api key=openai_api_key)
使用RecursiveCharacter TextSplitter将文档切割成一系列的文本块:
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter =RecursiveCharacterTextSplitter(chunk size=500,chunk overlap=0)
splits= text_splitter.split_documents(data)
然后,创建一个向量存储库。这里使用FAISS创建向量存储库:
from langchain.vectorstores import FAISS
vectordb =FAISS.from documents (documents=splits,embedding=embedding)
加入记忆组件
首先导入ConversationBufferMemory类,这是最常见的记忆组件,其工作原理非常简单:仅将所有聊天记录保存起来,而不使用任何算法进行截取或提炼压缩。在提示词模板中,可以看到所有的聊天记录。
from langchain.memory import ConversationBufferMemory
memory=ConversationBufferMemory (memory_key="chat history",return messages=True)
初始化记忆组件后,可以看到其内部的存储情况。由于刚刚进行了初始化,所以存储的聊天记录为空。然后,通过add_user_message方法添加一条“HumanMessage”信息,向程序介绍“名字”。此时,再次查看记忆组件,就可以看到添加了一条信息。
#打印memory.chat_memory.messages
[]
memory.chat_memory.add_user_message("我是李特丽")
第一次打印memory…chat_memory.messages时,输出的结果为“[]”。在推送一条自我介绍后,可以看到程序里添加了一条“HumanMessage”信息。
[HumanMessage(content='我是李特丽',additional kwargs=(),example=False)]
使用memory组件的load_memory_.variables方法,可以查看保存在程序运行内存中的memory对象。该对象的主键是chat history,正如初始化ConversationBufferMemory时设置的:memory_.key=“chat_history”。
#打印memory.load memory_variables({})
('chat_history':[HumanMessage(content:='我是李特丽',additional_kwargs-=(),example=False)]}
下面使用最直接的方式来演示记忆组件是如何与链组件协同工作的。从提示词模板开始,然后逐步增加组件。这一次使用的链组件是load ga chain。这个链组件专门用于QA问答,这里不必掌握链的使用方法,只要在链上指定类型即可。导入loadqa_chain、ChatOpenAI和PromptTemplate。.当提示词模板用于初始化load ga chain时,需要个性化配置提示词。
from langchain.chat models import ChatopenAI
from langchain.chains.question_answering import load qa_chain
from langchain.prompts import PromptTemplate
#这里需使用聊天模型包装器,并且使用新型号的模型
llm =ChatopenAI(openai_api_key=openai_api_key,temperature=0,
model="gpt-3.5-turbo-0613")
使用向量存储库实例的similarity search方法,测试是否可以检索到与问题相关的文档。可以打印len(docs),看看关于这个问题,搜索到了几个文档片段。检索到的相关文档,要输入提示词模板包装器中。这一步先测试向量存储库是否正常工作。
query="LUA的宿主语言是什么?"
docs= vectordb.similarity search(query)
docs
输出的结果为4,说明有4个相关文档片段被检索到。
4
创建提示词是最重要的环节。在创建的过程中你可以理解为什么加入记忆组件后,“聊天备忘录”有了内容,让链组件有了“记忆”。使用提示词模板包装器,自定义一个提示词模板字符串。提示词内容分为四部分:一是对模型的指导词:“请你回答问题的时候,依据文档内容和聊天记录回答,如果在其中找不到相关信息或者答案,请回答不知道。”;二是使用问题检索到的相关文档内容:“文档内容是:{context}”;三是记忆组件输出的记忆内容:“聊天记录是:{chat history}”;四是用户的输入:“Human:{human_input}”。
template="""你是说中文的chatbot.“
请你回答问题的时候,依据文档内容和聊天记录回答,如果在其中找不到相关信息或者答案,请回答不知道。
文档内容是:{context)
聊天记录是:{chat history】
Human:(human input)
Chatbot:
prompt =PromptTemplate(
input_variables=["chat history","human input","context"],
template=template)
除了需要指定记忆组件存储对象的键值,还要指定input key。load_qa_chain链组件在运行时,解析input key,并将值对应到模板字符串的用户输人human_input占位符中。
memory=ConversationBufferMemory
memory_key="chat_history",input_key="human_input")
chain= load qa_chain(
llm=llm,chain_type="stuff",memory=memory,prompt=prompt)
上面代码把记忆组件加人load_qa_chain链组件中,于是这个链组件就有了记忆能力。向这个链组件发出第一个问题:
“LUA的宿主语言是什么?
query="LUA的宿主语言是什么?"
docs= vectordb.similarity search(query)
chain({"input documents":docs,"human input":query),
return_only_outputs=True)
不出意外,运行链组件后,得到了正确的答案。这个答案正是来源于之前检索到的四个文档片段。
('output_text':'LUA的宿主语言通常是C或C++。·)
接着可以相互之间来个自我介绍。
query="我的名字是李特丽。你叫什么?"
docs= vectordb.similarity_search(query)
chain (("input documents":docs,"human input":query),
return_only_outputs=True)
大语言模型的回答是:“我是一个中文的chatbot。”
('output_text':'我是一个中文的chatbot。')
继续模拟正常的聊天,问一些别的问题。目的是测试一下,问过几个问题后,它是否还能记得名字,如果它能记得,则证明它有了记忆能力。
query="LUA的循环语句是什么?"
docs =vectordb.similarity_search(query)
chain (("input documents":docs,"human input":query),
return only outputs=True)
回答依然是正确的。
('output text':'LUA的循环语句有while循环、for循环和repeat.,.until循环。')
现在可以测试它是不是记住名字了。
query="我的名字是什么?"
docs =vectordb.similarity_search(query)
chain (("input_documents":docs,"human input":query),
return only outputs=True)
可以看到,它记住名字了。
('output text':'你的名字是李特丽。)
打印看看它记住的是什么内容。
print (chain.memory.buffer)
显然,这个记忆组件将多轮对话的用户输人和模型响应都记录了下来。
Human:LUA的宿主语言是什么?
AI:LUA的宿主语言通常是C或C++。
Human:我的名字是李特丽。你叫什么?
AI:我是一个中文的chatbot。
Human:LUA的循环语句是什么?
AI:LUA的循环语句有while循环、for循环和repeat.·.until循环。
Human:我的名字是什么?
AI:你的名字是李特丽。
在这个代码示例中,同时使用了记忆组件与load ga chain链组件,从而让链组件具有了记忆能力。通过问一系列问题,观察链组件的回答,从而验证其记忆能力。例如,当问了几个关于LUA语言的问题之后,再问聊天机器人“我的名字是什么”,它还能正确回答,这就证明它具有记忆能力了。需要注意的是,这些聊天记录并不会一直被保存着,它们只保留在运行程序的内存中,一旦程序停止运行,这些记录就会消失。这个示例的目的是演示如何让一个QA问答链具备“记忆”的能力,增强检索能力。如果没有记忆的能力,对于用户来说,这个程序就会看起来很木讷,因为凡是“关于人”的问题,它的回答都是“不知道”。通过以上的代码实践,我们了解了如何使用ConversationBufferMemory这个最基本的记忆组件,包括如何实例化记忆组件,如何使用其存储和读取聊天记录,以及如何将其与其他组件(例如load ga_chain链组件)组合使用,来增强程序的功能。