langchain入门系列之六使用langchain构建PDF解析助手

本文将介绍如何使用langchain构建一个pdf解析助手，在此文中你将学习到langchain如何与web应用(fastapi)相结合，向量持久化等知识，话不多说，现在开始。

安装环境

pip install fastapi
pip install python-dotenv 
pip install uvicorn

直接在pycharm新建一个fastapi项目也可！
python-dotenv 管理环境变量，我们会将llm的一些相关变量放在其中。
新建一个.env文件

touch .env
-------------------
在.env 文件中放入千帆相关参数:
QIANFAN_AK = "your key"
QIANFAN_SK = "your secret key"

项目结构图：
在这里插入图片描述

新建一个langchain文件

from langchain.document_loaders import PyPDFLoader
from langchain.vectorstores import Chroma
from langchain.embeddings import QianfanEmbeddingsEndpoint
from langchain.text_splitter import RecursiveCharacterTextSplitter
from dotenv import load_dotenv
# 加载环境变量
load_dotenv()
# 创建embedding模型
embeddings_model = QianfanEmbeddingsEndpoint()
embedding = QianfanEmbeddingsEndpoint()
persist_directory = f'本地持久化路径'# 解析pdf并保存到本地向量数据库中
def save_pdf(file_path, file_name):loader = PyPDFLoader(file_path)# 分割text_spliter = RecursiveCharacterTextSplitter(chunk_size=200,chunk_overlap=5,  # 每个块之间的重叠长度length_function=len,)pages = loader.load_and_split(text_spliter)persist_path = persist_directory + file_name# 持久化到本地Chroma.from_documents(documents=pages,embedding=embedding,persist_directory=persist_path)# 加载向量索引
def load_index(file_name):persist_path = persist_directory + file_nameprint(persist_path)index = Chroma(persist_directory=persist_path, embedding_function=embedding)return index# 在向量中查询
def query(index, question):idx = load_index(index)return len(idx.similarity_search(question))

这个文件我们主要用来解析和保存pdf文件，其中query用来查询pdf文件内容有多少与查询内容相关的内容个数，你也可以调用parse相关函数解析成str或list返回。

fastapi上传pdf文件接口

import logging
import os
from pydantic import BaseModel
from fastapi import FastAPI
from typing import Annotated
from fastapi import File, Form, UploadFile
from langchain_helper import save_pdf, query@app.post("/upload")
async def upload_file(file: Annotated[UploadFile, File()],index_name: Annotated[str, Form()]
):file_upload_target_path = os.path.join(os.getcwd(), file.filename)with open(file_upload_target_path, "wb+") as f:f.write(file.file.read())save_pdf(file_upload_target_path, index_name)return {"message": f"File uploaded successfully", "file_name": file.filename, "index_name": index_name}

这个接口就是上传pdf，并调用我们上面写的解析和保存pdf的方法，完成pdf的向量持久化。
接口调用成功，成功上传pdf并保存
在这里插入图片描述

fastapi查询接口

class Query(BaseModel):index_name: strquery_question: str@app.post("/search")
def query_index(request: Query):logging.info("--------------------------------------")index_name = request.index_namequery_question = request.query_questionlogging.info(f"index_name: {index_name}, question: {query_question}")return query(index_name, query_question)

这里的index_name与上一个上传接口的index_name相同！
调用成功，成功返回内容！
在这里插入图片描述
以上就是langchain解析pdf保存在本地，通过web 接口查询相关内容，这是一个很简单的示例，希望能够做到抛砖引玉，通过以前的文章，在此基础上，我们可以使用langchain玩出更多花活，比如我们在查找书中某些内容的时候，同时让langchain解析其中内容以解惑。