使用Pydantic驾驭大模型

本文介绍Pydantic 库，首先介绍其概念及优势，然后通过基本示例展示如何进行数据验证。后面通过多个示例解释如何在LangChain中通过Pydantic进行数据验证，保证与大模型进行交互过程中数据准确性，并显示清晰的数验证错误信息。

Pydantic 简介

Pydantic 是用于数据验证和设置管理的 Python 库。它主要用于在 Python 程序中对数据进行严格的类型检查和验证，确保数据符合预期的格式和类型。它在处理用户输入、配置文件解析、API 数据交互等场景中非常有用。

Pydantic 基于 Python 的类型提示（type hints）构建。类型提示是 Python 3.5 + 版本引入的一个特性，用于在代码中声明变量、函数参数和返回值的类型，Pydantic 利用这些类型提示来验证数据。
在这里插入图片描述

Pydantic 的优势

数据验证功能强大

可以验证多种数据类型，包括基本数据类型（如整数、字符串、浮点数等）和复杂数据类型（如列表、字典、自定义对象等）。例如，验证一个包含用户信息的字典，其中年龄字段必须是整数，姓名字段必须是字符串。

支持嵌套数据结构的验证。如果有一个包含多个子对象的复杂数据结构，Pydantic 可以递归地验证每个子对象的类型和格式。比如一个包含订单信息的对象，其中订单详情是一个列表，每个订单详情对象又包含商品名称、价格等字段，Pydantic 可以验证整个结构的正确性。
易于使用和集成

基于 Python 的类型提示，代码的可读性非常高。开发人员只需要在定义类或函数时使用类型提示，Pydantic 就能自动进行数据验证。例如：

from pydantic import BaseModel
class User(BaseModel):name: strage: int

可以很方便地与其他 Python 库和框架集成，如 FastAPI。在 FastAPI 中，Pydantic 用于验证 API 请求和响应的数据格式，大大简化了 API 开发过程中的数据验证部分。

提供友好的错误信息

当数据验证失败时，Pydantic 会返回清晰、详细的错误信息。这些错误信息能够帮助开发人员快速定位问题所在。例如，如果一个字符串类型的字段被传入了一个整数，Pydantic 会指出哪个字段不符合预期类型以及正确的类型应该是什么。

简单验证示例

基本数据验证示例

from pydantic import BaseModelclass Item(BaseModel):name: strprice: floatis_available: bool# 正确的数据
item1 = Item(name="Apple", price=0.5, is_available=True)
print(item1)# 错误的数据，会引发验证错误
try:item2 = Item(name="Banana", price="not a float", is_available=True)
except ValueError as e:print(e)

在这个示例中，定义了一个Item类，它有三个字段：name（字符串类型）、price（浮点数类型）和is_available（布尔类型）。当创建item1时，传入的数据符合预期类型，所以能够正确创建对象。而当创建item2时，price字段传入了一个字符串而不是浮点数，Pydantic 会引发一个ValueError，并且可以通过捕获这个异常来处理错误。

嵌套数据验证示例

from pydantic import BaseModelclass OrderDetail(BaseModel):product_name: strquantity: intclass Order(BaseModel):order_id: intcustomer_name: strdetails: list[OrderDetail]order_data = {"order_id": 1,"customer_name": "John","details": [{"product_name": "Book", "quantity": 2},{"product_name": "Pen", "quantity": 3}]
}
order = Order(**order_data)
print(order)

这里定义了两个类，OrderDetail用于表示订单详情，包含product_name（字符串类型）和quantity（整数类型）。Order类用于表示整个订单，包含order_id（整数类型）、customer_name（字符串类型）和details（OrderDetail对象列表）。通过传入符合结构要求的字典order_data，可以正确创建Order对象。Pydantic 会自动验证order_data中的每个字段和嵌套对象的类型是否正确。

Pydantic驾驭LangChain

在 LangChain 中，Pydantic 主要用于数据验证和模型定义。LangChain 通常需要处理各种类型的数据，包括从外部 API 接收的数据、用户输入的数据以及内部组件之间传递的数据。Pydantic 的数据验证功能可以确保这些数据符合预期的结构和类型，从而避免因数据不匹配导致的错误。

同时，Pydantic 的 BaseModel 可以帮助你创建清晰的数据结构，方便在 LangChain 应用程序中进行数据的序列化和反序列化操作。
在这里插入图片描述

简单示例场景

假设你正在构建一个使用 LangChain 的对话机器人，你可能需要处理用户的输入和从语言模型返回的信息。你可以使用 Pydantic 来定义输入和输出的数据模型。

from pydantic import BaseModel
from langchain.llms import OpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate# 定义一个 Pydantic 模型来表示用户输入
class UserInput(BaseModel):topic: str# 定义一个 Pydantic 模型来表示语言模型的输出
class LLMOutput(BaseModel):response: str# 定义一个提示模板
prompt = PromptTemplate(input_variables=["topic"],template="请告诉我关于{topic}的一些信息。"
)# 初始化语言模型
llm = OpenAI(temperature=0.9)# 创建一个链
chain = LLMChain(llm=llm, prompt=prompt)# 示例用户输入
user_input = UserInput(topic="人工智能的发展")# 验证用户输入
if not isinstance(user_input, UserInput):raise ValueError("输入必须是 UserInput 类型")# 运行链
response = chain.run(topic=user_input.topic)# 处理语言模型的输出
llm_output = LLMOutput(response=response)print(llm_output)

首先，创建自定义的数据模型。

UserInput 类是一个 Pydantic 模型，它规定了用户输入必须包含名为 topic 的字符串字段。

LLMOutput 类是一个 Pydantic 模型，它规定了语言模型的输出必须包含名为 response 的字符串字段。
我们使用 PromptTemplate 来创建一个提示模板，它将根据用户输入的 topic 生成相应的提示。然后，我们使用 OpenAI 初始化一个语言模型，并将其与 LLMChain 结合，创建一个链。
当我们收到用户输入时，我们将其存储在 user_input 变量中，并将其作为 UserInput 类型进行验证。如果输入不符合 UserInput 类型，将引发 ValueError。运行链时，我们将用户输入的 topic 传递给链。
语言模型返回的结果存储在 response 中，我们将其包装在 LLMOutput 类型中，以确保其符合预期的数据结构。

其他组件结合示例

Pydantic 可以与 LangChain 的其他组件如 Agents、Memory 和 Tools 等结合使用。例如，当你使用 Agents 时，你可以定义 Pydantic 模型来表示工具的输入和输出，以确保数据在工具调用和工具响应之间的一致性。

from pydantic import BaseModel
from langchain.agents import Tool# 定义工具输入的 Pydantic 模型
class ToolInput(BaseModel):query: str# 定义工具输出的 Pydantic 模型
class ToolOutput(BaseModel):result: str# 定义简单的工具
def sample_tool(input_data: ToolInput) -> ToolOutput:# 确保输入数据是 ToolInput 类型if not isinstance(input_data, ToolInput):raise ValueError("输入必须是 ToolInput 类型")result = f"你查询的是: {input_data.query}"return ToolOutput(result=result)# 将工具包装为 LangChain 的工具
tool = Tool(name="SampleTool",func=sample_tool,description="一个简单的示例工具，它会重复你的查询。",parameters=ToolInput.schema()
)# 测试工具
input_data = ToolInput(query="测试工具")
output = tool.run(input_data.json())
print(output)

这里我们定义了 ToolInput 和 ToolOutput 两个 Pydantic 模型，分别用于表示工具的输入和输出。
我们创建简单的 sample_tool 函数，它接受 ToolInput 类型的输入并返回 ToolOutput 类型的输出。
然后我们使用 Tool 类将这个工具包装起来，并将其作为 LangChain 的工具使用。我们使用 ToolInput.schema() 来提供工具的输入参数的模式信息，方便 LangChain 对输入进行验证。

通过上述示例，你可以看到如何在 LangChain 中使用 Pydantic 来定义清晰的数据结构，并确保数据的一致性和正确性，同时将 Pydantic 与 LangChain 的不同组件进行结合，以增强你的应用程序的稳定性和可维护性。

详细完整示例

from pydantic import BaseModel, ValidationError
from langchain.llms import OpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate# 定义 Pydantic 模型用于输入数据的验证
class QueryInput(BaseModel):query: strmax_length: int# 定义 Pydantic 模型用于输出数据的验证
class QueryOutput(BaseModel):answer: str# 定义提示模板
prompt_template = PromptTemplate(input_variables=["query", "max_length"],template="请回答关于 {query} 的问题，回答长度不超过 {max_length} 个字符。"
)# 初始化语言模型
llm = OpenAI(temperature=0.7)# 创建一个 LLMChain
chain = LLMChain(llm=llm, prompt=prompt_template)def process_query(input_data: dict):try:# 使用 Pydantic 模型对输入数据进行验证validated_input = QueryInput(**input_data)except ValidationError as e:print(f"输入数据验证失败: {e}")return None# 运行 LLMChainresult = chain.run(query=validated_input.query, max_length=validated_input.max_length)try:# 使用 Pydantic 模型对输出数据进行验证validated_output = QueryOutput(answer=result)except ValidationError as e:print(f"输出数据验证失败: {e}")return Nonereturn validated_output# 测试数据
test_input = {"query": "什么是人工智能","max_length": 100
}# 调用函数进行处理
output = process_query(test_input)
if output:print(output.answer)