vanna+deepseekV3+streamlit本地化部署

文章目录

1、vanna介绍
- 1.1、基本介绍
- 1.2、工作原理
- 1.3、优点
2、vanna+deepseekV3+mysql+streamlit本地化部署
- 2.1、创建conda环境，安装依赖
- 2.2、Mysql数据准备
- 2.3、新建pycharm项目
- 2.4、封装deepseek大模型
- 2.5、定义MyVanna
- 2.6、构建streamlit的app
- 2.7、app演示

1、vanna介绍

1.1、基本介绍

vanna是一个基于 MIT 许可的开源 Python RAG（检索增强生成）框架，专注于 SQL 生成和相关功能。它利用大型语言模型（LLM）和检索增强生成技术，将自然语言输入转换为 SQL 查询，允许用户通过自然语言与数据库交互，无需精通 SQL 语法即可提取数据中的有价值信息。Vanna 的核心目标是简化数据库交互，降低数据查询的技术门槛，适用于数据分析师、业务专家以及普通用户。

1.2、工作原理

Vanna 的工作流程主要分为以下步骤：

训练 RAG 模型：
基于用户的数据库模式（DDL）、元数据、文档和示例 SQL 查询，训练一个 RAG 模型，用于理解数据库结构和用户意图。
语义检索：
用户提出自然语言问题后，Vanna 通过向量数据库进行语义检索，匹配相关信息。
生成 SQL 查询：
结合检索到的上下文，利用 LLM 生成对应的 SQL 查询。
执行与反馈：
在数据库中执行生成的 SQL 查询，并以表格或图表形式展示结果。同时，Vanna 支持自我学习，用户反馈和成功查询可进一步优化模型。

1.3、优点

开源与可定制
- 作为 MIT 许可的开源框架，Vanna 允许用户根据需求进行定制和集成，适应不同业务场景。
- GitHub 星标已超 7200，社区活跃，持续优化潜力大。
数据可视化
查询结果以易于理解的表格、Pandas DataFrame 直观的可视化图表呈现，帮助用户快速获取洞察。

2、vanna+deepseekV3+mysql+streamlit本地化部署

2.1、创建conda环境，安装依赖

创建conda环境

conda create -n vanna-learn python=3.10
conda activate vanna-learn

安装依赖包

pip3 install 'vanna[chromadb,mysql]'
pip3 install openai
pip3 install streamlit

2.2、Mysql数据准备

创建数据库

CREATE SCHEMA `test_vn` DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

创建表

CREATE TABLE `user` (`id` SERIAL COMMENT '用户ID',`name` varchar(64) DEFAULT NULL COMMENT '姓名',`age` INT(10) NULL DEFAULT NULL COMMENT '年龄',`gender` enum('MALE','FEMALE') NULL DEFAULT NULL COMMENT '性别',PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

插入测试数据

drop procedure if exists insert_emp; 
delimiter ;;
create procedure insert_emp()        
begindeclare i int;                    set i=1;                          while(i<=1000)do                 insert into user(name,age,gender) values(CONCAT('tacy',i), FLOOR(RAND() * 100) + 1, IF(i % 3 = 0 , 'FEMALE', 'MALE')); set i=i+1;                       end while;
end;;
delimiter ;
call insert_emp();

2.3、新建pycharm项目

在这里插入图片描述

2.4、封装deepseek大模型

新建deepseek_chat,py

from vanna.base import VannaBase
from openai import OpenAIclass DeepSeekChat(VannaBase):def __init__(self, config=None):if config is None:raise ValueError("For DeepSeek, config must be provided with an api_key and model")if "api_key" not in config:raise ValueError("config must contain a DeepSeek api_key")if "model" not in config:raise ValueError("config must contain a DeepSeek model")api_key = config["api_key"]model = config["model"]self.model = modelself.client = OpenAI(api_key=api_key, base_url="https://api.deepseek.com/v1")def system_message(self, message: str) -> any:return {"role": "system", "content": message}def user_message(self, message: str) -> any:return {"role": "user", "content": message}def assistant_message(self, message: str) -> any:return {"role": "assistant", "content": message}def generate_sql(self, question: str, **kwargs) -> str:# 使用父类的 generate_sqlsql = super().generate_sql(question, **kwargs)# 替换 "\_" 为 "_"sql = sql.replace("\\_", "_")return sqldef submit_prompt(self, prompt, **kwargs) -> str:chat_response = self.client.chat.completions.create(model=self.model,messages=prompt,)return chat_response.choices[0].message.content

2.5、定义MyVanna

新建my_vanna,py

from vanna.chromadb import ChromaDB_VectorStore
from deepseek_chat import DeepSeekChatclass MyVanna(ChromaDB_VectorStore, DeepSeekChat):def __init__(self, config=None):ChromaDB_VectorStore.__init__(self, config=config)DeepSeekChat.__init__(self, config=config)

2.6、构建streamlit的app

新建app.py

实例化MyVanna

import streamlit as st
from my_vanna import MyVanna
import os
# DEEPSEEK_API_KEY在环境变量中设置
vn = MyVanna({'api_key': os.getenv('DEEPSEEK_API_KEY'), 'model': "deepseek-chat"})

连接数据库MYSQL

vn.connect_to_mysql(host='localhost', port=3306, dbname='test_vn', user='root', password='password')

train

ddl表数据: 有多张表，分多个ddl,分次调用train()

DDL_USER="""
CREATE TABLE `user` (`id` SERIAL COMMENT '用户ID',`name` varchar(64) DEFAULT NULL COMMENT '姓名',`age` INT(10) NULL DEFAULT NULL COMMENT '年龄',`gender` enum('MALE','FEMALE') NULL DEFAULT NULL COMMENT '性别',PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
"""
vn.train(ddl=DDL_USER)

documentation

vn.train(documentation='"即将失业的人"是指age>=35岁，也就是大于35岁的人会面临就业危机')

存储sql到向量数据库

# 只传sql,让大模型根据SQL构造一个question
vn.train(sql='select name from user where age between 35 and 60')# question-sql
vn.train(question='tacy18的年龄', sql='select age from user where name="tacy18"')

编写stream lit页面

st.header("你好，我是你的图表AI助理")
my_question = st.text_input("请问你要查询什么数据？")
if st.button("发送"):if my_question:# 大模型根据自然语言描述的问题生成SQLsql = vn.generate_sql(my_question)# 执行SQL获取数据df = vn.run_sql(sql)# 调用大模型生成绘制图表的代码code = vn.generate_plotly_code(question=my_question, sql=sql, df=df)# 绘制图表fig = vn.get_plotly_figure(plotly_code=code, df=df)# 显示结果st.plotly_chart(fig, use_container_width=True)