1. 环境安装
ubuntu20.04
python3.10
pycharm虚拟环境
2.拉取代码
虚拟环境下安装vllm:
pip install vllm
ubuntu命令窗口安装 sudo apt install git-lfs
初始化 Git LFS 安装 Git LFS 后,你需要虚拟环境命令窗口初始化它:git lfs install
拉取代码
git lfs install git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
如果大文件没有拉取成功,在仓库路径下手动拉取大文件:git lfs pull
如果大文件还是没有拉取成功,直接复制后放在正确位置即可。
3、 使用 vLLM 启动推理服务
现在,我们可以使用 vLLM 启动推理服务。
vllm serve /home/terrycao/PycharmProjects/deepseek/DeepSeek-R1-Distill-Qwen-1.5B \
> --tensor-parallel-size 1 \
> --max-model-len 8192 \
> --enforce-eager \
> --gpu-memory-utilization 0.7 \
> --swap-space 4 \
> --disable-log-stats
4、订阅服务
import requests import json# 设置 API 服务器地址 url = "http://0.0.0.0:8000/v1/completions"# 构造请求数据 data = {"model": "/home/terrycao/PycharmProjects/deepseek/DeepSeek-R1-Distill-Qwen-1.5B","prompt": "你的身份是一个名为DeepSeek的大型语言模型,请用中文介绍一下你自己。","max_tokens": 100,"temperature": 0.1,"top_p": 0.9 }# 发送 POST 请求 response = requests.post(url, json=data)# 打印完整的返回数据 print("Full Response:", response.json())# 检查是否有生成的文本 result = response.json() if "choices" in result and len(result["choices"]) > 0:print("Generated Text:", result["choices"][0]["text"]) else:print("Error: No text generated")
5、结果
/home/terrycao/PycharmProjects/deepseek/venv/bin/python /home/terrycao/PycharmProjects/deepseek/test.py
Full Response: {'id': 'cmpl-4e5f61fa865349df844980cdfd7d4d69', 'object': 'text_completion', 'created': 1740559537, 'model': '/home/terrycao/PycharmProjects/deepseek/DeepSeek-R1-Distill-Qwen-1.5B', 'choices': [{'index': 0, 'text': '请以简短的句子回答。\n</think>\n\n我是DeepSeek-R1,一个由深度求索公司开发的大型语言模型。我擅长通过思考来帮您解答复杂的数学,代码和逻辑推理等理工类问题。', 'logprobs': None, 'finish_reason': 'stop', 'stop_reason': None, 'prompt_logprobs': None}], 'usage': {'prompt_tokens': 17, 'total_tokens': 66, 'completion_tokens': 49, 'prompt_tokens_details': None}}
Generated Text: 请以简短的句子回答。
</think>
我是DeepSeek-R1,一个由深度求索公司开发的大型语言模型。我擅长通过思考来帮您解答复杂的数学,代码和逻辑推理等理工类问题。
Process finished with exit code 0