一、Ollama 简介
Ollama 是一个专注于本地化部署和运行大型语言模型(LLM)的工具,旨在让用户能够在自己的设备上高效地运行和微调模型。它由 Ollama 团队开发,这是一家独立的初创公司,由 Michael Chiang 和 Jeffrey Morgan 创立,总部位于加利福尼亚州帕洛阿尔托 。Ollama 的代码完全开源,遵循 MIT 开源协议,其开源地址为:https://github.com/ollama/ollama ,用户可以自由查看、修改和分发。其主要特点包括:
跨平台支持:兼容 Windows、Linux、MacOS 系统。
丰富模型库:提供 1700 + 大语言模型,如 Qwen、Llama 等,可在官网 model library 中直接下载使用。
用户模型上传:支持将 huggingface 等地方的 ggml 格式模型导入使用,也能将基于 pytorch 等格式的模型转换为 ggml 格式后导入。
自定义配置:用户可通过编写 modelfile 配置文件自定义模型推理参数,如 temperature、top_p 等,调节模型生成效果。
多 GPU 并行加速:支持多 GPU 并行推理加速,在多卡环境下可设置环境变量指定特定 GPU。
二、安装前准备
确保 Linux 系统满足以下条件:
系统要求:常见的 Linux 发行版,如 Ubuntu、CentOS 等。
硬件要求:至少有 8GB 的可用 RAM 来运行 7B 模型,16GB 来运行 13B 模型,32GB 来运行 33B 模型 。若有 GPU,推理效率会更高。
网络连接:安装过程需要联网下载相关组件和模型。
CUDA 支持:如果希望利用 GPU 加速 Ollama 运行,需要确保系统已安装 CUDA Toolkit。CUDA 是 NVIDIA 推出的一种并行计算平台和编程模型,可让 GPU 执行通用计算任务,大幅提升大语言模型的推理速度。
安装条件:需拥有 NVIDIA GPU,且显卡算力满足 CUDA 版本要求,可在 NVIDIA 官网查看对应关系。同时,要安装对应版本的 NVIDIA 驱动程序。
检查 CUDA 是否安装:打开终端,执行nvcc --version
命令,若已安装,会显示 CUDA 版本信息;若未安装,可前往 NVIDIA 官网下载对应版本的 CUDA Toolkit 安装包进行安装。安装过程中,按照提示进行操作,注意选择正确的安装路径和组件。
三、安装方法
(一)脚本安装
1.打开终端,执行以下命令下载安装脚本:
curl -fsSL https://ollama.com/install.sh | sh
此命令会从 Ollama 官网下载安装脚本并自动执行,过程中可能需要输入用户密码以获取安装权限。
2. 等待安装完成。安装脚本会自动下载所需组件,并完成 Ollama 的安装与配置。安装过程中会显示下载进度和安装步骤信息。
(二)二进制安装
2.将 Ollama 的二进制文件下载到 PATH 中的目录,例如:
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollamasudo chmod +x /usr/bin/ollama
上述命令使用 curl 下载 Ollama 二进制文件到/usr/bin
目录,并赋予其可执行权限。
2. 将 Ollama 添加为自启动服务:
首先,为 Ollama 创建用户:
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama
然后在/etc/systemd/system/ollama.service
创建服务文件,内容如下:
[Unit]Description=Ollama ServiceAfter=network-online.target[Service]ExecStart=/usr/bin/ollama serveUser=ollamaGroup=ollamaRestart=alwaysRestartSec=3[Install]WantedBy=default.target
3.设置开机自启动:
sudo systemctl daemon-reloadsudo systemctl enable ollama
4.启动 Ollama:
sudo systemctl start ollama
(三)安装特定版本
如果需要安装特定版本的 Ollama,可以设置OLLAMA_VERSION
字段,例如安装 0.3.13 版本:
curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.3.13 sh
四、安装验证
安装完成后,可以通过以下方式验证 Ollama 是否安装成功:
1.查看版本信息,在终端执行:
ollama -v
如果安装成功,会显示 Ollama 的版本号。
2. 查看帮助信息,执行:
ollama --help
此时会显示 Ollama 的常用命令及参数说明。
五、启动与停止
启动 Ollama 服务:
ollama serve
或者使用 systemd 启动:
sudo systemctl start ollama
停止 Ollama 服务:
sudo systemctl stop ollama
六、查看日志
查看作为启动服务运行的 Ollama 的日志:
journalctl -e -u ollama
七、更新 Ollama
(一)通过脚本更新
执行以下命令:
curl -fsSL https://ollama.com/install.sh | sh
(二)下载二进制文件更新
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollamasudo chmod +x /usr/bin/ollama
八、卸载 Ollama
删除 Ollama 服务:
sudo systemctl stop ollamasudo systemctl disable ollama
删除 Ollama 二进制文件及相关配置文件(根据实际安装路径确定),例如:
sudo rm /usr/bin/ollamasudo rm -rf /usr/share/ollama
sudo rm -rf /etc/systemd/system/ollama.service
清理残留的用户和组(可选):
sudo userdel -r ollama
sudo groupdel ollama
卸载完成后,Ollama 将从系统中移除。
九、Ollama 对 DeepSeek 的支持
Ollama 支持 DeepSeek,DeepSeek 是一个开源的大型语言模型,针对高性能推理和微调进行了优化,是像 LLaMA、GPT 和 Mistral 这样的模型的强大替代品,提供快速处理和可扩展的能力,成为研究和开发的理想选择。通过 Ollama,用户可以方便地在本地运行和管理 DeepSeek 模型,具体操作如下:
(一)拉取 DeepSeek 模型
在安装好 Ollama 后,使用以下命令拉取 DeepSeek 模型:
ollama pull deepseek-r1:1.5b
这将在您的系统上下载并安装 DeepSeek LLM (1.5B) 。如果您想尝试不同大小或配置的模型,请查看官方库:DeepSeek on Ollama 。
(二)运行 DeepSeek 模型
模型下载完成后,使用以下命令运行 DeepSeek 模型:
ollama run deepseek-r1:1.5b
这将启动与 DeepSeek AI 的交互式聊天会话,您可以在会话中与模型进行交互,输入问题并获取回答。
(三)使用 Ollama API 调用 DeepSeek 模型
Ollama 提供了一个 API,用于将 DeepSeek 模型集成到您的应用程序中。首先运行服务:
ollama serve
然后使用curl
发送请求,示例如下:
curl http://localhost:11434/api/generate -d '{"model": "deepseek-r1:1.5b","prompt": "What is DeepSeek?","stream": false}'
通过这种方式,您可以在自己的应用程序中调用 DeepSeek 模型,实现各种功能,如文本生成、问答系统等。