Ollama 是一款开源的本地大语言模型(LLM)运行框架,用于管理和运行语言模型。具有以下核心特点:
-
开源可定制:采用 MIT 开源协议,开发者能自由使用、阅读源码并定制,可根据自身需求进行功能扩展和修改。
-
多模型支持:支持 Llama、DeepSeek-R1、Phi-4、Gemma 2 等众多语言模型,用户无需为每种模型单独搭建环境,能轻松在不同模型间切换以满足不同任务需求。
-
易于部署:提供主流操作系统安装包,没有技术背景的用户也可轻松部署。还支持 Docker 部署,进一步简化部署流程,方便在不同环境中快速搭建。
-
高性能:通过动态加载等技术优化资源使用,在保证高质量语言处理能力的同时,能快速响应用户请求,减少处理时间,提高运行效率。
-
可扩展性:支持自定义模型和插件系统,可扩展文件搜索、数学计算等功能,方便用户根据具体应用场景进行功能扩展。
-
多平台支持:支持 macOS、Windows、Linux 等操作系统,还能在 Linux 的虚拟服务器上安装,满足不同用户在不同设备和系统上的使用需求。
本镜像在 ollama 的框架上安装了 open-webui 可视化聊天框架,使操作更加便捷。除此之外,还提供了开机自启动功能。
Ollama
启动并运行大型语言模型。
macOS
下载
windocs
下载
Linux
curl -fsSL https://ollama.com/install.sh | sh
手动安装说明
Docker
Docker Hub 上提供了官方的 Ollama Docker 镜像。ollama/ollama
Libraries
OLLAMA-Python
OLLAMA-JS
Community
Discord
Reddit
快速入门
使用OLlama 运行 Llama 3.2:
ollama run llama3.2
模型库
Ollama 支持 ollama.com/library 上可用的模型列表
以下是一些可以下载的示例模型:
注意
您应该至少有 8 GB 的 RAM 来运行 7B 型号,16 GB 的 RAM 来运行 13B 的型号,32 GB 的 RAM 来运行 33B 型号。
自定义模型
从 GGUF 导入
Ollama 支持在 Modelfile 中导入 GGUF 模型:
创建一个文件,其中包含要导入的模型的本地文件路径的指令。
FROM ./vicuna-33b.Q4_0.gguf
在 Ollama 中创建模型
ollama create example -f Modelfile
运行模型
ollama run example
从 Safetensor 导入
请参阅 导入模型 以了解更多信息。
自定义提示
Ollama 库中的模型可以通过提示进行自定义。例如,要自定义模型:llama3.2
ollama pull llama3.2
创建一个 :Modelfile
FROM llama3.2# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 1# set the system message
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""
接下来,创建并运行模型:
ollama create mario -f ./Modelfile
ollama run mario
>>> hi
Hello! It's your friend Mario.
有关使用 Modelfile 的更多信息,请参阅 Modelfile 文档。
CLI Reference
创建模型
ollama create用于从 Modelfile 创建模型。
ollama create mymodel -f ./Modelfile
拉取模型
ollama pull llama3.2
此命令还可用于更新本地模型。只会拉取 diff。
删除模型
ollama rm llama3.2
复制模型
ollama cp llama3.2 my-model
多行输入
对于多行输入,您可以使用 :“”"
>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.
多模态模型
ollama run llava "What's in this image? /Users/jmorgan/Desktop/smile.png"
输出:图像具有黄色笑脸,这可能是图片的中心焦点。
将提示作为参数传递
ollama run llama3.2 "Summarize this file: $(cat README.md)"
输出:Ollama 是一个轻量级的可扩展框架,用于在本地计算机上构建和运行语言模型。它提供了一个用于创建、运行和管理模型的简单 API,以及一个可在各种应用程序中轻松使用的预构建模型库。
显示模型信息
ollama show llama3.2
列出计算机上的模型
ollama list
列出当前加载的模型
ollama ps
停止当前正在运行的模型
ollama stop llama3.2
启动 Ollama
ollama serve
当您想在不运行桌面应用程序的情况下启动 OLLAMA 时使用。
查看开发人员指南
本地部署
启动Ollama服务:
./ollama serve
在单独的 shell 中运行一个模型:
./ollama run llama3.2
REST API
Ollama 有一个用于运行和管理模型的 REST API。
生成响应
curl http://localhost:11434/api/generate -d '{"model": "llama3.2","prompt":"Why is the sky blue?"
}'
与模型聊天
curl http://localhost:11434/api/chat -d '{"model": "llama3.2","messages": [{ "role": "user", "content": "why is the sky blue?" }]
}'
请参阅所有端点的 API 文档。
社区集成
Web & 桌面
Open WebUI
Enchanted (macOS native)
Hollama
其它信息请参阅GitHub