上一篇链接: 【大模型系列】使用ollama本地运行千问2.5模型 我们讲了ollama本地运行大模型,这里我们介绍另一种本地运行大模型的方法:llamacpp
软件下载
下载地址:https://github.com/ggml-org/llama.cpp/releases
下载cpu版本的llamacpp;建议下载3982版本的,新版本我试了在win上运行不了
下载后是一个压缩包,解压后配置Path
配置path
把解压后的路径加入到path中
校验
任意新开命令行,输入指令:
llama-cli -v
出现以下内容表示安装成功
启动
到模型所在目录,执行以下命令即可;下载模型可见我另一篇:链接: 【大模型系列】入门常识备忘 ,这里我们下载的gguf格式的模型
llama-server -m qwen2.5-7b-instruct-q5_0.gguf --port 8088 -c 2048
port 是服务的端口
c 是context的意思,即最大能处理多少个token
启动后就可以通过浏览器 http://localhost:8088 访问服务了
调试开始
over~~