假设容器名字为ollama-qihuang
:
进入容器,拉取deepseek-r1:7b模型:
docker exec -it ollama-qihuang bash
ollama pull deepseek-r1:7b
Ollama 模型管理教程(容器名:ollama-qihuang)
一、拉取官方模型(以 llama2 为例)
# 进入Ollama容器的交互式Shell
docker exec -it ollama-qihuang bash
# 使用ollama CLI拉取官方模型(如llama2:7b)
ollama pull llama2:7b
# 退出容器
exit
二、验证官方模型是否成功拉取
# 查看所有已下载的模型
docker exec ollama-qihuang ollama list
# 预期输出(示例)
# NAME TYPE SIZE MODIFIED
# llama2:7b model 13.43 GB 2023-10-01 12:00:00
三、部署本地微调模型(以 deepseek-r1:7b-finetune 为例)
步骤 1:准备本地模型文件
将微调后的模型文件(通常为 GGML 格式)放入宿主机目录:
mkdir -p ~/qihuang/ollama/models/custom-models cp /path/to/your/finetuned-model.bin ~/qihuang/ollama/models/custom-models/deepseek-r1:7b-finetune.bin
步骤 2:重启容器以加载新模型
# 停止并重新启动容器(确保挂载路径正确)
docker restart ollama-qihuang
# 或重新创建容器(适用于首次部署)
docker run -d \
--name ollama-qihuang \
-p 9034:11434 \
-v ~/qihuang/ollama/models:/models \ # 挂载包含微调模型的目录
ollama/ollama:latest serve
步骤 3:通过 API 创建模型别名(可选)
curl -X POST http://localhost:9034/api/create \
-H "Content-Type: application/json" \
-d '{
"name": "deepseek-r1:7b-finetune",
"path": "/models/custom-models/deepseek-r1:7b-finetune.bin",
"alias": "my-finetuned-model"
}'
四、使用模型进行推理
1. 调用官方模型(llama2:7b)
curl http://localhost:9034/api/generate \
-H "Content-Type: application/json" \
-d '{
"model": "llama2:7b",
"prompt": "写一首关于秋天的诗",
"temperature": 0.8
}' | jq
2. 调用本地微调模型(deepseek-r1:7b-finetune)
curl http://localhost:9034/api/generate \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-r1:7b-finetune", # 或使用别名"my-finetuned-model"
"prompt": "根据微调数据回答问题:xxx",
"system": "你是一个专业的领域专家"
}' | jq
五、模型管理常用命令
操作 | 命令示例 |
---|---|
查看所有模型 | docker exec ollama-qihuang ollama list |
删除指定模型 | docker exec ollama-qihuang ollama delete llama2:7b |
查看模型详细信息 | docker exec ollama-qihuang ollama info deepseek-r1:7b-finetune |
列出正在运行的模型 | docker exec ollama-qihuang ollama running |
六、注意事项
模型路径映射:
确保宿主机目录~/qihuang/ollama/models
与容器内路径/models
正确挂载,否则无法识别本地模型。模型格式要求:
Ollama 支持 GGML 格式(.bin
文件),微调模型需转换为 Ollama 兼容的格式(可通过ollama convert
命令处理)。权限问题:
若出现权限不足,需确保宿主机目录对 Docker 用户可读:chmod -R 755 ~/qihuang/ollama/models
七、进阶操作:量化模型以减少显存占用
# 进入容器创建4位量化模型
docker exec -it ollama-qihuang bash
ollama create deepseek-r1:7b-finetune-q4 -s deepseek-r1:7b-finetune -q q4_0
exit
# 使用量化模型推理
curl http://localhost:9034/api/generate -d '{
"model": "deepseek-r1:7b-finetune-q4",
"prompt": "量化模型测试"
}'
通过以上步骤,可快速管理 Ollama 的官方模型和自定义微调模型。如需调整容器端口或 GPU 配置,可参考Ollama 官方文档。