一、docker-compose 文件# gpu services: ollama: image: ollama/ollama:latest deploy: resources: reservations: devices: - driver: nvidia device_ids: [0] # 指定使用哪张卡,不写使用全部卡 capabilities: [gpu] volumes: - ./ollama-data-8b:/root/.ollama ports: - 11434:11434 #cpu services: ollama: image: ollama/ollama:latest volumes: - ./ollama-data-8b:/root/.ollama ports: - 11434:11434 # 可选给 CPU 限制资源 deploy: resources: limits: cpus: 8 # 最多用 8 核 CPU memory: 16G # 最多用 16G 内存二、常用命令命令功能常用示例ollama run 模型名下载并运行或直接运行一个模型。ollama run llama3.2ollama pull 模型名仅下载模型不运行。ollama pull deepseek-r1:7bollama list列出本地已下载的所有模型。ollama listollama ps查看当前正在运行的模型实例。ollama psollama stop 模型名停止某个正在运行的模型。ollama stop llama3ollama rm 模型名从本地删除一个模型。ollama rm mistralollama serve启动API服务以便通过代码调用。ollama serveollama create 自定义名 -f ./Modelfile使用Modelfile配置文件创建自定义模型。ollama create mymodel -f ./Modelfileollama logs查看模型运行的日志用于调试。ollama logsollama help查看所有命令的帮助信息。ollama help
本地部署ollama
一、docker-compose 文件# gpu services: ollama: image: ollama/ollama:latest deploy: resources: reservations: devices: - driver: nvidia device_ids: [0] # 指定使用哪张卡,不写使用全部卡 capabilities: [gpu] volumes: - ./ollama-data-8b:/root/.ollama ports: - 11434:11434 #cpu services: ollama: image: ollama/ollama:latest volumes: - ./ollama-data-8b:/root/.ollama ports: - 11434:11434 # 可选给 CPU 限制资源 deploy: resources: limits: cpus: 8 # 最多用 8 核 CPU memory: 16G # 最多用 16G 内存二、常用命令命令功能常用示例ollama run 模型名下载并运行或直接运行一个模型。ollama run llama3.2ollama pull 模型名仅下载模型不运行。ollama pull deepseek-r1:7bollama list列出本地已下载的所有模型。ollama listollama ps查看当前正在运行的模型实例。ollama psollama stop 模型名停止某个正在运行的模型。ollama stop llama3ollama rm 模型名从本地删除一个模型。ollama rm mistralollama serve启动API服务以便通过代码调用。ollama serveollama create 自定义名 -f ./Modelfile使用Modelfile配置文件创建自定义模型。ollama create mymodel -f ./Modelfileollama logs查看模型运行的日志用于调试。ollama logsollama help查看所有命令的帮助信息。ollama help