使用Ollama运行本地模型模型参数选择保姆级图文讲解Ollama简介Ollama官网OllamaOllama 是一个开源工具让你能在本地电脑上轻松运行大型语言模型如 Llama 3、DeepSeek、Qwen 等。它简化了 AI 模型的部署和使用过程无需依赖云端服务。核心特点简单易用- 通过几条命令就能下载和运行模型本地运行- 数据留在本地隐私安全多模型支持- 支持 Llama、DeepSeek、Mistral、Qwen 等主流模型跨平台- 支持 macOS、Linux 和 WindowsAPI 服务- 内置兼容 OpenAI 格式的 API 接口一、下载安装下载地址Download Ollama on Windows点击下载即可注意不要用CMD控制台下载因为卡了文件基本上就要重新下载了自定义安装路径使用CMD命令安装1、打开CMD控制台2、安装OllamaSetup.exe /DIRD:\environment\Ollama3、回车后安装即可4、设置模型安装路径注意这个安装路径只跟Ollama官网安装的模型有关系二、模型参数选择参考先说一下我的配置供大家参考因为后面我有测试样例AMD显卡 7800xt16G显存32G内存7800X3D8 核心 / 16 线程选择哪个模型参数规模也就是那个数字后面带的B主要看你的显卡有多少显存。简单来说显存是你的预算模型参数和量化精度是你想买的东西一定要量入为出。ps量化是一种压缩技术能在牺牲一点点精度的情况下大幅减少模型对显存的占用让它能在更多设备上跑起来模型参数规模显存需求 (FP16精度)显存需求 (Q5_K_M量化)适合做什么1B - 3B2 GB - 6 GB约 1 GB - 3 GB基础的文本生成、摘要、在手机或老旧笔记本上跑跑7B - 8B约 14 GB - 16 GB约 5 GB - 7 GB日常的编程辅助、文档问答、头脑风暴目前性价比最高的选择13B - 14B约 26 GB - 28 GB约 8 GB - 10 GB更复杂的推理任务、专业领域的知识问答、高质量的内容创作32B - 34B约 66 GB约 20 GB - 22 GB作为本地强大的“副驾驶”处理非常复杂的任务能力接近顶尖模型70B140 GB约 35 GB需要多张专业显卡如多路A100或H100才能运行适合企业和深度研究需要注意的是AMD显卡在跑AI时没有NVIDIA那么省心需要依赖ROCm支持但确实是个高显存、低成本的好选择。你的显存“预算”可流畅运行的模型规模NVIDIA 推荐型号AMD 推荐型号6 GB - 8 GB7B-8B模型 (需量化)RTX 3050/3060 (6GB/8GB)RX 6600/7600(需确认ROCm兼容性)12 GB - 16 GB7B-8B (高精度)或 13B-14B (量化)RTX 3060 (12GB),RTX 4070/4060 Ti (16GB)RX 6700/6800 XT(16GB版本)24 GB13B-14B (高精度)或 32B (量化)RTX 3090/4090RX 7900 XTX32 GB - 48 GB32B-34B (高精度)NVIDIA A6000 (48GB),RTX 6000 Ada需双卡或专业AMD计算卡 (如MI100系列)48 GB70B 模型NVIDIA A100 (80GB),多卡方案多卡方案或大显存计算卡三、Ollama 命令配合后面案例qwen:3.5举例字体加粗的是比较重要的命令说明示例ollama run运行模型。如果不存在则自动拉取。这个比下面好用下文案例会用到ollama run qwen:3.5ollama pull拉取模型。从库中下载模型但不运行。ollama pull qwen:3.5ollama list列出模型。显示本地所有已下载的模型。下文案例会用到ollama listollama rm删除模型。移除本地模型释放空间。下文案例会用到ollama rm qwen:3.5ollama cp复制模型。将现有模型复制为新名称用于测试。ollama cp qwen:3.5 my-modelollama create创建模型。根据 Modelfile 创建自定义模型高级。下文案例会用到ollama create qwen:3.5 -f ./Modelfileollama show显示信息。查看模型的元数据、参数或 Modelfile。ollama show --modelfile qwen:3.5ollama ps查看进程。显示当前正在运行的模型及显存占用。下文案例会用到ollama psollama push推送模型。将你自定义的模型上传到 ollama.com。ollama push my-username/qwen:3.5ollama serve启动服务。启动 Ollama 的 API 服务通常后台自动运行。ollama serveollama help帮助。查看任何命令的帮助信息。ollama help runollama launch用本地模型启动我后面的文章不是这篇文章会讲到用本地模型跑Openclaw并且集成飞书所以这个命令也比较重要Claude Codeollama launch claude --model qwen3.5Codexollama launch codex --model qwen3.5OpenCodeollama launch opencode --model qwen3.5OpenClawollama launch openclaw --model qwen3.5四、选择我们需要的下载的模型两种方式1、Ollama官网下载1、选择模型我们来到官网Ollama搜索我们需要的模型进行下载2、选择Qwen3.5举例需要运行的话只需要在cmd控制台之前的打开方式或者按 winR 键输入 CMD 回车也行输入ollama run qwen3.5会默认安装官方的latest版本量化版本点击 View all 查看如果我们需要下载自己的版本只需要复制这个Name即可如下ollama run qwen3.5:0.8b3、脚本下载因为下载有点慢每次下载一段时间就会限速所以我放个bat脚本就是一个文件的后缀为.bat的文件文件名随意保存下段命令后双击执行即可给大家使用当然大家也可以按 ctrlc退出当前下载然后重新输入下载命令即可逻辑下载2分钟中断3秒继续执行直到下载成功为止模型、超时时间、重试时间都可以自己调整echo off setlocal enabledelayedexpansion set MODELqwen3.5:4b set INTERRUPT_SECONDS120 set RETRY_DELAY_SECONDS3 echo echo Ollama Model Download Script echo echo Model: %MODEL% echo Interrupt Interval: %INTERRUPT_SECONDS% seconds echo Retry Delay: %RETRY_DELAY_SECONDS% seconds echo echo. :download_loop echo [%date% %time%] Checking if model is already downloaded... ollama list | findstr /C:%MODEL% nul 21 if %errorlevel% equ 0 ( echo. echo echo [%date% %time%] Download completed! echo goto :end ) echo [%date% %time%] Starting download... rem Start ollama pull in a new cmd window and get its PID for /f %%i in (powershell -ExecutionPolicy Bypass -Command $p Start-Process cmd -ArgumentList /k,ollama run %MODEL% -PassThru; $p.Id) do set DOWNLOAD_PID%%i echo PID: !DOWNLOAD_PID! rem Wait for specified seconds then close the download window timeout /t %INTERRUPT_SECONDS% /nobreak nul taskkill /PID !DOWNLOAD_PID! /F /T nul 21 timeout /t 1 /nobreak nul echo [%date% %time%] Download interrupted, waiting %RETRY_DELAY_SECONDS% seconds before retry... timeout /t %RETRY_DELAY_SECONDS% /nobreak nul echo. goto :download_loop :end echo. echo Download finished successfully! pause endlocal4、测试还是通过cmd窗口运行命令ollama ps查看进程。显示当前正在运行的模型及显存占用。ollama list列出模型。显示本地所有已下载的模型。ollama run qwen3.5:4b --thinkfalse运行模型。–thinkfalse 的意思是不开启深度思考qwen3.5模型是具备思考功能的C:\Users\Adminollamaps# 这里因为没有启动所以没有显示NAME ID SIZE PROCESSOR CONTEXT UNTIL C:\Users\Adminollama list NAME ID SIZE MODIFIED qwen3.5:4b 2a654d98e6fb3.4GB20minutes ago C:\Users\Adminollama run qwen3.5:4b--thinkfalse你好 你好有什么我可以帮你的吗Send a message(/?forhelp)# 退出的指令是 /bye 然后回车ollama app.exe 运行就是在Ollama的安装目录下之前改模型安装路径也打开过5、退出关闭Ollama就行了2、第三方下载魔塔modelscope、huggingface魔塔模型库huggingfaceModels – Hugging Face因为 huggingface 需要魔法所以我用魔塔举例并且选用量化的模型也是使用Qwen3.5举例1、我们先重点讲一下量化和GGUF文件GGUF是 LLaMA.cpp 团队为支持多种大模型包括 LLaMA、ChatGLM、Med-Go 等而设计的一种统一二进制格式专门用于存储量化后的模型权重。它允许模型在 CPU/GPU 上快速推理尤其适合本地部署。量化原始大模型如 Med-Go 32B使用FP16/FP32浮点数存储参数占用内存极大例如 32B 模型需约 64GB 显存。量化就是将高精度浮点数转换为低精度整数如 4-bit、5-bit从而大幅减少模型体积从几十 GB 压缩到几 GB提升推理速度降低对硬件要求可在普通 PC 上运行但代价是轻微牺牲精度与性能2、量化命名规则和含义格式含义特点Q2_K2-bit 量化K 表示使用 “K-quantization” 方案最小体积速度最快但精度最低Q3_K_L3-bit 量化L “Low precision”平衡大小与性能Q3_K_M3-bit 量化M “Medium”比 Q3_K_L 更好一些Q3_K_S3-bit 量化S “Small”轻量版适合资源受限设备Q4_K_M4-bit 量化M “Medium”推荐首选平衡速度、精度、内存Q4_K_S4-bit 量化S “Small”体积更小略逊于 MQ5_K_M5-bit 量化M “Medium”高精度适合专业用途Q5_K_S5-bit 量化S “Small”精度稍低速度快Q6_K6-bit 量化几乎接近 FP16 精度体积较大Q8_08-bit 量化无压缩接近原生精度几乎无损失3、我们去魔塔选择自己配置匹配的模型进行下载GGUF文件实际尝试4-bit的版本根本就是乱答哈哈哈可以换个模型来玩4、量化模型选择Qwen3.5举例我们既然使用了unsloth量化的模型就去unsloth 官网看看该怎么选择吧Unsloth 是一个专门用于加速大型语言模型LLM微调的开源库同时显著降低显存占用。它的核心目标是让大模型的微调变得更快、更省显存、更易于上手同时保持甚至提升模型的精度。根据下面这张表来选择吧5、下载完成后测试打开cmd窗口执行 ollama create 命令运行前记得把 ollama app.exe 打开ollama create qwen3.5:666 -f ./ModelFile把模型加载到ollamaollama create创建模型。根据 Modelfile 创建自定义模型qwen3.5:666自定义模型的名字-f ./ModelFile-f是--file的简写 ./ModelFile 指的就是当前文件夹下面的 gguf文件ollama list列出模型。显示本地所有已下载的模型。ollama run qwen3.5:666运行模型说实话我选这个4-bit的模型有点拉胯这里只是作为创建、运行、删除参考ollama rm qwen3.5:666删除模型。移除本地模型释放空间。D:\environment\QwenModelsollama create qwen3.5:666-f./ModelFile gathering model components copyingfilesha256:03b74727a860a56338e042c4420bb3f04b2fec5734175f4cb9fa853daf52b7e8100% parsing GGUF using existing layer sha256:03b74727a860a56338e042c4420bb3f04b2fec5734175f4cb9fa853daf52b7e8 writing manifest success D:\environment\QwenModelsollama list NAME ID SIZE MODIFIED qwen3.5:666 7874b6f05a015.7GB10seconds ago qwen3.5:4b 2a654d98e6fb3.4GB44minutes ago D:\environment\QwenModelsollama run qwen3.5:666# 运行我们创建的模型由于模型在乱答所以回答我就不贴出来了D:\environment\QwenModelsollamarmqwen3.5:666# 这里是删除操作deletedqwen3.5:666D:\environment\QwenModelsollama list# 这里可以看见已经被删除了NAME ID SIZE MODIFIED qwen3.5:4b 2a654d98e6fb3.4GB About an hour ago6、退出关闭Ollama就行了结语至此Ollama安装本地LLM已经完成了后续我还会更新OpenclawOllama本地大预言模型调用和Openclaw链接飞书机器人点赞越多更新越快后续反向好的话我会更新 Claude CodeClaude Sonnet 4.6、Chat GPT 5.4、CodeX 等使用的文章
使用Ollama运行本地模型,模型参数选择(保姆级图文讲解)
使用Ollama运行本地模型模型参数选择保姆级图文讲解Ollama简介Ollama官网OllamaOllama 是一个开源工具让你能在本地电脑上轻松运行大型语言模型如 Llama 3、DeepSeek、Qwen 等。它简化了 AI 模型的部署和使用过程无需依赖云端服务。核心特点简单易用- 通过几条命令就能下载和运行模型本地运行- 数据留在本地隐私安全多模型支持- 支持 Llama、DeepSeek、Mistral、Qwen 等主流模型跨平台- 支持 macOS、Linux 和 WindowsAPI 服务- 内置兼容 OpenAI 格式的 API 接口一、下载安装下载地址Download Ollama on Windows点击下载即可注意不要用CMD控制台下载因为卡了文件基本上就要重新下载了自定义安装路径使用CMD命令安装1、打开CMD控制台2、安装OllamaSetup.exe /DIRD:\environment\Ollama3、回车后安装即可4、设置模型安装路径注意这个安装路径只跟Ollama官网安装的模型有关系二、模型参数选择参考先说一下我的配置供大家参考因为后面我有测试样例AMD显卡 7800xt16G显存32G内存7800X3D8 核心 / 16 线程选择哪个模型参数规模也就是那个数字后面带的B主要看你的显卡有多少显存。简单来说显存是你的预算模型参数和量化精度是你想买的东西一定要量入为出。ps量化是一种压缩技术能在牺牲一点点精度的情况下大幅减少模型对显存的占用让它能在更多设备上跑起来模型参数规模显存需求 (FP16精度)显存需求 (Q5_K_M量化)适合做什么1B - 3B2 GB - 6 GB约 1 GB - 3 GB基础的文本生成、摘要、在手机或老旧笔记本上跑跑7B - 8B约 14 GB - 16 GB约 5 GB - 7 GB日常的编程辅助、文档问答、头脑风暴目前性价比最高的选择13B - 14B约 26 GB - 28 GB约 8 GB - 10 GB更复杂的推理任务、专业领域的知识问答、高质量的内容创作32B - 34B约 66 GB约 20 GB - 22 GB作为本地强大的“副驾驶”处理非常复杂的任务能力接近顶尖模型70B140 GB约 35 GB需要多张专业显卡如多路A100或H100才能运行适合企业和深度研究需要注意的是AMD显卡在跑AI时没有NVIDIA那么省心需要依赖ROCm支持但确实是个高显存、低成本的好选择。你的显存“预算”可流畅运行的模型规模NVIDIA 推荐型号AMD 推荐型号6 GB - 8 GB7B-8B模型 (需量化)RTX 3050/3060 (6GB/8GB)RX 6600/7600(需确认ROCm兼容性)12 GB - 16 GB7B-8B (高精度)或 13B-14B (量化)RTX 3060 (12GB),RTX 4070/4060 Ti (16GB)RX 6700/6800 XT(16GB版本)24 GB13B-14B (高精度)或 32B (量化)RTX 3090/4090RX 7900 XTX32 GB - 48 GB32B-34B (高精度)NVIDIA A6000 (48GB),RTX 6000 Ada需双卡或专业AMD计算卡 (如MI100系列)48 GB70B 模型NVIDIA A100 (80GB),多卡方案多卡方案或大显存计算卡三、Ollama 命令配合后面案例qwen:3.5举例字体加粗的是比较重要的命令说明示例ollama run运行模型。如果不存在则自动拉取。这个比下面好用下文案例会用到ollama run qwen:3.5ollama pull拉取模型。从库中下载模型但不运行。ollama pull qwen:3.5ollama list列出模型。显示本地所有已下载的模型。下文案例会用到ollama listollama rm删除模型。移除本地模型释放空间。下文案例会用到ollama rm qwen:3.5ollama cp复制模型。将现有模型复制为新名称用于测试。ollama cp qwen:3.5 my-modelollama create创建模型。根据 Modelfile 创建自定义模型高级。下文案例会用到ollama create qwen:3.5 -f ./Modelfileollama show显示信息。查看模型的元数据、参数或 Modelfile。ollama show --modelfile qwen:3.5ollama ps查看进程。显示当前正在运行的模型及显存占用。下文案例会用到ollama psollama push推送模型。将你自定义的模型上传到 ollama.com。ollama push my-username/qwen:3.5ollama serve启动服务。启动 Ollama 的 API 服务通常后台自动运行。ollama serveollama help帮助。查看任何命令的帮助信息。ollama help runollama launch用本地模型启动我后面的文章不是这篇文章会讲到用本地模型跑Openclaw并且集成飞书所以这个命令也比较重要Claude Codeollama launch claude --model qwen3.5Codexollama launch codex --model qwen3.5OpenCodeollama launch opencode --model qwen3.5OpenClawollama launch openclaw --model qwen3.5四、选择我们需要的下载的模型两种方式1、Ollama官网下载1、选择模型我们来到官网Ollama搜索我们需要的模型进行下载2、选择Qwen3.5举例需要运行的话只需要在cmd控制台之前的打开方式或者按 winR 键输入 CMD 回车也行输入ollama run qwen3.5会默认安装官方的latest版本量化版本点击 View all 查看如果我们需要下载自己的版本只需要复制这个Name即可如下ollama run qwen3.5:0.8b3、脚本下载因为下载有点慢每次下载一段时间就会限速所以我放个bat脚本就是一个文件的后缀为.bat的文件文件名随意保存下段命令后双击执行即可给大家使用当然大家也可以按 ctrlc退出当前下载然后重新输入下载命令即可逻辑下载2分钟中断3秒继续执行直到下载成功为止模型、超时时间、重试时间都可以自己调整echo off setlocal enabledelayedexpansion set MODELqwen3.5:4b set INTERRUPT_SECONDS120 set RETRY_DELAY_SECONDS3 echo echo Ollama Model Download Script echo echo Model: %MODEL% echo Interrupt Interval: %INTERRUPT_SECONDS% seconds echo Retry Delay: %RETRY_DELAY_SECONDS% seconds echo echo. :download_loop echo [%date% %time%] Checking if model is already downloaded... ollama list | findstr /C:%MODEL% nul 21 if %errorlevel% equ 0 ( echo. echo echo [%date% %time%] Download completed! echo goto :end ) echo [%date% %time%] Starting download... rem Start ollama pull in a new cmd window and get its PID for /f %%i in (powershell -ExecutionPolicy Bypass -Command $p Start-Process cmd -ArgumentList /k,ollama run %MODEL% -PassThru; $p.Id) do set DOWNLOAD_PID%%i echo PID: !DOWNLOAD_PID! rem Wait for specified seconds then close the download window timeout /t %INTERRUPT_SECONDS% /nobreak nul taskkill /PID !DOWNLOAD_PID! /F /T nul 21 timeout /t 1 /nobreak nul echo [%date% %time%] Download interrupted, waiting %RETRY_DELAY_SECONDS% seconds before retry... timeout /t %RETRY_DELAY_SECONDS% /nobreak nul echo. goto :download_loop :end echo. echo Download finished successfully! pause endlocal4、测试还是通过cmd窗口运行命令ollama ps查看进程。显示当前正在运行的模型及显存占用。ollama list列出模型。显示本地所有已下载的模型。ollama run qwen3.5:4b --thinkfalse运行模型。–thinkfalse 的意思是不开启深度思考qwen3.5模型是具备思考功能的C:\Users\Adminollamaps# 这里因为没有启动所以没有显示NAME ID SIZE PROCESSOR CONTEXT UNTIL C:\Users\Adminollama list NAME ID SIZE MODIFIED qwen3.5:4b 2a654d98e6fb3.4GB20minutes ago C:\Users\Adminollama run qwen3.5:4b--thinkfalse你好 你好有什么我可以帮你的吗Send a message(/?forhelp)# 退出的指令是 /bye 然后回车ollama app.exe 运行就是在Ollama的安装目录下之前改模型安装路径也打开过5、退出关闭Ollama就行了2、第三方下载魔塔modelscope、huggingface魔塔模型库huggingfaceModels – Hugging Face因为 huggingface 需要魔法所以我用魔塔举例并且选用量化的模型也是使用Qwen3.5举例1、我们先重点讲一下量化和GGUF文件GGUF是 LLaMA.cpp 团队为支持多种大模型包括 LLaMA、ChatGLM、Med-Go 等而设计的一种统一二进制格式专门用于存储量化后的模型权重。它允许模型在 CPU/GPU 上快速推理尤其适合本地部署。量化原始大模型如 Med-Go 32B使用FP16/FP32浮点数存储参数占用内存极大例如 32B 模型需约 64GB 显存。量化就是将高精度浮点数转换为低精度整数如 4-bit、5-bit从而大幅减少模型体积从几十 GB 压缩到几 GB提升推理速度降低对硬件要求可在普通 PC 上运行但代价是轻微牺牲精度与性能2、量化命名规则和含义格式含义特点Q2_K2-bit 量化K 表示使用 “K-quantization” 方案最小体积速度最快但精度最低Q3_K_L3-bit 量化L “Low precision”平衡大小与性能Q3_K_M3-bit 量化M “Medium”比 Q3_K_L 更好一些Q3_K_S3-bit 量化S “Small”轻量版适合资源受限设备Q4_K_M4-bit 量化M “Medium”推荐首选平衡速度、精度、内存Q4_K_S4-bit 量化S “Small”体积更小略逊于 MQ5_K_M5-bit 量化M “Medium”高精度适合专业用途Q5_K_S5-bit 量化S “Small”精度稍低速度快Q6_K6-bit 量化几乎接近 FP16 精度体积较大Q8_08-bit 量化无压缩接近原生精度几乎无损失3、我们去魔塔选择自己配置匹配的模型进行下载GGUF文件实际尝试4-bit的版本根本就是乱答哈哈哈可以换个模型来玩4、量化模型选择Qwen3.5举例我们既然使用了unsloth量化的模型就去unsloth 官网看看该怎么选择吧Unsloth 是一个专门用于加速大型语言模型LLM微调的开源库同时显著降低显存占用。它的核心目标是让大模型的微调变得更快、更省显存、更易于上手同时保持甚至提升模型的精度。根据下面这张表来选择吧5、下载完成后测试打开cmd窗口执行 ollama create 命令运行前记得把 ollama app.exe 打开ollama create qwen3.5:666 -f ./ModelFile把模型加载到ollamaollama create创建模型。根据 Modelfile 创建自定义模型qwen3.5:666自定义模型的名字-f ./ModelFile-f是--file的简写 ./ModelFile 指的就是当前文件夹下面的 gguf文件ollama list列出模型。显示本地所有已下载的模型。ollama run qwen3.5:666运行模型说实话我选这个4-bit的模型有点拉胯这里只是作为创建、运行、删除参考ollama rm qwen3.5:666删除模型。移除本地模型释放空间。D:\environment\QwenModelsollama create qwen3.5:666-f./ModelFile gathering model components copyingfilesha256:03b74727a860a56338e042c4420bb3f04b2fec5734175f4cb9fa853daf52b7e8100% parsing GGUF using existing layer sha256:03b74727a860a56338e042c4420bb3f04b2fec5734175f4cb9fa853daf52b7e8 writing manifest success D:\environment\QwenModelsollama list NAME ID SIZE MODIFIED qwen3.5:666 7874b6f05a015.7GB10seconds ago qwen3.5:4b 2a654d98e6fb3.4GB44minutes ago D:\environment\QwenModelsollama run qwen3.5:666# 运行我们创建的模型由于模型在乱答所以回答我就不贴出来了D:\environment\QwenModelsollamarmqwen3.5:666# 这里是删除操作deletedqwen3.5:666D:\environment\QwenModelsollama list# 这里可以看见已经被删除了NAME ID SIZE MODIFIED qwen3.5:4b 2a654d98e6fb3.4GB About an hour ago6、退出关闭Ollama就行了结语至此Ollama安装本地LLM已经完成了后续我还会更新OpenclawOllama本地大预言模型调用和Openclaw链接飞书机器人点赞越多更新越快后续反向好的话我会更新 Claude CodeClaude Sonnet 4.6、Chat GPT 5.4、CodeX 等使用的文章