本文旨在为希望在个人电脑上本地部署大语言模型的开发者、技术爱好者和初学者提供一份详实的实践指南。无论你是想体验最新AI技术、进行本地化AI应用开发还是希望在不依赖网络的情况下使用大模型本文都将为你提供清晰的路径。准备工作电脑性能评估https://www.canirun.ai通过该网站可以看到当下主流的大模型需要的环境条件以及自己电脑配置下可以运行哪些大模型相关概念解释模型名称及厂商不同厂商会发布自己训练蒸馏的大模型比如OpenAI的GPT阿里的Qwen深度求索的Deepseek等模型版本模型名字后面一般都会带有版本号如Qwen2.5、Qwen3.5、Qwen3.6等一般的同一个模型新版的能力会比旧版有所提升具体的可以查看模型厂商的官网模型规模一般的模型名字后面携带的671B、70B、14B等指的就是模型训练的参数量模型训练用到参数越多模型的推理能力会越强所以同一个模型参数量越大模型能力越强推理准确度更高但同样对电脑性能的要求也越高量化把模型参数从原来的高精度如 FP16每个数占16位转成低精度如 4-bit每个数占4位从而大幅减少显存和硬盘占用。通俗点说就是一种给AI模型“瘦身”的压缩技术。它把模型里一些不那么重要的高精度小数“四舍五入”换成低精度的小数从而大幅减小文件体积让模型在普通电脑上也能跑起来同时尽量不影响智商K-quantsllama.cpp 项目开发的一种量化方法GGUF一种专为大语言模型LLM 设计的二进制文件格式。它的全称是 GPT-Generated Unified Format由 llama.cpp 项目创造。是当前本地运行量化大模型最主流的“打包格式”它让几十 GB 的大模型可以压缩到十几 GB 并在普通电脑上流畅运行K-quants 家族量化基准量化等级平均位数说明F16 / F3216 / 32 bits原始精度但体积最大基本只用于模型训练或精度要求极高的场景Q8_08 bits精度极高几乎无损体积依旧不小Q6_K~6 bits精度依然很高质量和体积之间取得了很好的平衡Q5_K_M~5 bits质量很高并且体积得到了很好的压缩性价比极高Q5_K_S~5 bits比M版更激进一些牺牲少量质量换来更小的体积Q4_K_M~4 bits最推荐的黄金平衡点在体积、速度和质量上都表现优秀通用性最强Q4_K_S~4 bits比M版更激进一些牺牲少量质量换来更小的体积Q3及以下3 bits精度损失较多质量不友好不推荐新一代量化技术IQ-quants家族压缩时它会先生成“重要性矩阵”。在压缩过程中智能地给“知识核心区”分配更高的存储精度而“边缘区域”则采用更激进的压缩策略从而进一步压缩模型体积。量化等级对比K-quants说明IQ4_XSQ4_K_M体积小于Q4_K_M甚至小于Q4_K_S质量略微低于Q4_K_MIQ4_NLQ4_K_S体积接近Q4_K_S但是质量欠佳新手不友好不推荐总结家用电脑自己部署最推荐的选择是Q4_K_M显存有富裕可以考虑Q5_K_M甚至更高如果只是想在极限状态下把更高参数级的模型运行起来可以考虑IQ4_XS或者更激进的压缩等级但是会牺牲模型的性能并且对电脑不友好。部署方案现在比较主流本地化部署的方案有2种基于Ollama平台该方式有图形化界面对于新手友好但是会略微占用一部分电脑性能。这个方式会后续单独出文章介绍。基于llama.cppC/C语言编写性能更好但是只有命令行操作个人比较推荐这种方式本文主要介绍该方式的部署方案给新手的话大家不要一看到 “命令行”、“无图形操作页面” 等字眼就害怕其实整个过程核心命令只有1条剩下的都是跟调优与配置相关的可以后续感兴趣的话慢慢学习并且我会详细解释每个命令的含义以及如何使用所以不用担心。并且既然已经决定尝试学习计算机相关的内容了命令行操作是一个永远绕不开的技能躲是躲不掉的所以不如就从简单的开始练习。同时我个人推荐llama.cpp这种方式是因为家用电脑本身性能有限我们不能再在其他地方浪费电脑性能必须把算力花在刀尖上。查过部分资料不知道准确与否可以做个参考llama.cpp要比用Ollama平台性能提升15%左右安装llama.cppllama.cpp是一个大模型运行框架。如果把大模型比作是一段视频llama.cpp就是播放器用来播放视频的程序。新版的llama已经是编译后的压缩包直接解压即用方便了很多网上很多教程提到的编译等操作的其实都是旧版或者是专业开发者有能力调优cpp源代码的我们其实直接用现有压缩包的就行。下载地址https://llama-cpp.com/download根据自己系统选择安装包点击后会进入gitHub仓库里面有不同版本、不同操作系统的安装文件以Windows操作系统为例注意雷区一般家用电脑部署大模型都是希望吃到显卡的算力而不是纯CPU运算所以在下载时需要注意选择的llama.cpp是需要带有显卡优化的N卡优先选择CUDAA卡选择HIP或者Vulkan可以在自己电脑先查看自己的处理器类型现在一般多数都是x64架构的选择好自己需要的文件之后点击下载等待下载完成即可由于gitHub是国外服务器网站加载速度较慢并且经常会出现登不上去的情况不用太着急多试几次就好了同时下载速度也很慢需要在时间充裕的时候后台下载最好这里推荐几个方式加快下载速度1.查找国内镜像或者网盘等资源但是一般会比较难找而且不一定有需要的版本2.使用代理https://gh-proxy.com/访问该网站将下载链接复制进去可以转换成对应的代理链接下载速度会有所提升3.使用迅雷安装迅雷下载将下载链接放入迅雷或者安装迅雷浏览器插件打开网站点击下载时会自动弹出迅雷下载的操作窗口获取大模型文件对于llama.cpp方式我们需要GGUF架构的大模型文件也就是.gguf尾缀的文件前文如果将llama.cpp比作视频播放器那么GGUF文件就是播放器可以播放的视频格式比如.mp4下载地址Hugging Facehttps://huggingface.co 全球最大的模型库几乎所有主流模型的GGUF版都能在这里找到但是国内访问速度极慢国内镜像https://hf-mirror.com/ModelScopehttps://www.modelscope.cn/home 推荐国内用户的优选由阿里云发起国内下载体验非常出色以ModelScope为例在【模型库】中选择GGUF文件找到自己需要的模型后进入选择的建议这里会出现同一个模型的多个文件因为是不同公司或者团队对同一个模型进行处理后得到的GGUF文件就像是同样的4090显卡有华硕的有七彩虹的等等。下载时候优先选择官方厂商的或者是选择下载量高的选择自己需要下载的版本进行下载这里不同量化版本的区别上文已经解释过这里就不过多赘述部署和运行llama.cpp下载后是一个压缩包将其解压存放位置根据自己情况而定路径最好是全英文解压的时候注意一下有的解压软件不会创建新文件夹进行解压解压后文件全部散落到当前文件夹下了非常乱所以需注意一下解压时设置好解压路径和目标文件。在解压后的文件夹中新建一个models文件夹用来存放大模型文件将下载的GGUF文件放入models文件夹在llama.cpp文件目录下在路径地址栏执行cmd命令在命令行窗口中输入llama-server -m models/“大模型gguf文件名” -ngl 99命令即可运行大模型了例如llama-server-mmodels/Qwen3.5-9B-Q8_0.gguf-ngl99命令解释llama-server -mllama的核心指令用来启动和运行大模型其实我们在llama的文件夹中就可以看到有一个叫 llama-server 的应用程序就是这个程序来帮助我们的运行/models/Qwen3.5-9B-Q8_0.gguf大模型文件的位置用来指定要运行哪个文件-ngl 99GPU卸载层数通俗来说就是要把多少内容由GPU也就是显卡来处理数字越大交由显卡负责的内容越多主要用来权衡CPU和GPU的工作性能如果在选择llama.cpp文件时选择的纯CPU方案则不需要该参数去掉即可运行成功的话会显示一个本地地址我们可以通过浏览器访问这个本地地址一般访问http://localhost:8080 即可能进入到一个简易的对话UI界面到这里就已经部署完毕了我们可以通过这个页面进行对话和相关的操作在命令窗口按住键盘CtrlC就可以停止大模型运行常见问题及解决方案如何选择模型和量化等级这个其实不用过分纠结通过最前面给出的网站确定一个大致方向然后可以多下载几个模型文件然后都运行一下自己比较即可如何切换模型或者新增模型这个很简单只需要将新下载的模型文件放入models文件夹中然后将启动命令里面的文件名称改为新的文件名字即可雷区下载的是特殊GGUF文件例如MTP等正常命令无法运行该GGUF文件一般是对大模型进行了优化后的文件MTP 可在不损失精度的情况下实现约 1.5-2 倍的推理加速。除了MTP也可能有其他的特殊字样这个在你下载GGUF文件时一般会有介绍需要先了解清楚具体含义和用法再去下载。一般在模型介绍中也会列出这种带有特殊字样的文件需要哪些额外操作。以MTP为例需要在正常启动命令后面增加--spec-type draft-mtp就可以正常运行了llama-server-m/models/Qwen3.5-9B-Q8_0.gguf-ngl99--spec-type draft-mtp雷区大模型处理时没有用到显卡加速这个一般可以通过响应速度和任务管理器查看如果大模型处理问题时GPU毫无波动并且处理速度极慢10 t/s 也可以通过命令llama-server --list-devices查看可用的装置如果列表中没有你显卡相应的信息大概率就是没有用到显卡。排查方向检查显卡驱动保证驱动正常可用检查自己下载的llama.cpp文件是否是兼容显卡加速的如果只是纯CPU的版本则无法启用显卡的算力具体可参考上文检查自己显卡的厂商和下载文件是否匹配例如N卡尽量选择CUDA文件A卡选择HIP和VulkanA卡兼容性和便捷性确实不如N卡因为CUDA是N卡官方自己的架构优化策略而A卡没有自己的优化框架HIP和Vulkan并不是单纯为AMD显卡服务的他们都只是提供了一个虚拟架构让更多的主流设备能够有一个优化框架所以不是所有的AMD显卡型号都能兼容。对于AMD显卡用户HIP和Vulkan两个方式都要尝试不一定哪个能好用优先级的话先尝试HIP再尝试VulkanAMD显卡兼容性问题可以参考上一条问题HIP和Vulkan两个方式都要尝试使用HIP方式的时候如果不成功可以尝试检查一下llama.cpp是不是缺少显卡驱动文件HIP方式的llama.cpp目录下有一个rocblas/library文件夹里面一般会包含大部分主流显卡的驱动文件检查一下里面是否有自己显卡的架构型号对应文件例如TensileLibrary_lazy_gfx1030显卡的架构型号(gfx1030)可以直接上网搜自己显卡对应的型号如果缺少的话可以去AMD官网先现在驱动文件然后将文件复制到rocblas/library文件夹进行尝试
本地大模型快速部署与调用指南【小白可上手】(Windows+AMD显卡+llama.cpp方式本地部署大模型)
本文旨在为希望在个人电脑上本地部署大语言模型的开发者、技术爱好者和初学者提供一份详实的实践指南。无论你是想体验最新AI技术、进行本地化AI应用开发还是希望在不依赖网络的情况下使用大模型本文都将为你提供清晰的路径。准备工作电脑性能评估https://www.canirun.ai通过该网站可以看到当下主流的大模型需要的环境条件以及自己电脑配置下可以运行哪些大模型相关概念解释模型名称及厂商不同厂商会发布自己训练蒸馏的大模型比如OpenAI的GPT阿里的Qwen深度求索的Deepseek等模型版本模型名字后面一般都会带有版本号如Qwen2.5、Qwen3.5、Qwen3.6等一般的同一个模型新版的能力会比旧版有所提升具体的可以查看模型厂商的官网模型规模一般的模型名字后面携带的671B、70B、14B等指的就是模型训练的参数量模型训练用到参数越多模型的推理能力会越强所以同一个模型参数量越大模型能力越强推理准确度更高但同样对电脑性能的要求也越高量化把模型参数从原来的高精度如 FP16每个数占16位转成低精度如 4-bit每个数占4位从而大幅减少显存和硬盘占用。通俗点说就是一种给AI模型“瘦身”的压缩技术。它把模型里一些不那么重要的高精度小数“四舍五入”换成低精度的小数从而大幅减小文件体积让模型在普通电脑上也能跑起来同时尽量不影响智商K-quantsllama.cpp 项目开发的一种量化方法GGUF一种专为大语言模型LLM 设计的二进制文件格式。它的全称是 GPT-Generated Unified Format由 llama.cpp 项目创造。是当前本地运行量化大模型最主流的“打包格式”它让几十 GB 的大模型可以压缩到十几 GB 并在普通电脑上流畅运行K-quants 家族量化基准量化等级平均位数说明F16 / F3216 / 32 bits原始精度但体积最大基本只用于模型训练或精度要求极高的场景Q8_08 bits精度极高几乎无损体积依旧不小Q6_K~6 bits精度依然很高质量和体积之间取得了很好的平衡Q5_K_M~5 bits质量很高并且体积得到了很好的压缩性价比极高Q5_K_S~5 bits比M版更激进一些牺牲少量质量换来更小的体积Q4_K_M~4 bits最推荐的黄金平衡点在体积、速度和质量上都表现优秀通用性最强Q4_K_S~4 bits比M版更激进一些牺牲少量质量换来更小的体积Q3及以下3 bits精度损失较多质量不友好不推荐新一代量化技术IQ-quants家族压缩时它会先生成“重要性矩阵”。在压缩过程中智能地给“知识核心区”分配更高的存储精度而“边缘区域”则采用更激进的压缩策略从而进一步压缩模型体积。量化等级对比K-quants说明IQ4_XSQ4_K_M体积小于Q4_K_M甚至小于Q4_K_S质量略微低于Q4_K_MIQ4_NLQ4_K_S体积接近Q4_K_S但是质量欠佳新手不友好不推荐总结家用电脑自己部署最推荐的选择是Q4_K_M显存有富裕可以考虑Q5_K_M甚至更高如果只是想在极限状态下把更高参数级的模型运行起来可以考虑IQ4_XS或者更激进的压缩等级但是会牺牲模型的性能并且对电脑不友好。部署方案现在比较主流本地化部署的方案有2种基于Ollama平台该方式有图形化界面对于新手友好但是会略微占用一部分电脑性能。这个方式会后续单独出文章介绍。基于llama.cppC/C语言编写性能更好但是只有命令行操作个人比较推荐这种方式本文主要介绍该方式的部署方案给新手的话大家不要一看到 “命令行”、“无图形操作页面” 等字眼就害怕其实整个过程核心命令只有1条剩下的都是跟调优与配置相关的可以后续感兴趣的话慢慢学习并且我会详细解释每个命令的含义以及如何使用所以不用担心。并且既然已经决定尝试学习计算机相关的内容了命令行操作是一个永远绕不开的技能躲是躲不掉的所以不如就从简单的开始练习。同时我个人推荐llama.cpp这种方式是因为家用电脑本身性能有限我们不能再在其他地方浪费电脑性能必须把算力花在刀尖上。查过部分资料不知道准确与否可以做个参考llama.cpp要比用Ollama平台性能提升15%左右安装llama.cppllama.cpp是一个大模型运行框架。如果把大模型比作是一段视频llama.cpp就是播放器用来播放视频的程序。新版的llama已经是编译后的压缩包直接解压即用方便了很多网上很多教程提到的编译等操作的其实都是旧版或者是专业开发者有能力调优cpp源代码的我们其实直接用现有压缩包的就行。下载地址https://llama-cpp.com/download根据自己系统选择安装包点击后会进入gitHub仓库里面有不同版本、不同操作系统的安装文件以Windows操作系统为例注意雷区一般家用电脑部署大模型都是希望吃到显卡的算力而不是纯CPU运算所以在下载时需要注意选择的llama.cpp是需要带有显卡优化的N卡优先选择CUDAA卡选择HIP或者Vulkan可以在自己电脑先查看自己的处理器类型现在一般多数都是x64架构的选择好自己需要的文件之后点击下载等待下载完成即可由于gitHub是国外服务器网站加载速度较慢并且经常会出现登不上去的情况不用太着急多试几次就好了同时下载速度也很慢需要在时间充裕的时候后台下载最好这里推荐几个方式加快下载速度1.查找国内镜像或者网盘等资源但是一般会比较难找而且不一定有需要的版本2.使用代理https://gh-proxy.com/访问该网站将下载链接复制进去可以转换成对应的代理链接下载速度会有所提升3.使用迅雷安装迅雷下载将下载链接放入迅雷或者安装迅雷浏览器插件打开网站点击下载时会自动弹出迅雷下载的操作窗口获取大模型文件对于llama.cpp方式我们需要GGUF架构的大模型文件也就是.gguf尾缀的文件前文如果将llama.cpp比作视频播放器那么GGUF文件就是播放器可以播放的视频格式比如.mp4下载地址Hugging Facehttps://huggingface.co 全球最大的模型库几乎所有主流模型的GGUF版都能在这里找到但是国内访问速度极慢国内镜像https://hf-mirror.com/ModelScopehttps://www.modelscope.cn/home 推荐国内用户的优选由阿里云发起国内下载体验非常出色以ModelScope为例在【模型库】中选择GGUF文件找到自己需要的模型后进入选择的建议这里会出现同一个模型的多个文件因为是不同公司或者团队对同一个模型进行处理后得到的GGUF文件就像是同样的4090显卡有华硕的有七彩虹的等等。下载时候优先选择官方厂商的或者是选择下载量高的选择自己需要下载的版本进行下载这里不同量化版本的区别上文已经解释过这里就不过多赘述部署和运行llama.cpp下载后是一个压缩包将其解压存放位置根据自己情况而定路径最好是全英文解压的时候注意一下有的解压软件不会创建新文件夹进行解压解压后文件全部散落到当前文件夹下了非常乱所以需注意一下解压时设置好解压路径和目标文件。在解压后的文件夹中新建一个models文件夹用来存放大模型文件将下载的GGUF文件放入models文件夹在llama.cpp文件目录下在路径地址栏执行cmd命令在命令行窗口中输入llama-server -m models/“大模型gguf文件名” -ngl 99命令即可运行大模型了例如llama-server-mmodels/Qwen3.5-9B-Q8_0.gguf-ngl99命令解释llama-server -mllama的核心指令用来启动和运行大模型其实我们在llama的文件夹中就可以看到有一个叫 llama-server 的应用程序就是这个程序来帮助我们的运行/models/Qwen3.5-9B-Q8_0.gguf大模型文件的位置用来指定要运行哪个文件-ngl 99GPU卸载层数通俗来说就是要把多少内容由GPU也就是显卡来处理数字越大交由显卡负责的内容越多主要用来权衡CPU和GPU的工作性能如果在选择llama.cpp文件时选择的纯CPU方案则不需要该参数去掉即可运行成功的话会显示一个本地地址我们可以通过浏览器访问这个本地地址一般访问http://localhost:8080 即可能进入到一个简易的对话UI界面到这里就已经部署完毕了我们可以通过这个页面进行对话和相关的操作在命令窗口按住键盘CtrlC就可以停止大模型运行常见问题及解决方案如何选择模型和量化等级这个其实不用过分纠结通过最前面给出的网站确定一个大致方向然后可以多下载几个模型文件然后都运行一下自己比较即可如何切换模型或者新增模型这个很简单只需要将新下载的模型文件放入models文件夹中然后将启动命令里面的文件名称改为新的文件名字即可雷区下载的是特殊GGUF文件例如MTP等正常命令无法运行该GGUF文件一般是对大模型进行了优化后的文件MTP 可在不损失精度的情况下实现约 1.5-2 倍的推理加速。除了MTP也可能有其他的特殊字样这个在你下载GGUF文件时一般会有介绍需要先了解清楚具体含义和用法再去下载。一般在模型介绍中也会列出这种带有特殊字样的文件需要哪些额外操作。以MTP为例需要在正常启动命令后面增加--spec-type draft-mtp就可以正常运行了llama-server-m/models/Qwen3.5-9B-Q8_0.gguf-ngl99--spec-type draft-mtp雷区大模型处理时没有用到显卡加速这个一般可以通过响应速度和任务管理器查看如果大模型处理问题时GPU毫无波动并且处理速度极慢10 t/s 也可以通过命令llama-server --list-devices查看可用的装置如果列表中没有你显卡相应的信息大概率就是没有用到显卡。排查方向检查显卡驱动保证驱动正常可用检查自己下载的llama.cpp文件是否是兼容显卡加速的如果只是纯CPU的版本则无法启用显卡的算力具体可参考上文检查自己显卡的厂商和下载文件是否匹配例如N卡尽量选择CUDA文件A卡选择HIP和VulkanA卡兼容性和便捷性确实不如N卡因为CUDA是N卡官方自己的架构优化策略而A卡没有自己的优化框架HIP和Vulkan并不是单纯为AMD显卡服务的他们都只是提供了一个虚拟架构让更多的主流设备能够有一个优化框架所以不是所有的AMD显卡型号都能兼容。对于AMD显卡用户HIP和Vulkan两个方式都要尝试不一定哪个能好用优先级的话先尝试HIP再尝试VulkanAMD显卡兼容性问题可以参考上一条问题HIP和Vulkan两个方式都要尝试使用HIP方式的时候如果不成功可以尝试检查一下llama.cpp是不是缺少显卡驱动文件HIP方式的llama.cpp目录下有一个rocblas/library文件夹里面一般会包含大部分主流显卡的驱动文件检查一下里面是否有自己显卡的架构型号对应文件例如TensileLibrary_lazy_gfx1030显卡的架构型号(gfx1030)可以直接上网搜自己显卡对应的型号如果缺少的话可以去AMD官网先现在驱动文件然后将文件复制到rocblas/library文件夹进行尝试