本文详细介绍了如何通过llama.cpp、GGUF量化、CPU Offload和MoE优化等技术在RTX3070 8G显存配置下本地部署Qwen3.6-35B-A3B多模态大模型。内容涵盖了模型下载、mmproj配置、启动脚本编写、参数解释以及常见报错解决适合AI小白学习和实践。通过这些技术即使显存资源有限也能在普通电脑上体验35B级别大模型的强大功能。估计很多人看到这个标题第一反应都是不可能吧35B 大模型不是必须 24G、48G甚至 80G 显存才能跑吗一张 RTX 3070 8G 显卡怎么可能跑得动 35B 级别的大模型但这次确实有点意思。通过 llama.cpp GGUF 量化 CPU Offload MoE 优化再搭配足够大的系统内存8G 显存也可以把 Qwen3.6-35B-A3B 多模态大模型跑起来。**先说清楚**8G 显存能跑不代表满血跑。它不是把整个 35B 模型全部塞进显卡而是让 GPU、CPU、内存一起分工。简单理解就是显卡负责最适合 GPU 的计算部分CPU 和内存承担一部分模型权重和 MoE 专家层GGUF 量化负责降低模型体积llama.cpp 负责把这些东西调度起来mmproj 负责让模型具备图片理解能力。这篇文章就用最小白的方式完整讲一下Qwen3.6-35B-A3B 是什么为什么 8G 显存也能跑 35B需要什么硬件配置llama.cpp 怎么安装GGUF 模型怎么放mmproj 是什么启动脚本怎么写常见报错怎么解决。一、这次跑的是什么模型这次测试的是Qwen3.6-35B-A3B很多小白看到这个名字会有点懵我们拆开看一下。名称含义Qwen通义千问系列模型3.6模型版本35B总参数量约 35BA3B每次推理大约激活 3B 参数GGUF适合 llama.cpp 运行的模型格式Q4_K_M一种 4bit 量化格式兼顾体积、速度和质量mmproj多模态视觉投影文件用来支持图片理解如果你只想知道一句话Qwen3.6-35B-A3B 是一个 35B 级别的多模态大模型但它不是每次都把 35B 参数全部激活。这点非常关键。因为它属于 MoE 架构也就是 Mixture of Experts中文一般叫混合专家模型。你可以把它理解成一个大公司公司里有很多专家总规模很大但每次处理任务不是所有专家都上场系统只会挑一部分相关专家来干活。所以虽然它总参数量很大但每次真正参与推理的参数相对更少。这也是为什么它可以通过特殊部署方式在低显存设备上跑起来。图Qwen3.6-35B-A3B 实测截图二、为什么 8G 显存也能跑 35B正常情况下35B 模型对显存要求非常高。如果是传统 Dense 稠密模型每次推理时大部分参数都要参与计算那 8G 显存基本没戏。但 Qwen3.6-35B-A3B 比较特殊它是 MoE 架构。1. MoE 架构降低了每次推理的实际压力MoE 的核心逻辑是总参数很多但每次只激活一部分专家。这就像一个医院有很多科室但你感冒了不会让所有医生都给你看病只会调用相关科室。所以 Qwen3.6-35B-A3B 虽然是 35B 级别但每次实际激活规模并没有完整 35B 那么恐怖。2. GGUF 量化降低了模型体积原始大模型通常非常大普通电脑很难加载。GGUF 量化可以把模型压缩成更适合本地推理的格式。这次用的是Qwen3.6-35B-A3B-UD-Q4_K_M.gguf其中 Q4_K_M 表示一种 4bit 量化方式。它的好处是模型文件更小显存和内存压力更低速度相对更好回答质量还能接受。3. CPU Offload 把一部分压力转移到内存这次能跑起来的关键不是 8G 显存真的装下整个 35B而是通过 llama.cpp 的 CPU Offload让一部分模型权重和 MoE 计算放到 CPU / 内存侧。GPU 负责注意力层 RAM 负责专家层 CPU 参与调度和部分计算这就是低显存跑大模型的核心思路。4. llama.cpp 对本地推理支持很好llama.cpp 是现在本地跑 GGUF 模型非常常用的推理框架。它支持 CPU 推理、NVIDIA GPU、AMD GPU、Intel GPU、GGUF 模型、多模态 mmproj、Web UI、各种量化缓存以及 GPU / CPU 混合推理。所以这次我们不用复杂的 Docker也不用自己搭一堆 Python 环境直接用 llama.cpp 就可以跑。三、测试硬件配置本次测试配置如下项目配置CPUIntel i7-12700GPUNVIDIA RTX 3070显存8GB内存32G × 2也就是 64GB系统Windows 11推理框架llama.cpp CUDA 12.4模型格式GGUF量化版本Q4_K_M这里最重要的不是 CPU而是两点8G 显存 64G 内存很多人只看显存忽略了系统内存。但这种 CPU Offload 方案非常依赖内存。如果你只有 16GB 内存基本不推荐尝试如果你有 32GB 内存可以试但可能比较吃紧如果你有 64GB 内存会稳很多。图RTX3070 8G 64G 内存测试环境推荐配置硬件建议显卡NVIDIA 8GB 显存起步内存32GB 起步64GB 推荐硬盘SSD至少预留 50GB 空间系统Windows 10 / Windows 11框架llama.cpp CUDA 版模型GGUF 量化版不推荐配置配置原因16GB 内存很容易爆内存机械硬盘模型加载很慢纯 CPU可以跑但速度会很痛苦太旧的显卡驱动可能 CUDA 加载失败一句话8G 显存能跑但最好有 64GB 内存配合。四、先搞懂几个关键文件1. llama-server.exe这是 llama.cpp 里的服务端程序。我们后面就是用它启动本地网页 UI。启动后浏览器访问http://127.0.0.1:8080就可以像网页版 ChatGPT 一样使用本地模型。2. Qwen3.6-35B-A3B-UD-Q4_K_M.gguf这是主模型文件负责聊天、推理、理解文本。Qwen3.6-35B-A3B-UD-Q4_K_M.gguf3. mmproj-BF16.gguf这是多模态视觉投影文件。如果你只聊天可以暂时不管它但如果你想上传图片让模型识图就必须要有它。没有 mmproj常见问题是图片按钮灰色图片无法上传上传后模型不理解图片Vision 功能不工作。mmproj-BF16.gguf4. 启动.bat这是 Windows 一键启动脚本。我们把所有运行参数写进 bat 文件里以后只要双击它就能启动模型。五、整体部署流程第一步下载 llama.cpp CUDA 版 第二步下载 Qwen3.6-35B-A3B GGUF 模型 第三步下载 mmproj-BF16.gguf 第四步整理模型目录 第五步创建启动.bat 脚本 第六步双击启动并访问网页 UI看起来很多其实操作并不复杂。小白只要照着目录放文件再复制启动脚本即可。六、第一步下载 llama.cppWindows 用户建议直接下载 llama.cpp 的 CUDA 预编译版本。下载后解压到一个固定目录比如D:\AI\llama.cpp解压后目录里一般会有这些文件llama-server.exe llama-cli.exe llama-bench.exe ggml-cuda.dll 其他 dll 文件其中最重要的是llama-server.exe后面我们会用它启动本地网页服务。**注意**一定要下载 CUDA 版不要下载纯 CPU 版。如果你下载错了纯 CPU 版也能运行但速度会慢很多。llama.cpp 最新版支持 N 卡、A 卡、I 卡也支持纯 CPU同时也可以在 Windows、Mac、Linux 系统上运行。图llama.cpp 下载与运行环境七、第二步下载 Qwen3.6-35B-A3B GGUF 模型需要下载的主模型文件是Qwen3.6-35B-A3B-UD-Q4_K_M.gguf建议选择 Q4_K_M 版本原因是它比较均衡。量化格式特点Q2 / Q3体积更小但质量下降明显Q4_K_M体积、速度、质量比较均衡Q5 / Q6质量更好但更吃内存BF16质量高但资源要求很高8G 显存用户建议优先选 Q4_K_M。如果你机器内存更大也可以尝试更高量化如果你跑不起来可以考虑更低量化。八、第三步下载 mmproj-BF16.gguf如果你要使用图片理解能力还需要下载mmproj-BF16.gguf这个文件非常重要。很多人明明模型启动成功了但图片上传按钮是灰色就是因为没有配置 mmproj。Qwen3.6 多模态模型必须搭配 mmproj否则可能出现图片上传按钮灰色、无法识图、Vision 不工作。建议把主模型和 mmproj 放在同一个 models 文件夹里。九、第四步整理目录结构推荐目录如下D:\AI\llama.cpp\ ├── llama-server.exe ├── llama-cli.exe ├── 启动.bat └── models\ ├── Qwen3.6-35B-A3B-UD-Q4_K_M.gguf └── mmproj-BF16.gguf重点检查llama-server.exe 在 llama.cpp 主目录models 文件夹在 llama.cpp 目录下主模型放在 models 文件夹里mmproj-BF16.gguf 也放在 models 文件夹里文件名必须和脚本里完全一致。文件名只要多一个空格、少一个字符都可能导致启动失败。十、第五步创建一键启动脚本在 llama.cpp 目录下新建一个文件启动.bat然后复制下面内容进去。**注意**第一行路径要改成你自己的 llama.cpp 路径。echo off chcp 65001 nul cd /d D:\AI\llama.cpp llama-server.exe ^ -m models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf ^ --mmproj models\mmproj-BF16.gguf ^ -ngl 99 ^ --n-cpu-moe 999 ^ --flash-attn on ^ --jinja ^ -c 32768 ^ -t 12 ^ -b 512 ^ -ub 128 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --mlock ^ --host 127.0.0.1 ^ --port 8080 pause如果你的 llama.cpp 路径是C:\Users\你的用户名\Desktop\llama.cpp那就把这一行cd /d D:\AI\llama.cpp改成cd /d C:\Users\你的用户名\Desktop\llama.cpp如果你的模型文件名不同也要同步修改主模型路径和 mmproj 路径。图启动 bat 脚本运行截图十一、启动参数解释1. -m-m models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf指定主模型文件也就是 Qwen3.6-35B-A3B 的 GGUF 模型。2. --mmproj--mmproj models\mmproj-BF16.gguf指定多模态视觉投影文件。如果你想上传图片就必须配置它。3. -ngl 99-ngl 99尽可能把模型层交给 GPU 处理。但不是所有内容都会进入显存因为后面还有 CPU MoE 参数。4. --n-cpu-moe 999--n-cpu-moe 999这是低显存运行 MoE 模型的关键参数。它的作用是让 MoE 专家层更多放在 CPU / 内存侧从而降低显存压力。这也是 8G 显存能跑起来的重要原因之一。5. --flash-attn on--flash-attn on开启 Flash Attention作用是优化注意力计算降低资源占用提高推理效率。6. --jinja--jinja启用聊天模板。很多新模型都需要正确的模板才能更稳定地对话。7. -c 32768-c 32768设置上下文长度为 32768。上下文越长模型能记住的内容越多但也越吃内存和显存。如果你启动失败或者爆显存可以改成-c 8192或者-c 163848. -t 12-t 12设置 CPU 线程数。如果你的 CPU 是 12 核或类似配置可以用 12如果 CPU 核心更少可以改小。9. -b 512-b 512设置 batch 参数。这个参数影响推理时的处理批量低显存机器不建议设置太大。10. -ub 128-ub 128设置 ubatch。这个值小一点更适合低显存机器。11. --cache-type-k q4_0--cache-type-k q4_0设置 K Cache 量化格式可以降低长上下文缓存占用。12. --cache-type-v q4_0--cache-type-v q4_0设置 V Cache 量化格式同样是为了降低资源占用。13. --mlock--mlock尽量锁定内存避免模型数据被系统频繁换出。如果你内存不够可能不适合开这个参数。14. --host 127.0.0.1--host 127.0.0.1只允许本机访问更安全。15. --port 8080--port 8080设置网页 UI 端口。启动后访问http://127.0.0.1:8080十二、第六步启动模型准备好以后直接双击启动.bat第一次启动会加载模型。模型比较大所以等待时间可能会比较长。如果窗口没有报错并且最后显示服务启动成功就可以打开浏览器访问http://127.0.0.1:8080进入页面后就可以和模型聊天了。如果配置了 mmproj也可以测试图片理解。图浏览器访问 127.0.0.1:8080 本地使用十三、8G 显存推荐参数如果你也是 8G 显存建议先不要追求超长上下文。参数推荐值模型Q4_K_M上下文8192 或 16384 起步-ngl99–n-cpu-moe999Flash Attention开启KV Cacheq4_0CPU 线程根据 CPU 核心数设置内存64GB 推荐如果你第一次启动失败可以先把-c 32768改成-c 8192等确认能跑起来再改成-c 16384最后再尝试-c 32768小白记住一句话先跑通再优化。十四、常见问题解决1. 双击启动.bat 一闪而过大概率是路径错了。检查这一行cd /d D:\AI\llama.cpp必须改成你自己的 llama.cpp 文件夹路径。比如cd /d C:\Users\你的用户名\Desktop\llama.cpp另外建议在 bat 最后保留pause这样报错时窗口不会自动关闭。2. 提示找不到 llama-server.exe说明你的 bat 文件不在 llama.cpp 目录或者路径写错了。检查 llama-server.exe 是否真的存在于当前目录。D:\AI\llama.cpp\llama-server.exe D:\AI\llama.cpp\启动.bat3. 提示找不到模型文件检查模型路径-m models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf再检查文件是否真的在D:\AI\llama.cpp\models\还要注意文件名是否完全一致。文件名不一致就会报错。4. 图片上传按钮是灰色大概率是 mmproj 没有加载成功。检查这一行--mmproj models\mmproj-BF16.gguf确认文件存在D:\AI\llama.cpp\models\mmproj-BF16.gguf如果没有 mmproj多模态识图功能就无法正常使用。5. CUDA out of memory这就是显存爆了。方法操作降低上下文把 -c 32768 改成 -c 8192关闭其他程序浏览器、游戏、剪辑软件全部关掉换更低量化尝试更小的 GGUF 模型降低 batch减小 -b 和 -ub重启电脑释放显存和内存8G 显存最容易爆的就是上下文所以优先改-c 32768改成-c 81926. 加载速度很慢正常。35B 模型即使量化后也很大。加载速度主要取决于 SSD 速度、内存大小、CPU 性能、模型文件大小和 llama.cpp 后端。如果你把模型放在机械硬盘上会非常慢建议放 SSD。7. 回答速度不快这个也正常。8G 显存跑 35B本来就是低配挑战。它的意义不是秒回而是普通消费级电脑也能本地体验 35B 级别模型。如果你想要更快速度需要更大显存、更高性能 CPU、更快内存、更合适的量化版本和更短上下文。十五、适合用来做什么Qwen3.6-35B-A3B 本地跑起来后可以用来做很多事情。场景适合程度中文聊天适合写文章适合代码解释适合代码生成适合长文总结适合但看上下文长度图片理解需要 mmproj本地私有问答适合高并发服务不适合商业生产环境不建议低配直接上如果你只是个人使用这个方案已经很有意思。如果你想做正式服务还是建议用更高配置显卡或者云端推理。十六、小白最推荐的操作顺序第一次部署不要一上来就追求最强参数。按这个顺序来1. 先下载 llama.cpp CUDA 版 2. 下载 Q4_K_M 主模型 3. 下载 mmproj-BF16.gguf 4. 按教程整理目录 5. 创建启动.bat 6. 先设置 -c 8192 7. 确认能正常启动 8. 打开 http://127.0.0.1:8080 9. 测试普通聊天 10. 再测试图片理解 11. 最后慢慢提高上下文不要一开始就用-c 32768建议先从-c 8192开始。能跑起来以后再慢慢加。十七、适合 8G 显存的精简版启动脚本如果你的 8G 显存跑完整参数不稳定可以先用这个保守版。echo off chcp 65001 nul cd /d D:\AI\llama.cpp llama-server.exe ^ -m models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf ^ --mmproj models\mmproj-BF16.gguf ^ -ngl 99 ^ --n-cpu-moe 999 ^ --flash-attn on ^ --jinja ^ -c 8192 ^ -t 12 ^ -b 256 ^ -ub 64 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --host 127.0.0.1 ^ --port 8080 pause这个版本更适合先跑通。跑通后再把 -c 8192 改成 -c 16384。如果还稳定再尝试 -c 32768。十八、完整目录检查表部署完成后建议你按照这个检查。D:\AI\llama.cpp\ ├── llama-server.exe ├── llama-cli.exe ├── 启动.bat └── models\ ├── Qwen3.6-35B-A3B-UD-Q4_K_M.gguf └── mmproj-BF16.gguf如果你的目录和这个不一样也没关系但 bat 里的路径必须和你的真实路径对应。十九、最终总结这次 RTX 3070 8G 显存跑 Qwen3.6-35B-A3B真正让人惊讶的不是8G 显存装下了完整 35B而是通过 MoE 架构、GGUF 量化、CPU Offload、KV Cache 量化和 llama.cpp 优化让低显存显卡也能参与 35B 级别模型推理。所以一定要理解清楚8G 显存可以跑但不是满血跑64GB 内存更稳Q4_K_M 更适合低配mmproj 是多模态必须文件上下文越长越吃资源小白先跑通再优化。如果你手里有 RTX 3070 8G、RTX 4060 8G、RTX 3060 8G又有 32GB 或 64GB 内存那么这个方案确实值得试一下。一句话总结35B 不再一定是高端显卡专属。只要模型架构合适、量化格式合适、推理框架合适8G 显存也能摸到本地大模型部署的门槛。说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】
8G显存也能跑35B?RTX3070本地部署Qwen3.6-35B-A3B多模态大模型完整教程
本文详细介绍了如何通过llama.cpp、GGUF量化、CPU Offload和MoE优化等技术在RTX3070 8G显存配置下本地部署Qwen3.6-35B-A3B多模态大模型。内容涵盖了模型下载、mmproj配置、启动脚本编写、参数解释以及常见报错解决适合AI小白学习和实践。通过这些技术即使显存资源有限也能在普通电脑上体验35B级别大模型的强大功能。估计很多人看到这个标题第一反应都是不可能吧35B 大模型不是必须 24G、48G甚至 80G 显存才能跑吗一张 RTX 3070 8G 显卡怎么可能跑得动 35B 级别的大模型但这次确实有点意思。通过 llama.cpp GGUF 量化 CPU Offload MoE 优化再搭配足够大的系统内存8G 显存也可以把 Qwen3.6-35B-A3B 多模态大模型跑起来。**先说清楚**8G 显存能跑不代表满血跑。它不是把整个 35B 模型全部塞进显卡而是让 GPU、CPU、内存一起分工。简单理解就是显卡负责最适合 GPU 的计算部分CPU 和内存承担一部分模型权重和 MoE 专家层GGUF 量化负责降低模型体积llama.cpp 负责把这些东西调度起来mmproj 负责让模型具备图片理解能力。这篇文章就用最小白的方式完整讲一下Qwen3.6-35B-A3B 是什么为什么 8G 显存也能跑 35B需要什么硬件配置llama.cpp 怎么安装GGUF 模型怎么放mmproj 是什么启动脚本怎么写常见报错怎么解决。一、这次跑的是什么模型这次测试的是Qwen3.6-35B-A3B很多小白看到这个名字会有点懵我们拆开看一下。名称含义Qwen通义千问系列模型3.6模型版本35B总参数量约 35BA3B每次推理大约激活 3B 参数GGUF适合 llama.cpp 运行的模型格式Q4_K_M一种 4bit 量化格式兼顾体积、速度和质量mmproj多模态视觉投影文件用来支持图片理解如果你只想知道一句话Qwen3.6-35B-A3B 是一个 35B 级别的多模态大模型但它不是每次都把 35B 参数全部激活。这点非常关键。因为它属于 MoE 架构也就是 Mixture of Experts中文一般叫混合专家模型。你可以把它理解成一个大公司公司里有很多专家总规模很大但每次处理任务不是所有专家都上场系统只会挑一部分相关专家来干活。所以虽然它总参数量很大但每次真正参与推理的参数相对更少。这也是为什么它可以通过特殊部署方式在低显存设备上跑起来。图Qwen3.6-35B-A3B 实测截图二、为什么 8G 显存也能跑 35B正常情况下35B 模型对显存要求非常高。如果是传统 Dense 稠密模型每次推理时大部分参数都要参与计算那 8G 显存基本没戏。但 Qwen3.6-35B-A3B 比较特殊它是 MoE 架构。1. MoE 架构降低了每次推理的实际压力MoE 的核心逻辑是总参数很多但每次只激活一部分专家。这就像一个医院有很多科室但你感冒了不会让所有医生都给你看病只会调用相关科室。所以 Qwen3.6-35B-A3B 虽然是 35B 级别但每次实际激活规模并没有完整 35B 那么恐怖。2. GGUF 量化降低了模型体积原始大模型通常非常大普通电脑很难加载。GGUF 量化可以把模型压缩成更适合本地推理的格式。这次用的是Qwen3.6-35B-A3B-UD-Q4_K_M.gguf其中 Q4_K_M 表示一种 4bit 量化方式。它的好处是模型文件更小显存和内存压力更低速度相对更好回答质量还能接受。3. CPU Offload 把一部分压力转移到内存这次能跑起来的关键不是 8G 显存真的装下整个 35B而是通过 llama.cpp 的 CPU Offload让一部分模型权重和 MoE 计算放到 CPU / 内存侧。GPU 负责注意力层 RAM 负责专家层 CPU 参与调度和部分计算这就是低显存跑大模型的核心思路。4. llama.cpp 对本地推理支持很好llama.cpp 是现在本地跑 GGUF 模型非常常用的推理框架。它支持 CPU 推理、NVIDIA GPU、AMD GPU、Intel GPU、GGUF 模型、多模态 mmproj、Web UI、各种量化缓存以及 GPU / CPU 混合推理。所以这次我们不用复杂的 Docker也不用自己搭一堆 Python 环境直接用 llama.cpp 就可以跑。三、测试硬件配置本次测试配置如下项目配置CPUIntel i7-12700GPUNVIDIA RTX 3070显存8GB内存32G × 2也就是 64GB系统Windows 11推理框架llama.cpp CUDA 12.4模型格式GGUF量化版本Q4_K_M这里最重要的不是 CPU而是两点8G 显存 64G 内存很多人只看显存忽略了系统内存。但这种 CPU Offload 方案非常依赖内存。如果你只有 16GB 内存基本不推荐尝试如果你有 32GB 内存可以试但可能比较吃紧如果你有 64GB 内存会稳很多。图RTX3070 8G 64G 内存测试环境推荐配置硬件建议显卡NVIDIA 8GB 显存起步内存32GB 起步64GB 推荐硬盘SSD至少预留 50GB 空间系统Windows 10 / Windows 11框架llama.cpp CUDA 版模型GGUF 量化版不推荐配置配置原因16GB 内存很容易爆内存机械硬盘模型加载很慢纯 CPU可以跑但速度会很痛苦太旧的显卡驱动可能 CUDA 加载失败一句话8G 显存能跑但最好有 64GB 内存配合。四、先搞懂几个关键文件1. llama-server.exe这是 llama.cpp 里的服务端程序。我们后面就是用它启动本地网页 UI。启动后浏览器访问http://127.0.0.1:8080就可以像网页版 ChatGPT 一样使用本地模型。2. Qwen3.6-35B-A3B-UD-Q4_K_M.gguf这是主模型文件负责聊天、推理、理解文本。Qwen3.6-35B-A3B-UD-Q4_K_M.gguf3. mmproj-BF16.gguf这是多模态视觉投影文件。如果你只聊天可以暂时不管它但如果你想上传图片让模型识图就必须要有它。没有 mmproj常见问题是图片按钮灰色图片无法上传上传后模型不理解图片Vision 功能不工作。mmproj-BF16.gguf4. 启动.bat这是 Windows 一键启动脚本。我们把所有运行参数写进 bat 文件里以后只要双击它就能启动模型。五、整体部署流程第一步下载 llama.cpp CUDA 版 第二步下载 Qwen3.6-35B-A3B GGUF 模型 第三步下载 mmproj-BF16.gguf 第四步整理模型目录 第五步创建启动.bat 脚本 第六步双击启动并访问网页 UI看起来很多其实操作并不复杂。小白只要照着目录放文件再复制启动脚本即可。六、第一步下载 llama.cppWindows 用户建议直接下载 llama.cpp 的 CUDA 预编译版本。下载后解压到一个固定目录比如D:\AI\llama.cpp解压后目录里一般会有这些文件llama-server.exe llama-cli.exe llama-bench.exe ggml-cuda.dll 其他 dll 文件其中最重要的是llama-server.exe后面我们会用它启动本地网页服务。**注意**一定要下载 CUDA 版不要下载纯 CPU 版。如果你下载错了纯 CPU 版也能运行但速度会慢很多。llama.cpp 最新版支持 N 卡、A 卡、I 卡也支持纯 CPU同时也可以在 Windows、Mac、Linux 系统上运行。图llama.cpp 下载与运行环境七、第二步下载 Qwen3.6-35B-A3B GGUF 模型需要下载的主模型文件是Qwen3.6-35B-A3B-UD-Q4_K_M.gguf建议选择 Q4_K_M 版本原因是它比较均衡。量化格式特点Q2 / Q3体积更小但质量下降明显Q4_K_M体积、速度、质量比较均衡Q5 / Q6质量更好但更吃内存BF16质量高但资源要求很高8G 显存用户建议优先选 Q4_K_M。如果你机器内存更大也可以尝试更高量化如果你跑不起来可以考虑更低量化。八、第三步下载 mmproj-BF16.gguf如果你要使用图片理解能力还需要下载mmproj-BF16.gguf这个文件非常重要。很多人明明模型启动成功了但图片上传按钮是灰色就是因为没有配置 mmproj。Qwen3.6 多模态模型必须搭配 mmproj否则可能出现图片上传按钮灰色、无法识图、Vision 不工作。建议把主模型和 mmproj 放在同一个 models 文件夹里。九、第四步整理目录结构推荐目录如下D:\AI\llama.cpp\ ├── llama-server.exe ├── llama-cli.exe ├── 启动.bat └── models\ ├── Qwen3.6-35B-A3B-UD-Q4_K_M.gguf └── mmproj-BF16.gguf重点检查llama-server.exe 在 llama.cpp 主目录models 文件夹在 llama.cpp 目录下主模型放在 models 文件夹里mmproj-BF16.gguf 也放在 models 文件夹里文件名必须和脚本里完全一致。文件名只要多一个空格、少一个字符都可能导致启动失败。十、第五步创建一键启动脚本在 llama.cpp 目录下新建一个文件启动.bat然后复制下面内容进去。**注意**第一行路径要改成你自己的 llama.cpp 路径。echo off chcp 65001 nul cd /d D:\AI\llama.cpp llama-server.exe ^ -m models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf ^ --mmproj models\mmproj-BF16.gguf ^ -ngl 99 ^ --n-cpu-moe 999 ^ --flash-attn on ^ --jinja ^ -c 32768 ^ -t 12 ^ -b 512 ^ -ub 128 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --mlock ^ --host 127.0.0.1 ^ --port 8080 pause如果你的 llama.cpp 路径是C:\Users\你的用户名\Desktop\llama.cpp那就把这一行cd /d D:\AI\llama.cpp改成cd /d C:\Users\你的用户名\Desktop\llama.cpp如果你的模型文件名不同也要同步修改主模型路径和 mmproj 路径。图启动 bat 脚本运行截图十一、启动参数解释1. -m-m models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf指定主模型文件也就是 Qwen3.6-35B-A3B 的 GGUF 模型。2. --mmproj--mmproj models\mmproj-BF16.gguf指定多模态视觉投影文件。如果你想上传图片就必须配置它。3. -ngl 99-ngl 99尽可能把模型层交给 GPU 处理。但不是所有内容都会进入显存因为后面还有 CPU MoE 参数。4. --n-cpu-moe 999--n-cpu-moe 999这是低显存运行 MoE 模型的关键参数。它的作用是让 MoE 专家层更多放在 CPU / 内存侧从而降低显存压力。这也是 8G 显存能跑起来的重要原因之一。5. --flash-attn on--flash-attn on开启 Flash Attention作用是优化注意力计算降低资源占用提高推理效率。6. --jinja--jinja启用聊天模板。很多新模型都需要正确的模板才能更稳定地对话。7. -c 32768-c 32768设置上下文长度为 32768。上下文越长模型能记住的内容越多但也越吃内存和显存。如果你启动失败或者爆显存可以改成-c 8192或者-c 163848. -t 12-t 12设置 CPU 线程数。如果你的 CPU 是 12 核或类似配置可以用 12如果 CPU 核心更少可以改小。9. -b 512-b 512设置 batch 参数。这个参数影响推理时的处理批量低显存机器不建议设置太大。10. -ub 128-ub 128设置 ubatch。这个值小一点更适合低显存机器。11. --cache-type-k q4_0--cache-type-k q4_0设置 K Cache 量化格式可以降低长上下文缓存占用。12. --cache-type-v q4_0--cache-type-v q4_0设置 V Cache 量化格式同样是为了降低资源占用。13. --mlock--mlock尽量锁定内存避免模型数据被系统频繁换出。如果你内存不够可能不适合开这个参数。14. --host 127.0.0.1--host 127.0.0.1只允许本机访问更安全。15. --port 8080--port 8080设置网页 UI 端口。启动后访问http://127.0.0.1:8080十二、第六步启动模型准备好以后直接双击启动.bat第一次启动会加载模型。模型比较大所以等待时间可能会比较长。如果窗口没有报错并且最后显示服务启动成功就可以打开浏览器访问http://127.0.0.1:8080进入页面后就可以和模型聊天了。如果配置了 mmproj也可以测试图片理解。图浏览器访问 127.0.0.1:8080 本地使用十三、8G 显存推荐参数如果你也是 8G 显存建议先不要追求超长上下文。参数推荐值模型Q4_K_M上下文8192 或 16384 起步-ngl99–n-cpu-moe999Flash Attention开启KV Cacheq4_0CPU 线程根据 CPU 核心数设置内存64GB 推荐如果你第一次启动失败可以先把-c 32768改成-c 8192等确认能跑起来再改成-c 16384最后再尝试-c 32768小白记住一句话先跑通再优化。十四、常见问题解决1. 双击启动.bat 一闪而过大概率是路径错了。检查这一行cd /d D:\AI\llama.cpp必须改成你自己的 llama.cpp 文件夹路径。比如cd /d C:\Users\你的用户名\Desktop\llama.cpp另外建议在 bat 最后保留pause这样报错时窗口不会自动关闭。2. 提示找不到 llama-server.exe说明你的 bat 文件不在 llama.cpp 目录或者路径写错了。检查 llama-server.exe 是否真的存在于当前目录。D:\AI\llama.cpp\llama-server.exe D:\AI\llama.cpp\启动.bat3. 提示找不到模型文件检查模型路径-m models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf再检查文件是否真的在D:\AI\llama.cpp\models\还要注意文件名是否完全一致。文件名不一致就会报错。4. 图片上传按钮是灰色大概率是 mmproj 没有加载成功。检查这一行--mmproj models\mmproj-BF16.gguf确认文件存在D:\AI\llama.cpp\models\mmproj-BF16.gguf如果没有 mmproj多模态识图功能就无法正常使用。5. CUDA out of memory这就是显存爆了。方法操作降低上下文把 -c 32768 改成 -c 8192关闭其他程序浏览器、游戏、剪辑软件全部关掉换更低量化尝试更小的 GGUF 模型降低 batch减小 -b 和 -ub重启电脑释放显存和内存8G 显存最容易爆的就是上下文所以优先改-c 32768改成-c 81926. 加载速度很慢正常。35B 模型即使量化后也很大。加载速度主要取决于 SSD 速度、内存大小、CPU 性能、模型文件大小和 llama.cpp 后端。如果你把模型放在机械硬盘上会非常慢建议放 SSD。7. 回答速度不快这个也正常。8G 显存跑 35B本来就是低配挑战。它的意义不是秒回而是普通消费级电脑也能本地体验 35B 级别模型。如果你想要更快速度需要更大显存、更高性能 CPU、更快内存、更合适的量化版本和更短上下文。十五、适合用来做什么Qwen3.6-35B-A3B 本地跑起来后可以用来做很多事情。场景适合程度中文聊天适合写文章适合代码解释适合代码生成适合长文总结适合但看上下文长度图片理解需要 mmproj本地私有问答适合高并发服务不适合商业生产环境不建议低配直接上如果你只是个人使用这个方案已经很有意思。如果你想做正式服务还是建议用更高配置显卡或者云端推理。十六、小白最推荐的操作顺序第一次部署不要一上来就追求最强参数。按这个顺序来1. 先下载 llama.cpp CUDA 版 2. 下载 Q4_K_M 主模型 3. 下载 mmproj-BF16.gguf 4. 按教程整理目录 5. 创建启动.bat 6. 先设置 -c 8192 7. 确认能正常启动 8. 打开 http://127.0.0.1:8080 9. 测试普通聊天 10. 再测试图片理解 11. 最后慢慢提高上下文不要一开始就用-c 32768建议先从-c 8192开始。能跑起来以后再慢慢加。十七、适合 8G 显存的精简版启动脚本如果你的 8G 显存跑完整参数不稳定可以先用这个保守版。echo off chcp 65001 nul cd /d D:\AI\llama.cpp llama-server.exe ^ -m models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf ^ --mmproj models\mmproj-BF16.gguf ^ -ngl 99 ^ --n-cpu-moe 999 ^ --flash-attn on ^ --jinja ^ -c 8192 ^ -t 12 ^ -b 256 ^ -ub 64 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --host 127.0.0.1 ^ --port 8080 pause这个版本更适合先跑通。跑通后再把 -c 8192 改成 -c 16384。如果还稳定再尝试 -c 32768。十八、完整目录检查表部署完成后建议你按照这个检查。D:\AI\llama.cpp\ ├── llama-server.exe ├── llama-cli.exe ├── 启动.bat └── models\ ├── Qwen3.6-35B-A3B-UD-Q4_K_M.gguf └── mmproj-BF16.gguf如果你的目录和这个不一样也没关系但 bat 里的路径必须和你的真实路径对应。十九、最终总结这次 RTX 3070 8G 显存跑 Qwen3.6-35B-A3B真正让人惊讶的不是8G 显存装下了完整 35B而是通过 MoE 架构、GGUF 量化、CPU Offload、KV Cache 量化和 llama.cpp 优化让低显存显卡也能参与 35B 级别模型推理。所以一定要理解清楚8G 显存可以跑但不是满血跑64GB 内存更稳Q4_K_M 更适合低配mmproj 是多模态必须文件上下文越长越吃资源小白先跑通再优化。如果你手里有 RTX 3070 8G、RTX 4060 8G、RTX 3060 8G又有 32GB 或 64GB 内存那么这个方案确实值得试一下。一句话总结35B 不再一定是高端显卡专属。只要模型架构合适、量化格式合适、推理框架合适8G 显存也能摸到本地大模型部署的门槛。说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】