本文介绍了如何在Windows电脑上部署Qwen3.6-35B-A3B大模型使其支持看图、充当AI Agent且无需联网、无token限制。文章详细阐述了模型选择、量化版本下载、环境配置及启动步骤并指导读者接入Hermes Agent实现本地AI应用。特别指出MoE模型架构的创新优势使其在低显存条件下仍能保持高性能。读完这篇你能做到一件事。在你的 Windows 电脑上跑一个支持看图、能当 AI Agent 用的本地大模型。6G 显存就够。不花钱。不联网。没有 token 限制。先看完成后的样子浏览器打开localhost:8080。能聊天。能上传图片让它分析。能接入 Hermes Agent 当本地 AI 助手。完全本地运行。数据不出你的电脑。为什么是这个模型Qwen3.6-35B-A3B 是阿里通义千问 2026 年 4 月发布的 MoE 模型。Apache 2.0 协议。完全开源。35B 总参数。但每次推理只激活 3B。这意味着它拥有 35B 模型的知识容量但只消耗 3B 模型的算力。SWE-bench Verified 得分 73.4%超过了全部激活 31B 参数的 Gemma 4-31B52.0%。想了想这就像一个公司有 35 个专家但每个问题只派 3 个最合适的人去处理。效率极高。在 Artificial Analysis 排行榜上它在 40B 以内开源模型中属于第一梯队。中文理解、代码能力、多模态视觉、推理能力都很强。前提条件Windows 10/1164 位至少 6GB 显存8GB 更舒服至少 16GB 内存32GB 更舒服磁盘剩余 25GB 以上有 NVIDIA / AMD / Intel 独显更好没有也能跑纯 CPU 会慢阶段一下载 llama.cpp第一步选对的包打开 llama.cpp Releases[1]找最新版本。根据你的显卡选显卡下载哪个NVIDIA RTX 30/40 系列llama-b9326-bin-win-cuda-12.4-x64.zipAMD RX 系列llama-b9326-bin-win-hip-radeon-x64.zipIntel Arcllama-b9326-bin-win-vulkan-x64.zip没有独显llama-b9326-bin-win-cpu-x64.zipNVIDIA 用户还要下cudart-llama-bin-win-cuda-12.4-x64.zip。第二步解压到纯英文路径解压到D:\llama.cpp\。路径有中文会报错。CUDA 用户把 DLL 包也解压到同一目录。新建一个models文件夹D:\llama.cpp\├── llama-server.exe├── models\ ← 放模型的地方└── ...验证文件夹里有llama-server.exe就对了。阶段二下载模型第三步选量化版本去 HuggingFace 搜索Qwen3.6-35B-A3B GGUF推荐从 bartowski[2] 或 unsloth[3] 的仓库下载量化版。你的显存推荐量化文件大小内存要求说明24GB4090Q4_K_M~21GB16GB模型全在 GPU速度最快~130 tok/s12-16GBIQ4_XS~19GB32GB部分层走内存8GBQ3_K_M~16GB32GB大部分走内存Reddit 实测 8G 显存 32G 内存可跑6GBIQ2_M~11GB16GB几乎全走内存速度较慢想要多模态看图能力还要下对应的mmproj投影文件约 1.3GB。没有这个文件上传图片按钮会灰掉。全部放进D:\llama.cpp\models\目录。验证models文件夹里有.gguf文件。阶段三启动第四步一行命令跑起来在D:\llama.cpp\目录打开 PowerShellShift 右键空白处。纯文本对话不需要看图.\llama-server.exe -m models\Qwen3.6-35B-A3B-Q4_K_M.gguf -ngl 999 -c 32768 -n 8192 --jinja --port 8080多模态支持看图.\llama-server.exe -m models\Qwen3.6-35B-A3B-Q4_K_M.gguf --mmproj models\mmproj-Qwen3.6-35B-A3B-f16.gguf -ngl 999 -c 32768 -n 8192 --jinja --port 80806G 显存用户用 IQ2_M缩小 context.\llama-server.exe -m models\Qwen3.6-35B-A3B-IQ2_M.gguf -ngl 999 -c 8192 -n 4096 --jinja --port 8080参数说明--mmproj多模态投影文件。加了才能看图-ngl 999尽量把模型塞进显存。放不下的自动走内存-c上下文长度。显存小就设小一点--jinjaQwen3.6 必须加。不加会出现回复异常、无限重复看到这行输出就成功了main: server is listening on http://127.0.0.1:8080浏览器打开 http://localhost:8080。能聊天。能上传图片。第五步用一键启动脚本可选每次敲命令太烦。新建启动模型.cmd粘贴以下内容echo offchcp 65001 nulcd /d %~dp0echo echo Qwen3.6-35B-A3B 本地大模型echo echo.echo [1] Q4_K_M24G 显存推荐echo [2] IQ4_NL8-12G 显存echo [3] IQ2_M6G 显存echo.set /p choice请输入数字if %choice%1 set MODELQwen3.6-35B-A3B-Q4_K_M.gguf set CTX-c 32768 -n 8192if %choice%2 set MODELQwen3.6-35B-A3B-IQ4_NL.gguf set CTX-c 32768 -n 8192if %choice%3 set MODELQwen3.6-35B-A3B-IQ2_M.gguf set CTX-c 8192 -n 4096llama-server.exe -m models\%MODEL% -ngl 999 %CTX% --jinja --host 127.0.0.1 --port 8080pause放在D:\llama.cpp\目录。双击选数字就能启动。阶段四接入 Hermes Agent第六步安装 Hermes Agentpipx install hermes-agent第七步配置连接本地模型hermes model选Custom endpointBase URLhttp://127.0.0.1:8080/v1API Key随便填一个数字或留空Model留空即可验证输入hermes发一条消息。agent 正常回复同时 llama-server 窗口有请求日志。现在你有了一个完全本地的 AI Agent。能调用工具。能执行代码。能分析图片。没有 token 消耗。数据完全私有。完整流程一览第一次做的建议先用 IQ2_M 或 IQ4_NL 跑通流程。确认能聊天再换更大的量化版本第一次启动会慢几秒。模型要加载进显存。看到端口输出就好了先在浏览器里测试。确认没问题再接 Hermes Agent--jinja参数别忘。Qwen3.6 没有它会出各种奇怪问题容易踩的坑路径有中文。llama.cpp 放在中文目录下会报错。换纯英文路径没加--jinja。回复异常、格式错乱、无限重复。加上就好没下 mmproj 文件。上传图片按钮灰色不可点。必须下载多模态投影文件CUDA 版缺 DLL。启动时报找不到 .dll。把 cudart DLL 包解压到同一目录6G 显存设了太大的 context。-c 131072在 6G 显存上会爆。改成-c 8192模型文件只有几十字节。HuggingFace 返回了 401/404。用curl.exe -I URL验证链接是否有效MoE 为什么能这么省显存传统模型35B 参数全部参与每次推理。需要 70GB 显存。MoE 模型35B 参数分成 256 个专家组。每个 token 只路由到 9 个专家。实际激活约 3B 参数。所以 Qwen3.6-35B-A3B 量化后只需要 6-20GB 显存。跑起来的速度接近 3B 模型。但输出质量接近 35B 模型。这不是偷工减料。这是架构创新。后来发现MoE 对本地部署特别友好。因为你不需要为那些「没被激活的专家」付出推理成本。你只为实际干活的 3B 参数买单。本地 AI 能做什么跑起来之后你的电脑就是一个完整的 AI 基础设施当 ChatGPT 用。浏览器打开 localhost:8080 就能聊当 Vision AI 用。上传图片让它分析截图、翻译菜单、OCR 提取文字当 OpenAI API 用。任何支持 OpenAI SDK 的工具把 base_url 改成http://localhost:8080/v1就能接入当 AI Agent 用。接入 Hermes Agent自动执行任务、调用工具、写代码当本地知识库用。喂入你的文档完全私有数据不出本机一台电脑。零月费。无限 token。说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】
Windows电脑也能玩转AI大模型!6G显存就能本地部署,免费无限用!
本文介绍了如何在Windows电脑上部署Qwen3.6-35B-A3B大模型使其支持看图、充当AI Agent且无需联网、无token限制。文章详细阐述了模型选择、量化版本下载、环境配置及启动步骤并指导读者接入Hermes Agent实现本地AI应用。特别指出MoE模型架构的创新优势使其在低显存条件下仍能保持高性能。读完这篇你能做到一件事。在你的 Windows 电脑上跑一个支持看图、能当 AI Agent 用的本地大模型。6G 显存就够。不花钱。不联网。没有 token 限制。先看完成后的样子浏览器打开localhost:8080。能聊天。能上传图片让它分析。能接入 Hermes Agent 当本地 AI 助手。完全本地运行。数据不出你的电脑。为什么是这个模型Qwen3.6-35B-A3B 是阿里通义千问 2026 年 4 月发布的 MoE 模型。Apache 2.0 协议。完全开源。35B 总参数。但每次推理只激活 3B。这意味着它拥有 35B 模型的知识容量但只消耗 3B 模型的算力。SWE-bench Verified 得分 73.4%超过了全部激活 31B 参数的 Gemma 4-31B52.0%。想了想这就像一个公司有 35 个专家但每个问题只派 3 个最合适的人去处理。效率极高。在 Artificial Analysis 排行榜上它在 40B 以内开源模型中属于第一梯队。中文理解、代码能力、多模态视觉、推理能力都很强。前提条件Windows 10/1164 位至少 6GB 显存8GB 更舒服至少 16GB 内存32GB 更舒服磁盘剩余 25GB 以上有 NVIDIA / AMD / Intel 独显更好没有也能跑纯 CPU 会慢阶段一下载 llama.cpp第一步选对的包打开 llama.cpp Releases[1]找最新版本。根据你的显卡选显卡下载哪个NVIDIA RTX 30/40 系列llama-b9326-bin-win-cuda-12.4-x64.zipAMD RX 系列llama-b9326-bin-win-hip-radeon-x64.zipIntel Arcllama-b9326-bin-win-vulkan-x64.zip没有独显llama-b9326-bin-win-cpu-x64.zipNVIDIA 用户还要下cudart-llama-bin-win-cuda-12.4-x64.zip。第二步解压到纯英文路径解压到D:\llama.cpp\。路径有中文会报错。CUDA 用户把 DLL 包也解压到同一目录。新建一个models文件夹D:\llama.cpp\├── llama-server.exe├── models\ ← 放模型的地方└── ...验证文件夹里有llama-server.exe就对了。阶段二下载模型第三步选量化版本去 HuggingFace 搜索Qwen3.6-35B-A3B GGUF推荐从 bartowski[2] 或 unsloth[3] 的仓库下载量化版。你的显存推荐量化文件大小内存要求说明24GB4090Q4_K_M~21GB16GB模型全在 GPU速度最快~130 tok/s12-16GBIQ4_XS~19GB32GB部分层走内存8GBQ3_K_M~16GB32GB大部分走内存Reddit 实测 8G 显存 32G 内存可跑6GBIQ2_M~11GB16GB几乎全走内存速度较慢想要多模态看图能力还要下对应的mmproj投影文件约 1.3GB。没有这个文件上传图片按钮会灰掉。全部放进D:\llama.cpp\models\目录。验证models文件夹里有.gguf文件。阶段三启动第四步一行命令跑起来在D:\llama.cpp\目录打开 PowerShellShift 右键空白处。纯文本对话不需要看图.\llama-server.exe -m models\Qwen3.6-35B-A3B-Q4_K_M.gguf -ngl 999 -c 32768 -n 8192 --jinja --port 8080多模态支持看图.\llama-server.exe -m models\Qwen3.6-35B-A3B-Q4_K_M.gguf --mmproj models\mmproj-Qwen3.6-35B-A3B-f16.gguf -ngl 999 -c 32768 -n 8192 --jinja --port 80806G 显存用户用 IQ2_M缩小 context.\llama-server.exe -m models\Qwen3.6-35B-A3B-IQ2_M.gguf -ngl 999 -c 8192 -n 4096 --jinja --port 8080参数说明--mmproj多模态投影文件。加了才能看图-ngl 999尽量把模型塞进显存。放不下的自动走内存-c上下文长度。显存小就设小一点--jinjaQwen3.6 必须加。不加会出现回复异常、无限重复看到这行输出就成功了main: server is listening on http://127.0.0.1:8080浏览器打开 http://localhost:8080。能聊天。能上传图片。第五步用一键启动脚本可选每次敲命令太烦。新建启动模型.cmd粘贴以下内容echo offchcp 65001 nulcd /d %~dp0echo echo Qwen3.6-35B-A3B 本地大模型echo echo.echo [1] Q4_K_M24G 显存推荐echo [2] IQ4_NL8-12G 显存echo [3] IQ2_M6G 显存echo.set /p choice请输入数字if %choice%1 set MODELQwen3.6-35B-A3B-Q4_K_M.gguf set CTX-c 32768 -n 8192if %choice%2 set MODELQwen3.6-35B-A3B-IQ4_NL.gguf set CTX-c 32768 -n 8192if %choice%3 set MODELQwen3.6-35B-A3B-IQ2_M.gguf set CTX-c 8192 -n 4096llama-server.exe -m models\%MODEL% -ngl 999 %CTX% --jinja --host 127.0.0.1 --port 8080pause放在D:\llama.cpp\目录。双击选数字就能启动。阶段四接入 Hermes Agent第六步安装 Hermes Agentpipx install hermes-agent第七步配置连接本地模型hermes model选Custom endpointBase URLhttp://127.0.0.1:8080/v1API Key随便填一个数字或留空Model留空即可验证输入hermes发一条消息。agent 正常回复同时 llama-server 窗口有请求日志。现在你有了一个完全本地的 AI Agent。能调用工具。能执行代码。能分析图片。没有 token 消耗。数据完全私有。完整流程一览第一次做的建议先用 IQ2_M 或 IQ4_NL 跑通流程。确认能聊天再换更大的量化版本第一次启动会慢几秒。模型要加载进显存。看到端口输出就好了先在浏览器里测试。确认没问题再接 Hermes Agent--jinja参数别忘。Qwen3.6 没有它会出各种奇怪问题容易踩的坑路径有中文。llama.cpp 放在中文目录下会报错。换纯英文路径没加--jinja。回复异常、格式错乱、无限重复。加上就好没下 mmproj 文件。上传图片按钮灰色不可点。必须下载多模态投影文件CUDA 版缺 DLL。启动时报找不到 .dll。把 cudart DLL 包解压到同一目录6G 显存设了太大的 context。-c 131072在 6G 显存上会爆。改成-c 8192模型文件只有几十字节。HuggingFace 返回了 401/404。用curl.exe -I URL验证链接是否有效MoE 为什么能这么省显存传统模型35B 参数全部参与每次推理。需要 70GB 显存。MoE 模型35B 参数分成 256 个专家组。每个 token 只路由到 9 个专家。实际激活约 3B 参数。所以 Qwen3.6-35B-A3B 量化后只需要 6-20GB 显存。跑起来的速度接近 3B 模型。但输出质量接近 35B 模型。这不是偷工减料。这是架构创新。后来发现MoE 对本地部署特别友好。因为你不需要为那些「没被激活的专家」付出推理成本。你只为实际干活的 3B 参数买单。本地 AI 能做什么跑起来之后你的电脑就是一个完整的 AI 基础设施当 ChatGPT 用。浏览器打开 localhost:8080 就能聊当 Vision AI 用。上传图片让它分析截图、翻译菜单、OCR 提取文字当 OpenAI API 用。任何支持 OpenAI SDK 的工具把 base_url 改成http://localhost:8080/v1就能接入当 AI Agent 用。接入 Hermes Agent自动执行任务、调用工具、写代码当本地知识库用。喂入你的文档完全私有数据不出本机一台电脑。零月费。无限 token。说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】