无限Token香麻了！12G显存本地部署开源Qwen3.6-尧图企业网站定制

本文介绍了如何在消费级硬件上本地部署Qwen3.6-35B-A3B模型该模型采用MoE架构实际运行时仅激活约3B参数效率高且性能强大。文章详细阐述了部署流程包括安装llama.cpp、下载Qwen模型、启动模型以及配置hermes agent。通过优化模型监听地址和端口实现本地模型与hermes agent的连接达到高效对话的效果。部署后的Qwen3.6模型在ts-bench测试中全满分通关速度对标Claude 4.6/Opus 4.6展现了开源大模型的强大实力。ts-bench得分毫不夸张地说Qwen3.6绝对是你目前能本地部署到消费级硬件上的最强模型。因为Qwen3.6-35B-A3B是MoE混合专家架构虽然总参数是 35B但每次对话其实只会激活大概3B的“专家参数”相当于你实际跑的是一个“超大号 3B 模型”。Qwen3.6搭配5种agent跑ts-bench全满分通关速度直接对标Claude 4.6/Opus 4.6和闭源顶流同梯队对比前代3.5-27B速度直接翻了3倍开源大模型这次真的支棱起来了只能说太夯了这么强的模型要是能为我们所用岂不是妙哉所以我将它部署到了本地并接入了hermes你也可以将它接入各种小龙虾实现本地养虾当然由于我配置有限我的配置如下所以我选择部署Q4量化过的模型损失一部分精度会损失多少不知道先跑起来再说我电脑配置首先模型是用的由Abiray用llama.cpp量化过的Qwen3.6-35B-A3B-Q4_K_M-GGUF模型经过量化后的模型对消费级硬件和CPU密集环境更友好再加上Qwen3.6支持原生高达 256K 的超长上下文窗口特别适合用来养虾以及玩hermes等对上下文有一定门槛要求的agent由于模型是用llama量化的所以我们原汤化原食直接用llama本地调用Qwen3.6-35B-A3B-Q4_K_M-GGUF这个模型来为我们服务。话不多说直接进入部署流程一、安装llama.cpp#llama仓库地址 https://github.com/ggml-org/llama.cpp安装llama.cpp特别简单winr输入cmd打开命令提示符然后输入官方给的代码程序就会自动开始下载安装啦大家看好自己是什么系统复制对应代码就好啦#安装代码 #下面这行代码是window系统用的安装代码通过winget全局安装 winget install llama.cpp #Homebrew (Mac and Linux) brew install llama.cpp #MacPorts (Mac) sudo port install llama.cpp #Nix (Mac and Linux) nix profile install nixpkgs#llama-cpp二、下载Qwen模型#模型仓库地址 https://huggingface.co/Abiray/Qwen3.6-35B-A3B-Q4_K_M-GGUF依然winr输入cmd打开命令提示符然后输入#输入这串指令下载模型 llama-server -hf Abiray/Qwen3.6-35B-A3B-Q4_K_M-GGUF:Q4_K_M就会自动开始下载这个模型啦大小20G文件会自动下载到这个位置#模型位置 C:\Users\你的用户名\.cache\huggingface\hub三、启动模型等下载进度到达100%直接在当前提示符窗口输入下面这串指令唤醒你的Qwen模型。#启动命令 llama-cli -hf Abiray/Qwen3.6-35B-A3B-Q4_K_M-GGUF:Q4_K_M觉得在命令提示符窗口和大模型对话不习惯也不用怕当前llama.cpp有官方WebUi界面输入下面这串指令就可以唤起llama的原生WebUi界面llama-server -m C:\Users\用户名\.cache\huggingface\hub\models--Abiray--Qwen3.6-35B-A3B-Q4_K_M-GGUF\snapshots\bc632873d7807c59c965b69c4e979626240aedee\Qwen3.6-35B-A3B-Q4_K_M.gguf --webui当看到server is listening on http://127.0.0.1:8080就代表启动成功了可以复制http://127.0.0.1:8080到浏览器打开也可以按住ctrl鼠标左键单击这个地址就会自动打开浏览器跳转了。启动后的界面左边界面是历史对话还可以安装MCP Servers并且支持对话的导入/导出。支持上下文导出四、安装hermes agenthermes agent与openclaw的差异就是以轻量化、自我学习进化为亮点安装也很轻松直接运行下列指令就可以安装到本地#安装命令 curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash安装好先别急着启动官方要求刷新当前终端的配置所以得先运行一遍source ~/.bashrc接着再运行hermes的启动指令hermessource ~/.bashrc # reload shell (or: source ~/.zshrc) hermes # start chatting!五、配置hermes agent5.1供应商选择第一次启动会让你设置模型供应商和api我们选择Custom endpoint会让你填一个本地接口地址“API base URL”不要急跟着我的步骤做很快就能拿到结果。本地模型选择Custom endpoint5.2输入本地模型接口地址由于hermes是运行在wsl虚拟机上我们的llama是运行在端机上所以二者相当于有一层防火墙是的即便是在同一台电脑上也有网络隔离所以我们不能直接输入刚才llama默认的接口地址http://127.0.0.1:8080我们需要输入端机的地址也就是我们电脑的网络IPv4地址这个地址很简单就可以获取winr输入cmd打开命令提示符窗口窗口内输入ipconfig就能看到你电脑的IPv4地址啦。5.3改变llama监听地址和端口豁免由于llama.cpp的server.exe默认监听127.0.0.1仅 Windows自己能连WSL属于外部网络永远连不上必须手动改成监听所有网络0.0.0.0。所以咱需要把llama的监听地址改成0.0.0.0ctrlc退出刚才的llama提示符窗口或者你也可以点右上角的x)输入这串指令启动llama调用Qwen模型#输入这串指令将以0.0.0.0为监听地址启动llama并加载大模型 llama-server -m C:\Users\用户名\.cache\huggingface\hub\models--Abiray--Qwen3.6-35B-A3B-Q4_K_M-GGUF\snapshots\bc632873d7807c59c965b69c4e979626240aedee\Qwen3.6-35B-A3B-Q4_K_M.gguf --port 8080 --host 0.0.0.0 -c 131072 --webui#参数说明 -m:模型地址 --port:固定使用8080和hermes匹配 --host固定填0.0.0.0允许WSL外部网络访问 -c 131072上下文长度131K由于hermes最低要求64K上下文长度配置带不动可以酌情调低 --webui可选参数调用可视化web界面这里不调用也行因为我们要在hermes中调用大模型不知道模型地址怎么填的话可以参照我的模型路径找到你本地的模型文件后右键复制文件地址建议使用“显示更多选项”里面的复制文件地址输入后llama能正常对话就说明启动成功这个命令提示符窗口就不能关了关了服务就停了我们后面hermes就调不到模型了。接着我们让防火墙给我们放行8080这个端口直接在开始菜单里面搜索防火墙打开防火墙和网络保护进入高级设置在入站规则新建规则规则类型选择端口点击下一步然后特定本地端口输入8080再点击下一步规则名称可以取llama.cpp8080就可以完成保存了。好了这时候我们就可以回到5.1这一步API base URL就填写你的IPv4地址加上我们刚才豁免的端口我的地址是下面这个你可以参照下#API base URL地址 http://192.168.0.139:8080 #参数解释 #http://192.168.0.139是5.2这一步你获取到的你本地网络IPv4地址 #8080固定不变填写好url之后还会让你输入一个api key由于我们是本地模型没有这个但是也得输不能为空所以随便输什么都行输入123就行最后还会让你填一个模型名称填Qwen3.6-35B-A3B-Q4_K_M.gguf就行。这些都填完之后hermes就会启动啦。启动成功的界面向hermes问个好第一次由于hermes启动时会先加载上万字超长系统提示词75 个工具定义、Agent 规则、思考逻辑、上下文约束模型会在后台预处理、消化这一整段超长初始化Prompt之后再回答你的问题这个时间因配置而异吧我等了大概5minhermes才回复我。另外我的配置跑起来的平均token是30t/s大家也可以分享晒晒自己本地运行的速度内存大的应该更快。以及还有一些cpugpu协调的参数调整可以加快运行速度待我研究研究。至于hermes为什么会叫我陛下是因为我在他的soul文件里给他拟定了身份你们也可以在soul文件给他下规则定义他的人格毕竟谁不想当一把皇帝呢尤其是现在咱用上了qwen3.6-35B模型皇粮管饱hermes的soul文件地址\\wsl.localhost\Ubuntu\home\用户名\.hermes\SOUL.md说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

相关新闻

如何用Hikyuu量化框架在30分钟内构建你的第一个交易策略

Finance-Python vs TA-Lib：为什么这个Python金融库更适合量化交易

Beyond Compare密钥生成器：终极免费激活方案与技术解析

鼠标或手写笔随手画数学公式，自动转成可复制的LaTeX代码

从论文到代码：深入理解CosineLRScheduler（SGDR）中的warmup_t和cycle_limit到底怎么设

Taskt终极指南：三步构建自动化工作流，零代码解放双手

CrateDB 6.3.3 正式发布：修复多类问题，确保数据存储与查询更稳定

如何在3分钟内从100个Excel文件中找到你要的数据？这款免费工具告诉你答案

Outfit字体终极指南：9种字重免费几何无衬线字体完全手册

NomNom终极指南：深度解析《无人深空》最完整存档编辑器的技术实现与实践应用

终极宝可梦3DS ROM编辑器：重新定义你的宝可梦冒险体验

基于YOLOv5的智能象棋AI连线工具：让普通玩家也能拥有大师级棋力

陪诊小程序开发玩法分析：全流程就医服务架构、匹配机制与落地方案

从“大通铺”到“写字楼”的链路层进化史

RAG 召回质量治理：用 Go 构建可调试的切片、检索与重排链路

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定