今天我们来聊聊在Mac Studio M4 Max32核GPU上使用oMLX平台部署gemma-4-26B-A4B-it-QAT-MLX-4bit模型的真实性能表现。测试环境与模型配置测试机器是一台Mac Studio搭载M4 Max芯片32核GPU统一内存规格足够支撑大模型运行。模型采用的是4bit量化版本显存占用约15.3GB这对于一台内存36G的Mac来说并不算吃力。模型名称中的QAT代表量化感知训练这种量化方式相比传统的AWQ或GPTQ能在保持模型质量的同时实现更高效的推理。上下文长度首Token延迟生成速度峰值内存1K tokens905 ms89.4 tok/s14.27 GB4K tokens3.48 s85.6 tok/s14.89 GB8K tokens7.05 s81.0 tok/s15.09 GB16K tokens14.93 s72.3 tok/s15.56 GB32K tokens33.28 s61.9 tok/s16.49 GB64K tokens80.50 s44.1 tok/s18.50 GB128K tokens381.30 s37.0 tok/s21.71 GB图1Token生成速度随上下文长度的变化趋势短上下文场景流畅体验先看短提示词场景。当提示词长度为1024 tokens时首次Token延迟仅905毫秒Token生成速度达到89.4 tokens/秒端到端总延迟2.3秒峰值内存14.27GB。这个成绩相当不错。不到一秒钟就能看到模型开始输出89 tokens/秒的生成速度意味着每秒可以生成将近90个中文字符日常对话和写作辅助场景下体验已经很接近云端服务了。当提示词扩展到4096 tokens时性能依然稳定首次Token延迟3.48秒生成速度85.6 tokens/秒峰值内存14.89GB。生成速度几乎没有下降内存也只增加了约600MB。这个阶段的表现说明MLX对中等长度上下文的处理是游刃有余的。中等上下文开始承压8192 tokens的提示词是一个分水岭。测试数据显示首次Token延迟7秒生成速度下降到81 tokens/秒峰值内存15.09GB。首次Token延迟明显增加但生成速度还能维持在80以上。这对于需要处理较长文档的场景比如文章摘要、代码分析来说依然是可用的状态。到了16384 tokens时首次Token延迟接近15秒生成速度降至72.3 tokens/秒峰值内存15.56GB。延迟开始变得明显但生成速度的下降还算温和。如果你的使用场景是处理较长的技术文档或书籍章节这个速度勉强可以接受但需要一些耐心。长上下文场景内存瓶颈显现32768 tokens的提示词是一个重要节点。测试数据显示首次Token延迟33秒生成速度骤降至61.9 tokens/秒峰值内存16.49GB。从这一步开始生成速度的下降变得显著。33秒的首token延迟意味着你需要等待半分钟才能开始看到输出这对交互体验是一个挑战。当提示词达到65536 tokens时首次Token延迟超过80秒生成速度只有44.1 tokens/秒峰值内存18.50GB。内存占用已经逼近20GB生成速度几乎腰斩。这个长度已经接近很多实际应用的极限再往上就会面临更严峻的考验。图2峰值内存随上下文长度的变化到了131072 tokens约128K上下文的测试首次Token延迟381秒超过6分钟生成速度37 tokens/秒峰值内存21.71GB。这是测试的极限场景。381秒的首token延迟意味着你可能需要等上六七分钟才能看到第一个字这对任何实际应用来说都是难以接受的。但考虑到这是一个26B参数模型在消费级硬件上处理128K tokens的上下文这个成绩并非不可接受。性能趋势分析从测试数据中可以画出一条清晰的曲线随着上下文长度的增加Token生成速度呈现出近似线性下降的趋势。1K-4K上下文85-90 tokens/秒性能优秀8K-16K上下文70-80 tokens/秒性能良好32K上下文约60 tokens/秒可用但偏慢64K上下文约45 tokens/秒勉强可用128K上下文约37 tokens/秒体验受限内存占用方面从14GB起步随着上下文增加而线性增长最终在128K时达到21.7GB。这个增长是正常的因为KV Cache需要存储所有历史token的注意力状态。实际应用建议基于测试数据有几个建议适合的场景短对话和写作辅助1K-4K tokens体验与云端接近文档分析和摘要8K-16K tokens可以接受需要等待首token书籍级别的长文本处理32K tokens需要调整预期接受较慢的响应需要注意的首次Token延迟会随着上下文增长而显著增加超过32K tokens后生成速度下降明显如果追求流畅体验建议控制上下文长度在16K以内总结M4 Max配合MLX 4bit量化让26B参数的大模型在Mac上有了可用的体验。短上下文场景下85-90 tokens/秒的生成速度足以支撑日常使用长上下文场景虽然会遇到延迟增加的问题但对于需要在本地运行大模型的用户来说这已经是目前消费级硬件能提供的最佳方案之一。如果你正在考虑在Mac上部署本地大模型gemma-4-26B配合MLX是一个值得考虑的选择。根据你的实际需求选择合适的上下文长度可以获得最佳的使用体验。
在Mac上跑26B大模型:M4 Max + MLX量化推理实测
今天我们来聊聊在Mac Studio M4 Max32核GPU上使用oMLX平台部署gemma-4-26B-A4B-it-QAT-MLX-4bit模型的真实性能表现。测试环境与模型配置测试机器是一台Mac Studio搭载M4 Max芯片32核GPU统一内存规格足够支撑大模型运行。模型采用的是4bit量化版本显存占用约15.3GB这对于一台内存36G的Mac来说并不算吃力。模型名称中的QAT代表量化感知训练这种量化方式相比传统的AWQ或GPTQ能在保持模型质量的同时实现更高效的推理。上下文长度首Token延迟生成速度峰值内存1K tokens905 ms89.4 tok/s14.27 GB4K tokens3.48 s85.6 tok/s14.89 GB8K tokens7.05 s81.0 tok/s15.09 GB16K tokens14.93 s72.3 tok/s15.56 GB32K tokens33.28 s61.9 tok/s16.49 GB64K tokens80.50 s44.1 tok/s18.50 GB128K tokens381.30 s37.0 tok/s21.71 GB图1Token生成速度随上下文长度的变化趋势短上下文场景流畅体验先看短提示词场景。当提示词长度为1024 tokens时首次Token延迟仅905毫秒Token生成速度达到89.4 tokens/秒端到端总延迟2.3秒峰值内存14.27GB。这个成绩相当不错。不到一秒钟就能看到模型开始输出89 tokens/秒的生成速度意味着每秒可以生成将近90个中文字符日常对话和写作辅助场景下体验已经很接近云端服务了。当提示词扩展到4096 tokens时性能依然稳定首次Token延迟3.48秒生成速度85.6 tokens/秒峰值内存14.89GB。生成速度几乎没有下降内存也只增加了约600MB。这个阶段的表现说明MLX对中等长度上下文的处理是游刃有余的。中等上下文开始承压8192 tokens的提示词是一个分水岭。测试数据显示首次Token延迟7秒生成速度下降到81 tokens/秒峰值内存15.09GB。首次Token延迟明显增加但生成速度还能维持在80以上。这对于需要处理较长文档的场景比如文章摘要、代码分析来说依然是可用的状态。到了16384 tokens时首次Token延迟接近15秒生成速度降至72.3 tokens/秒峰值内存15.56GB。延迟开始变得明显但生成速度的下降还算温和。如果你的使用场景是处理较长的技术文档或书籍章节这个速度勉强可以接受但需要一些耐心。长上下文场景内存瓶颈显现32768 tokens的提示词是一个重要节点。测试数据显示首次Token延迟33秒生成速度骤降至61.9 tokens/秒峰值内存16.49GB。从这一步开始生成速度的下降变得显著。33秒的首token延迟意味着你需要等待半分钟才能开始看到输出这对交互体验是一个挑战。当提示词达到65536 tokens时首次Token延迟超过80秒生成速度只有44.1 tokens/秒峰值内存18.50GB。内存占用已经逼近20GB生成速度几乎腰斩。这个长度已经接近很多实际应用的极限再往上就会面临更严峻的考验。图2峰值内存随上下文长度的变化到了131072 tokens约128K上下文的测试首次Token延迟381秒超过6分钟生成速度37 tokens/秒峰值内存21.71GB。这是测试的极限场景。381秒的首token延迟意味着你可能需要等上六七分钟才能看到第一个字这对任何实际应用来说都是难以接受的。但考虑到这是一个26B参数模型在消费级硬件上处理128K tokens的上下文这个成绩并非不可接受。性能趋势分析从测试数据中可以画出一条清晰的曲线随着上下文长度的增加Token生成速度呈现出近似线性下降的趋势。1K-4K上下文85-90 tokens/秒性能优秀8K-16K上下文70-80 tokens/秒性能良好32K上下文约60 tokens/秒可用但偏慢64K上下文约45 tokens/秒勉强可用128K上下文约37 tokens/秒体验受限内存占用方面从14GB起步随着上下文增加而线性增长最终在128K时达到21.7GB。这个增长是正常的因为KV Cache需要存储所有历史token的注意力状态。实际应用建议基于测试数据有几个建议适合的场景短对话和写作辅助1K-4K tokens体验与云端接近文档分析和摘要8K-16K tokens可以接受需要等待首token书籍级别的长文本处理32K tokens需要调整预期接受较慢的响应需要注意的首次Token延迟会随着上下文增长而显著增加超过32K tokens后生成速度下降明显如果追求流畅体验建议控制上下文长度在16K以内总结M4 Max配合MLX 4bit量化让26B参数的大模型在Mac上有了可用的体验。短上下文场景下85-90 tokens/秒的生成速度足以支撑日常使用长上下文场景虽然会遇到延迟增加的问题但对于需要在本地运行大模型的用户来说这已经是目前消费级硬件能提供的最佳方案之一。如果你正在考虑在Mac上部署本地大模型gemma-4-26B配合MLX是一个值得考虑的选择。根据你的实际需求选择合适的上下文长度可以获得最佳的使用体验。