Google Gemma 4 12B 正式发布无需编码器的多模态模型16GB 内存即可本地运行2026 年 6 月 3 日Google DeepMind 正式发布了 Gemma 4 12B——一款全新的中等规模多模态模型。它不仅性能逼近 2025 年发布的 Gemma 4 26B MoE 模型内存占用却不到后者的一半更重要的是它采用了无编码器encoder-free架构原生支持图像和音频输入且已开放 Apache 2.0 许可证。截至目前Gemma 4 系列模型的全球下载量已突破1.5 亿次。Gemma 4 12B 的核心亮点1. 无编码器统一架构——真正的端到端多模态传统多模态模型依赖独立的视觉编码器如 ViT和音频编码器来翻译输入然后传给语言模型。这些分离的编码器增加了延迟和内存消耗。Gemma 4 12B 的做法完全不同视觉处理用一个极轻量的嵌入模块单次矩阵乘法 位置编码 归一化替代了完整的视觉编码器让 LLM 主干直接接管视觉处理音频处理直接移除了音频编码器将原始音频信号投影到与文本 token 相同的维度空间这意味着模型真正实现了看到即理解没有中间编码器的信息损失和延迟开销。2. 本地运行16GB 内存足矣对于开发者来说最让人兴奋的是它的硬件门槛# Gemma 4 12B 的最低运行配置# 硬件要求GPU:16GB VRAM如 RTX4060Ti/Apple M 系列统一内存 RAM:16GB硬盘:约 15GB 模型权重你可以在自己的笔记本电脑上本地运行这个模型通过各种推理框架# 使用 Ollama 运行一行命令ollama run gemma4:12b# 使用 llama.cpp./llama-cli-mgemma-4-12b-it-Q4_K_M.gguf--multimodal# 使用 MLXApple Siliconpython-mmlx_lm.generate\--modelgoogle/gemma-4-12b-it\--prompt描述这张图片\--imagephoto.jpg# 使用 Hugging Face Transformersimporttorch from transformersimportAutoProcessor, Gemma4ForConditionalGeneration modelGemma4ForConditionalGeneration.from_pretrained(google/gemma-4-12b-it,torch_dtypetorch.bfloat16,device_mapauto)processorAutoProcessor.from_pretrained(google/gemma-4-12b-it)# 处理图片文本输入from PILimportImage imageImage.open(photo.jpg)messages[{role:user,content:[{type:image},{type:text,text:请详细描述这张图片的内容}]}]inputsprocessor.apply_chat_template(messages,add_generation_promptTrue,return_tensorspt).to(model.device)outputsmodel.generate(**inputs,max_new_tokens200)print(processor.decode(outputs[0],skip_special_tokensTrue))3. 性能逼近 26B 大模型根据 Google 公布的基准测试数据Gemma 4 12B 在多项标准评测中表现接近 Gemma 4 26B MoE基准测试Gemma 4 12BGemma 4 26B MoEMMLU通用知识78.5%80.2%MathQA数学推理67.3%69.1%HumanEval代码生成71.2%73.8%MMMU多模态理解65.8%67.4%在 MMLU 和 HumanEval 上12B 模型达到了 26B 模型 97% 的性能但内存仅为 42%。这在本地部署场景中是一个巨大的优势。4. Multi-Token PredictionMTP加速推理Gemma 4 12B 内置了多 token 预测MTP草稿器。传统自回归模型每次生成一个 token而 MTP 可以一次预测多个 token生成速度提升 2-3 倍# 启用 MTP 加速Ollamaollama run gemma4:12b--num-draft5# 每次生成 5 个草稿 token加速推理# 适用于对延迟敏感的生产环境5. 开发者生态支持Google 为 Gemma 4 12B 提供了全面的生态支持推理框架Ollama、llama.cpp、MLX、HuggingFace Transformers、vLLM、SGLang微调工具Unsloth支持 LoRA/QLoRA 高效微调部署平台Google Cloud Model Garden、Cloud Run、GKE开发工具LM Studio、Google AI Edge Gallery App、LiteRT-LM CLIAgent 开发官方 Skills Repository 提供预构建的 agent 技能库# 使用 Unsloth 进行高效微调fromunslothimportFastLanguageModelimporttorch model,tokenizerFastLanguageModel.from_pretrained(model_namegoogle/gemma-4-12b-it,max_seq_length8192,dtypetorch.bfloat16,load_in_4bitTrue,# 4bit 量化进一步降低显存)# 添加 LoRA adaptermodelFastLanguageModel.get_peft_model(model,r16,target_modules[q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj],lora_alpha16,lora_dropout0,biasnone,use_gradient_checkpointingTrue,random_state42,)# 准备训练数据格式示例fromdatasetsimportDataset datasetDataset.from_list([{instruction:总结这段代码,input:code_snippet,output:summary},# ... 更多训练数据])# 开始训练fromtrlimportSFTTrainer trainerSFTTrainer(modelmodel,tokenizertokenizer,train_datasetdataset,argstransformers.TrainingArguments(per_device_train_batch_size2,gradient_accumulation_steps4,warmup_steps100,num_train_epochs3,learning_rate2e-4,fp16nottorch.cuda.is_bf16_supported(),bf16torch.cuda.is_bf16_supported(),logging_steps10,output_diroutputs,),)trainer.train()对开发者的实际意义场景 1本地 AI 助手使用 Gemma 4 12B 构建本地 AI 助手不需要 API key不需要联网# 启动本地 API 服务python-mvllm.entrypoints.openai.api_server\--modelgoogle/gemma-4-12b-it\--max-model-len8192\--port8000# 发送请求curlhttp://localhost:8000/v1/chat/completions\-HContent-Type: application/json\-d{ model: google/gemma-4-12b-it, messages: [{role: user, content: 用 Python 写一个 FastAPI 文件上传服务}] }场景 2离线多模态处理对于隐私敏感场景医疗影像、财务文档Gemma 4 12B 可以在完全离线的环境下分析图像# 离线 OCR 文档分析fromPILimportImageimporttorch imageImage.open(invoice.jpg)prompt提取这张发票中的以下信息公司名称、金额、日期、发票号码inputsprocessor.apply_chat_template([{role:user,content:[{type:image},{type:text,text:prompt}]}],add_generation_promptTrue).to(model.device)outputmodel.generate(**inputs,max_new_tokens512)resultprocessor.decode(output[0],skip_special_tokensTrue)print(result)# 输出结构化提取的发票信息场景 3音频实时转录Gemma 4 12B 是 Gemma 系列首个支持原生音频输入的模型# 音频转录无需额外的 Whisper 模型importtorchimporttorchaudio waveform,sample_ratetorchaudio.load(meeting_recording.wav)# 模型可以直接处理原始音频信号# 不需要额外的语音识别模型如何开始如果你今天就想上手体验最快的方式# 方案一Ollama推荐初学者ollama run gemma4:12b# 方案二Hugging Face 下载权重pipinstalltransformers4.52.0 huggingface-cli download google/gemma-4-12b-it# 方案三LM Studio图形化界面# 在 LM Studio 中搜索 gemma-4-12b 下载权重下载地址Hugging Facegoogle/gemma-4-12b-itKaggleGemma 4 12B总结Gemma 4 12B 的发布标志着开源多模态模型的一个重要里程碑。它的意义不仅在于性能数字更在于无编码器架构证明了多模态模型不一定需要复杂的独立编码器16GB 门槛让真正的本地 AI 代理成为可能Apache 2.0 许可降低了商业使用的风险对于中国开发者来说这意味着你可以用消费级显卡RTX 4060 Ti ~3000元在自己的电脑上运行一个接近 GPT-4 级别理解能力的多模态模型。对于构建注重隐私和低延迟的 AI 应用这是一个不可忽视的技术选项。如果你对在本地搭建 AI 代理感兴趣可以试试我做的 zidongai.com.cn 上的自动化工具帮你快速搭建基于开源模型的 AI 工作流。
Gemma 4 12B 的最低运行配置
Google Gemma 4 12B 正式发布无需编码器的多模态模型16GB 内存即可本地运行2026 年 6 月 3 日Google DeepMind 正式发布了 Gemma 4 12B——一款全新的中等规模多模态模型。它不仅性能逼近 2025 年发布的 Gemma 4 26B MoE 模型内存占用却不到后者的一半更重要的是它采用了无编码器encoder-free架构原生支持图像和音频输入且已开放 Apache 2.0 许可证。截至目前Gemma 4 系列模型的全球下载量已突破1.5 亿次。Gemma 4 12B 的核心亮点1. 无编码器统一架构——真正的端到端多模态传统多模态模型依赖独立的视觉编码器如 ViT和音频编码器来翻译输入然后传给语言模型。这些分离的编码器增加了延迟和内存消耗。Gemma 4 12B 的做法完全不同视觉处理用一个极轻量的嵌入模块单次矩阵乘法 位置编码 归一化替代了完整的视觉编码器让 LLM 主干直接接管视觉处理音频处理直接移除了音频编码器将原始音频信号投影到与文本 token 相同的维度空间这意味着模型真正实现了看到即理解没有中间编码器的信息损失和延迟开销。2. 本地运行16GB 内存足矣对于开发者来说最让人兴奋的是它的硬件门槛# Gemma 4 12B 的最低运行配置# 硬件要求GPU:16GB VRAM如 RTX4060Ti/Apple M 系列统一内存 RAM:16GB硬盘:约 15GB 模型权重你可以在自己的笔记本电脑上本地运行这个模型通过各种推理框架# 使用 Ollama 运行一行命令ollama run gemma4:12b# 使用 llama.cpp./llama-cli-mgemma-4-12b-it-Q4_K_M.gguf--multimodal# 使用 MLXApple Siliconpython-mmlx_lm.generate\--modelgoogle/gemma-4-12b-it\--prompt描述这张图片\--imagephoto.jpg# 使用 Hugging Face Transformersimporttorch from transformersimportAutoProcessor, Gemma4ForConditionalGeneration modelGemma4ForConditionalGeneration.from_pretrained(google/gemma-4-12b-it,torch_dtypetorch.bfloat16,device_mapauto)processorAutoProcessor.from_pretrained(google/gemma-4-12b-it)# 处理图片文本输入from PILimportImage imageImage.open(photo.jpg)messages[{role:user,content:[{type:image},{type:text,text:请详细描述这张图片的内容}]}]inputsprocessor.apply_chat_template(messages,add_generation_promptTrue,return_tensorspt).to(model.device)outputsmodel.generate(**inputs,max_new_tokens200)print(processor.decode(outputs[0],skip_special_tokensTrue))3. 性能逼近 26B 大模型根据 Google 公布的基准测试数据Gemma 4 12B 在多项标准评测中表现接近 Gemma 4 26B MoE基准测试Gemma 4 12BGemma 4 26B MoEMMLU通用知识78.5%80.2%MathQA数学推理67.3%69.1%HumanEval代码生成71.2%73.8%MMMU多模态理解65.8%67.4%在 MMLU 和 HumanEval 上12B 模型达到了 26B 模型 97% 的性能但内存仅为 42%。这在本地部署场景中是一个巨大的优势。4. Multi-Token PredictionMTP加速推理Gemma 4 12B 内置了多 token 预测MTP草稿器。传统自回归模型每次生成一个 token而 MTP 可以一次预测多个 token生成速度提升 2-3 倍# 启用 MTP 加速Ollamaollama run gemma4:12b--num-draft5# 每次生成 5 个草稿 token加速推理# 适用于对延迟敏感的生产环境5. 开发者生态支持Google 为 Gemma 4 12B 提供了全面的生态支持推理框架Ollama、llama.cpp、MLX、HuggingFace Transformers、vLLM、SGLang微调工具Unsloth支持 LoRA/QLoRA 高效微调部署平台Google Cloud Model Garden、Cloud Run、GKE开发工具LM Studio、Google AI Edge Gallery App、LiteRT-LM CLIAgent 开发官方 Skills Repository 提供预构建的 agent 技能库# 使用 Unsloth 进行高效微调fromunslothimportFastLanguageModelimporttorch model,tokenizerFastLanguageModel.from_pretrained(model_namegoogle/gemma-4-12b-it,max_seq_length8192,dtypetorch.bfloat16,load_in_4bitTrue,# 4bit 量化进一步降低显存)# 添加 LoRA adaptermodelFastLanguageModel.get_peft_model(model,r16,target_modules[q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj],lora_alpha16,lora_dropout0,biasnone,use_gradient_checkpointingTrue,random_state42,)# 准备训练数据格式示例fromdatasetsimportDataset datasetDataset.from_list([{instruction:总结这段代码,input:code_snippet,output:summary},# ... 更多训练数据])# 开始训练fromtrlimportSFTTrainer trainerSFTTrainer(modelmodel,tokenizertokenizer,train_datasetdataset,argstransformers.TrainingArguments(per_device_train_batch_size2,gradient_accumulation_steps4,warmup_steps100,num_train_epochs3,learning_rate2e-4,fp16nottorch.cuda.is_bf16_supported(),bf16torch.cuda.is_bf16_supported(),logging_steps10,output_diroutputs,),)trainer.train()对开发者的实际意义场景 1本地 AI 助手使用 Gemma 4 12B 构建本地 AI 助手不需要 API key不需要联网# 启动本地 API 服务python-mvllm.entrypoints.openai.api_server\--modelgoogle/gemma-4-12b-it\--max-model-len8192\--port8000# 发送请求curlhttp://localhost:8000/v1/chat/completions\-HContent-Type: application/json\-d{ model: google/gemma-4-12b-it, messages: [{role: user, content: 用 Python 写一个 FastAPI 文件上传服务}] }场景 2离线多模态处理对于隐私敏感场景医疗影像、财务文档Gemma 4 12B 可以在完全离线的环境下分析图像# 离线 OCR 文档分析fromPILimportImageimporttorch imageImage.open(invoice.jpg)prompt提取这张发票中的以下信息公司名称、金额、日期、发票号码inputsprocessor.apply_chat_template([{role:user,content:[{type:image},{type:text,text:prompt}]}],add_generation_promptTrue).to(model.device)outputmodel.generate(**inputs,max_new_tokens512)resultprocessor.decode(output[0],skip_special_tokensTrue)print(result)# 输出结构化提取的发票信息场景 3音频实时转录Gemma 4 12B 是 Gemma 系列首个支持原生音频输入的模型# 音频转录无需额外的 Whisper 模型importtorchimporttorchaudio waveform,sample_ratetorchaudio.load(meeting_recording.wav)# 模型可以直接处理原始音频信号# 不需要额外的语音识别模型如何开始如果你今天就想上手体验最快的方式# 方案一Ollama推荐初学者ollama run gemma4:12b# 方案二Hugging Face 下载权重pipinstalltransformers4.52.0 huggingface-cli download google/gemma-4-12b-it# 方案三LM Studio图形化界面# 在 LM Studio 中搜索 gemma-4-12b 下载权重下载地址Hugging Facegoogle/gemma-4-12b-itKaggleGemma 4 12B总结Gemma 4 12B 的发布标志着开源多模态模型的一个重要里程碑。它的意义不仅在于性能数字更在于无编码器架构证明了多模态模型不一定需要复杂的独立编码器16GB 门槛让真正的本地 AI 代理成为可能Apache 2.0 许可降低了商业使用的风险对于中国开发者来说这意味着你可以用消费级显卡RTX 4060 Ti ~3000元在自己的电脑上运行一个接近 GPT-4 级别理解能力的多模态模型。对于构建注重隐私和低延迟的 AI 应用这是一个不可忽视的技术选项。如果你对在本地搭建 AI 代理感兴趣可以试试我做的 zidongai.com.cn 上的自动化工具帮你快速搭建基于开源模型的 AI 工作流。