智能体AI系统需要具备专业深度的模型来自主解决复杂的技术问题。这些模型必须擅长推理、编码和长上下文分析同时保持足够的效率以持续大规模运行。多智能体系统产生的令牌数量是标准聊天的15倍每次交互都会重新发送历史记录、工具输出和推理步骤。在长任务中这种“上下文爆炸”会导致目标漂移即智能体逐渐偏离原始目标。而为每个子任务使用庞大的推理模型“思维税”会使得多智能体应用在实际使用中成本过高且响应缓慢。今天我们发布Nemotron 3 Super以解决这些限制。这款新Super模型是一个总参数120B、激活参数12B的模型为软件开发、网络安全分类等复杂的多智能体应用提供最大化的计算效率和准确性。该模型是在去年12月推出的Nemotron 3 Nano之后发布的。Super通过其混合专家MoE架构解决了“思维税”问题。其吞吐量是之前Nemotron Super的5倍以上。该模型通过原生的1M令牌上下文窗口应对“上下文爆炸”为智能体提供长期记忆以实现对齐的、高精度的推理。该模型完全开源包括权重、数据集和配方使开发者可以轻松地在自己的基础设施上进行定制、优化和部署。Nemotron 3 Super的独特之处Nemotron 3 Super不仅仅是Nano的放大版。它引入了架构创新使模型能够缓解高容量推理模型中典型的效率与准确性权衡问题潜在MoE通过在令牌到达专家之前对其进行压缩以相同的推理成本调用4倍数量的专家。多令牌预测MTP在一次前向传递中预测多个未来令牌显著减少长序列的生成时间并实现内置的推测解码。混合Mamba-Transformer主干结合Mamba层的序列处理效率和Transformer层的精确推理能力提供更高的吞吐量内存和计算效率提升了4倍。原生NVFP4预训练针对某机构Blackwell平台优化与在H100上使用FP8相比在B200上显着降低了内存需求并将推理速度提升了4倍同时保持了准确性。多环境强化学习RL后训练使用某机构NeMo Gym和NeMo RL在21种环境配置下进行强化学习训练过程中使用了超过120万次环境交互。这些优势共同造就了一个非常适合长时间运行自主智能体的模型。在PinchBench一个用于评估LLM作为OpenClaw智能体大脑表现的新基准上Nemotron 3 Super在整个测试套件中得分85.6%使其成为同类中最好的开源模型。架构深度解析混合Mamba-Transformer MoE主干Super建立在与Nano相同的混合理念之上但规模完全不同。其主干交错使用三种层类型Mamba-2层处理大部分序列处理。状态空间模型SSM提供了与序列长度相关的线性时间复杂度这使得1M令牌上下文窗口变得实用而非理论。当智能体需要推理整个代码库、长对话历史或一堆检索到的文档时Mamba层保持了内存占用的可控性。Transformer注意力层在关键深度处交错插入。纯SSM可能在精确的关联召回任务中遇到困难即从长上下文中找到某个特定事实。注意力层保留了这种能力确保即使在“大海捞针”的冲突信息中Super也能保持高保真检索。MoE层扩展了有效参数数量而无需密集计算的成本。每个令牌只激活一部分专家保持低延迟和高吞吐量——当多个智能体在共享部署中并发运行时这一点至关重要。潜在MoE标准的MoE架构将令牌直接从模型的完整隐藏维度路由到专家。随着模型增长这个路由层成为瓶颈——它增加了计算成本并限制了你实际可以部署的专家数量。Super引入了潜在MoE在做出路由决策之前令牌嵌入被投影到一个压缩的、低秩的潜在空间中。专家计算在这个较小的维度中进行然后将结果投影回完整的模型维度。这在实际中的意义更多专家相同成本。通过在令牌到达专家之前对其进行压缩潜在MoE使模型能够以与运行一个专家完全相同的计算成本咨询4倍的专家。更细粒度的专业化。有了更多可用的专家模型可以进行高度专业化的路由——例如为Python语法和SQL逻辑分别激活不同的专家仅在严格需要时才激活。这种粒度在智能体环境中尤其有价值因为在一个对话中可能跨越几轮就包含了工具调用、代码生成、数据分析和对话推理。多令牌预测MTP标准语言模型被训练为一次预测一个令牌——这是一个本质上的短视目标。Super通过MTP进行训练其中专门的预测头从每个位置同时预测多个未来令牌。这带来了两个具体的好处训练期间更强的推理能力。预测多个未来令牌迫使模型内化更长期的结构和逻辑依赖。模型不是学习猜测下一个看似合理的词而是必须学会预测连贯的序列。这在对思维链任务上产生了可衡量的提升在这些任务中每一步都必须逻辑地跟上一步。推理时的内置推测解码。通过在一次前向传递中同时预测多个未来令牌MTP显著减少了生成长序列所需的时间。MTP头提供可以并行验证的草稿预测使代码和工具调用等结构化生成任务的墙钟速度提升高达3倍——无需单独的草稿模型。这两个好处都源于同一个设计决策。与为每个偏移量训练独立预测头的架构不同Super在所有MTP头上使用了共享权重的设计。这既使参数开销最小化又提高了训练稳定性——这些头学会了就连贯的延续达成一致而不是分化为特定偏移量的捷径。同样的权重共享也使推测草稿在更长的草稿长度上更加一致而独立训练的头通常会在此情况下退化。原生NVFP4预训练大多数量化模型是从全精度开始训练后进行压缩这不可避免地会引入精度损失。Super采取了一种不同的方法预训练期间大部分浮点乘加运算都以NVFP4某机构4位浮点格式运行。该格式针对Blackwell进行了优化与FP8相比显着减少了内存需求并加快了推理速度同时保持了准确性。在低精度下进行原生训练意味着模型从第一次梯度更新开始就学会了在4位算术的约束下保持准确。结果是尽管运行在显着减少的内存占用上该模型在数学上仍然是稳定且准确的。我们如何训练Nemotron 3 SuperNemotron 3 Super的训练分为三个连续的阶段每个阶段都建立在前一个阶段之上。预训练建立了广泛的世界知识和语言理解。监督微调塑造了模型在部署中将遇到的任务类型上的行为。然后强化学习针对各种智能体环境中的可验证结果来优化这些行为。预训练Super使用针对某机构Blackwell优化的4位浮点格式NVFP4在25万亿个令牌上进行预训练。Super不是在事后量化全精度模型而是从第一次梯度更新开始就以降低的精度进行原生训练——这意味着模型在整个预训练过程中而不仅仅是在推理时就学会了在4位算术的约束下保持准确性。预训练语料库包含10万亿个独特的精选令牌模型在整个运行过程中看到了总计25万亿个令牌其中包括专注于推理和编码的额外计算。监督微调在强化学习之前Super在大约700万个SFT样本上进行了监督微调。这些样本来自一个包含4000万个样本的更广泛的后训练语料库涵盖了推理、指令遵循、编码、安全性和多步智能体任务。这个阶段建立了行为基础随后由RL进行优化。模型学习了跨任务类型的正确响应的格式和结构为后续的RL阶段提供了一个稳定的起点而不是从一个原始的预训练检查点开始优化。多环境强化学习为了使Super与实际智能体行为对齐模型在NeMo Gym用于构建和扩展RL训练环境的开源库中的多样化环境中使用强化学习进行后训练。这些环境评估模型执行一系列动作的能力——生成正确的工具调用、编写功能性代码、产生满足可验证标准的多部分计划——而不仅仅是提供令人满意的单轮响应。这些轨迹构成了使用NeMo RL库进行大规模强化学习的核心训练数据。这种基于轨迹的强化学习产生了一个在多步工作流程下行为可靠、减少推理漂移并处理智能体管道中常见的结构化操作的模型。基准测试Nemotron 3 Super在多个重要的智能体基准测试中取得了领先的准确性同时保持了惊人的吞吐量。“Super Nano”部署模式Nemotron 3 Nano是在智能体工作流中执行目标明确的单个步骤时实现高准确性的绝佳选择。然而当多智能体应用升级为复杂的多步活动时它们需要一个高容量模型来实现卓越的规划和推理能力。例如一个计算机使用智能体需要在不同模式工具之间做出决策以创建包含10张高质量幻灯片的演示文稿。Nemotron 3 Super在此类场景中非常理想。例如在软件开发中简单的合并请求可以由Nemotron 3 Nano处理而需要对代码库有更深理解的复杂编码任务则可以由Nemotron 3 Super处理。而专家级的编码任务则可以由专用模型处理。使用Super的开源资源进行构建Nemotron 3 Super完全开源——包括权重、数据集和配方——因此开发者可以轻松地在自己的基础设施上定制、优化和部署模型以获得最大的隐私和安全性。模型权重Nemotron 3 Super的完整参数检查点在Hugging Face和通过NVIDIA NIM上提供。某机构Nemotron开放模型许可为企业提供了保持数据控制和在任何地方部署的灵活性。端到端训练和评估配方我们正在发布Nemotron 3 Super的完整训练和评估配方涵盖了从预训练到对齐的完整流程。这使得开发者能够复现Super的训练过程为特定领域的变体调整配方或将其作为自己混合架构研究的起点。部署手册我们为主要的推理引擎构建了即用型手册包含配置模板、性能调优指南和参考脚本。微调手册探索我们的Nemotron 3 Super定制化手册以高效地为您的领域进行微调LoRA/SFT或提升其智能体推理能力GRPO/DAPO。开放数据集Nemotron 3 Super构建在一个完全开放、端到端的数据管道上涵盖了预训练、后训练和交互式强化学习——为开发者提供了构建智能体AI的可复现基础模块。开放训练和评估基础设施某机构发布了开发技术和工具使研究人员和企业可以灵活地定制Nemotron 3 Super或构建自己的推理模型。所有配方都与GitHub仓库、NeMo Gym、NeMo RL、NeMo Data Designer、NeMo Curator和NeMo Evaluator集成——提供了一个从数据到部署的完整、可复现的管道。所有Nemotron模型都采用开放评估方式发布包括一个已发布的评估配方使任何人都能重新运行和检查Nemotron 3 Super的完整评估流程。开始使用Nemotron 3 Super现已上线。在领先的推理平台上可用并打包为NVIDIA NIMSuper可以在从工作站到云端的任何地方运行。通过Pro订阅在Perplexity上试用或通过API、OpenRouter或build.nvidia.com访问。从Hugging Face下载权重通过NVIDIA NIM启动优化实例使用Unsloth进行微调或从手册开始几分钟内即可运行。Super还可通过多家云服务提供商和AI平台获取。请查看我们的GitHub仓库其中包含OpenCode、OpenHands和OpenClaw等平台的入门指南。有关完整的技术细节请阅读Nemotron 3 Super技术报告。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享
Nemotron 3 Super:面向智能体推理的混合Mamba-Transformer MoE模型
智能体AI系统需要具备专业深度的模型来自主解决复杂的技术问题。这些模型必须擅长推理、编码和长上下文分析同时保持足够的效率以持续大规模运行。多智能体系统产生的令牌数量是标准聊天的15倍每次交互都会重新发送历史记录、工具输出和推理步骤。在长任务中这种“上下文爆炸”会导致目标漂移即智能体逐渐偏离原始目标。而为每个子任务使用庞大的推理模型“思维税”会使得多智能体应用在实际使用中成本过高且响应缓慢。今天我们发布Nemotron 3 Super以解决这些限制。这款新Super模型是一个总参数120B、激活参数12B的模型为软件开发、网络安全分类等复杂的多智能体应用提供最大化的计算效率和准确性。该模型是在去年12月推出的Nemotron 3 Nano之后发布的。Super通过其混合专家MoE架构解决了“思维税”问题。其吞吐量是之前Nemotron Super的5倍以上。该模型通过原生的1M令牌上下文窗口应对“上下文爆炸”为智能体提供长期记忆以实现对齐的、高精度的推理。该模型完全开源包括权重、数据集和配方使开发者可以轻松地在自己的基础设施上进行定制、优化和部署。Nemotron 3 Super的独特之处Nemotron 3 Super不仅仅是Nano的放大版。它引入了架构创新使模型能够缓解高容量推理模型中典型的效率与准确性权衡问题潜在MoE通过在令牌到达专家之前对其进行压缩以相同的推理成本调用4倍数量的专家。多令牌预测MTP在一次前向传递中预测多个未来令牌显著减少长序列的生成时间并实现内置的推测解码。混合Mamba-Transformer主干结合Mamba层的序列处理效率和Transformer层的精确推理能力提供更高的吞吐量内存和计算效率提升了4倍。原生NVFP4预训练针对某机构Blackwell平台优化与在H100上使用FP8相比在B200上显着降低了内存需求并将推理速度提升了4倍同时保持了准确性。多环境强化学习RL后训练使用某机构NeMo Gym和NeMo RL在21种环境配置下进行强化学习训练过程中使用了超过120万次环境交互。这些优势共同造就了一个非常适合长时间运行自主智能体的模型。在PinchBench一个用于评估LLM作为OpenClaw智能体大脑表现的新基准上Nemotron 3 Super在整个测试套件中得分85.6%使其成为同类中最好的开源模型。架构深度解析混合Mamba-Transformer MoE主干Super建立在与Nano相同的混合理念之上但规模完全不同。其主干交错使用三种层类型Mamba-2层处理大部分序列处理。状态空间模型SSM提供了与序列长度相关的线性时间复杂度这使得1M令牌上下文窗口变得实用而非理论。当智能体需要推理整个代码库、长对话历史或一堆检索到的文档时Mamba层保持了内存占用的可控性。Transformer注意力层在关键深度处交错插入。纯SSM可能在精确的关联召回任务中遇到困难即从长上下文中找到某个特定事实。注意力层保留了这种能力确保即使在“大海捞针”的冲突信息中Super也能保持高保真检索。MoE层扩展了有效参数数量而无需密集计算的成本。每个令牌只激活一部分专家保持低延迟和高吞吐量——当多个智能体在共享部署中并发运行时这一点至关重要。潜在MoE标准的MoE架构将令牌直接从模型的完整隐藏维度路由到专家。随着模型增长这个路由层成为瓶颈——它增加了计算成本并限制了你实际可以部署的专家数量。Super引入了潜在MoE在做出路由决策之前令牌嵌入被投影到一个压缩的、低秩的潜在空间中。专家计算在这个较小的维度中进行然后将结果投影回完整的模型维度。这在实际中的意义更多专家相同成本。通过在令牌到达专家之前对其进行压缩潜在MoE使模型能够以与运行一个专家完全相同的计算成本咨询4倍的专家。更细粒度的专业化。有了更多可用的专家模型可以进行高度专业化的路由——例如为Python语法和SQL逻辑分别激活不同的专家仅在严格需要时才激活。这种粒度在智能体环境中尤其有价值因为在一个对话中可能跨越几轮就包含了工具调用、代码生成、数据分析和对话推理。多令牌预测MTP标准语言模型被训练为一次预测一个令牌——这是一个本质上的短视目标。Super通过MTP进行训练其中专门的预测头从每个位置同时预测多个未来令牌。这带来了两个具体的好处训练期间更强的推理能力。预测多个未来令牌迫使模型内化更长期的结构和逻辑依赖。模型不是学习猜测下一个看似合理的词而是必须学会预测连贯的序列。这在对思维链任务上产生了可衡量的提升在这些任务中每一步都必须逻辑地跟上一步。推理时的内置推测解码。通过在一次前向传递中同时预测多个未来令牌MTP显著减少了生成长序列所需的时间。MTP头提供可以并行验证的草稿预测使代码和工具调用等结构化生成任务的墙钟速度提升高达3倍——无需单独的草稿模型。这两个好处都源于同一个设计决策。与为每个偏移量训练独立预测头的架构不同Super在所有MTP头上使用了共享权重的设计。这既使参数开销最小化又提高了训练稳定性——这些头学会了就连贯的延续达成一致而不是分化为特定偏移量的捷径。同样的权重共享也使推测草稿在更长的草稿长度上更加一致而独立训练的头通常会在此情况下退化。原生NVFP4预训练大多数量化模型是从全精度开始训练后进行压缩这不可避免地会引入精度损失。Super采取了一种不同的方法预训练期间大部分浮点乘加运算都以NVFP4某机构4位浮点格式运行。该格式针对Blackwell进行了优化与FP8相比显着减少了内存需求并加快了推理速度同时保持了准确性。在低精度下进行原生训练意味着模型从第一次梯度更新开始就学会了在4位算术的约束下保持准确。结果是尽管运行在显着减少的内存占用上该模型在数学上仍然是稳定且准确的。我们如何训练Nemotron 3 SuperNemotron 3 Super的训练分为三个连续的阶段每个阶段都建立在前一个阶段之上。预训练建立了广泛的世界知识和语言理解。监督微调塑造了模型在部署中将遇到的任务类型上的行为。然后强化学习针对各种智能体环境中的可验证结果来优化这些行为。预训练Super使用针对某机构Blackwell优化的4位浮点格式NVFP4在25万亿个令牌上进行预训练。Super不是在事后量化全精度模型而是从第一次梯度更新开始就以降低的精度进行原生训练——这意味着模型在整个预训练过程中而不仅仅是在推理时就学会了在4位算术的约束下保持准确性。预训练语料库包含10万亿个独特的精选令牌模型在整个运行过程中看到了总计25万亿个令牌其中包括专注于推理和编码的额外计算。监督微调在强化学习之前Super在大约700万个SFT样本上进行了监督微调。这些样本来自一个包含4000万个样本的更广泛的后训练语料库涵盖了推理、指令遵循、编码、安全性和多步智能体任务。这个阶段建立了行为基础随后由RL进行优化。模型学习了跨任务类型的正确响应的格式和结构为后续的RL阶段提供了一个稳定的起点而不是从一个原始的预训练检查点开始优化。多环境强化学习为了使Super与实际智能体行为对齐模型在NeMo Gym用于构建和扩展RL训练环境的开源库中的多样化环境中使用强化学习进行后训练。这些环境评估模型执行一系列动作的能力——生成正确的工具调用、编写功能性代码、产生满足可验证标准的多部分计划——而不仅仅是提供令人满意的单轮响应。这些轨迹构成了使用NeMo RL库进行大规模强化学习的核心训练数据。这种基于轨迹的强化学习产生了一个在多步工作流程下行为可靠、减少推理漂移并处理智能体管道中常见的结构化操作的模型。基准测试Nemotron 3 Super在多个重要的智能体基准测试中取得了领先的准确性同时保持了惊人的吞吐量。“Super Nano”部署模式Nemotron 3 Nano是在智能体工作流中执行目标明确的单个步骤时实现高准确性的绝佳选择。然而当多智能体应用升级为复杂的多步活动时它们需要一个高容量模型来实现卓越的规划和推理能力。例如一个计算机使用智能体需要在不同模式工具之间做出决策以创建包含10张高质量幻灯片的演示文稿。Nemotron 3 Super在此类场景中非常理想。例如在软件开发中简单的合并请求可以由Nemotron 3 Nano处理而需要对代码库有更深理解的复杂编码任务则可以由Nemotron 3 Super处理。而专家级的编码任务则可以由专用模型处理。使用Super的开源资源进行构建Nemotron 3 Super完全开源——包括权重、数据集和配方——因此开发者可以轻松地在自己的基础设施上定制、优化和部署模型以获得最大的隐私和安全性。模型权重Nemotron 3 Super的完整参数检查点在Hugging Face和通过NVIDIA NIM上提供。某机构Nemotron开放模型许可为企业提供了保持数据控制和在任何地方部署的灵活性。端到端训练和评估配方我们正在发布Nemotron 3 Super的完整训练和评估配方涵盖了从预训练到对齐的完整流程。这使得开发者能够复现Super的训练过程为特定领域的变体调整配方或将其作为自己混合架构研究的起点。部署手册我们为主要的推理引擎构建了即用型手册包含配置模板、性能调优指南和参考脚本。微调手册探索我们的Nemotron 3 Super定制化手册以高效地为您的领域进行微调LoRA/SFT或提升其智能体推理能力GRPO/DAPO。开放数据集Nemotron 3 Super构建在一个完全开放、端到端的数据管道上涵盖了预训练、后训练和交互式强化学习——为开发者提供了构建智能体AI的可复现基础模块。开放训练和评估基础设施某机构发布了开发技术和工具使研究人员和企业可以灵活地定制Nemotron 3 Super或构建自己的推理模型。所有配方都与GitHub仓库、NeMo Gym、NeMo RL、NeMo Data Designer、NeMo Curator和NeMo Evaluator集成——提供了一个从数据到部署的完整、可复现的管道。所有Nemotron模型都采用开放评估方式发布包括一个已发布的评估配方使任何人都能重新运行和检查Nemotron 3 Super的完整评估流程。开始使用Nemotron 3 Super现已上线。在领先的推理平台上可用并打包为NVIDIA NIMSuper可以在从工作站到云端的任何地方运行。通过Pro订阅在Perplexity上试用或通过API、OpenRouter或build.nvidia.com访问。从Hugging Face下载权重通过NVIDIA NIM启动优化实例使用Unsloth进行微调或从手册开始几分钟内即可运行。Super还可通过多家云服务提供商和AI平台获取。请查看我们的GitHub仓库其中包含OpenCode、OpenHands和OpenClaw等平台的入门指南。有关完整的技术细节请阅读Nemotron 3 Super技术报告。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享