这项由JetBrains研究团队与德国不来梅Constructor University联合开展的研究于2026年5月以技术报告形式发布编号为arXiv:2605.31268v1感兴趣的读者可通过该编号检索完整论文。**一个让程序员烦恼的老问题**每当程序员打开电脑面对一个需要写代码、改bug、查文档、问AI的下午他们都在隐隐期待着一件事——有一个既聪明又响应迅速的AI助手随时等在旁边帮忙。问题是聪明的AI通常需要消耗大量算力运行起来要么很贵要么很慢要么两者兼而有之。便宜又快的AI又常常在遇到复杂任务时掉链子。JetBrains是一家以开发专业编程工具闻名的公司他们的产品每天都在全球数百万程序员的电脑上运行。正因如此他们比任何人都清楚一个真正好用的AI编程助手不能只会填写代码片段还要能写整个函数、改旧代码、找出bug、调用各种工具、在一个大项目的文件之间穿梭导航甚至要能像一个经验丰富的同事那样和你聊编程。而这一切都必须在程序员的普通电脑上流畅运行不能让人等到抓狂。为了解决这个矛盾JetBrains推出了他们的新一代模型——Mellum 2。这是他们早期那个只会填写代码的简单模型Mellum的全面升级版。新模型拥有120亿个参数却只在处理每个词的时候激活其中25亿个相当于一个拥有丰富知识储备的专家思考时只调用最相关的部分而不是把所有记忆都翻一遍。**一、大脑的结构为什么不是越大越好**要理解Mellum 2的设计思路可以把AI模型的参数想象成一家大型图书馆的藏书量。藏书越多能回答的问题就越广泛但每次有人来查资料如果必须把整个馆的书都翻一遍那效率就太低了。聪明的图书管理员只会在相关的书架上查找。Mellum 2采用的核心技术叫混合专家架构Mixture-of-Experts简称MoE正是这个道理模型里有64位专家每次处理一个词时只有其中8位专家真正参与工作。这样模型总共存储了120亿参数的知识但实际运算量只相当于一个25亿参数的小模型。JetBrains在选择这个架构之前做了大量的对比实验。他们首先尝试了密集型模型Dense Model也就是每次处理都激活所有参数的传统方式。他们测试了各种不同深度和宽度的配置层数从24层到40层不等隐藏维度从2304到4096不等甚至还尝试了DeepSeek团队设计的一种叫做多头潜在注意力MLA的特殊架构。结果发现在他们设定的速度约束下没有任何一个密集模型能稳定地超越Qwen2.5-7B这个7B参数的标杆模型。MLA架构确实允许把模型扩展到约55亿参数同时保持相同速度但质量提升并不足以弥补训练复杂度增加带来的代价而且当时支持的潜在秩维度对他们的模型规模来说太大了。转向MoE架构后他们参考了Qwen3-30B-A3B这个模型的设计按比例缩小以适配单张H100显卡的内存上限低于180亿总参数。专家数量固定为64个因为更多专家会超出显卡内存。他们测试了不同的激活专家数量激活2个专家的模型比激活8个的快约1.5倍但质量明显变差而在小规模模型上稀疏度过高确实有损质量这与学术界此前的研究结论一致。最终64个专家每次激活8个成为质量与速度的最佳平衡点在这个配置下模型最高可以扩展到约150亿总参数同时与Qwen2.5-7B保持相当的推理速度。**二、注意力机制的精心裁剪**除了专家架构本身模型里还有一套叫做注意力机制的装置负责让模型理解文字之间的关联——比如在一段代码里这个变量到底指的是前面哪个定义。这部分的设计对运行速度影响极大。传统的多头注意力机制就像让一群人同时盯着整篇文档的每个角落做笔记然后汇总。JetBrains在Mellum 2中使用了分组查询注意力Grouped-Query AttentionGQA把存储中间结果也就是KV缓存所需的记录员数量从通常的很多个压缩到只有4个。这个数字的选择经过了仔细权衡8个记录员会导致在高并发场景下吞吐量大幅下降而只用2个记录员时模型质量又会明显变差。4个恰好是甜蜜点。实验数据显示Qwen2.5-7B用4个KV头能达到的并发吞吐量与他们的前代模型Mellum-4B用8个KV头时大致相当尽管前者参数量几乎是后者的两倍。另一个关键设计是滑动窗口注意力Sliding Window AttentionSWA。正常的注意力机制每个词都要关注输入文本里所有其他词随着输入文本变长计算量会急剧膨胀。滑动窗口注意力则像一个焦点灯每次只照亮附近一小段区域大大降低了大多数层的计算量。Mellum 2把28层Transformer中的21层即四分之三设置为滑动窗口注意力窗口大小为1024个词元token剩余7层保持全局注意力以确保模型在需要时仍能捕捉远距离的上下文信息。实验表明窗口大小1024比512在质量基准上表现更好而且带有滑动窗口注意力的MoE模型在输入长度翻倍的情况下仍能保持与Qwen2.5-7B相当的延迟在需要处理长代码文件的工作流程中优势显著。还有一个颇具巧思的设计多词元预测头Multi-Token PredictionMTP。通常模型每次预测下一个词而MTP让模型在训练时额外预测再下一个词用一个额外的Transformer层实现训练时额外增加的时间约7%。这个头在正式推理时会被移除不影响模型本身的预测但它带来了双重好处一方面作为辅助训练目标提升了模型质量另一方面可以充当推测解码speculative decoding的草稿生成器加速推理。在对比实验中加入MTP的模型在HumanEval代码生成测试上提升了10.4个百分点在MMLU知识测试上提升了3.6个百分点在MMLU-Pro上提升了3.3个百分点在GSM8K数学测试上提升了3个百分点。**三、训练数据的三段式厨艺哲学**模型的智慧来源于它看过的文本数据。Mellum 2的训练数据约达10.6万亿个词元涵盖网页文本、源代码和数学内容三大类别。如果把训练过程比作一道精心设计的套餐那这三个阶段的安排就像是先打底、再提质、最后精炼。第一阶段叫基础建设处理了约6.18万亿词元占总量58%。这一阶段以网页和通用知识为主约70%代码占23%数学只有6%。目的是让模型先建立宽泛的语言理解能力和基础代码理解。这一阶段涵盖了学习率预热和保持阶段。第二阶段叫质量提升处理了约2.79万亿词元占总量26.2%。代码比例大幅提升至42%高质量精选数据集包括指令跟随数据、推理问答、STEM教学数据、知识对齐文章被引入。此阶段的精选数据是在学习率稳定后引入的因为精选数据在这个时候效果更好。同时引入了新的合成代码数据集原始代码语料库进入第二轮学习。第三阶段叫能力锐化处理了约1.69万亿词元占总量15.9%。学习率进入线性衰减代码比例进一步升至59%网页内容缩减为只有最高质量的精选来源。额外引入了代码审查和跨语言代码转换等合成数据集原始代码语料库进入第三轮学习。代码数据本身分为三类一是来自公开仓库的原始代码按文件去重二是从Common Crawl一个大规模网页快照提取的含代码网页三是合成和衍生代码数据集通过代码摘要、功能扩展、语言转换、测试生成、提交信息等方式为代码附上自然语言注解还有问答、代码重写、代码审查、代码教学解释等合成数据。研究发现合成代码数据对小规模MoE模型的帮助尤为明显因为这类模型更需要数据的多样性。网页和通用知识数据包括大规模合成网页语料、教育类网页内容、教育PDF、多语言推理和问答数据集以及精选知识来源——维基百科改写、合成百科条目等。数学数据则包含数学指令调优数据、多质量层级的数学网页内容、数学教材和数学SFT数据。数据重复策略也经过了精心设计。高质量数据因为稀缺会被多次使用。小型精选代码数据集贯穿三个阶段原始代码语料库经历三轮学习总计贡献约9580亿词元。但没有任何数据集被重复超过4次因为实验发现超过这个次数之后继续重复已经带不来收益了。而且对于MoE训练来说高质量数据的多次训练能有效锐化专家专业化这是只看一遍嘈杂数据做不到的。**四、填空训练为IDE设计的特殊技能**除了标准的下一词预测训练Mellum 2还专门做了填空中间Fill-in-the-MiddleFIM训练。这对IDE代码补全至关重要——当程序员把光标停在代码中间某处需要AI补全这段内容时AI必须同时看到光标前后的上下文而不只是前面的部分。FIM训练把文档随机分成三段前缀、中间、后缀用特殊标记重新排列后作为训练样本。研究团队使用PSM前缀-后缀-中间和SPM后缀-前缀-中间两种排列各占50%。FIM的比例也随训练阶段动态调整第一阶段50%应用于所有数据第二阶段降至10%精选数据主要用标准预测方式消化第三阶段恢复至50%但只应用于源代码文件非代码数据继续用标准预测。**五、优化器的选择Muon的胜利**选择合适的优化器即控制模型学习方式的算法对训练质量至关重要。研究团队测试了AdamW深度学习领域最常用的优化器和Muon一种新型优化器对隐藏层参数使用正交化更新两种方案并在两种不同的Muon配置下进行了对比Megatron默认配置额外缩放因子1.0和Moonlight配置额外缩放因子0.2。在密集型7B架构上Megatron默认配置在训练约210亿词元时直接发散崩溃而Moonlight配置大幅击败AdamW验证损失降低了约0.028相当于约2.5%的改进。在MoE 14B架构上两种Muon配置都能收敛Megatron默认配置最终损失略好低约0.026约2.4%Moonlight紧随其后。最终选择Moonlight配置因为它在密集和MoE架构上都保持了稳定性。学习率采用预热-保持-衰减Warmup-Hold-DecayWHD策略先线性预热2000步到峰值3×10??在第一和第二阶段保持峰值在第三阶段约49306步占总训练时间15%线性衰减到零。线性衰减到零比余弦衰减到非零最小值效果更好能以更低的有效计算量达到同等损失。全局批量大小从2048个序列线性斜升到4096个序列每步处理约3360万词元。训练精度以BF16为基础配合FP8混合精度训练梯度规约保持FP32精度以确保数值稳定性。**六、训练过程中的意外插曲**任何大规模训练都会遇到意想不到的麻烦Mellum 2也不例外而且研究团队选择坦诚地记录了这些经历。训练初期出现了两次损失尖峰追查后发现是数据中有些序列词汇多样性极低——比如整个上下文窗口里就重复同一个词元。解决方案是过滤掉独特词元少于82个占8192上下文长度1%的样本。此外数据准备管道按词元序列的哈希值排序导致一些足够长的文档被切割成多个8192词元的块之后这些块变成了完全相同的副本。哈希排序把这些副本放在每个数据分片的相同位置而每个训练阶段由16个均匀分片组成导致每个阶段出现16次周期性的损失下降。这些影响不大是小幅且孤立的对训练动态没有可测量的影响研究团队决定不处理。训练中途计算集群从32节点迁移到16节点保持全局批量大小不变。迁移后全局负载均衡损失明显下降但这不是模型行为的变化而是Megatron-LM实现全局辅助损失的方式在节点数变化时产生的累积语义差异——节点减少意味着每步梯度累积的微批次更多运行平均值更接近真实分布算出的损失系统性地更低但优化信号是等价的。**七、扩展到超长上下文从8K到128K的跨越**基础预训练完成后Mellum 2的上下文窗口还只有8192个词元大约只能装下十几页代码。为了让模型处理更大的代码库和更长的对话研究团队进行了专门的长上下文扩展训练将上下文扩展至131072个词元约128K。扩展的核心技术是YaRN——一种调整模型位置编码频率的方法帮助模型理解更长序列中词语的相对位置。但有一个关键的巧思研究团队并没有把YaRN应用到所有层而是只应用到全局注意力层每四层中的那一层让滑动窗口层保持原来的位置编码参数。这种层选择性YaRN的思路最早由Gemma 3团队提出OLMo 3也随后采用。Mellum 2的消融实验与他们的发现一致在64K评估上下文下层选择性YaRN的RULER评分一个测试长上下文理解能力的基准为0.64明显优于统一调整RoPE基础0.52和不做任何调整0.33。差距随上下文长度增加而扩大不调整的模型在超过32K后完全崩溃统一调整则不必要地干扰了本来运作正常的滑动窗口层。长上下文训练数据是第三阶段预训练数据的重新平衡版本加入了一部分自然包含长上下文示例的智能代理SFT数据。重新平衡时专门下采样了长推理链因为发现它们主导了长上下文数据的尾部会让模型偏向推理风格输出而牺牲通用长上下文能力。研究团队还在扩展数据中加入了基于仓库级上下文的FIM格式样本延续Mellum 1的做法将相关文件级联接成前缀确保模型在长距离跨文件代码补全时也能学到正确的注意力模式。训练约300亿词元后RULER评分在所有测试上下文长度上就已经接近最终值误差约1个百分点但MoE路由器的负载均衡损失在此后仍持续下降——路由器还在继续适应新的序列长度模式。基于这个信号研究团队将训练延长到3500轮约1170亿词元让路由器充分稳定后再退火。峰值学习率为3×10??比预训练低一个量级。**八、两个性格不同的学生Instruct和Thinking**长上下文训练完成的基础模型还不能直接被用户使用还需要后训练先做监督微调SFT再做强化学习。研究团队从同一个长上下文检查点出发训练出两个风格不同的变体。Instruct无思考变体是一个直接回答助手不展示内部推理过程损失计算覆盖对话中的每个助手轮次来源数据中的推理字段会被丢弃。Thinking思考变体是一个推理增强助手在给出最终答案前会先生成一段内部推理链只有最后一个助手轮次连同它的推理轨迹贡献损失缺乏推理轨迹的对话会被排除而且为了放大多轮对话数据的有效信号每段多轮对话最多会产生5个训练样本通过在连续助手轮次上滑动损失目标实现。两个SFT版本的数据涵盖多个大类。通用对话和指令跟随包括开放域问答、阅读理解、多选题和短格式指令跟随。单轮编码涵盖多种编程语言的代码生成、编辑、解释和翻译有专门针对C、Python、C#、JavaScript和TypeScript竞赛编程的子集。智能代理编码包括长程交互代理轨迹早期和修订版包含SWE风格的仓库级编辑任务为模型提供导航代码库、规划多步骤编辑、验证中间结果的模式。工具使用和函数调用涵盖通用函数调用格式、Bash执行、澄清工具和搜索工具教会模型正确调用工具并从工具错误中恢复。推理轨迹包含带有思维链的示例涵盖数学、代码和通用推理在处理时为Instruct变体过滤掉。安全数据来自开放许可安全语料库目的是减少有害输出而不损害良性代码提示的有用性。身份示例一小组自我标识对话过采样3倍让模型可靠地以Mellum 2介绍自己。有趣的是在没有这类数据的初始训练中模型始终把自己描述为谷歌开发的AI助手尽管训练中没有使用任何谷歌模型生成的合成数据。SFT训练从长上下文YaRN检查点初始化与预训练使用相同的分布式Muon优化器在各自的打包数据集上训练三轮。学习率峰值为3×10??预训练峰值的十分之一余弦衰减至3×10??峰值的10%。MoE辅助负载均衡系数从10??降至10??因为路由器在预训练后已经均衡更小的系数避免在较窄的SFT分布上过度约束专家利用率。Instruct版本消耗约470亿词元Thinking版本消耗约1670亿词元。**九、用奖励机制打磨最终技能**SFT之后是强化学习RL阶段用程序可验证的奖励信号RLVR进一步精炼。选择RLVR而非依赖人类反馈强化学习RLHF的原因是训练语料库中每个提示都有明确的程序化正确性检查方法不需要训练一个单独的奖励模型那个模型的误差会污染梯度信号。RL基础设施分为训练节点持有策略权重、运行梯度更新和推理节点托管生成引擎、产生训练样本两组由Ray调度、Kubernetes编排。训练用NeMo-RL框架通过Megatron-Bridge配置精度与预训练相同BF16/FP8混合。生成用vLLM。奖励计算独立运行在单独的微服务集群通过验证网关路由到不同后端代码执行沙箱基于单元测试、数学答案验证器符号和数值比较、LLM-as-a-Judge服务评判自由形式输出以及其他专用环境如有状态工具对话的会话管理。RL数据分为Instruct和Thinking两套组合各约26万条训练提示和3600条验证提示按能力领域分布。代码域各占22%各57500条。数学域在Instruct中占23%6万条Thinking中占28%7.2万条。智能工具使用在Instruct中占14%3.6万条Thinking中占12%3.1万条。指令跟随在Instruct中占19%4.95万条Thinking中占21%5.35万条。推理在两套中各占13%3.5万条。知识在Instruct中占9%2.25万条Thinking中仅占4%1万条因为过多MCQA暴露会损害指令跟随质量。代码域数据结合了竞赛编程题库、数学与代码配对数据集让模型用Python执行工具解决数学问题也计入数学域以及研究团队自建的12种编程语言真实任务集——覆盖全新实现、从堆栈跟踪调试、测试生成、行为修改、文件系统与API集成、安全加固六类工作每个任务附带测试套件通过率定义奖励信号。数学域数据以三种互补风格组成纯数学无工具严格匹配验证、带计算器工具的数学模型发出计算器工具调用并使用返回值、带代码执行的数学用Python执行工具计算中间量。RL算法是GRPO一种近端策略优化变体的定制版本。损失在词元层面计算每个有效生成词元对梯度贡献相同遵循DAPO和Dr. GRPO的建议。优势用留一基线计算不做标准差归一化遵循Dr. GRPO。每个提示采样G个响应过采样约1.5倍丢弃组内奖励方差为零的提示组。PPO裁剪使用不对称范围低裁剪低于高裁剪更高裁剪设置让正优势更新比负优势更新流动得更自由来自DAPO。不使用KL惩罚项将策略锚定到SFT参考与最近的大规模开放RL系统一致。MoE路由器带来了一个特殊挑战即使推理时和训练时用的是同一套权重同一个隐藏状态可能被路由到不同专家导致对同一词元的对数概率不同。研究团队用IcePop截断方法解决这个问题对每个生成词元只在训练-推理比率ρ_t处于[α, β]区间内时才保留其损失贡献超出区间则直接归零而不是像PPO裁剪那样压缩到边界值。这是更安全的做法因为大ρ_t很可能是专家切换导致的而不是真正值得应用的策略更新。奖励塑形还加入了两条规则。一是软超长惩罚来自DAPO在最大响应长度的缓冲区内奖励在区间下边缘的原始分数和长度上限处的配置下限之间线性插值超过长度上限的完全从损失中删除。二是简洁性惩罚专门应用于非思考型响应在早期Instruct运行中发现模型开始在没有think标签的情况下产生内嵌推理与Instruct模型的部署规范相悖。这种等等我再想想式的推理模式有相当稳定的词汇标记研究团队按触发词数量分三个强度档乘性地缩减正确响应的奖励只在这些词汇不属于合法输出的任务上应用。这个惩罚效果显著在接近训练结束时采样的数学响应中无简洁惩罚版本平均每个响应有7.3个反思触发词每千字符0.75个而启用惩罚的生产版本只有0.6个每千字符0.21个。RL超参数两个阶段共享每步256个提示每提示16个生成全局批量大小4096过采样因子1.5倍轨迹最大滞后2步PPO裁剪范围0.2/0.28IcePop区间[0.5, 5.0]KL系数为零AdamW优化器β?0.9, β?0.999权重衰减0.01峰值学习率1×10??衰减至1×10??梯度范数上限1.0最多10轮工具调用。主要差异在于Instruct最大序列16384词元训练500步Thinking最大序列40960词元需要更长思维链训练100步每步微批次大小降至1。**十、实战表现哪里强哪里弱**预训练评估将Mellum 2 Base与OLMo-3-7B、Qwen2.5-7B、Qwen3-4B-Base和Qwen3.5-4B-Base对比。尽管只激活25亿参数Mellum 2在多个推理和代码任务上能与7B密集模型竞争甚至超越。在MMLU-Pro高级多任务知识测试上达到59.3%超过Qwen3.5-4B52.4%和Qwen2.5-7B48.6%。BBH复杂推理达74.9%超越OLMo-3-7B63.6%、Qwen2.5-7B69.0%和Qwen3-4B71.3%。GSM8K数学文字题达81.7%与Qwen2.5-7B81.9%和Qwen3-4B82.0%持平。MBPP/MBPP代码生成分别达62.4%/61.4%超越OLMo-3-7B和Qwen3.5-4B。GPQA Main研究生级科学问答达35.0%超越OLMo-3-7B27.9%和Qwen2.5-7B34.2%。相对薄弱的是HumanEval41.5%不过后训练阶段显著提升了这个指标。后训练评估则将两个变体与Qwen3.5-4B、Qwen3.5-9B、OLMo-3-7B、Ministral-3-14B、Seed-Coder-8B对比覆盖代码、工具使用、数学、知识、对话和安全七个能力域。在代码域EvalPlusHumanEval和MBPP的平均测试函数级代码合成能力上Mellum 2-RL达78.4%领先所有对比模型包括Qwen3.5-9B71.8%和代码专用的Seed-Coder-8B73.8%这正是预训练数据直接针对的领域。LiveCodeBench v6竞赛编程上Instruct变体为37.2%落后Qwen3.5系列51.0%和63.7%但Thinking变体的SFT版本达75.1%成为测试组中的最高分领先Qwen3.5-9B-Thinking 6.8个百分点说明算法推理在模型能力范围内但需要显式思考预算才能释放。MultiPL-E多语言代码居中。在工具使用域RL带来了最大的单步提升BFCL v3多轮函数调用从43.1%跳至66.3%InstructThinking变体的SFT到RL从60.5%升至69.4%超过Qwen3.5-9B-Thinking68.5%。BFCL v4加入智能网页搜索和记忆工具上Mellum 2-RL-Thinking以45.6%领先全组高于Qwen3.5系列42.9%/42.7%。数学域同样受益于RLAIME高中数学竞赛2025和2026各30题从SFT-Instruct的29.9%提升至RL-Instruct的41.7%Thinking模式从20.0%提升至58.4%。SFT-Thinking的AIME得分低于SFT-Instruct研究团队认为这是因为Thinking头需要经过RL阶段的数学推理训练才能正确校准。GSM-Plus数学鲁棒性测试RL-Thinking达87.0%接近Qwen3.5-9B-Thinking90.7%。知识域是最明显的弱点MMLU-Redux和GPQA Diamond上Qwen3.5系列领先显著91.1%/79.8% vs. 78.1%/40.9% InstructGPQA研究生级科学问答尤为明显这直接反映了训练数据倾向代码和开发者文档而非广泛百科知识的权衡。对话域呈现有趣分化JetBrains内部对比Qwen2.5-7B-Instruct的配对胜率Mellum 2-RL-Thinking以69.5%领先全组高于Ministral-3-14B-Thinking63.8%和Qwen3.5-9B-Thinking56.7%说明在代码感知的开发者场景下领域熟悉度转化为了真实优势。而在通用对话IFEval、MixEval上则居中。BS-Bench测试对错误前提的反驳能力上Mellum 2得分14-24明显低于Qwen3.5系列56-70说明SFT/RL信号倾向服从而非反驳这是后续版本需要改进的方向。安全域上SFT-Instruct在HarmBench有害率越低越好上以8.4%成为Instruct表格中最安全的模型Ministral-3-14B56.5%和Seed-Coder-8B40.0%远高于此。RL变体退步至23.1%与偏好优化阶段放松拒绝行为的已知现象一致这是研究团队明确标注的待改进项。XSTest安全合规率上Mellum 2落后最大基准模型约10个百分点说明有些安全提示被过度拒绝与HarmBench退步构成对称问题需要联合优化。**十一、跑得快才能留得住推理效率的实测数据**在实际部署速度测试中所有对比在单张H100 GPU80GB上使用vLLM服务和动态FP8量化以代码补全生产工作负载为代表性测试场景平均输入2304词元平均输出256词元测试同步模式单请求串行延迟和吞吐量模式并发高负载持续处理。结果数据同步模式下Mellum 2达192词元/秒与Qwen2.5-7B的193词元/秒几乎持平Qwen3-8B只有169词元/秒。吞吐量模式下Mellum 2达5179词元/秒比Qwen2.5-7B4283词元/秒高21%比Qwen3-8B2897词元/秒高79%。持续请求率分别是Mellum 2每秒20.2个请求Qwen2.5-7B每秒16.7个Qwen3-8B每秒11.3个。这说明Mellum 2完美达成了设计目标单请求延迟匹配7B密集基准并发服务能力大幅领先。**未来的路和尚待解决的问题**归根结底Mellum 2是JetBrains在一个具体工程约束下的认真探索给定一张普通显卡、一个速度预算如何在这个约束下塞进尽可能多的能力。他们的答案是120亿总参数、25亿活跃参数的MoE结构加上层选择性滑动窗口注意力和多词元预测头。这套方案在代码合成、工具调用、数学推理上表现可观在广泛世界知识和安全反驳上还有明显差距。研究团队没有回避这些弱点并且明确指出了下一步方向把模型推向更复杂的软件工程仓库级任务SWE RL方向扩大RL基础设施和环境覆盖以及重新审视长上下文中期训练数据的配方。此外他们还打算在下一个版本切换到无辅助损失的负载均衡方案并重新评估混合注意力架构如Gated DeltaNet——前者随着开源推理框架的支持逐渐成熟后者在短上下文推理效率方面的劣势也在随着内核优化而缩小。更长远地看选择架构时以固定推理预算为约束条件的设计方法本身也为未来更大、依然关注推理效率的Mellum打开了门。所有基础、Instruct和Thinking检查点都以Apache 2.0许可证开放感兴趣的研究者和开发者可以通过arXiv编号2605.31268v1找到完整技术报告。QAQ1Mellum 2的MoE架构和普通AI模型有什么区别A普通模型每次处理都激活全部参数而Mellum 2的MoE架构在64个专家中每次只激活8个相当于拥有120亿参数的知识储备但实际运算量只有25亿参数级别。这让模型能在普通显卡上以较低的计算成本提供更强的知识覆盖推理速度与7B密集模型相当甚至更快。Q2Mellum 2的Instruct版和Thinking版有什么区别AInstruct版直接给出答案不展示推理过程适合需要快速响应的日常编程任务。Thinking版在回答前会先生成一段内部推理链类似于先在草稿纸上推演再写答案在数学竞赛题和复杂算法问题上表现更好LiveCodeBench上Thinking-SFT版本以75.1%领先所有对比模型。Q3Mellum 2的长上下文扩展是怎么做到的A研究团队采用了层选择性YaRN技术只对全局注意力层调整位置编码频率让滑动窗口层保持原参数将上下文从8192词元扩展到131072词元约128K。关键发现是训练约300亿词元后质量就已接近上限但路由器还在持续适应因此将训练延长到1170亿词元让路由器充分稳定。
JetBrains打造的“聪明小模型“:用一半算力,干两倍的活
这项由JetBrains研究团队与德国不来梅Constructor University联合开展的研究于2026年5月以技术报告形式发布编号为arXiv:2605.31268v1感兴趣的读者可通过该编号检索完整论文。**一个让程序员烦恼的老问题**每当程序员打开电脑面对一个需要写代码、改bug、查文档、问AI的下午他们都在隐隐期待着一件事——有一个既聪明又响应迅速的AI助手随时等在旁边帮忙。问题是聪明的AI通常需要消耗大量算力运行起来要么很贵要么很慢要么两者兼而有之。便宜又快的AI又常常在遇到复杂任务时掉链子。JetBrains是一家以开发专业编程工具闻名的公司他们的产品每天都在全球数百万程序员的电脑上运行。正因如此他们比任何人都清楚一个真正好用的AI编程助手不能只会填写代码片段还要能写整个函数、改旧代码、找出bug、调用各种工具、在一个大项目的文件之间穿梭导航甚至要能像一个经验丰富的同事那样和你聊编程。而这一切都必须在程序员的普通电脑上流畅运行不能让人等到抓狂。为了解决这个矛盾JetBrains推出了他们的新一代模型——Mellum 2。这是他们早期那个只会填写代码的简单模型Mellum的全面升级版。新模型拥有120亿个参数却只在处理每个词的时候激活其中25亿个相当于一个拥有丰富知识储备的专家思考时只调用最相关的部分而不是把所有记忆都翻一遍。**一、大脑的结构为什么不是越大越好**要理解Mellum 2的设计思路可以把AI模型的参数想象成一家大型图书馆的藏书量。藏书越多能回答的问题就越广泛但每次有人来查资料如果必须把整个馆的书都翻一遍那效率就太低了。聪明的图书管理员只会在相关的书架上查找。Mellum 2采用的核心技术叫混合专家架构Mixture-of-Experts简称MoE正是这个道理模型里有64位专家每次处理一个词时只有其中8位专家真正参与工作。这样模型总共存储了120亿参数的知识但实际运算量只相当于一个25亿参数的小模型。JetBrains在选择这个架构之前做了大量的对比实验。他们首先尝试了密集型模型Dense Model也就是每次处理都激活所有参数的传统方式。他们测试了各种不同深度和宽度的配置层数从24层到40层不等隐藏维度从2304到4096不等甚至还尝试了DeepSeek团队设计的一种叫做多头潜在注意力MLA的特殊架构。结果发现在他们设定的速度约束下没有任何一个密集模型能稳定地超越Qwen2.5-7B这个7B参数的标杆模型。MLA架构确实允许把模型扩展到约55亿参数同时保持相同速度但质量提升并不足以弥补训练复杂度增加带来的代价而且当时支持的潜在秩维度对他们的模型规模来说太大了。转向MoE架构后他们参考了Qwen3-30B-A3B这个模型的设计按比例缩小以适配单张H100显卡的内存上限低于180亿总参数。专家数量固定为64个因为更多专家会超出显卡内存。他们测试了不同的激活专家数量激活2个专家的模型比激活8个的快约1.5倍但质量明显变差而在小规模模型上稀疏度过高确实有损质量这与学术界此前的研究结论一致。最终64个专家每次激活8个成为质量与速度的最佳平衡点在这个配置下模型最高可以扩展到约150亿总参数同时与Qwen2.5-7B保持相当的推理速度。**二、注意力机制的精心裁剪**除了专家架构本身模型里还有一套叫做注意力机制的装置负责让模型理解文字之间的关联——比如在一段代码里这个变量到底指的是前面哪个定义。这部分的设计对运行速度影响极大。传统的多头注意力机制就像让一群人同时盯着整篇文档的每个角落做笔记然后汇总。JetBrains在Mellum 2中使用了分组查询注意力Grouped-Query AttentionGQA把存储中间结果也就是KV缓存所需的记录员数量从通常的很多个压缩到只有4个。这个数字的选择经过了仔细权衡8个记录员会导致在高并发场景下吞吐量大幅下降而只用2个记录员时模型质量又会明显变差。4个恰好是甜蜜点。实验数据显示Qwen2.5-7B用4个KV头能达到的并发吞吐量与他们的前代模型Mellum-4B用8个KV头时大致相当尽管前者参数量几乎是后者的两倍。另一个关键设计是滑动窗口注意力Sliding Window AttentionSWA。正常的注意力机制每个词都要关注输入文本里所有其他词随着输入文本变长计算量会急剧膨胀。滑动窗口注意力则像一个焦点灯每次只照亮附近一小段区域大大降低了大多数层的计算量。Mellum 2把28层Transformer中的21层即四分之三设置为滑动窗口注意力窗口大小为1024个词元token剩余7层保持全局注意力以确保模型在需要时仍能捕捉远距离的上下文信息。实验表明窗口大小1024比512在质量基准上表现更好而且带有滑动窗口注意力的MoE模型在输入长度翻倍的情况下仍能保持与Qwen2.5-7B相当的延迟在需要处理长代码文件的工作流程中优势显著。还有一个颇具巧思的设计多词元预测头Multi-Token PredictionMTP。通常模型每次预测下一个词而MTP让模型在训练时额外预测再下一个词用一个额外的Transformer层实现训练时额外增加的时间约7%。这个头在正式推理时会被移除不影响模型本身的预测但它带来了双重好处一方面作为辅助训练目标提升了模型质量另一方面可以充当推测解码speculative decoding的草稿生成器加速推理。在对比实验中加入MTP的模型在HumanEval代码生成测试上提升了10.4个百分点在MMLU知识测试上提升了3.6个百分点在MMLU-Pro上提升了3.3个百分点在GSM8K数学测试上提升了3个百分点。**三、训练数据的三段式厨艺哲学**模型的智慧来源于它看过的文本数据。Mellum 2的训练数据约达10.6万亿个词元涵盖网页文本、源代码和数学内容三大类别。如果把训练过程比作一道精心设计的套餐那这三个阶段的安排就像是先打底、再提质、最后精炼。第一阶段叫基础建设处理了约6.18万亿词元占总量58%。这一阶段以网页和通用知识为主约70%代码占23%数学只有6%。目的是让模型先建立宽泛的语言理解能力和基础代码理解。这一阶段涵盖了学习率预热和保持阶段。第二阶段叫质量提升处理了约2.79万亿词元占总量26.2%。代码比例大幅提升至42%高质量精选数据集包括指令跟随数据、推理问答、STEM教学数据、知识对齐文章被引入。此阶段的精选数据是在学习率稳定后引入的因为精选数据在这个时候效果更好。同时引入了新的合成代码数据集原始代码语料库进入第二轮学习。第三阶段叫能力锐化处理了约1.69万亿词元占总量15.9%。学习率进入线性衰减代码比例进一步升至59%网页内容缩减为只有最高质量的精选来源。额外引入了代码审查和跨语言代码转换等合成数据集原始代码语料库进入第三轮学习。代码数据本身分为三类一是来自公开仓库的原始代码按文件去重二是从Common Crawl一个大规模网页快照提取的含代码网页三是合成和衍生代码数据集通过代码摘要、功能扩展、语言转换、测试生成、提交信息等方式为代码附上自然语言注解还有问答、代码重写、代码审查、代码教学解释等合成数据。研究发现合成代码数据对小规模MoE模型的帮助尤为明显因为这类模型更需要数据的多样性。网页和通用知识数据包括大规模合成网页语料、教育类网页内容、教育PDF、多语言推理和问答数据集以及精选知识来源——维基百科改写、合成百科条目等。数学数据则包含数学指令调优数据、多质量层级的数学网页内容、数学教材和数学SFT数据。数据重复策略也经过了精心设计。高质量数据因为稀缺会被多次使用。小型精选代码数据集贯穿三个阶段原始代码语料库经历三轮学习总计贡献约9580亿词元。但没有任何数据集被重复超过4次因为实验发现超过这个次数之后继续重复已经带不来收益了。而且对于MoE训练来说高质量数据的多次训练能有效锐化专家专业化这是只看一遍嘈杂数据做不到的。**四、填空训练为IDE设计的特殊技能**除了标准的下一词预测训练Mellum 2还专门做了填空中间Fill-in-the-MiddleFIM训练。这对IDE代码补全至关重要——当程序员把光标停在代码中间某处需要AI补全这段内容时AI必须同时看到光标前后的上下文而不只是前面的部分。FIM训练把文档随机分成三段前缀、中间、后缀用特殊标记重新排列后作为训练样本。研究团队使用PSM前缀-后缀-中间和SPM后缀-前缀-中间两种排列各占50%。FIM的比例也随训练阶段动态调整第一阶段50%应用于所有数据第二阶段降至10%精选数据主要用标准预测方式消化第三阶段恢复至50%但只应用于源代码文件非代码数据继续用标准预测。**五、优化器的选择Muon的胜利**选择合适的优化器即控制模型学习方式的算法对训练质量至关重要。研究团队测试了AdamW深度学习领域最常用的优化器和Muon一种新型优化器对隐藏层参数使用正交化更新两种方案并在两种不同的Muon配置下进行了对比Megatron默认配置额外缩放因子1.0和Moonlight配置额外缩放因子0.2。在密集型7B架构上Megatron默认配置在训练约210亿词元时直接发散崩溃而Moonlight配置大幅击败AdamW验证损失降低了约0.028相当于约2.5%的改进。在MoE 14B架构上两种Muon配置都能收敛Megatron默认配置最终损失略好低约0.026约2.4%Moonlight紧随其后。最终选择Moonlight配置因为它在密集和MoE架构上都保持了稳定性。学习率采用预热-保持-衰减Warmup-Hold-DecayWHD策略先线性预热2000步到峰值3×10??在第一和第二阶段保持峰值在第三阶段约49306步占总训练时间15%线性衰减到零。线性衰减到零比余弦衰减到非零最小值效果更好能以更低的有效计算量达到同等损失。全局批量大小从2048个序列线性斜升到4096个序列每步处理约3360万词元。训练精度以BF16为基础配合FP8混合精度训练梯度规约保持FP32精度以确保数值稳定性。**六、训练过程中的意外插曲**任何大规模训练都会遇到意想不到的麻烦Mellum 2也不例外而且研究团队选择坦诚地记录了这些经历。训练初期出现了两次损失尖峰追查后发现是数据中有些序列词汇多样性极低——比如整个上下文窗口里就重复同一个词元。解决方案是过滤掉独特词元少于82个占8192上下文长度1%的样本。此外数据准备管道按词元序列的哈希值排序导致一些足够长的文档被切割成多个8192词元的块之后这些块变成了完全相同的副本。哈希排序把这些副本放在每个数据分片的相同位置而每个训练阶段由16个均匀分片组成导致每个阶段出现16次周期性的损失下降。这些影响不大是小幅且孤立的对训练动态没有可测量的影响研究团队决定不处理。训练中途计算集群从32节点迁移到16节点保持全局批量大小不变。迁移后全局负载均衡损失明显下降但这不是模型行为的变化而是Megatron-LM实现全局辅助损失的方式在节点数变化时产生的累积语义差异——节点减少意味着每步梯度累积的微批次更多运行平均值更接近真实分布算出的损失系统性地更低但优化信号是等价的。**七、扩展到超长上下文从8K到128K的跨越**基础预训练完成后Mellum 2的上下文窗口还只有8192个词元大约只能装下十几页代码。为了让模型处理更大的代码库和更长的对话研究团队进行了专门的长上下文扩展训练将上下文扩展至131072个词元约128K。扩展的核心技术是YaRN——一种调整模型位置编码频率的方法帮助模型理解更长序列中词语的相对位置。但有一个关键的巧思研究团队并没有把YaRN应用到所有层而是只应用到全局注意力层每四层中的那一层让滑动窗口层保持原来的位置编码参数。这种层选择性YaRN的思路最早由Gemma 3团队提出OLMo 3也随后采用。Mellum 2的消融实验与他们的发现一致在64K评估上下文下层选择性YaRN的RULER评分一个测试长上下文理解能力的基准为0.64明显优于统一调整RoPE基础0.52和不做任何调整0.33。差距随上下文长度增加而扩大不调整的模型在超过32K后完全崩溃统一调整则不必要地干扰了本来运作正常的滑动窗口层。长上下文训练数据是第三阶段预训练数据的重新平衡版本加入了一部分自然包含长上下文示例的智能代理SFT数据。重新平衡时专门下采样了长推理链因为发现它们主导了长上下文数据的尾部会让模型偏向推理风格输出而牺牲通用长上下文能力。研究团队还在扩展数据中加入了基于仓库级上下文的FIM格式样本延续Mellum 1的做法将相关文件级联接成前缀确保模型在长距离跨文件代码补全时也能学到正确的注意力模式。训练约300亿词元后RULER评分在所有测试上下文长度上就已经接近最终值误差约1个百分点但MoE路由器的负载均衡损失在此后仍持续下降——路由器还在继续适应新的序列长度模式。基于这个信号研究团队将训练延长到3500轮约1170亿词元让路由器充分稳定后再退火。峰值学习率为3×10??比预训练低一个量级。**八、两个性格不同的学生Instruct和Thinking**长上下文训练完成的基础模型还不能直接被用户使用还需要后训练先做监督微调SFT再做强化学习。研究团队从同一个长上下文检查点出发训练出两个风格不同的变体。Instruct无思考变体是一个直接回答助手不展示内部推理过程损失计算覆盖对话中的每个助手轮次来源数据中的推理字段会被丢弃。Thinking思考变体是一个推理增强助手在给出最终答案前会先生成一段内部推理链只有最后一个助手轮次连同它的推理轨迹贡献损失缺乏推理轨迹的对话会被排除而且为了放大多轮对话数据的有效信号每段多轮对话最多会产生5个训练样本通过在连续助手轮次上滑动损失目标实现。两个SFT版本的数据涵盖多个大类。通用对话和指令跟随包括开放域问答、阅读理解、多选题和短格式指令跟随。单轮编码涵盖多种编程语言的代码生成、编辑、解释和翻译有专门针对C、Python、C#、JavaScript和TypeScript竞赛编程的子集。智能代理编码包括长程交互代理轨迹早期和修订版包含SWE风格的仓库级编辑任务为模型提供导航代码库、规划多步骤编辑、验证中间结果的模式。工具使用和函数调用涵盖通用函数调用格式、Bash执行、澄清工具和搜索工具教会模型正确调用工具并从工具错误中恢复。推理轨迹包含带有思维链的示例涵盖数学、代码和通用推理在处理时为Instruct变体过滤掉。安全数据来自开放许可安全语料库目的是减少有害输出而不损害良性代码提示的有用性。身份示例一小组自我标识对话过采样3倍让模型可靠地以Mellum 2介绍自己。有趣的是在没有这类数据的初始训练中模型始终把自己描述为谷歌开发的AI助手尽管训练中没有使用任何谷歌模型生成的合成数据。SFT训练从长上下文YaRN检查点初始化与预训练使用相同的分布式Muon优化器在各自的打包数据集上训练三轮。学习率峰值为3×10??预训练峰值的十分之一余弦衰减至3×10??峰值的10%。MoE辅助负载均衡系数从10??降至10??因为路由器在预训练后已经均衡更小的系数避免在较窄的SFT分布上过度约束专家利用率。Instruct版本消耗约470亿词元Thinking版本消耗约1670亿词元。**九、用奖励机制打磨最终技能**SFT之后是强化学习RL阶段用程序可验证的奖励信号RLVR进一步精炼。选择RLVR而非依赖人类反馈强化学习RLHF的原因是训练语料库中每个提示都有明确的程序化正确性检查方法不需要训练一个单独的奖励模型那个模型的误差会污染梯度信号。RL基础设施分为训练节点持有策略权重、运行梯度更新和推理节点托管生成引擎、产生训练样本两组由Ray调度、Kubernetes编排。训练用NeMo-RL框架通过Megatron-Bridge配置精度与预训练相同BF16/FP8混合。生成用vLLM。奖励计算独立运行在单独的微服务集群通过验证网关路由到不同后端代码执行沙箱基于单元测试、数学答案验证器符号和数值比较、LLM-as-a-Judge服务评判自由形式输出以及其他专用环境如有状态工具对话的会话管理。RL数据分为Instruct和Thinking两套组合各约26万条训练提示和3600条验证提示按能力领域分布。代码域各占22%各57500条。数学域在Instruct中占23%6万条Thinking中占28%7.2万条。智能工具使用在Instruct中占14%3.6万条Thinking中占12%3.1万条。指令跟随在Instruct中占19%4.95万条Thinking中占21%5.35万条。推理在两套中各占13%3.5万条。知识在Instruct中占9%2.25万条Thinking中仅占4%1万条因为过多MCQA暴露会损害指令跟随质量。代码域数据结合了竞赛编程题库、数学与代码配对数据集让模型用Python执行工具解决数学问题也计入数学域以及研究团队自建的12种编程语言真实任务集——覆盖全新实现、从堆栈跟踪调试、测试生成、行为修改、文件系统与API集成、安全加固六类工作每个任务附带测试套件通过率定义奖励信号。数学域数据以三种互补风格组成纯数学无工具严格匹配验证、带计算器工具的数学模型发出计算器工具调用并使用返回值、带代码执行的数学用Python执行工具计算中间量。RL算法是GRPO一种近端策略优化变体的定制版本。损失在词元层面计算每个有效生成词元对梯度贡献相同遵循DAPO和Dr. GRPO的建议。优势用留一基线计算不做标准差归一化遵循Dr. GRPO。每个提示采样G个响应过采样约1.5倍丢弃组内奖励方差为零的提示组。PPO裁剪使用不对称范围低裁剪低于高裁剪更高裁剪设置让正优势更新比负优势更新流动得更自由来自DAPO。不使用KL惩罚项将策略锚定到SFT参考与最近的大规模开放RL系统一致。MoE路由器带来了一个特殊挑战即使推理时和训练时用的是同一套权重同一个隐藏状态可能被路由到不同专家导致对同一词元的对数概率不同。研究团队用IcePop截断方法解决这个问题对每个生成词元只在训练-推理比率ρ_t处于[α, β]区间内时才保留其损失贡献超出区间则直接归零而不是像PPO裁剪那样压缩到边界值。这是更安全的做法因为大ρ_t很可能是专家切换导致的而不是真正值得应用的策略更新。奖励塑形还加入了两条规则。一是软超长惩罚来自DAPO在最大响应长度的缓冲区内奖励在区间下边缘的原始分数和长度上限处的配置下限之间线性插值超过长度上限的完全从损失中删除。二是简洁性惩罚专门应用于非思考型响应在早期Instruct运行中发现模型开始在没有think标签的情况下产生内嵌推理与Instruct模型的部署规范相悖。这种等等我再想想式的推理模式有相当稳定的词汇标记研究团队按触发词数量分三个强度档乘性地缩减正确响应的奖励只在这些词汇不属于合法输出的任务上应用。这个惩罚效果显著在接近训练结束时采样的数学响应中无简洁惩罚版本平均每个响应有7.3个反思触发词每千字符0.75个而启用惩罚的生产版本只有0.6个每千字符0.21个。RL超参数两个阶段共享每步256个提示每提示16个生成全局批量大小4096过采样因子1.5倍轨迹最大滞后2步PPO裁剪范围0.2/0.28IcePop区间[0.5, 5.0]KL系数为零AdamW优化器β?0.9, β?0.999权重衰减0.01峰值学习率1×10??衰减至1×10??梯度范数上限1.0最多10轮工具调用。主要差异在于Instruct最大序列16384词元训练500步Thinking最大序列40960词元需要更长思维链训练100步每步微批次大小降至1。**十、实战表现哪里强哪里弱**预训练评估将Mellum 2 Base与OLMo-3-7B、Qwen2.5-7B、Qwen3-4B-Base和Qwen3.5-4B-Base对比。尽管只激活25亿参数Mellum 2在多个推理和代码任务上能与7B密集模型竞争甚至超越。在MMLU-Pro高级多任务知识测试上达到59.3%超过Qwen3.5-4B52.4%和Qwen2.5-7B48.6%。BBH复杂推理达74.9%超越OLMo-3-7B63.6%、Qwen2.5-7B69.0%和Qwen3-4B71.3%。GSM8K数学文字题达81.7%与Qwen2.5-7B81.9%和Qwen3-4B82.0%持平。MBPP/MBPP代码生成分别达62.4%/61.4%超越OLMo-3-7B和Qwen3.5-4B。GPQA Main研究生级科学问答达35.0%超越OLMo-3-7B27.9%和Qwen2.5-7B34.2%。相对薄弱的是HumanEval41.5%不过后训练阶段显著提升了这个指标。后训练评估则将两个变体与Qwen3.5-4B、Qwen3.5-9B、OLMo-3-7B、Ministral-3-14B、Seed-Coder-8B对比覆盖代码、工具使用、数学、知识、对话和安全七个能力域。在代码域EvalPlusHumanEval和MBPP的平均测试函数级代码合成能力上Mellum 2-RL达78.4%领先所有对比模型包括Qwen3.5-9B71.8%和代码专用的Seed-Coder-8B73.8%这正是预训练数据直接针对的领域。LiveCodeBench v6竞赛编程上Instruct变体为37.2%落后Qwen3.5系列51.0%和63.7%但Thinking变体的SFT版本达75.1%成为测试组中的最高分领先Qwen3.5-9B-Thinking 6.8个百分点说明算法推理在模型能力范围内但需要显式思考预算才能释放。MultiPL-E多语言代码居中。在工具使用域RL带来了最大的单步提升BFCL v3多轮函数调用从43.1%跳至66.3%InstructThinking变体的SFT到RL从60.5%升至69.4%超过Qwen3.5-9B-Thinking68.5%。BFCL v4加入智能网页搜索和记忆工具上Mellum 2-RL-Thinking以45.6%领先全组高于Qwen3.5系列42.9%/42.7%。数学域同样受益于RLAIME高中数学竞赛2025和2026各30题从SFT-Instruct的29.9%提升至RL-Instruct的41.7%Thinking模式从20.0%提升至58.4%。SFT-Thinking的AIME得分低于SFT-Instruct研究团队认为这是因为Thinking头需要经过RL阶段的数学推理训练才能正确校准。GSM-Plus数学鲁棒性测试RL-Thinking达87.0%接近Qwen3.5-9B-Thinking90.7%。知识域是最明显的弱点MMLU-Redux和GPQA Diamond上Qwen3.5系列领先显著91.1%/79.8% vs. 78.1%/40.9% InstructGPQA研究生级科学问答尤为明显这直接反映了训练数据倾向代码和开发者文档而非广泛百科知识的权衡。对话域呈现有趣分化JetBrains内部对比Qwen2.5-7B-Instruct的配对胜率Mellum 2-RL-Thinking以69.5%领先全组高于Ministral-3-14B-Thinking63.8%和Qwen3.5-9B-Thinking56.7%说明在代码感知的开发者场景下领域熟悉度转化为了真实优势。而在通用对话IFEval、MixEval上则居中。BS-Bench测试对错误前提的反驳能力上Mellum 2得分14-24明显低于Qwen3.5系列56-70说明SFT/RL信号倾向服从而非反驳这是后续版本需要改进的方向。安全域上SFT-Instruct在HarmBench有害率越低越好上以8.4%成为Instruct表格中最安全的模型Ministral-3-14B56.5%和Seed-Coder-8B40.0%远高于此。RL变体退步至23.1%与偏好优化阶段放松拒绝行为的已知现象一致这是研究团队明确标注的待改进项。XSTest安全合规率上Mellum 2落后最大基准模型约10个百分点说明有些安全提示被过度拒绝与HarmBench退步构成对称问题需要联合优化。**十一、跑得快才能留得住推理效率的实测数据**在实际部署速度测试中所有对比在单张H100 GPU80GB上使用vLLM服务和动态FP8量化以代码补全生产工作负载为代表性测试场景平均输入2304词元平均输出256词元测试同步模式单请求串行延迟和吞吐量模式并发高负载持续处理。结果数据同步模式下Mellum 2达192词元/秒与Qwen2.5-7B的193词元/秒几乎持平Qwen3-8B只有169词元/秒。吞吐量模式下Mellum 2达5179词元/秒比Qwen2.5-7B4283词元/秒高21%比Qwen3-8B2897词元/秒高79%。持续请求率分别是Mellum 2每秒20.2个请求Qwen2.5-7B每秒16.7个Qwen3-8B每秒11.3个。这说明Mellum 2完美达成了设计目标单请求延迟匹配7B密集基准并发服务能力大幅领先。**未来的路和尚待解决的问题**归根结底Mellum 2是JetBrains在一个具体工程约束下的认真探索给定一张普通显卡、一个速度预算如何在这个约束下塞进尽可能多的能力。他们的答案是120亿总参数、25亿活跃参数的MoE结构加上层选择性滑动窗口注意力和多词元预测头。这套方案在代码合成、工具调用、数学推理上表现可观在广泛世界知识和安全反驳上还有明显差距。研究团队没有回避这些弱点并且明确指出了下一步方向把模型推向更复杂的软件工程仓库级任务SWE RL方向扩大RL基础设施和环境覆盖以及重新审视长上下文中期训练数据的配方。此外他们还打算在下一个版本切换到无辅助损失的负载均衡方案并重新评估混合注意力架构如Gated DeltaNet——前者随着开源推理框架的支持逐渐成熟后者在短上下文推理效率方面的劣势也在随着内核优化而缩小。更长远地看选择架构时以固定推理预算为约束条件的设计方法本身也为未来更大、依然关注推理效率的Mellum打开了门。所有基础、Instruct和Thinking检查点都以Apache 2.0许可证开放感兴趣的研究者和开发者可以通过arXiv编号2605.31268v1找到完整技术报告。QAQ1Mellum 2的MoE架构和普通AI模型有什么区别A普通模型每次处理都激活全部参数而Mellum 2的MoE架构在64个专家中每次只激活8个相当于拥有120亿参数的知识储备但实际运算量只有25亿参数级别。这让模型能在普通显卡上以较低的计算成本提供更强的知识覆盖推理速度与7B密集模型相当甚至更快。Q2Mellum 2的Instruct版和Thinking版有什么区别AInstruct版直接给出答案不展示推理过程适合需要快速响应的日常编程任务。Thinking版在回答前会先生成一段内部推理链类似于先在草稿纸上推演再写答案在数学竞赛题和复杂算法问题上表现更好LiveCodeBench上Thinking-SFT版本以75.1%领先所有对比模型。Q3Mellum 2的长上下文扩展是怎么做到的A研究团队采用了层选择性YaRN技术只对全局注意力层调整位置编码频率让滑动窗口层保持原参数将上下文从8192词元扩展到131072词元约128K。关键发现是训练约300亿词元后质量就已接近上限但路由器还在持续适应因此将训练延长到1170亿词元让路由器充分稳定。