美团新开源的这只“LongCat”用清爽的纯离散逻辑一口气把图音文全吃透了 。所有的物理世界信号最终都能收敛为同源的离散 token 吗长期以来视觉信号的连续性被视为自回归建模中一个难以处理的特性。为了兼容这种不规则的特征目前的通用做法是在模型中引入复杂的空间编码或异构模块。这种架构上的妥协虽然见效快但也让模型的逻辑统一性变得模糊。就在昨天美团 LongCat 团队开源了全新的基座模型 LongCat-Next。这个模型选择了回归最朴素的下一通证预测NTP范式。在它看来无论是复杂的代码、高清的图片还是带有环境底噪的录音本质上并无二致。这种名为离散原生自回归DiNA的架构在底层实现了全模态的建模统一。LongCat-Next 构建在美团自研的 LongCat-Flash-Lite MoE 基座之上激活参数只有 3B。在 3B 的激活规模下它表现出了出色的效率。在重点考察文档解析与图表理解能力的 OmniDocBench-EN 和 CharXivRQ 榜单上它的成绩全面超越了同尺寸的全模态模型 Qwen3-Omni-A3B。不仅如此其视觉理解能力也与同尺寸的专业模型 QwenVL 相当。在获得多模态能力的同时LongCat-Next 成功克服了灾难性遗忘这一痛点保留了语言模型原本的逻辑深度。它的 SWE-Bench 成绩稳在 43.0这意味着它在实际的代码工程任务中依然保持着极高的可用性。〓 LongCat-Next 核心评测榜单表现在开源模型的同时美团也公布了 LongCat-Next 的技术报告。技术报告地址https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdfGitHub地址https://github.com/meituan-longcat/LongCat-NextHuggingFace地址https://huggingface.co/meituan-longcat/LongCat-NextDemo体验https://longcat.chat/longcat-next在这篇文章中我们将详细拆解它背后的底层逻辑。一套自回归逻辑处理所有信号要把物理世界的信号塞进同一个自回归框架首要解决的是不同模态的表征统一。〓 DiNA 架构跨模态信号向离散 token 的统一收敛在 LongCat-Next 的设定中语言的离散建模已经具备成熟的生态。顺着这个思路既然语音可以看作是语言的声态学表示它同样顺理成章地在离散建模上取得了成功。真正的挑战在于视觉。为了让图像也能像文本和语音一样被处理LongCat-Next 将连续的视觉信号全部转化为了同源的离散 token。这种模态间的统一在T-SNE 可视化分析中表现得非常直观不同模态的表征在空间中高度交织、对齐。〓 视觉与语言表征空间的融合分布这种天然的融合让模型无需引入 3D-RoPE 或双向注意力等复杂的额外设计就能在同一套逻辑里实现“听”、“说”、“看”、“画”的自然涌现。像处理文字一样给图像分词解决视觉信号离散化的核心是 LongCat-Next 首创的离散原生分辨率视觉 TransformerdNaViT。它提供了一个极其灵活的统一视觉接口真正让图像拥有了像语言一样的“分词与解词”能力。它能够将视觉特征提取为视觉词汇并转化为层次化的离散 token。这套机制支持任意分辨率的输入使得模型在处理复杂图表推理等对长宽比和微小细节敏感的任务时具备极强的降维打击优势。〓 dNaViT 接口支持任意分辨率的视觉离散化处理为了在压缩过程中锁住信息dNaViT 引入了残差向量量化RVQ机制。它通过下一层码本递归拟合上一层的残差在单步自回归内构建出庞大的表征空间最终达成 28 倍的高效压缩。在架构设计上前端的视觉分词与后端的生成解码被严格解耦。多层离散 token 在进入大模型时仅作简单的相加融合而在生成阶段LongCat-Next 则独立引入了 Depth Transformer 作为多模态预测头。这种设计不增加前端编码负担巧妙实现了多级 token 的高效并行解码。此外为了有效避免离散化过程带来的高层语义流失LongCat-Next 引入了语义对齐完备编码器SAE。通过全局对齐与多任务密集学习模型生成的离散 token 具备了内在的信息恢复属性。〓 dNaViT 接口与级联 RVQ 离散化流程解耦双轨架构下的高保真还原在生成阶段单纯依靠冻结的 SAE 编码器难以捕捉高频的视觉细节。因此LongCat-Next 设计了独特的解耦的双轨生成解码器 (Dual-Path Detokenization)。第一轨是基于 ViT 的结构像素解码器负责生成低分辨率锚点图以保全全局排版从而极大降低生成方差。第二轨则是扩散像素细化器Diffusion Refiner专门负责向画面中注入和还原超高频的微小细节确保图像实现高保真重建。在测试中面对包含高阶连加和分式嵌套的复杂结构在 Diffusion Refiner 模块的介入下模型依然能够做到字迹清晰、结构准确的完美复刻。〓 ViT 解码器与 Refiner 模块对复杂数学公式的重建效果对比此外由于这些离散 token 天生编码了图像的排版与结构化元素LongCat-Next 从底层逻辑上规避了图文生成中常见的文字错乱问题在极限 OCR 任务中展现出了优异的文本还原度。能力实测在 LongCat-Next 开源后我们也进行了一系列实测。我们首先找了一张包含更正记录的超市小票测试它的信息提取与逻辑核对能力。LongCat-Next 避开了商品名中“100g*3”这类数字的干扰直接输出了结构化的 JSON 数据。同时它准确理清了结算逻辑。识别出单品折扣是负数扣减、删除折扣是正数加回并列出完整算式 (-9.00) (-4.50) (-4.50) (4.50)与最终的优惠总额完成了精准核对。▲ 向下滑动查看完整结果紧接着我们又上传了一张 YaRN 论文中的困惑度PPL折线图要求它分析不同方法的表现差异。LongCat-Next 准确读出了不同序列长度下 PPL 的走势并得出了与原论文一致的结论在处理这类密集的学术图表时没有出现信息遗漏或幻觉。▲ 向下滑动查看完整结果在图像生成方面我们尝试让它生成一张儿童绘本封面提示词中要求包含主标题、副标题和作者名并指定了排版位置与雪花纹理字体。从生成的图片来看文本拼写完全准确、大小写遵循指令标题和作者名的上下排版也没有出现文字飘浮或遮挡问题。在官方展示的测试案例中团队输入了一段用四川方言录制的逻辑推理题骑士说真话无赖说假话。A 说‘我是骑士。’问 A 可能是什么人LongCat-Next 直接听懂了方言音频并给出了准确的逻辑推导过程。同样在官方的语音合成案例中模型被要求合成一句中英夹杂的日常会议通知明天的 meeting 在三楼的 Conference Room 举行。在处理这种中英混语时它的发音和韵律切换非常自然没有生硬的机器拼接感。走向下一代基座回到文章开篇的那个问题所有的物理世界信号最终都能收敛为同源的离散 token 吗LongCat-Next 用实际表现给出了一份清晰的答卷。在多模态模型普遍依赖参数堆砌和异构模块拼接的今天它证明了底层架构的重构依然存在巨大的红利空间。通过将连续的视觉与听觉信号转化为同源的离散 token它成功把多模态任务拉回了语言模型最成熟的下一通证预测轨道。这不仅让一个激活参数仅为 3B 的基座模型展现出了跨级别的图音理解与生成能力更重要的是它为系统工程提供了一条极简且高效的新路线。目前LongCat-Next 的代码、模型权重及完整技术报告均已开源。对于苦于跨模态融合信息损耗的研究者和开发者来说这套纯离散架构提供了一个值得深挖与验证的全新样本。模态融合的最终形态究竟是什么样现在下定论或许还为时尚早。但 LongCat-Next 至少让我们看到在寻找物理世界统一表征的道路上除了不断堆砌外挂模块做加法我们同样可以通过底层逻辑的统一来做减法。现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·
重构原生多模态!美团发布纯离散基座,真正实现万物皆Token
美团新开源的这只“LongCat”用清爽的纯离散逻辑一口气把图音文全吃透了 。所有的物理世界信号最终都能收敛为同源的离散 token 吗长期以来视觉信号的连续性被视为自回归建模中一个难以处理的特性。为了兼容这种不规则的特征目前的通用做法是在模型中引入复杂的空间编码或异构模块。这种架构上的妥协虽然见效快但也让模型的逻辑统一性变得模糊。就在昨天美团 LongCat 团队开源了全新的基座模型 LongCat-Next。这个模型选择了回归最朴素的下一通证预测NTP范式。在它看来无论是复杂的代码、高清的图片还是带有环境底噪的录音本质上并无二致。这种名为离散原生自回归DiNA的架构在底层实现了全模态的建模统一。LongCat-Next 构建在美团自研的 LongCat-Flash-Lite MoE 基座之上激活参数只有 3B。在 3B 的激活规模下它表现出了出色的效率。在重点考察文档解析与图表理解能力的 OmniDocBench-EN 和 CharXivRQ 榜单上它的成绩全面超越了同尺寸的全模态模型 Qwen3-Omni-A3B。不仅如此其视觉理解能力也与同尺寸的专业模型 QwenVL 相当。在获得多模态能力的同时LongCat-Next 成功克服了灾难性遗忘这一痛点保留了语言模型原本的逻辑深度。它的 SWE-Bench 成绩稳在 43.0这意味着它在实际的代码工程任务中依然保持着极高的可用性。〓 LongCat-Next 核心评测榜单表现在开源模型的同时美团也公布了 LongCat-Next 的技术报告。技术报告地址https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdfGitHub地址https://github.com/meituan-longcat/LongCat-NextHuggingFace地址https://huggingface.co/meituan-longcat/LongCat-NextDemo体验https://longcat.chat/longcat-next在这篇文章中我们将详细拆解它背后的底层逻辑。一套自回归逻辑处理所有信号要把物理世界的信号塞进同一个自回归框架首要解决的是不同模态的表征统一。〓 DiNA 架构跨模态信号向离散 token 的统一收敛在 LongCat-Next 的设定中语言的离散建模已经具备成熟的生态。顺着这个思路既然语音可以看作是语言的声态学表示它同样顺理成章地在离散建模上取得了成功。真正的挑战在于视觉。为了让图像也能像文本和语音一样被处理LongCat-Next 将连续的视觉信号全部转化为了同源的离散 token。这种模态间的统一在T-SNE 可视化分析中表现得非常直观不同模态的表征在空间中高度交织、对齐。〓 视觉与语言表征空间的融合分布这种天然的融合让模型无需引入 3D-RoPE 或双向注意力等复杂的额外设计就能在同一套逻辑里实现“听”、“说”、“看”、“画”的自然涌现。像处理文字一样给图像分词解决视觉信号离散化的核心是 LongCat-Next 首创的离散原生分辨率视觉 TransformerdNaViT。它提供了一个极其灵活的统一视觉接口真正让图像拥有了像语言一样的“分词与解词”能力。它能够将视觉特征提取为视觉词汇并转化为层次化的离散 token。这套机制支持任意分辨率的输入使得模型在处理复杂图表推理等对长宽比和微小细节敏感的任务时具备极强的降维打击优势。〓 dNaViT 接口支持任意分辨率的视觉离散化处理为了在压缩过程中锁住信息dNaViT 引入了残差向量量化RVQ机制。它通过下一层码本递归拟合上一层的残差在单步自回归内构建出庞大的表征空间最终达成 28 倍的高效压缩。在架构设计上前端的视觉分词与后端的生成解码被严格解耦。多层离散 token 在进入大模型时仅作简单的相加融合而在生成阶段LongCat-Next 则独立引入了 Depth Transformer 作为多模态预测头。这种设计不增加前端编码负担巧妙实现了多级 token 的高效并行解码。此外为了有效避免离散化过程带来的高层语义流失LongCat-Next 引入了语义对齐完备编码器SAE。通过全局对齐与多任务密集学习模型生成的离散 token 具备了内在的信息恢复属性。〓 dNaViT 接口与级联 RVQ 离散化流程解耦双轨架构下的高保真还原在生成阶段单纯依靠冻结的 SAE 编码器难以捕捉高频的视觉细节。因此LongCat-Next 设计了独特的解耦的双轨生成解码器 (Dual-Path Detokenization)。第一轨是基于 ViT 的结构像素解码器负责生成低分辨率锚点图以保全全局排版从而极大降低生成方差。第二轨则是扩散像素细化器Diffusion Refiner专门负责向画面中注入和还原超高频的微小细节确保图像实现高保真重建。在测试中面对包含高阶连加和分式嵌套的复杂结构在 Diffusion Refiner 模块的介入下模型依然能够做到字迹清晰、结构准确的完美复刻。〓 ViT 解码器与 Refiner 模块对复杂数学公式的重建效果对比此外由于这些离散 token 天生编码了图像的排版与结构化元素LongCat-Next 从底层逻辑上规避了图文生成中常见的文字错乱问题在极限 OCR 任务中展现出了优异的文本还原度。能力实测在 LongCat-Next 开源后我们也进行了一系列实测。我们首先找了一张包含更正记录的超市小票测试它的信息提取与逻辑核对能力。LongCat-Next 避开了商品名中“100g*3”这类数字的干扰直接输出了结构化的 JSON 数据。同时它准确理清了结算逻辑。识别出单品折扣是负数扣减、删除折扣是正数加回并列出完整算式 (-9.00) (-4.50) (-4.50) (4.50)与最终的优惠总额完成了精准核对。▲ 向下滑动查看完整结果紧接着我们又上传了一张 YaRN 论文中的困惑度PPL折线图要求它分析不同方法的表现差异。LongCat-Next 准确读出了不同序列长度下 PPL 的走势并得出了与原论文一致的结论在处理这类密集的学术图表时没有出现信息遗漏或幻觉。▲ 向下滑动查看完整结果在图像生成方面我们尝试让它生成一张儿童绘本封面提示词中要求包含主标题、副标题和作者名并指定了排版位置与雪花纹理字体。从生成的图片来看文本拼写完全准确、大小写遵循指令标题和作者名的上下排版也没有出现文字飘浮或遮挡问题。在官方展示的测试案例中团队输入了一段用四川方言录制的逻辑推理题骑士说真话无赖说假话。A 说‘我是骑士。’问 A 可能是什么人LongCat-Next 直接听懂了方言音频并给出了准确的逻辑推导过程。同样在官方的语音合成案例中模型被要求合成一句中英夹杂的日常会议通知明天的 meeting 在三楼的 Conference Room 举行。在处理这种中英混语时它的发音和韵律切换非常自然没有生硬的机器拼接感。走向下一代基座回到文章开篇的那个问题所有的物理世界信号最终都能收敛为同源的离散 token 吗LongCat-Next 用实际表现给出了一份清晰的答卷。在多模态模型普遍依赖参数堆砌和异构模块拼接的今天它证明了底层架构的重构依然存在巨大的红利空间。通过将连续的视觉与听觉信号转化为同源的离散 token它成功把多模态任务拉回了语言模型最成熟的下一通证预测轨道。这不仅让一个激活参数仅为 3B 的基座模型展现出了跨级别的图音理解与生成能力更重要的是它为系统工程提供了一条极简且高效的新路线。目前LongCat-Next 的代码、模型权重及完整技术报告均已开源。对于苦于跨模态融合信息损耗的研究者和开发者来说这套纯离散架构提供了一个值得深挖与验证的全新样本。模态融合的最终形态究竟是什么样现在下定论或许还为时尚早。但 LongCat-Next 至少让我们看到在寻找物理世界统一表征的道路上除了不断堆砌外挂模块做加法我们同样可以通过底层逻辑的统一来做减法。现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·