Qwen 系列架构演进核心版本深度解析整个 Qwen 系列的演进可以分成三个架构世代标准 Transformer 世代Qwen1 → Qwen2.5、混合推理世代Qwen3、线性注意力混合世代Qwen3-Next → Qwen3.5 → Qwen3.6。每一次代际跨越都有明确的、可以说清楚的核心原因。第一世代标准 TransformerQwen1 / Qwen1.5 / Qwen2 / Qwen2.5Qwen1 / Qwen1.52023 年这是奠基版本没有太多架构创新主要是在 LLaMA 式 Transformer 上确立了 Qwen 的基础组件。早期 Qwen 模型扩展了 LLaMA 式 Transformer 架构创新包括旋转位置编码RoPE、分组查询注意力GQA、SwiGLU 激活函数以及用于训练稳定性的 Pre-Norm RMSNorm。[7]Qwen1.5 是 Qwen2 的 beta 版本基于 Transformer 架构包含 SwiGLU 激活、Attention QKV 偏置、分组查询注意力以及滑动窗口注意力SWA与全注意力的混合机制。[10]这一阶段最关键的意义在于它首次引入了 MoEQwen1.5-MoE-A2.7B为后续版本探路。Qwen22024 年 6 月核心架构改动解决长上下文问题。Qwen2 在注意力机制上做了一个关键扩展为了扩展上下文窗口Qwen2 实现了双块注意力DCA将长序列分割成可管理长度的块。如果输入可以在一个块内处理DCA 产生与原始注意力相同的结果否则DCA 能有效捕捉块内和块间 token 的相对位置信息从而提升长上下文性能。[8]另外Qwen2 还采用了 YaRN 来重新缩放注意力权重以实现更好的长度外推能力。[8]具体的架构组件上Qwen2 沿用了 SwiGLU 激活、旋转位置编码RoPE、QKV 偏置、RMSNorm 和 Pre-Norm。[8]Qwen2 模型支持多语言上下文长度最高达 131,072 tokens。[5]Qwen2.52024 年 9 月核心改动不是架构革命而是数据和生态的爆炸式扩展。架构层面Qwen2.5 延续了 Qwen2 的 DCA YaRN 方案。上下文扩展采用两阶段方式先训练 4K 上下文窗口再逐步扩展到 32K稠密模型通过特殊的 1M 变体借助双块注意力和 YaRN 技术最终支持 100 万 token。[4]真正的飞跃在数据和专用模型上Qwen2 引入了激进扩展预训练 token 数高达 18T严格的多语言数据整理先进的后训练对齐方法DPO/GRPO以及对长上下文处理的支持。[7]与此同时Qwen 在这一阶段形成了完整的专用模型矩阵——Qwen2.5-Coder代码、Qwen2.5-Math数学、Qwen2.5-VL视觉语言等其中 Qwen2.5-Math 使用了万亿规模的数学语料Qwen2.5-Coder 则利用了 5.5 万亿 token 的代码语料。[4]这一阶段架构的本质Qwen1 到 Qwen2.5 全程使用的是标准 Softmax 全注意力或其 SWA 变体计算复杂度始终是 O(n²)这是下一代要解决的核心瓶颈。第二世代混合推理Qwen32025 年 4 月这一代的核心创新不在注意力机制而在推理范式。架构层面的关键变化Qwen3 的 Dense 模型在 Qwen2 架构基础上做了一个重要调整Qwen3 去掉了 Qwen2 中使用的 QKV 偏置并引入 QK-Norm 到注意力机制中以确保训练稳定性。[9]需要特别注意的是Qwen3 整个系列仍然使用的是标准全注意力模型家族支持 119 种语言引入了混合思考模式并在整个架构中使用标准全注意力。[9]线性注意力的引入要到下一个版本 Qwen3-Next 才发生。Qwen3 MoE 的设计有两个值得关注的地方Qwen3 MoE 模型共有 128 个专家每个 token 激活 8 个专家。与 Qwen2.5-MoE 不同Qwen3-MoE 设计排除了共享专家并采用全局批次负载均衡损失global-batch load balancing loss来鼓励专家专业化。[1]去掉共享专家的意义是强迫每个路由专家发展出更独特的能力而不是依赖一个万能的共享专家兜底。这一代真正的核心混合推理Qwen3 的关键创新是将思考模式用于复杂的多步推理和非思考模式用于快速的上下文驱动响应集成到统一框架中消除了在不同模型如聊天优化模型和专用推理模型之间切换的需求。Qwen3 还引入了思考预算机制允许用户在推理时自适应分配计算资源。[9]为了实现这一能力开发了四阶段训练流程1长链思维CoT冷启动2基于推理的强化学习3思考模式融合4通用强化学习。[3]效率提升方面Qwen3 Dense 基础模型的整体性能与参数更多的 Qwen2.5 基础模型相当例如 Qwen3-1.7B/4B/8B/14B/32B-Base 的表现分别媲美 Qwen2.5-3B/7B/14B/32B/72B-Base。[3]Qwen3 MoE 基础模型仅使用 10% 的激活参数就达到了 Qwen2.5 稠密模型的性能在训练和推理成本上都有显著节省。[3]训练数据方面Qwen3 训练数据涵盖 36 万亿 token横跨 119 种语言。[5]第三世代线性注意力混合Qwen3-Next → Qwen3.5 → Qwen3.6这一代要解决的问题是标准 Softmax 注意力的 O(n²) 复杂度在推理长序列时既慢又贵KV Cache 随上下文增长而线性膨胀。Qwen3-Next2025 年 9 月——Gated DeltaNet 的首秀2025年9月11日Qwen 发布 Qwen3-Next-80B-A3B一个具有混合注意力架构的超稀疏混合专家模型专为极致效率而设计。[1]核心架构创新替换大部分标准注意力层Qwen3-Next 用 Gated DeltaNet 和 Gated Attention 的组合替代了标准注意力机制用于高效建模超长上下文高稀疏度 MoE 实现了极低的每 token 激活比例大幅减少 FLOPs并包含零中心化和权重衰减 LayerNorm 等稳定性优化以及多 Token 预测MTP来提升训练性能和推理速度。[2]Gated DeltaNet 的本质是什么Gated DeltaNet 是一种线性注意力变体灵感来自循环神经网络包含来自Gated Delta Networks: Improving Mamba2 with Delta Rule论文的门控机制。本质上它是带有 Mamba 风格门控的 DeltaNet而 DeltaNet 本身是一种线性注意力机制。[8]具体来说Gated DeltaNet 结合了用于纠错记忆更新的 Delta Rule优越的检索能力、用于自适应记忆衰减的指数门控防止饱和、用于局部上下文的因果 Conv1D取代位置编码以及 Q/K 上的 L2 归一化取代 Softmax 归一化。[3]混合比例与 MoE 设计Qwen3-Next 的核心创新是同时使用 Gated DeltaNet 和 Gated Attention其中 75% 的层使用 Gated DeltaNet25% 的层使用标准 Gated Attention使模型能够高效处理长序列同时保持推理精度。[1]整个模型拥有 80B 参数但每个 token 仅激活 3BMoE 模块有 512 个路由专家和 1 个共享专家每个 token 激活 10 个专家。[7]内存效率的提升是革命性的混合 Gated-DeltaNet SWA Gated-Attention 架构对于长上下文极其省内存——100 万 token 的总上下文仅需约 25GB KV 缓存比朴素的纯 Transformer 估算节省约 4 倍。[4]这是因为 GDN 层用固定大小的循环状态矩阵代替了增长的 KV Cache将每层内存从 O(n) 降到了 O(1)。Qwen3.52026 年 2 月——原生多模态 继承线性注意力Qwen3.5 做了两件独立但同等重要的事第一件继承并标准化 Gated DeltaNet 架构。Qwen3.5HuggingFace model_type: “qwen3_5”直接继承自 Qwen3-Nextmodel_type: “qwen3_next”。[3]它是一种混合架构交错使用两种 token 混合层全注意力层标准 Softmax GQA RoPE和线性注意力层Gated DeltaNet。默认情况下每第 4 层是全注意力层其余为线性注意力层即约 75% 的层是线性注意力25% 是全 Softmax 注意力。[3]旗舰模型 Qwen3.5-397B-A17B 的层布局被精确记录为60 层总深度隐藏维度 4096层布局为 15 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))Gated DeltaNet 使用 64 个线性注意力头V和 16 个QKMoE 共 512 个专家每个 token 激活 10 个路由专家 1 个共享专家。[2]第二件从文本 外挂视觉编码器升级为原生多模态Early Fusion。这是 Qwen3.5 最本质的突破之一。之前 Qwen3-VL 的做法是 CLIP LLM 拼接Late Fusion视觉信息被翻译成 token 后再送进语言模型。而 Qwen3.5通过在多模态 token 上的 Early Fusion 训练实现了与前一代纯文本模型的跨代性能对齐并在推理、编码、智能体和视觉理解基准上超越了专用视觉语言模型。[2]每个 Qwen3.5 模型都继承了完整的 Gated DeltaNet 混合架构具有 262K 原生上下文窗口和原生多模态能力文本 图像 视频。这是 AI 历史上首次实现 0.8B 模型处理视频、4B 模型作为多模态智能体以及 9B 模型全面超越上一代 30B 模型。[3]语言覆盖扩展方面全球语言覆盖扩展到 201 种语言和方言。[4]Qwen3.62026 年 4 月——在 Qwen3.5 架构基础上专注编程能力Qwen3.6 建立在 Qwen3.5 架构之上结合 MoE 稀疏激活支持 201 种语言Apache 2.0 授权。[2]开放的模型包括 Qwen3.6-35B-A3BMoE和 Qwen3.6-27BDense。Qwen3.6-27B 是原生多模态模型在单个统一检查点中同时支持视觉语言思考和非思考模式——与 Qwen3.6-35B-A3B 相同。[5]核心改进集中在两点第一是智能体编码模型处理 React、Vue 和 Svelte 组件生成的流畅度更高QwenWebBench 得分从 9783.5-35B提升到 13973.6-35B提升 43%NL2Repo 得分从 20.5 提升到 29.4模型在理解和修改整个代码库方面的能力显著增强。[6]第二是Qwen3.6 Plus 的上下文扩展Qwen3.5 使用了标准稀疏 MoE 架构而 Qwen3.6 Plus 将高效线性注意力与稀疏 MoE 路由相结合在不降低 500K token 质量的情况下更快地处理更长的上下文从 262K 到 100 万 token 的跨越意义重大。[3]架构演进核心对照表版本注意力机制MoE 设计多模态核心突破Qwen1/1.5全注意力 SWA无1.5 首个 MoE 尝试无奠定基础架构Qwen2全注意力 DCA YaRN有无长上下文131KQwen2.5全注意力 DCA YaRN有VL 变体Late Fusion18T 数据 专用模型矩阵Qwen3全注意力仍是标准 Transformer128 专家/8 激活无共享专家VL 变体Late Fusion混合思考/非思考双模式Qwen3-Next75% Gated DeltaNet 25% 全注意力首次线性注意力混合512 专家/10 激活极稀疏无线性注意力大规模落地Qwen3.5继承 Qwen3-Next 的 GDN 混合75%/25%512 专家/101 激活原生 Early Fusion全模态架构 原生多模态双重突破Qwen3.6继承 Qwen3.5Plus 版本升级线性注意力同 Qwen3.5原生 Early Fusion智能体编码 1M 上下文Plus一句话概括演进逻辑Qwen1~2.5 在解决能不能用Qwen3 在解决推理够不够深Qwen3-Next 和 Qwen3.5 在解决长文本推理够不够快够不够省Qwen3.5 同时还解决了视觉语言能不能真正融合Qwen3.6 则将这套架构推向以编程智能体为核心的实用化方向。Deploy Qwen 3.5 on GPU Cloud: GDN Hybrid Architecture, 262K Context, and vLLM Setup (2026) | Spheron BlogGitHub - QwenLM/Qwen3.6: Qwen3.6 is the large language model series developed by Qwen team, Alibaba Group. · GitHubWe Tested Qwen3-Next: Hybrid Attention for Efficiency Revolution in Open-Source LLMs (New Research Breakdown) | PagePeek BlogQwen3 : MoE Architecture, Agent Tools, Global Language LLM | by My Social | . | Mediumtransformers/docs/source/en/model_doc/qwen2.md at main · huggingface/transformersQwen3 Technical Reportqwen3.5-397b-a17b Model by QwenQwen/Qwen3-Next-80B-A3B-Thinking · Hugging FaceQwen3: Hybrid Thinking and Superior Performance in 119 Languages | Proje DefteriQwen2 Transformer ArchitectureQwen3.6-35B Drops: Agentic Coding Gets a Major Upgrade • StableLearn | Make AI Your SuperpowerQwen3.5: 9B Beats 120B, 0.8B Runs Video on Phones—Full MoE Family • StableLearn | Make AI Your Superpowerqwen3.5-gated-deltanet-analysis · GitHubQwen3: Think Deeper, Act Faster | QwenUnderstanding Qwen-v2: My Personal Take | by tangbasky | Data Science Collective | MediumQwen 3: What You Need to Know - Gradient FlowQwen 3.6 vs 3.5: 1M Context, 78.8% SWE-bench — Worth the Switch?Qwen/Qwen3.5-9B · Hugging FaceReal-world Qwen3-Next-80B performance on 128 GB Apple Silicon — hybrid SWA fits in 92 GB wired, 40× cache speedup · QwenLM/Qwen3.6 · Discussion #139Qwen3: Alibaba’s new weapon in the Open-Source LLM WarsQwen2.5 Model Family OverviewQwen3-30B-A3BQwen 3.6 Series: Alibaba’s Open-Source LLM Revolution in 2026 — AI/ML API BlogQwen 3.5 Explained: Architecture, Upgrades Over Qwen 3, Benchmarks, and Real‑World Use Cases | by Sai Dheeraj Gummadi | Data Science in Your Pocket | MediumQwen/Qwen3-Next-80B-A3B-Instruct · Hugging FaceData Story: A Deep Dive into Qwen 3’s Data PipelineQwen2 · Hugging FaceQwen 3 Release Brings AI Home - by Patrick McGuinnessQwen3.6-27B: Flagship-Level Coding in a 27B Dense ModelQwen3-Next: Revolutionary 80B Model with Only 3B Active Parameters - Ultimate Efficiency Guide | Colin McNamaraQwen2.5: Versatile, Multilingual, Open-Source LLM Series | by My Social | . | MediumThe Rise of MoE: Comparing 2025’s Leading Mixture-of-Experts AI ModelsQwen 3.6 Developer Guide: Benchmarks, Architecture Self-Hosting | LushbinaryQwen 3.5: Complete Guide (2026)Qwen3-Next: Next-Generation Ultra-Efficient AI Model ArchitectureQwen Models: The Complete Guide to Alibaba’s Open-Source LLMs (With a Deep Dive into Qwen 3) | Data Science DojoQwen-series Models OverviewNew Open Source Qwen3-Next Models Preview Hybrid MoE Architecture Delivering Improved Accuracy and Accelerated Parallel Processing across NVIDIA Platform | NVIDIA Technical BlogQwen 3.5 Plus vs Qwen 3.6 Plus: We Tested Both on Qubrid AI - Here’s What Changed - Qubrid AIWhy Did Qwen3.5 Choose Gated DeltaNet?Gated DeltaNet for Linear Attention - rasbt/LLMs-from-scratchQwen 3: Models, Architecture, Benchmarks, Training MoreQwen2 Technical ReportWhy Qwen 3.6 Doesn’t Need --cpu-moe (and Why Qwen3-Coder Does) on Dual 16GB - LLMKube BlogQwen 3.6 Plus Preview: 1M Context, Speed Benchmarks 2026Gated DeltaNet | Sebastian Raschka, PhDQwen3 Technical Report[Deep Dive] Qwen 3.5 Brings Native Multimodality and Long Context to Small Open ModelsQwen2FlashAttention sliding windows are applied to wrong layers · Issue #35896 · huggingface/transformersA 30B Model That Thinks Like o1 runs on 3080 GPUs | by Hungrysoul | MediumA Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGAnm-testing/qwen-with-sliding-window · Hugging FaceQwen 3.6-Max-Preview Explained: Architecture, Benchmarks API on Qubrid AI - Qubrid AI
【LLM】Qwen
Qwen 系列架构演进核心版本深度解析整个 Qwen 系列的演进可以分成三个架构世代标准 Transformer 世代Qwen1 → Qwen2.5、混合推理世代Qwen3、线性注意力混合世代Qwen3-Next → Qwen3.5 → Qwen3.6。每一次代际跨越都有明确的、可以说清楚的核心原因。第一世代标准 TransformerQwen1 / Qwen1.5 / Qwen2 / Qwen2.5Qwen1 / Qwen1.52023 年这是奠基版本没有太多架构创新主要是在 LLaMA 式 Transformer 上确立了 Qwen 的基础组件。早期 Qwen 模型扩展了 LLaMA 式 Transformer 架构创新包括旋转位置编码RoPE、分组查询注意力GQA、SwiGLU 激活函数以及用于训练稳定性的 Pre-Norm RMSNorm。[7]Qwen1.5 是 Qwen2 的 beta 版本基于 Transformer 架构包含 SwiGLU 激活、Attention QKV 偏置、分组查询注意力以及滑动窗口注意力SWA与全注意力的混合机制。[10]这一阶段最关键的意义在于它首次引入了 MoEQwen1.5-MoE-A2.7B为后续版本探路。Qwen22024 年 6 月核心架构改动解决长上下文问题。Qwen2 在注意力机制上做了一个关键扩展为了扩展上下文窗口Qwen2 实现了双块注意力DCA将长序列分割成可管理长度的块。如果输入可以在一个块内处理DCA 产生与原始注意力相同的结果否则DCA 能有效捕捉块内和块间 token 的相对位置信息从而提升长上下文性能。[8]另外Qwen2 还采用了 YaRN 来重新缩放注意力权重以实现更好的长度外推能力。[8]具体的架构组件上Qwen2 沿用了 SwiGLU 激活、旋转位置编码RoPE、QKV 偏置、RMSNorm 和 Pre-Norm。[8]Qwen2 模型支持多语言上下文长度最高达 131,072 tokens。[5]Qwen2.52024 年 9 月核心改动不是架构革命而是数据和生态的爆炸式扩展。架构层面Qwen2.5 延续了 Qwen2 的 DCA YaRN 方案。上下文扩展采用两阶段方式先训练 4K 上下文窗口再逐步扩展到 32K稠密模型通过特殊的 1M 变体借助双块注意力和 YaRN 技术最终支持 100 万 token。[4]真正的飞跃在数据和专用模型上Qwen2 引入了激进扩展预训练 token 数高达 18T严格的多语言数据整理先进的后训练对齐方法DPO/GRPO以及对长上下文处理的支持。[7]与此同时Qwen 在这一阶段形成了完整的专用模型矩阵——Qwen2.5-Coder代码、Qwen2.5-Math数学、Qwen2.5-VL视觉语言等其中 Qwen2.5-Math 使用了万亿规模的数学语料Qwen2.5-Coder 则利用了 5.5 万亿 token 的代码语料。[4]这一阶段架构的本质Qwen1 到 Qwen2.5 全程使用的是标准 Softmax 全注意力或其 SWA 变体计算复杂度始终是 O(n²)这是下一代要解决的核心瓶颈。第二世代混合推理Qwen32025 年 4 月这一代的核心创新不在注意力机制而在推理范式。架构层面的关键变化Qwen3 的 Dense 模型在 Qwen2 架构基础上做了一个重要调整Qwen3 去掉了 Qwen2 中使用的 QKV 偏置并引入 QK-Norm 到注意力机制中以确保训练稳定性。[9]需要特别注意的是Qwen3 整个系列仍然使用的是标准全注意力模型家族支持 119 种语言引入了混合思考模式并在整个架构中使用标准全注意力。[9]线性注意力的引入要到下一个版本 Qwen3-Next 才发生。Qwen3 MoE 的设计有两个值得关注的地方Qwen3 MoE 模型共有 128 个专家每个 token 激活 8 个专家。与 Qwen2.5-MoE 不同Qwen3-MoE 设计排除了共享专家并采用全局批次负载均衡损失global-batch load balancing loss来鼓励专家专业化。[1]去掉共享专家的意义是强迫每个路由专家发展出更独特的能力而不是依赖一个万能的共享专家兜底。这一代真正的核心混合推理Qwen3 的关键创新是将思考模式用于复杂的多步推理和非思考模式用于快速的上下文驱动响应集成到统一框架中消除了在不同模型如聊天优化模型和专用推理模型之间切换的需求。Qwen3 还引入了思考预算机制允许用户在推理时自适应分配计算资源。[9]为了实现这一能力开发了四阶段训练流程1长链思维CoT冷启动2基于推理的强化学习3思考模式融合4通用强化学习。[3]效率提升方面Qwen3 Dense 基础模型的整体性能与参数更多的 Qwen2.5 基础模型相当例如 Qwen3-1.7B/4B/8B/14B/32B-Base 的表现分别媲美 Qwen2.5-3B/7B/14B/32B/72B-Base。[3]Qwen3 MoE 基础模型仅使用 10% 的激活参数就达到了 Qwen2.5 稠密模型的性能在训练和推理成本上都有显著节省。[3]训练数据方面Qwen3 训练数据涵盖 36 万亿 token横跨 119 种语言。[5]第三世代线性注意力混合Qwen3-Next → Qwen3.5 → Qwen3.6这一代要解决的问题是标准 Softmax 注意力的 O(n²) 复杂度在推理长序列时既慢又贵KV Cache 随上下文增长而线性膨胀。Qwen3-Next2025 年 9 月——Gated DeltaNet 的首秀2025年9月11日Qwen 发布 Qwen3-Next-80B-A3B一个具有混合注意力架构的超稀疏混合专家模型专为极致效率而设计。[1]核心架构创新替换大部分标准注意力层Qwen3-Next 用 Gated DeltaNet 和 Gated Attention 的组合替代了标准注意力机制用于高效建模超长上下文高稀疏度 MoE 实现了极低的每 token 激活比例大幅减少 FLOPs并包含零中心化和权重衰减 LayerNorm 等稳定性优化以及多 Token 预测MTP来提升训练性能和推理速度。[2]Gated DeltaNet 的本质是什么Gated DeltaNet 是一种线性注意力变体灵感来自循环神经网络包含来自Gated Delta Networks: Improving Mamba2 with Delta Rule论文的门控机制。本质上它是带有 Mamba 风格门控的 DeltaNet而 DeltaNet 本身是一种线性注意力机制。[8]具体来说Gated DeltaNet 结合了用于纠错记忆更新的 Delta Rule优越的检索能力、用于自适应记忆衰减的指数门控防止饱和、用于局部上下文的因果 Conv1D取代位置编码以及 Q/K 上的 L2 归一化取代 Softmax 归一化。[3]混合比例与 MoE 设计Qwen3-Next 的核心创新是同时使用 Gated DeltaNet 和 Gated Attention其中 75% 的层使用 Gated DeltaNet25% 的层使用标准 Gated Attention使模型能够高效处理长序列同时保持推理精度。[1]整个模型拥有 80B 参数但每个 token 仅激活 3BMoE 模块有 512 个路由专家和 1 个共享专家每个 token 激活 10 个专家。[7]内存效率的提升是革命性的混合 Gated-DeltaNet SWA Gated-Attention 架构对于长上下文极其省内存——100 万 token 的总上下文仅需约 25GB KV 缓存比朴素的纯 Transformer 估算节省约 4 倍。[4]这是因为 GDN 层用固定大小的循环状态矩阵代替了增长的 KV Cache将每层内存从 O(n) 降到了 O(1)。Qwen3.52026 年 2 月——原生多模态 继承线性注意力Qwen3.5 做了两件独立但同等重要的事第一件继承并标准化 Gated DeltaNet 架构。Qwen3.5HuggingFace model_type: “qwen3_5”直接继承自 Qwen3-Nextmodel_type: “qwen3_next”。[3]它是一种混合架构交错使用两种 token 混合层全注意力层标准 Softmax GQA RoPE和线性注意力层Gated DeltaNet。默认情况下每第 4 层是全注意力层其余为线性注意力层即约 75% 的层是线性注意力25% 是全 Softmax 注意力。[3]旗舰模型 Qwen3.5-397B-A17B 的层布局被精确记录为60 层总深度隐藏维度 4096层布局为 15 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))Gated DeltaNet 使用 64 个线性注意力头V和 16 个QKMoE 共 512 个专家每个 token 激活 10 个路由专家 1 个共享专家。[2]第二件从文本 外挂视觉编码器升级为原生多模态Early Fusion。这是 Qwen3.5 最本质的突破之一。之前 Qwen3-VL 的做法是 CLIP LLM 拼接Late Fusion视觉信息被翻译成 token 后再送进语言模型。而 Qwen3.5通过在多模态 token 上的 Early Fusion 训练实现了与前一代纯文本模型的跨代性能对齐并在推理、编码、智能体和视觉理解基准上超越了专用视觉语言模型。[2]每个 Qwen3.5 模型都继承了完整的 Gated DeltaNet 混合架构具有 262K 原生上下文窗口和原生多模态能力文本 图像 视频。这是 AI 历史上首次实现 0.8B 模型处理视频、4B 模型作为多模态智能体以及 9B 模型全面超越上一代 30B 模型。[3]语言覆盖扩展方面全球语言覆盖扩展到 201 种语言和方言。[4]Qwen3.62026 年 4 月——在 Qwen3.5 架构基础上专注编程能力Qwen3.6 建立在 Qwen3.5 架构之上结合 MoE 稀疏激活支持 201 种语言Apache 2.0 授权。[2]开放的模型包括 Qwen3.6-35B-A3BMoE和 Qwen3.6-27BDense。Qwen3.6-27B 是原生多模态模型在单个统一检查点中同时支持视觉语言思考和非思考模式——与 Qwen3.6-35B-A3B 相同。[5]核心改进集中在两点第一是智能体编码模型处理 React、Vue 和 Svelte 组件生成的流畅度更高QwenWebBench 得分从 9783.5-35B提升到 13973.6-35B提升 43%NL2Repo 得分从 20.5 提升到 29.4模型在理解和修改整个代码库方面的能力显著增强。[6]第二是Qwen3.6 Plus 的上下文扩展Qwen3.5 使用了标准稀疏 MoE 架构而 Qwen3.6 Plus 将高效线性注意力与稀疏 MoE 路由相结合在不降低 500K token 质量的情况下更快地处理更长的上下文从 262K 到 100 万 token 的跨越意义重大。[3]架构演进核心对照表版本注意力机制MoE 设计多模态核心突破Qwen1/1.5全注意力 SWA无1.5 首个 MoE 尝试无奠定基础架构Qwen2全注意力 DCA YaRN有无长上下文131KQwen2.5全注意力 DCA YaRN有VL 变体Late Fusion18T 数据 专用模型矩阵Qwen3全注意力仍是标准 Transformer128 专家/8 激活无共享专家VL 变体Late Fusion混合思考/非思考双模式Qwen3-Next75% Gated DeltaNet 25% 全注意力首次线性注意力混合512 专家/10 激活极稀疏无线性注意力大规模落地Qwen3.5继承 Qwen3-Next 的 GDN 混合75%/25%512 专家/101 激活原生 Early Fusion全模态架构 原生多模态双重突破Qwen3.6继承 Qwen3.5Plus 版本升级线性注意力同 Qwen3.5原生 Early Fusion智能体编码 1M 上下文Plus一句话概括演进逻辑Qwen1~2.5 在解决能不能用Qwen3 在解决推理够不够深Qwen3-Next 和 Qwen3.5 在解决长文本推理够不够快够不够省Qwen3.5 同时还解决了视觉语言能不能真正融合Qwen3.6 则将这套架构推向以编程智能体为核心的实用化方向。Deploy Qwen 3.5 on GPU Cloud: GDN Hybrid Architecture, 262K Context, and vLLM Setup (2026) | Spheron BlogGitHub - QwenLM/Qwen3.6: Qwen3.6 is the large language model series developed by Qwen team, Alibaba Group. · GitHubWe Tested Qwen3-Next: Hybrid Attention for Efficiency Revolution in Open-Source LLMs (New Research Breakdown) | PagePeek BlogQwen3 : MoE Architecture, Agent Tools, Global Language LLM | by My Social | . | Mediumtransformers/docs/source/en/model_doc/qwen2.md at main · huggingface/transformersQwen3 Technical Reportqwen3.5-397b-a17b Model by QwenQwen/Qwen3-Next-80B-A3B-Thinking · Hugging FaceQwen3: Hybrid Thinking and Superior Performance in 119 Languages | Proje DefteriQwen2 Transformer ArchitectureQwen3.6-35B Drops: Agentic Coding Gets a Major Upgrade • StableLearn | Make AI Your SuperpowerQwen3.5: 9B Beats 120B, 0.8B Runs Video on Phones—Full MoE Family • StableLearn | Make AI Your Superpowerqwen3.5-gated-deltanet-analysis · GitHubQwen3: Think Deeper, Act Faster | QwenUnderstanding Qwen-v2: My Personal Take | by tangbasky | Data Science Collective | MediumQwen 3: What You Need to Know - Gradient FlowQwen 3.6 vs 3.5: 1M Context, 78.8% SWE-bench — Worth the Switch?Qwen/Qwen3.5-9B · Hugging FaceReal-world Qwen3-Next-80B performance on 128 GB Apple Silicon — hybrid SWA fits in 92 GB wired, 40× cache speedup · QwenLM/Qwen3.6 · Discussion #139Qwen3: Alibaba’s new weapon in the Open-Source LLM WarsQwen2.5 Model Family OverviewQwen3-30B-A3BQwen 3.6 Series: Alibaba’s Open-Source LLM Revolution in 2026 — AI/ML API BlogQwen 3.5 Explained: Architecture, Upgrades Over Qwen 3, Benchmarks, and Real‑World Use Cases | by Sai Dheeraj Gummadi | Data Science in Your Pocket | MediumQwen/Qwen3-Next-80B-A3B-Instruct · Hugging FaceData Story: A Deep Dive into Qwen 3’s Data PipelineQwen2 · Hugging FaceQwen 3 Release Brings AI Home - by Patrick McGuinnessQwen3.6-27B: Flagship-Level Coding in a 27B Dense ModelQwen3-Next: Revolutionary 80B Model with Only 3B Active Parameters - Ultimate Efficiency Guide | Colin McNamaraQwen2.5: Versatile, Multilingual, Open-Source LLM Series | by My Social | . | MediumThe Rise of MoE: Comparing 2025’s Leading Mixture-of-Experts AI ModelsQwen 3.6 Developer Guide: Benchmarks, Architecture Self-Hosting | LushbinaryQwen 3.5: Complete Guide (2026)Qwen3-Next: Next-Generation Ultra-Efficient AI Model ArchitectureQwen Models: The Complete Guide to Alibaba’s Open-Source LLMs (With a Deep Dive into Qwen 3) | Data Science DojoQwen-series Models OverviewNew Open Source Qwen3-Next Models Preview Hybrid MoE Architecture Delivering Improved Accuracy and Accelerated Parallel Processing across NVIDIA Platform | NVIDIA Technical BlogQwen 3.5 Plus vs Qwen 3.6 Plus: We Tested Both on Qubrid AI - Here’s What Changed - Qubrid AIWhy Did Qwen3.5 Choose Gated DeltaNet?Gated DeltaNet for Linear Attention - rasbt/LLMs-from-scratchQwen 3: Models, Architecture, Benchmarks, Training MoreQwen2 Technical ReportWhy Qwen 3.6 Doesn’t Need --cpu-moe (and Why Qwen3-Coder Does) on Dual 16GB - LLMKube BlogQwen 3.6 Plus Preview: 1M Context, Speed Benchmarks 2026Gated DeltaNet | Sebastian Raschka, PhDQwen3 Technical Report[Deep Dive] Qwen 3.5 Brings Native Multimodality and Long Context to Small Open ModelsQwen2FlashAttention sliding windows are applied to wrong layers · Issue #35896 · huggingface/transformersA 30B Model That Thinks Like o1 runs on 3080 GPUs | by Hungrysoul | MediumA Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGAnm-testing/qwen-with-sliding-window · Hugging FaceQwen 3.6-Max-Preview Explained: Architecture, Benchmarks API on Qubrid AI - Qubrid AI