Qwen3-Next 系列全解析：80B-A3B 的混合架构，Instruct 与 Thinking 双线能力进化

Qwen3-Next Gated DeltaNet Gated Attention MoE MTP 大语言模型

Sep 12, 2025 7 min read

Cover image for Qwen3-Next 系列全解析：80B-A3B 的混合架构，Instruct 与 Thinking 双线能力进化

Qwen 团队推出了新一代混合架构系列 —— Qwen3-Next，以 80B 总参数（80B-A3B）与稀疏激活（每次仅激活约 3B 参数）为核心设计思路，显著提升在长上下文、高并发与低延迟场景下的性价比。本系列包含两个主打方向：

Qwen3-Next-80B-A3B-Instruct：强调指令理解、对齐与稳定输出，不产生思考轨迹（无 <think></think>）。
Qwen3-Next-80B-A3B-Thinking：面向深度推理，默认包含思考轨迹（有 <think></think>；模板可能只显示闭合标签），推理链长度较前代更长。

参考来源：

Hugging Face（Instruct/Thinking 模型卡与集合）

Qwen 官方博客与社区资料

OpenRouter 模型页与第三方综述（ai-bot.cn 等）

为什么是 Next：三大工程目标

成本与吞吐：80B 总参 × ~3B 激活，让推理像小模型一样高效，同时保持大模型能力上限。
长上下文与稳定性：针对 32K+ 长文本进行优化，兼顾关键要点召回与结构化输出稳定性。
生产可用性：强调延迟与并发表现，适配在线 API、企业知识问答与智能体工作流。

架构一览：Gated DeltaNet × Gated Attention × MoE

Gated DeltaNet（速度优先）
- 设计为长文本处理优化，内存占用近似线性增长，流式生成更快，适合高并发服务。
Gated Attention（精度优先）
- 在关键位置进行精确信息召回，确保长文本生成不丢失关键信息、段落结构更稳。
大规模 MoE 专家系统
- 社区资料显示包含多达 512 个专家；请求时仅动态路由少量专家（如 Top-K + 共享 1），实现负载均衡与计算节流。
原生 MTP（Multi-Token Prediction）训练
- 预训练阶段即引入多 token 预测，减少推理步数、提升长文吞吐，降低响应延迟。

Instruct vs Thinking：如何选型

Instruct（生产对话/Agent 首选）
- 不输出 <think></think> 思考块，格式与对齐稳定，便于集成到产品化场景（如客服、表单生成、结构化 JSON/Markdown 输出）。
- 指令遵循与格式控制更强，易于模板化与评测。
Thinking（深度推理/复杂任务）
- 默认在提示模板中加入思考标记，用于生成/保留思考轨迹；在不同前端模板下可能只见到闭合 </think> 标签属正常现象（由官方模板控制）。
- 链式推理能力更强，可在多步逻辑、数学/编程推导中获得更高准确率与稳定性。

实践建议：

面向“严格格式、快速上线”的业务选 Instruct；

面向“复杂推理、学术与工程推导”选 Thinking；

也可在 RAG/Agent 中按任务类型动态路由到不同版本。

能力与表现（社区汇总）

Instruct：在多个指令与多任务基准上对齐或逼近更大规模（如 235B）的旗舰模型表现，尤其在长文本与吞吐上具优势。
Thinking：在推理能力上优于同类轻量/快推理模型（有报告称在部分指标上超过 Gemini 2.5 Flash-Thinking），可输出更长的思考链。

注：具体分数以官方模型卡与第三方评测为准；本文聚焦能力侧画像与工程取舍，不复刻具体数值。

典型应用场景

长文摘要与报告生成：技术白皮书、法律协议、研究综述等的分段抽取与结构化成文。
代码生成与重构：跨文件理解、重构建议、测试样例生成与代码走查。
企业级知识问答（RAG）：支持多语言问答、事实召回与可追溯引用。
智能体工作流：在工具调用、记忆管理与格式输出上表现稳健；可 Instruct/Thinking 混用。
高并发在线服务：低延迟响应与稳定对齐，适合商业化 API 服务。

快速使用（概览）

Qwen Chat 网页版：可直接切换 Instruct/Thinking 体验（视官方提供）。
阿里云百炼（Model Studio）：按官方文档调用生产 API，推荐用于企业场景。
Hugging Face：按模型卡说明加载，会提供默认聊天模板；Thinking 版本会自动注入 <think> 模板片段。
OpenRouter：可用 qwen/qwen3-next-80b-a3b-instruct 等模型名，走 OpenAI 兼容接口。

提示：Thinking 版本可能输出较长思考内容；如需隐藏，可在系统提示或后处理阶段剔除 <think>...</think>。

与上一代/同级别模型的对比要点

相对 Qwen3-32B 等密集模型：Next 通过稀疏激活获得“更低成本 × 更高吞吐”，长上下文下更具规模优势。
相对传统 MoE：在路由与门控上引入 Gated DeltaNet/Gated Attention 的混合设计，更好平衡速度与精度。
相对万亿级旗舰：社区称 Instruct 在部分指令基准已逼近 235B 旗舰表现，Thinking 在推理上大幅进步，但总体上 Next 着重“快与稳”的生产可用性。

相关链接

Hugging Face（Thinking）：https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking
Hugging Face（Instruct）：https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen 官方博客（Qwen3 系列）：https://qwenlm.github.io/blog/qwen3/
第三方综述（中文）：https://ai-bot.cn/qwen3-next/
OpenRouter 模型页：https://openrouter.ai/qwen/qwen3-next-80b-a3b-instruct

Share

更多文章

DeepSeek V3.1：混合推理、强劲编程与 Agent 能力，支持Claude Code，性价比再升级

DeepSeek V3.1：混合推理、强劲编程与 Agent 能力，支持Claude Code，性价比再升级

Qwen-Image-Edit 图像编辑介绍与 ComfyUI 使用指南

Qwen-Image-Edit 图像编辑介绍与 ComfyUI 使用指南

沉浸式翻译插件重大安全漏洞：网页快照功能导致用户敏感信息大规模泄露

沉浸式翻译插件重大安全漏洞：网页快照功能导致用户敏感信息大规模泄露

GLM-4.5技术报告与应用体验：国产智能体大模型新标杆

GLM-4.5技术报告与应用体验：国产智能体大模型新标杆

Win11Debloat 深度指南：一键精简 Windows 11，告别臃肿，提升系统性能

Win11Debloat 深度指南：一键精简 Windows 11，告别臃肿，提升系统性能

阿里Qwen-MT翻译模型重磅升级：92种语言、秒级响应，挑战GPT-4翻译霸主地位

阿里Qwen-MT翻译模型重磅升级：92种语言、秒级响应，挑战GPT-4翻译霸主地位

Kimi K2如何凭借三大创新炼成万亿开源模型？

Kimi K2如何凭借三大创新炼成万亿开源模型？

Docker运行macOS教程：Linux系统完整配置与部署指南

Docker运行macOS教程：Linux系统完整配置与部署指南

Qwen-TTS重磅发布：阿里云方言语音合成新巅峰，API极速体验！

Qwen-TTS重磅发布：阿里云方言语音合成新巅峰，API极速体验！

相关文章