Tech Explorer Logo

搜索内容

Qwen3-Next 系列全解析:80B-A3B 的混合架构,Instruct 与 Thinking 双线能力进化

7 min read
Cover image for Qwen3-Next 系列全解析:80B-A3B 的混合架构,Instruct 与 Thinking 双线能力进化

Qwen 团队推出了新一代混合架构系列 —— Qwen3-Next,以 80B 总参数(80B-A3B)与稀疏激活(每次仅激活约 3B 参数)为核心设计思路,显著提升在长上下文、高并发与低延迟场景下的性价比。本系列包含两个主打方向:

  • Qwen3-Next-80B-A3B-Instruct:强调指令理解、对齐与稳定输出,不产生思考轨迹(无 <think></think>)。
  • Qwen3-Next-80B-A3B-Thinking:面向深度推理,默认包含思考轨迹(有 <think></think>;模板可能只显示闭合标签),推理链长度较前代更长。

参考来源:

  • Hugging Face(Instruct/Thinking 模型卡与集合)
  • Qwen 官方博客与社区资料
  • OpenRouter 模型页与第三方综述(ai-bot.cn 等)

为什么是 Next:三大工程目标

  • 成本与吞吐:80B 总参 × ~3B 激活,让推理像小模型一样高效,同时保持大模型能力上限。
  • 长上下文与稳定性:针对 32K+ 长文本进行优化,兼顾关键要点召回与结构化输出稳定性。
  • 生产可用性:强调延迟与并发表现,适配在线 API、企业知识问答与智能体工作流。

架构一览:Gated DeltaNet × Gated Attention × MoE

  • Gated DeltaNet(速度优先)
    • 设计为长文本处理优化,内存占用近似线性增长,流式生成更快,适合高并发服务。
  • Gated Attention(精度优先)
    • 在关键位置进行精确信息召回,确保长文本生成不丢失关键信息、段落结构更稳。
  • 大规模 MoE 专家系统
    • 社区资料显示包含多达 512 个专家;请求时仅动态路由少量专家(如 Top-K + 共享 1),实现负载均衡与计算节流。
  • 原生 MTP(Multi-Token Prediction)训练
    • 预训练阶段即引入多 token 预测,减少推理步数、提升长文吞吐,降低响应延迟。

Instruct vs Thinking:如何选型

  • Instruct(生产对话/Agent 首选)

    • 不输出 <think></think> 思考块,格式与对齐稳定,便于集成到产品化场景(如客服、表单生成、结构化 JSON/Markdown 输出)。
    • 指令遵循与格式控制更强,易于模板化与评测。
  • Thinking(深度推理/复杂任务)

    • 默认在提示模板中加入思考标记,用于生成/保留思考轨迹;在不同前端模板下可能只见到闭合 </think> 标签属正常现象(由官方模板控制)。
    • 链式推理能力更强,可在多步逻辑、数学/编程推导中获得更高准确率与稳定性。

实践建议:

  • 面向“严格格式、快速上线”的业务选 Instruct;
  • 面向“复杂推理、学术与工程推导”选 Thinking;
  • 也可在 RAG/Agent 中按任务类型动态路由到不同版本。

能力与表现(社区汇总)

  • Instruct:在多个指令与多任务基准上对齐或逼近更大规模(如 235B)的旗舰模型表现,尤其在长文本与吞吐上具优势。
  • Thinking:在推理能力上优于同类轻量/快推理模型(有报告称在部分指标上超过 Gemini 2.5 Flash-Thinking),可输出更长的思考链。

注:具体分数以官方模型卡与第三方评测为准;本文聚焦能力侧画像与工程取舍,不复刻具体数值。

典型应用场景

  • 长文摘要与报告生成:技术白皮书、法律协议、研究综述等的分段抽取与结构化成文。
  • 代码生成与重构:跨文件理解、重构建议、测试样例生成与代码走查。
  • 企业级知识问答(RAG):支持多语言问答、事实召回与可追溯引用。
  • 智能体工作流:在工具调用、记忆管理与格式输出上表现稳健;可 Instruct/Thinking 混用。
  • 高并发在线服务:低延迟响应与稳定对齐,适合商业化 API 服务。

快速使用(概览)

  • Qwen Chat 网页版:可直接切换 Instruct/Thinking 体验(视官方提供)。
  • 阿里云百炼(Model Studio):按官方文档调用生产 API,推荐用于企业场景。
  • Hugging Face:按模型卡说明加载,会提供默认聊天模板;Thinking 版本会自动注入 <think> 模板片段。
  • OpenRouter:可用 qwen/qwen3-next-80b-a3b-instruct 等模型名,走 OpenAI 兼容接口。

提示:Thinking 版本可能输出较长思考内容;如需隐藏,可在系统提示或后处理阶段剔除 <think>...</think>

与上一代/同级别模型的对比要点

  • 相对 Qwen3-32B 等密集模型:Next 通过稀疏激活获得“更低成本 × 更高吞吐”,长上下文下更具规模优势。
  • 相对传统 MoE:在路由与门控上引入 Gated DeltaNet/Gated Attention 的混合设计,更好平衡速度与精度。
  • 相对万亿级旗舰:社区称 Instruct 在部分指令基准已逼近 235B 旗舰表现,Thinking 在推理上大幅进步,但总体上 Next 着重“快与稳”的生产可用性。

相关链接

Share

更多文章