Qwen3参数概览:从0.6B到235B,混合推理与多模态的极致平衡(附本地部署参数推荐)
6 min read

阿里云通义千问团队最新发布的Qwen3系列模型,以其多样化的模型规模和创新的混合推理模式引发业界关注。涵盖从0.6B到235B的八款模型,Qwen3不仅在语言、数学和编码任务上表现卓越,还通过MoE(混合专家)和Dense(密集)架构实现了性能与效率的极致平衡。以下通过表格形式,详细梳理Qwen3系列的核心参数和特性,揭示其技术内核。
Qwen3模型参数一览
模型名称 | 总参数量 | 激活参数量 | 架构类型 | 上下文长度 | 支持语言 | 许可证 | 主要特性 |
---|---|---|---|---|---|---|---|
Qwen3-235B-A22B | 2350亿 | 220亿 | MoE | 128K token | 119种 | Qwen License | 旗舰模型,编码、数学、通用能力媲美DeepSeek-R1、Grok-3,高效推理 |
Qwen3-30B-A3B | 300亿 | 30亿 | MoE | 128K token | 119种 | Qwen License | 小型MoE,性能超Qwen2.5-32B,推理成本低,适合本地部署 |
Qwen3-32B | 320亿 | 320亿 | Dense | 128K token | 119种 | Apache 2.0 | 高性能密集模型,适合复杂任务,推理能力匹敌Qwen2.5-72B |
Qwen3-14B | 140亿 | 140亿 | Dense | 128K token | 119种 | Apache 2.0 | 中等规模,平衡性能与资源占用,适合企业级应用 |
Qwen3-8B | 80亿 | 80亿 | Dense | 128K token | 119种 | Apache 2.0 | 轻量高效,适用于边缘设备,性能媲美Qwen2.5-14B |
Qwen3-4B | 40亿 | 40亿 | Dense | 128K token | 119种 | Apache 2.0 | 小型模型,推理速度快,性能接近Qwen2.5-7B |
Qwen3-1.7B | 17亿 | 17亿 | Dense | 128K token | 119种 | Apache 2.0 | 超轻量,适合移动设备,性能匹敌Qwen2.5-3B |
Qwen3-0.6B | 6亿 | 6亿 | Dense | 128K token | 119种 | Apache 2.0 | 最小规模,极低资源需求,适用于低功耗场景 |
Qwen3 本地部署推荐参数设置
模式 | Temperature | TopP | TopK | MinP | Presence Penalty | Ollama 设置 | 备注 |
---|---|---|---|---|---|---|---|
思考模式 | 0.6 控制随机性,低值更稳定 | 0.95 累积概率采样,高值增多样性 | 20 选前K个词,平衡多样性 | 0 无概率下限,最大灵活性 | 0 ~ 2 减少重复,高值慎用 | num_ctx=40960 num_predict=32768 keep_alive=-1 | 禁用贪婪解码,避免性能下降和重复。 |
非思考模式 | 0.7 稍高随机性,增创造性 | 0.8 较低值,输出更集中 | 20 选前K个词,平衡多样性 | 0 无概率下限,最大灵活性 | 0 ~ 2 减少重复,高值慎用 | num_ctx=40960 num_predict=32768 keep_alive=-1 | 高 presence_penalty 可能导致语言混合 |
参数与特性解析
模型规模与架构类型
Qwen3系列提供两种架构:
- MoE(混合专家):如Qwen3-235B-A22B和Qwen3-30B-A3B,通过激活部分参数(22B或3B)实现高效推理,总参数量虽大,但计算成本接近小规模密集模型。MoE架构在编码、数学等任务中表现出色,推理速度提升显著。
- Dense(密集模型):从0.6B到32B的全参数模型,适合需要稳定高性能的场景。小模型(如Qwen3-0.6B)针对边缘设备优化,大模型(如Qwen3-32B)则在复杂推理任务中表现优异。
上下文长度
所有Qwen3模型支持128K token的上下文长度,可处理超长文档或多轮对话,生成能力高达8K token。这一特性使其在长文本生成、文档理解等任务中具备明显优势。
多语言支持
Qwen3支持119种语言和方言,覆盖中文、英文、欧洲语言及低资源语言,适用于全球化的多语言应用场景。
混合思维模式
Qwen3首创思考模式与非思考模式切换:
- 思考模式:通过链式推理(CoT)逐一推导,适合复杂数学、编码和逻辑推理任务。
- 非思考模式:快速响应简单查询,优化延迟和计算成本。
这一设计通过四阶段训练(长CoT冷启动、基于推理的RL、思维模式融合、通用RL)实现,显著提升任务适配性。
许可证与开源策略
- 密集模型(0.6B-32B)采用Apache 2.0许可证,适合商业应用。
- MoE模型(235B-A22B、30B-A3B)使用Qwen License,更适合研究场景。
性能与效率
基准测试表现
- Qwen3-235B-A22B:在MMLU-Pro、LiveCodeBench等测试中,与DeepSeek-R1、Grok-3等顶级模型竞争,编码和数学能力尤为突出。
- Qwen3-30B-A3B:激活仅3B参数,却超越Qwen2.5-32B,推理效率提升10倍,适合本地部署和实时应用。
- 小型模型:如Qwen3-4B,性能媲美Qwen2.5-72B,适合资源受限场景。
相关链接
更多文章

Gemma 3 QAT技术详解:谷歌最新量化感知训练技术分析 | 性能媲美FP16的革命性突破

企业级部署实操:SGLang 多节点集群部署 Qwen 系列大模型

重磅!OpenAI 发布全能推理模型 o3 与高效型 o4-mini

开源DeepSeek推理引擎:推动AI基础设施的社区协作新篇章

Meta Llama 4涉嫌刷榜争议与高管离职风波交织,AI战略面临考验

一文秒懂AI核心技术:MCP、Agent、RAG、Function Call的协同之道

Qwen2.5-Omni 全能旗舰 VS 国产小钢炮 MiniCPM-V:参数、硬件、资源、优势全解析,谁才是真香之选?

DeepSeek-V3-0324 更新:全面提升的推理与创作能力

AI巨头正面交锋:Grok 3图片编辑功能横空出世,谷歌Gemini措手不及?