阿里发布新开源权重模型 Qwen3


阿里巴巴宣布了 Qwen 系列最新模型 Qwen3。阿里称 Qwen3 是其首个具备快思考与慢思考能力的混合推理大模型,采用混合专家(MoE)架构,能模仿人类思考问题的方式,对复杂问题可多步骤“深度思考”,对简单需求可低算力“秒回”答案,极大节省算力消耗。阿里称,旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。阿里巴巴开源了两个 MoE 模型的权重:Qwen3-235B-A22B,一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型,以及Qwen3-30B-A3B,一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型。此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源。


© 版权声明
文章版权归作者所有,未经允许请勿转载。

前一篇:

发表回复