阿里开源全新推理模型QwQ-32B,一台Mac就能实现顶级推理能力

阿里开源全新推理模型QwQ-32B,一台Mac就能实现顶级推理能力

3 月 6 日,阿里巴巴旗下的 Qwen 团队用一条题为《QwQ-32B:拥抱强化学习的力量》的博文公布了全新的开源大型推理模型 QwQ-32B(Qwen-with-Questions),这款仅有 320 亿参数的模型通过强化学习技术,在多项基准测试中展现出与拥有 6710 亿参数(激活参数 37B)的 DeepSeek-R1 相媲美的性能。

图丨相关博文(来源:Qwen)

QwQ-32B 在数学推理、编程能力等问题解决方面表现出色。根据官方发布的基准测试结果,在数学推理基准 AIME24 上,QwQ-32B 达到了 79.5 分,几乎与 DeepSeek-R1 的 79.8 分持平,远超 OpenAI o1-mini 的 63.6 分,也超过了 DeepSeek-R1 蒸馏到 Llama-70B 和 Qwen-32B 的版本(分别为 70.0 和 72.6 分)。

在编程能力方面,QwQ-32B 在 LiveCodeBench 上获得了 63.4 分,接近 DeepSeek-R1 的 65.9 分,明显优于 o1-mini 的 53.8 分和蒸馏模型。在 LiveBench 测试中,QwQ-32B 得分 73.1,与 DeepSeek-R1 的 71.6 分相当,且大幅领先于 o1-mini 的 59.1 分。在 IFEval 和 BFCL 上,也略微超过了 R1。

图丨基准测试结果(来源:Qwen)

jrhz.info

Hugging Face 的 Vaibhav Srivastav 在评测后发表评论:“QwQ-32B 在 Hyperbolic Labs 支持下的推理速度‘快得惊人’,完全可与顶级模型媲美。”“在 Apache 2.0 许可下,它成功击败了 DeepSeek-R1 和 OpenAI o1-mini。”

图丨相关推文(来源:X)

不过,有部分用户反应,QwQ-32B 有时会出现过度思考的问题,哪怕是很简单的问题也会生成大量的思维链(比如在经典的“Strawberry”问题上,它会输出近七万字的思维链),导致其输出结果的速度较慢。

模型架构方面,QwQ-32B 采用因果语言模型架构,具有 64 层 Transformer 结构,相比常见的模型层数更深。它完整集成了 RoPE(旋转位置编码)、SwiGLU 激活函数、RMSNorm 层归一化和 Attention QKV 偏置,这些都是当前先进大模型的标准配置。

模型采用了广义查询注意力机制,具体配置为 40 个查询头、8 个键值对头,这种配置优化了注意力机制的效率和性能。QwQ-32B 的上下文窗口长度高达 131,072 个 token,远超普通模型,支持超长文本处理。

QwQ-32B 的训练过程分为三个阶段:预训练、监督微调和强化学习,其中强化学习又分为两个关键阶段:

第一阶段聚焦于数学和编程能力的提升。Qwen 团队从冷启动检查点开始,采用基于结果的奖励驱动的强化学习扩展方法。在数学问题训练时,模型使用专门的准确性验证器(Accuracy Verifier),而非传统奖励模型;编程任务则通过代码执行服务器(Code Execution Server)评估代码是否通过预定义测试用例。训练过程中,随着训练轮次增加,两个领域的性能持续提升。

第二阶段则侧重通用能力增强。模型引入通用奖励模型和规则验证器进行训练。即使是少量的训练步骤,也显著提升了指令跟随、人类偏好对齐和智能体性能,并且实现通用能力提升的同时,不显著降低第一阶段获得的数学和编程能力。

由此,QwQ 得以在 32B 的小参数上就实现了强大的推理能力。昨天还在感叹花八九万买 512GB 内存 M3 Ultra 的 Mac Studio 就能运行完整版 DeepSeek-R1 了(甚至还需要量化),但现在,只需要几千块的 Mac Mini,你就能获得接近的体验。

而且,QwQ-32B 的小参数量带来了更低的延迟和更高的吞吐量。在相同硬件条件下,小参数模型在推理速度上具有天然优势,能够提供更快的响应时间和更高的并发处理能力。对于一些中小型研究团队、初创企业和个人开发者来说,这无疑大大降低了他们使用先进推理模型的门槛。

而且,QwQ-32B 也整合了与智能体相关的能力,使模型能够在思考的同时使用工具,并根据环境反馈调整推理过程。在此基础上,QwQ-32B 就可以作为企业自动化流程中的核心推理引擎,处理从数据分析、报告生成到编程辅助等各种复杂任务。

目前,QwQ-32B 已在 Hugging Face 和 ModelScope 上以 Apache 2.0 许可开源,个人用户也可通过 Qwen Chat 直接体验该模型。

DeepSeek-R1 到 diffusion LLMs,再到 QwQ-32B,最近的一系列突破似乎让实现顶级性能模型所需要的算力越来越低,尽管未来对于高性能芯片的总需求或许并不会减少,但这种变化对于那些以往依赖大量计算资源的巨头们来说,恐怕免不了造成一些冲击。

参考资料:

https://qwenlm.github.io/zh/blog/qwq-32b/

运营/排版:何晨龙

特别声明:[阿里开源全新推理模型QwQ-32B,一台Mac就能实现顶级推理能力] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

囧次元:当“社死”成为文化狂欢的催化剂

社交媒体主导的时代,“社死”已从私人尴尬演变为群体狂欢的素材。囧次元作为青年文化的集散地,将“社死”场景转化为幽默素材,通过短视频、表情包等形式重构社交语境。囧次元通过算法推荐机制,将“社死”内容精准推送至…

囧次元:当“社死”成为文化狂欢的催化剂

2026春夏纱线展趋势解析!(纱线展会)

当土耳其格纹大师的指尖划过安徽苎麻混纺天丝,当德国机械臂纺出的荧光纱线在暗室中泛起星云光晕——全球纺织业的未来正在上海悄然显形。 +必带:放大镜(观察纱线肌理)、紫外线手电(验荧光纱真伪) - 避雷:午间…

2026春夏纱线展趋势解析!(纱线展会)

iOS 18.6.126 紧急更新,这功能回归

随后苹果败诉,并于次年 1 月在美国地区推出禁用了血氧功能的 Apple Watch。 另外,除了美版血氧功能之外,iOS 18.6.1多半还是一次常规的修复更新。 除了 iOS 18 之外,苹果近期还发…

iOS 18.6.126 紧急更新,这功能回归

银河酷娱向张芷溪发律师函,张芷溪回应:那就法院见!(银河酷娱公司艺人)

她表示,当掌握《献鱼》的IP开发权时,银河酷娱以“赵露思参演必须让公司参与制作”为条件促成合作,并双方签署了联合制作的协议。但无论结果如何,这场风波显露出行业内的两大顽疾:一是“顶流绑架”谈判的普遍现象,二是…

银河酷娱向张芷溪发律师函,张芷溪回应:那就法院见!(银河酷娱公司艺人)

被说 “歪瓜裂枣” 的女星!整容后 “美若天仙”,这些成功案例火了

整容后的李冰冰气质明显提升,整体形象更加精致大方,事业也随之水涨船高。如今51岁的她,凭借稳重的气质和优雅的风采,依然活跃在一线影坛,用实力证明了“岁月也能宠爱美丽”。通过改善不足,女明星️们不仅收获了颜值,…

被说 “歪瓜裂枣” 的女星!整容后 “美若天仙”,这些成功案例火了