阿里『通义千问』 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型

感谢霍州市融媒体中心信息网网友 软媒用户1392612 的线索投递!

霍州市融媒体中心信息网网 11 月 28 日消息,阿里『通义千问』今天(11 月 28 日)发布《QwQ: 思忖未知之界》博文,推出了 QwQ-32B-Preview 实验性研究模型,在数学和编程领域,尤其在需要深度推理的复杂问题上,具备卓越的 AI 推理能力。

它是少数能与 OpenAI 的 o1 匹敌的模型之一,并且是第一个能以宽松许可证下载的模型。QwQ-32B-Preview 在 Apache 2.0 许可证下“公开”可用,这意味着它可以用于商业应用。

QwQ 愿景

阿里『通义千问』团队表示“思考、质疑、理解,是人类探索未知的永恒追求”,而 QwQ 犹如一位怀抱无尽好奇的学徒,以思考和疑问照亮前路。

今日霍州(www.jrhz.info)©️

模型局限性

阿里『通义千问』团队首先表明 QwQ 模型具备局限性,仍在学习如何行走于理性之路,它的思绪偶尔飘散,答案或许未尽完善,智慧仍在积淀。

霍州市融媒体中心信息网网附上原文中对该模型的局限性介绍如下:

语言切换问题:模型可能在回答中混合使用不同语言,影响表达的连贯性。

推理循环:在处理复杂逻辑问题时,模型偶尔会陷入递归推理模式,在相似思路中循环。这种行为虽然反映了模型试图全面分析的努力,但可能导致冗长而不够聚焦的回答。

安全性考虑:尽管模型已具备基础安全管控,但仍需要进一步增强。它可能产生不恰当或存在偏见的回答,且与其他大型语言模型一样,可能受到对抗攻击的影响。我们强烈建议用户在生产环境中谨慎使用,并采取适当的安全防护措施。

能力差异:QwQ-32B-Preview 在数学和编程领域表现出色,但在其他领域仍有提升空间。模型性能会随任务的复杂度和专业程度而波动。我们正通过持续优化,努力提升模型的综合能力。

模型表现

QwQ-32B-Preview 包含 325 亿个参数,能够处理最长32000个tokens 的提示词;在AIME 和 MATH 基准测试中,它的表现优于 OpenAI 的两个推理模型 o1-preview 和 o1-mini。

GPQA

该基准是一个通过小学级别问题评估高阶科学解题能力的评测集,旨在考察科学问题解决能力。QwQ-32B-Preview 评分为 65.2%,展示了研究生水平的科学推理能力。

AIME

该基准涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测,测试数学问题解决能力。QwQ-32B-Preview 评分为 50.0%,证明了强大的数学问题解决技能。

MATH-500

该基准包含 500 个测试样本的 MATH 评测集,全面考察数学解题能力。QwQ-32B-Preview 成绩为 90.6%,体现了在各类数学主题上的全面理解。

LiveCodeBench

该基准评估真实编程场景中代码生成和问题解决能力的高难度评测集。QwQ-32B-Preview 成绩为 50.0%,验证了在实际编程场景中的出色表现。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

参考

QwQ: 思忖未知之界

QwQ-32B-Preview

特别声明:[阿里『通义千问』 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

人狂必招祸!闫学晶事件再度升级,这次无人能救自挖坟墓的她(人狂必有祸下联)

一切起源于一次直播,本来她是想在直播里哭诉一番,博得一点同情和关注,没想到结果却适得其反,反倒让自己成了舆论的焦点,网友们纷纷出言谴责。这一次,闫学晶的行为确实让她自己惹了麻烦,而最倒霉的,除了品牌,还…

人狂必招祸!闫学晶事件再度升级,这次无人能救自挖坟墓的她(人狂必有祸下联)

聊聊便捷的傅里叶近红外分析仪,哪个品牌口碑比较好(快速傅里叶变换详解)

它在多个行业中发挥着重要作用,为各领域的检测与分析工作提供了有力支持。它采用先进的傅里叶变换技术,能够实现快速扫描,大大提高了检测效率。如果需要进行高精度的检测,应选择分辨率和精度较高的产品;如果需要在现场进…

聊聊便捷的傅里叶近红外分析仪,哪个品牌口碑比较好(快速傅里叶变换详解)

SpaceX申请部署100万颗卫星,拟建太阳能卫星AI『数据中心』(spacex项目)

据美国联邦通信委员会备案文件显示,埃隆 马斯克旗下的SpaceX计划发射由 100 万颗卫星组成的卫星星座,这些卫星将绕地运行,并利用 太阳能为人工智能『数据中心』提供 电力。…

SpaceX申请部署100万颗卫星,拟建太阳能卫星AI『数据中心』(spacex项目)

千元价位,顶配体验!这枚德国军工级别智能腕表,让其他都沉默了(2020低价高配的千元机)

我们想要的,不过是“千元价位、军工品质、商务运动全能戴”的终极答案。 就在所有人以为“千元智能表到此为止”时,智能穿戴领域真正的“全能选手”悄然登场——它不仅继承了上述军工级品质与新潮设计美学,更在细节处彰显…

千元价位,顶配体验!这枚德国军工级别智能腕表,让其他都沉默了(2020低价高配的千元机)

朱之文被消费隐私成常态,辟谣跳楼后自谦我就是农民,蒋大为看人最准(朱之文被要钱)

有一次,他正在院子里喂鸡,镜头对准了他的脸,屏幕上弹出了一条评论:都成名了还住这么破的房子,装穷给谁看?有一位女子,持续了几年,发恶意视频,把朱之文P成了各种不堪入目的形象,底下还有人跟风留言:大衣哥不就一个…

朱之文被消费隐私成常态,辟谣跳楼后自谦我就是农民,蒋大为看人最准(朱之文被要钱)