性能比肩『DeepSeek』,阿里开源最新推理模型发布即爆火

性能比肩『DeepSeek』,阿里开源最新推理模型发布即爆火

阿里再度推进开源进程。3月6日,阿里凌晨发布并开源『通义千问』推理模型QwQ-32B。据悉,千问QwQ-32B在数学、代码及通用能力上实现质的飞跃,用更小参数实现整体性能比肩『DeepSeek』-R1,并突破性地让高性能推理模型在消费级显卡上实现本地部署,大幅降低了模型应用成本。随后,千问推理模型QwQ-32B迅速登顶全球最大的AI开源社区Hugging Face大模型榜单。

据悉,阿里还在推理模型中集成了与Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。同时,阿里还开展了大规模强化学习。“在初始阶段,特别针对数学和编程任务进行了大规模强化学习训练。与依赖传统的奖励模型(reward model)不同,我们通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行『服务器』评估生成的代码是否成功通过测试用例来提供代码的反馈。”『通义千问』团队称。

最近,针对开源阿里方面动作频频。就在2月25日晚,阿里云深夜抢先开源旗下视觉生成基座模型万相2.1(Wan)。阿里云该开源产品采用最宽松的Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,在权威测评中,万相2.1也已经超越了Sora、Luma、Pika等国内外模型。

另外在2月25日日间,阿里Qwen团队在『社交媒体』宣布发布新推理模型——深度思考(QwQ)。据介绍,该新推理模型基于Qwen2.5-Max的推理模型,目前的模型为预览版,已具有很强的数学理解、编码、代理等能力,目前支持有深度思考(QWQ)和联网搜索,同时布局了多模态能力,能根据提示语句生成图片。

自2023年8月起,阿里云相继开源Qwen、Qwen1.5、Qwen2等多代模型,囊括了0.5B、1.5B、3B、7B、14B、32B、72B、110B等全尺寸,大语言、多模态、数学和代码等全模态。根据全球最大AI开源社区Hugging Face信息,截至目前,阿里千问(Qwen)开源大模型的衍生模型数量已突破10万。

采写:南都记者 林文琪

特别声明:[性能比肩『DeepSeek』,阿里开源最新推理模型发布即爆火] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

『英伟达』产品线H100H200、B100B200、GB200、HGXDGX的区别与参数(『英伟达』hgx a100)

H200 是H100的显存升级版,适合大模型;B200 是新一代性能王者,功耗也更大;GB200 是“B200 + GraceCPU”组合,用于超大系统;HGX 是GPU模组,卖给厂商做『服务器』;DGX 是…

『英伟达』产品线H100H200、B100B200、GB200、HGXDGX的区别与参数(『英伟达』hgx a100)

国产优秀工业3D软件推荐排行榜(工业产品3d展示用什么软件)

以中望、CAXA为代表的头部企业,不仅在CAD技术上持续深耕,实现了对国外主流软件的高度兼容和部分超越,还在更为复杂的CAE、CAM领域实现了技术突破。这种“CADCAECAM一体化”的解决方案,能够有效…

国产优秀工业3D软件推荐排行榜(工业产品3d展示用什么软件)

『倪妮』车展红焰绽放:低胸皮裙塑身型,女人味与高级感双杀!(『倪妮』惊艳红裙)

此次的酒红皮裙,是她将 “女人味” 标签在车展场景的一次延伸,皮裙的酷感中和了红唇『长发』的妩媚,让她既能 hold住汽车的硬朗气场,又没丢掉骨子里的性感韵味,这般风格的精准拿捏,难怪粉丝会为她疯狂打 call…

『倪妮』车展红焰绽放:低胸皮裙塑身型,女人味与高级感双杀!(『倪妮』惊艳红裙)

ZD941S-电动耐磨尘气蝶阀(dc53耐磨性)

具有结构简单,蝶板耐磨,密封寿命长,安装操作简单等特点,因此可适用于多种粉体颗粒物料的应用场合。 蝶阀启闭件是一个圆盘形的蝶板,在阀体内绕其自身的轴线旋转,从而达到启闭或调节的阀门叫蝶阀。铸钢蝶阀采用蜗轮减…

ZD941S-电动耐磨尘气蝶阀(dc53耐磨性)

杀青8年,美人鱼2还未上映,王晶一语点破真相,『周星驰』被坑惨了(杀青小说86章)

但就在影迷为少林女足欢呼时,另一个更令人揪心的话题再次浮出水面——那部"失踪"了八年的美人鱼2。这部投资高达6亿的巨制,在杀青后竟陷入无限期的搁浅。雪上加霜的是,另一位主演『罗志祥』也爆出丑闻,让这部本应稳赚

杀青8年,美人鱼2还未上映,王晶一语点破真相,『周星驰』被坑惨了(杀青小说86章)