一个资深用户的真实体验:文心X1挺让人失望

一个资深用户的真实体验:文心X1挺让人失望

日前,百度正式发布文心大模型4.5及文心大模型X1,在文心一言官网即可免费使用。

据百度相关负责人介绍,文心大模型X1为深度思考模型,具备“长思维链”,擅长中文知识问答、文学创作、逻辑推理等,而且增加了多模态能力和多工具调用,能理解和生成图片,还能调用工具生成代码、图表等丰富内容。

这一一消息很让人振奋。振奋的原因有二:

一是作为国内最早紧跟ChatGPT潮流率先发布通用语言大模型的厂商,百度此次虽然后知后觉,在国内已涌现出不少优秀深度推理大模型的情况下才推出自家的思考大模型,有点姗姗来迟的味道,但毕竟有胜于无,没有错失推理大模型这波潮流。

二是文心X1的出现,再度丰富了国产深度大模型市场。2023年,自OpenAI扔出o1,首次将推理大模型及长思维链的概念普及给普通民众后,全球大模型市场闻风而动,涌现出不少同类产品。

远的不说,仅说国内,自年后以来就陆续发布了包括科大讯飞星火X1和『DeepSeek』等在内的深度推理大模型,并凭借出色的能效比,引发全球瞩目。文心X1的发布,无疑使得国产深度推理大模型阵营更加庞大。

于是对于文心X1的推出,网上一片欢腾。诸如性能可以“比肩『DeepSeek』”、“超越Open AI o1”,“百度厚积薄发,后来者居上”等呼声震耳欲聋,好像文心X1一出,国产深度推理大模型从此雄起了,但事实果真如此?

作为国产大模型的忠实用户,笔者在第一时间测试了文心X1的数学能力。

之所以没有测试文心X1的其他能力,是因为其他能力太泛化了,没有统一的评定标准。

举个简单的例子,所有大模型都可以轻松生成文本,但哪款生成的好,恐怕是一个人一个观点,青菜萝卜各有所好。有人喜欢《红楼梦》,有人喜欢《西游记》,有人喜欢《笑傲江湖》,自然也有人喜欢《盗墓笔记》。

所以普通用户评判一款大模型能力的最好,也是最直接、最有效的方法,就是让它回答有固定答案的问题,比如解答数学题和代码编写。

推理大模型相比于传统语言大模型的最大优点,是具备“长思维链”能力,能够类人思考,这使得它在解答数学题和编写代码,有着通用大模型无可比拟的优势。

也正因为此,OpenAI o1推出伊始至今,反复鼓吹的就是其数学能力,什么奥数试卷的解答正确率达到百分之几,大学数学考卷成绩超过多少学生等。

所以这里的评测,仅限于文心X1的数学。如果在推理大模型本该擅长的数学方面都表现欠佳,那么文心X1的综合能力也就可想而知了。

此次测试试题来自《2024年普通高等学校招生全国统一考试(新高考I卷)》。试题不多,只选了三个。

这题分两小问,正确答案分别为:(1)π/3;(2)2√2。文心X1解答正确。

该题正确答案是:(1)1/2;(2)x-2y=0或3x-2y-6=0,文心X1给出的答案的(1)正确,(2)错误。

该题的正确的答案是:(1)证明过程略;(2)√3。文心X1证明出了AD//平面PBC,却在第二小题时栽了跟头,给出了错误答案。

该题的正确答案是:(1)a=-2;(2)证明过程略;(3)b≥-2/3。文心X1答对了该题。但在解答过程中,表现出下列问题。

一是页面长时间处于假死状态,二十多分钟无反应,多次重新进入文心X1,多次让其重新解答,最终才给出了答案。

二是给出答案时间太长,且忽视了深度推理大模型共同奉行的逻辑推理及验证过程应在思考环节完成,思考成熟后,再给出回复的基本规律,而是在思考完毕,在解答过程中,重新进入了思考、验证过程,导致解题过程很长,无法完整截图,且用时惊人,达到了一个半小时,极大影响了用户的操作体验,也耗尽了耐心。

而同样是这道题,某国产深度推理大模型仅用几分钟就完成了,且答案正确,解题过程简捷、明晰。

同时,对于上面文心X1答错的两道题(16、17题的后一小问),该推理大模型也给出自己的答案,正确率100%,说明文心X1在数学能力上的平庸表现,并不代表当前推理大模型共有水平,而是它自己的水平的确有限。

某国产深度推理大模型解答16题

某国产大模型解答17题

特别声明:[一个资深用户的真实体验:文心X1挺让人失望] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

归队》汤德远的绝情策略,肖铁林背后的黑暗真相终于曝光!(归队汤德远)

但正是这些"不完美",让汤德远在军装与围裙间的痛苦挣扎,戳中了每个普通人的泪腺。但谁都没料到,这场死亡威胁竟成了英雄归队的号角。 《归队》相当绝的是它撕碎了非黑即白的抗战叙事。当汤德远相当后迎着朝阳举起步

《<strong>归队</strong>》汤德远的绝情策略,肖铁林背后的黑暗真相终于曝光!(归队汤德远)

何超莲澳门拍戏?还和男演员『此沙』同框飙戏,两人手拿冰棍很有cp感(何超莲发文缅怀赌王)

再加上何超莲的老公『窦骁』也是知名的男演员,所以这么有利的条件何超莲也已经算是半个『明星』️了,当然了从何超莲的动态我们也可以看出她很有『明星』️范,演技也是很自然,也许这和她的家背景有关系,她的爸爸赌王何鸿燊也曾经很喜欢…

何超莲澳门拍戏?还和男演员『此沙』同框飙戏,两人手拿冰棍很有cp感(何超莲发文缅怀赌王)

颜世魁:余生好好走,无子无女黄狗相伴,68岁征婚,一生凄苦!(颜世魁个人资料的老婆)

尽管在事业上取得了巨大成功,颜世魁的个人生活却并非一帆风顺,今天让我们聊聊关于他的故事吧。颜世魁在事业上取得了成功,但他也因此逐渐冷落了妻子。于是,他给自己定下了一个十年的目标,但没想到,这十年的经商之路并不…

颜世魁:余生好好走,无子无女黄狗相伴,68岁征婚,一生凄苦!(颜世魁个人资料的老婆)

54岁李英爱公开保养秘诀,全靠一个动作,承认做医美,每年做三次(李英爱专访)

面对关于保养秘诀的询问,李英爱展现出一贯的从容与幽默,先是开玩笑地表示这是1&quot;商业机密1&quot;,随后真诚地分享了她的日常心得。2009年与年长20岁的企业家结婚后,她选择暂别演艺圈,专注于家庭和慈善事业。 在

54岁李英爱公开保养秘诀,全靠一个动作,承认做医美,每年做三次(李英爱专访)

谢晋:4个孩子3个残疾,临终才发现是自己造成的,一生比黄连还苦(谢晋两个儿子)

唯一健康的儿子谢衍,本应成为这个家庭的希望,却在58岁时因肺癌早逝,让白发人送黑发人的悲剧一再上演。他的《牧马人》《芙蓉镇》等作品成为新中国电影史上的里程碑,但这位电影大师晚年却说:&quot;我这一辈子有再高的成就,…

谢晋:4个孩子3个残疾,临终才发现是自己造成的,一生比黄连还苦(谢晋两个儿子)