DeepSeek R1第一次让我小失望了

DeepSeek R1第一次让我小失望了

这两天,AI圈最火爆的新闻莫过于马斯克亲自站台宣传的Grok3。这位科技狂人将Grok3吹上了天,又是20万张顶级GPU,又是史诗级训练,让人不禁好奇,这“含着金汤匙”出生的AI,究竟能有多神?

这20万卡具体是:

初始阶段使用了10万张英伟达H100 GPU,训练时间为122天。

后来扩展到20万张GPU,其中包括:

  • 原有的10万张H100
  • 新增5万张H100
  • 新增5万张H200
  • 扩展后又训练了92天

总的训练时间达到214天,使用了全球最大的AI训练集群Colossus。这个训练规模被马斯克称为"前所未有的,远超过前代Grok 2使用的1.5万张GPU。

App和网页端一上线就迫不及待地体验了一番,效率和效果确实让人眼前一亮,不得不承认,AI世界每天都在刷新惊喜,而Grok无疑是最新加入的“王炸”选手。

DeepSearch速度质量都不输于Perplexity

心痒难耐地充值了5美元,就等着API快点到碗里来。但在API排队期间,我的注意力又被另一个“新晋网红”吸引了——腾讯的ima app。 尤其想试试 “知识库+DeepSeek” 究竟能碰撞出什么火花。

说干就干,我立刻将小宇宙App里“屠龙之术”的主持人庄明浩,邀请嘉宾Monica的张涛老师,东不压桥研究院的张鹏老师,律人行主播Lily聊的一期播客:“Vol.51 那些关于DeepSeek的谣言与误解。”下载下来,转成pdf文本,一股脑儿投喂给ima,然后问一个总结性的问题:

请根据知识库中的信息,总结所有 deepseek 能成功、与众不同、让大家大为惊异的地方,一定要列出来所有的特点。

然而,ima在调用DeepSeek R1后,足足思考了35秒(不算长),给出的答案竟然是 “文中并未提及关于deepseek的技术特点、功能优势或创新点”。 这结果让我瞬间懵了,难道是embedding环节出了问题?但再试着问一些查找类的简单问题,ima却又能对答如流。 免费固然香,但这 “首选知识库” 的地位,恐怕要重新掂量掂量了。

略感失望之余,我转战Cherry Studio,再次对DeepSeek R1发起测试。 这次回答基本算得上正确,但细究之下,却发现它漏掉了一个我特别想让DeepSeek “高亮” 的关键信息,那是播客中张涛老师强调的DeepSeek的破圈之处:

那么DeepSeek除了本身的这个技术很厉害,并且开源以外,我觉得他破圈还有一个非常重要的一个点,就在于他在全世界范围之内第一次提供了一个既有reasoning model,又可以通过搜索获取现实知识不断的结合反思的这样子的一个一个产品。你要记得这是一个产品啊,这不是一个模型。

为了验证是否是DeepSeek本身能力不足,我决定请出我心中的 “优等生” Claude 来做对比测试。 结果证明,Claude依然稳定可靠,不仅精准地抓住了张涛老师提到的关键点,还在总结的深度和广度上都更胜一筹, Claude的总结如下:

我将Claude的总结列在下面,因为这个总结也是对DeepSeek当下成功原因比较全面的总结了:

根据对话内容,以下是deepseek成功和与众不同的关键特点:

技术创新方面:

  1. 在V3版本就实现了重要技术突破,使用工程和算法结合的创新方法,在算力受限情况下达到了GPT-4和Claude 3.5级别的基础模型能力
  2. 首创将推理模型(reasoning model)和搜索(search)功能结合,提供了全新的用户体验
  3. 创新性地解决了S800芯片内存带宽不足的问题,通过特殊的工程优化方法提升性能
  4. 在资源受限条件下实现了高性能,展示了极强的工程创新能力

商业模式方面:

  1. 完全开源(MIT协议),打破了之前闭源模型的垄断格局
  2. 母公司换方资金实力强,可以不急于商业化,专注技术突破
  3. 没有外部投资人约束,可以更专注于技术创新

影响力方面:

  1. 在短短十几天内实现爆火,用户量超过了其他投入巨资的产品
  2. 获得了包括之前对中国AI持怀疑态度的国际意见领袖的认可
  3. 打破了"只有投入huge算力才能做好大模型"的传统认知
  4. 引发了全球AI产业的深度讨论和反思

独特优势:

  1. 作为中国团队,在当前地缘政治背景下反而更适合做纯技术创新
  2. 技术实力获得全球认可,改变了此前国际社会对中国AI的认知
  3. 展示了不同于主流商业路线的技术理想主义道路的可行性

这次成功引发了对AI发展路径、商业模式、技术创新等多个层面的深度反思和讨论,具有重要的里程碑意义。

写在最后。

一番对比测试下来,DeepSeek R1 的 “推理能力” 和 “文字质量” 依然可圈可点,如果让它发挥增加故事性,也称得上足够惊艳。但要论 “总结归纳” 技能,至少从这次测试来看,它还有明显的提升空间。 当然,这仅仅是我让ima以及DeepSeek与本地知识库搭档的 “初体验”, 或许在未来的迭代中,ima和DeepSeek会给我们带来更大的惊喜。 狂人马斯克已加入厮杀,我们也该加油了!无论如何,AI的进化速度,今年还会继续超出我们的想象,不是吗?

特别声明:[DeepSeek R1第一次让我小失望了] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

《我和我的命》谭松韵主演,30集年代剧央视播,阵容强悍,好剧追不完!(我和我的命什么时候播)

这一点在即将于暑期在央视播出的《逍遥》和《我和我的命》中表现得尤为明显,这两部剧的题材截然不同,然而都让人充满期待。 其中,30集的年代创业大剧《我和我的命》无疑是谭松韵的一次重大突破,也是她参与的高质量佳作…

《我和我的命》谭松韵主演,30集年代剧央视播,阵容强悍,好剧追不完!(我和我的命什么时候播)

iQOO 15跳级出山:游戏党的终极神器竟能拍月亮了?(iqoo5为什么闪退)

戈蓝团队直接甩出王炸——跳过14代命名的iQOO 15,硬是把电竞机和相机焊成了一体机!让老用户拍桌叫好的是3.5倍光学变焦回归——演唱会抓拍爱豆特写、旅行拍雪山细节,放大裁切画质依然能打!这次连月亮环形山都…

iQOO 15跳级出山:游戏党的终极神器竟能拍月亮了?(iqoo5为什么闪退)

青豫直流10万千瓦光热项目吸热塔吸热屏完成吊装(青豫直流工程甘肃段工程简介)

据中国电建集团湖北工程有限公司报道,近日,国能青豫直流二期10万千瓦光热项目吸热塔吸热屏吊装完成,项目团队凭借先进技术和高效协作,仅耗时9天便成功完成全部18片管屏的吊装,创造了国内同类机组的最快纪录。 吸热…

青豫直流10万千瓦光热项目吸热塔吸热屏完成吊装(青豫直流工程甘肃段工程简介)

蓝思科技:今年承接智元机器人全系列多款人形机器人业务(蓝思科技今年什么时候放假)

此外,公司作为北美大客户外观件和结构件的核心供应商,在产品开发过程中与客户通力合作,深入参与产品的设计、研发、生产、迭代等全周期,提供量身定制的解决方案,折叠屏新品开发和验证均进展顺利,已根据客户需求进行产…

蓝思科技:今年承接智元机器人全系列多款人形机器人业务(蓝思科技今年什么时候放假)

孙菲菲再度发文,揭露王阳双面人嘴脸,“叔圈天菜”摊上事了!(孙菲菲2011)

随着时间的推移,孙菲菲逐渐意识到,原来当年王阳并未真正站在自己这一边,反而在背后为导演辩护,这让她深感背叛。 孙菲菲坦言,如果王阳当时仅仅表示自己不在场、不清楚情况,她并不会责怪他,因为在娱乐圈的弱势期,自保…

孙菲菲再度发文,揭露王阳双面人嘴脸,“叔圈天菜”摊上事了!(孙菲菲2011)