『DeepSeek』 R1第一次让我小失望了

『DeepSeek』 R1第一次让我小失望了

这两天,AI圈最火爆的新闻莫过于马斯克亲自站台宣传的Grok3。这位科技狂人将Grok3吹上了天,又是20万张顶级GPU,又是史诗级训练,让人不禁好奇,这“含着金汤匙”出生的AI,究竟能有多神?

这20万卡具体是:

初始阶段使用了10万张『英伟达』H100 GPU,训练时间为122天。

后来扩展到20万张GPU,其中包括:

  • 原有的10万张H100
  • 新增5万张H100
  • 新增5万张H200
  • 扩展后又训练了92天

总的训练时间达到214天,使用了全球最大的AI训练集群Colossus。这个训练规模被马斯克称为"前所未有的,远超过前代Grok 2使用的1.5万张GPU。

App和网页端一上线就迫不及待地体验了一番,效率和效果确实让人眼前一亮,不得不承认,AI世界每天都在刷新惊喜,而Grok无疑是最新加入的“王炸”选手。

DeepSearch速度质量都不输于Perplexity

心痒难耐地充值了5美元💵,就等着API快点到碗里来。但在API排队期间,我的注意力又被另一个“新晋网红”吸引了——腾讯的ima app。 尤其想试试 “知识库+『DeepSeek』” 究竟能碰撞出什么火花❇️。

说干就干,我立刻将小宇宙App里“屠龙之术”的主持人庄明浩,邀请嘉宾Monica的张涛老师,东不压桥研究院的张鹏老师,律人行主播Lily聊的一期播客:“Vol.51 那些关于『DeepSeek』的谣言与误解。”下载下来,转成pdf文本,一股脑儿投喂给ima,然后问一个总结性的问题:

请根据知识库中的信息,总结所有 deepseek 能成功、与众不同、让大家大为惊异的地方,一定要列出来所有的特点。

然而,ima在调用『DeepSeek』 R1后,足足思考了35秒(不算长),给出的答案竟然是 “文中并未提及关于deepseek的技术特点、功能优势或创新点”。 这结果让我瞬间懵了,难道是embedding环节出了问题?但再试着问一些查找类的简单问题,ima却又能对答如流。 免费固然香,但这 “首选知识库” 的地位,恐怕要重新掂量掂量了。

略感失望之余,我转战Cherry Studio,再次对『DeepSeek』 R1发起测试。 这次回答基本算得上正确,但细究之下,却发现它漏掉了一个我特别想让『DeepSeek』 “高亮” 的关键信息,那是播客中张涛老师强调的『DeepSeek』的破圈之处:

那么『DeepSeek』除了本身的这个技术很厉害,并且开源以外,我觉得他破圈还有一个非常重要的一个点,就在于他在全世界范围之内第一次提供了一个既有reasoning model,又可以通过搜索获取现实知识不断的结合反思的这样子的一个一个产品。你要记得这是一个产品啊,这不是一个模型。

为了验证是否是『DeepSeek』本身能力不足,我决定请出我心中的 “优等生” Claude 来做对比测试。 结果证明,Claude依然稳定可靠,不仅精准地抓住了张涛老师提到的关键点,还在总结的深度和广度上都更胜一筹, Claude的总结如下:

我将Claude的总结列在下面,因为这个总结也是对『DeepSeek』当下成功原因比较全面的总结了:

根据对话内容,以下是deepseek成功和与众不同的关键特点:

技术创新方面:

  1. 在V3版本就实现了重要技术突破,使用工程和算法结合的创新方法,在算力受限情况下达到了GPT-4和Claude 3.5级别的基础模型能力
  2. 首创将推理模型(reasoning model)和搜索(search)功能结合,提供了全新的用户体验
  3. 创新性地解决了S800『芯片』内存带宽不足的问题,通过特殊的工程优化方法提升性能
  4. 在资源受限条件下实现了高性能,展示了极强的工程创新能力

商业模式方面:

  1. 完全开源(MIT协议),打破了之前闭源模型的垄断格局
  2. 母公司换方资金实力强,可以不急于商业化,专注技术突破
  3. 没有外部投资人约束,可以更专注于技术创新

影响力方面:

  1. 在短短十几天内实现爆火,用户量超过了其他投入巨资的产品
  2. 获得了包括之前对中国AI持怀疑态度的国际意见领袖的认可
  3. 打破了"只有投入huge算力才能做好大模型"的传统认知
  4. 引发了全球AI产业的深度讨论和反思

独特优势:

  1. 作为中国团队,在当前地缘政治背景下反而更适合做纯技术创新
  2. 技术实力获得全球认可,改变了此前国际社会对中国AI的认知
  3. 展示了不同于主流商业路线的技术理想主义道路的可行性

这次成功引发了对AI发展路径、商业模式、技术创新等多个层面的深度反思和讨论,具有重要的里程碑意义。

写在最后。

一番对比测试下来,『DeepSeek』 R1 的 “推理能力” 和 “文字质量” 依然可圈可点,如果让它发挥增加故事性,也称得上足够惊艳。但要论 “总结归纳” 技能,至少从这次测试来看,它还有明显的提升空间。 当然,这仅仅是我让ima以及『DeepSeek』与本地知识库搭档的 “初体验”, 或许在未来的迭代中,ima和『DeepSeek』会给我们带来更大的惊喜。 狂人马斯克已加入厮杀,我们也该加油了!无论如何,AI的进化速度,今年还会继续超出我们的想象,不是吗?

特别声明:[『DeepSeek』 R1第一次让我小失望了] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

时隔多年,玄彬在老婆孙艺珍的ins里,终于有了名分。(时隔多年小说)

五年了从合作到结婚,从低调到公开孙艺珍和玄彬这对令人羡慕到眼红的韩剧CP,终于在『社交媒体』上官宣了!看来这才是真正的&34爱的迫降&34啊,戏里戏外都这么甜,羡慕死人了! 2022年孙艺珍和玄彬终于修成正果…

时隔多年,玄彬在老婆孙艺珍的ins里,终于有了名分。(时隔多年小说)

春季卫衣怎么搭更洋气?多种组合不重样,时尚感轻松拿捏!(春季卫衣怎么搭配)

最常见的就是白T恤👕与卫衣的组合了,露出领口、袖口和下摆让『穿搭』更有层次,这样在搭配牛仔裤👖的时候就不会太无聊,也是时髦精们的街拍标配。像连帽的套头卫衣就是非常受大家欢迎的一个单品,落肩的宽松版型有种男友风的慵懒和…

春季卫衣怎么搭更洋气?多种组合不重样,时尚感轻松拿捏!(春季卫衣怎么搭配)

雪琪早播报9月28日

校对 盛媛媛…

雪琪早播报9月28日

新石器:预计年底在深圳部署无人车超600辆(新石器值钱吗)

自深圳管理经验 2.0 发布后,无人车车辆规模快速增长,深圳福田地铁站实现了全国乃至全球首个“地铁+无人车”联运模式。无人车行业是中国产业的全球化战略机遇,未来应基于深圳模式,将深圳管理经验与中国无人车行业的…

新石器:预计年底在深圳部署无人车超600辆(新石器值钱吗)

芭莎这一夜,被笑不露齿的李宇春惊艳,从不穿暴露礼服却艳压群芳(芭莎被称为什么)

『明星』️们能够走上台后让大家眼前一亮,这本身就是对时尚感的一种展现,因此这种颁奖季活动逐渐趋于成为样式固定化的时候,这也就成为了『明星』️们时尚态度的一种体现方式,自然而然走上时尚活动的舞台。 9月23日晚间,今年“…

芭莎这一夜,被笑不露齿的李宇春惊艳,从不穿暴露礼服却艳压群芳(芭莎被称为什么)