梁文锋在《自然》发表封面论文,『DeepSeek』成首个严格学术审查大模型(梁文山是谁)
当同行们热衷于召开发布会、冲击排行榜时,『DeepSeek』创始人梁文峰带领团队默默完成了从实验室到学术圣殿的跨越。就像论文中那些精妙的算法设计,中国AI产业也在完成自己的"架构升级":从技术跟跑者到规则制定
当同行们热衷于召开发布会、冲击排行榜时,『DeepSeek』创始人梁文峰带领团队默默完成了从实验室到学术圣殿的跨越。就像论文中那些精妙的算法设计,中国AI产业也在完成自己的"架构升级":从技术跟跑者到规则制定

由『DeepSeek』团队共同完成、梁文锋担任通讯作者的『DeepSeek』-R1推理模型研究论文,登上了国际权威期刊《自然(Nature)》的封面。与今年1月发布的『DeepSeek』-R1的初版论文相比,本次论文披露…

这不仅是对『DeepSeek』团队努力的认可,更是对人工智能领域的重要贡献。 『DeepSeek』-R1是全球首个经过同行评审的主流『大语言模型』,这一成就标志着在『大语言模型』的研发与应用中,独立评审的重要性得到了充分的体…

快科技8月15日消息,日前,《财富》杂志发布2025年全球最具影响力的100位商界领袖榜单。 全球第三大手机制造商小米的创始人 @ 雷军长期以来将史蒂夫·乔布斯视为榜样。 以『智能手机』闻名的小米,如今希望今年…

根据大模型能力测试机构Intelligence evaluation公布的众测结果,OpenAI这两款模型的性能确实在远远小于『DeepSeek』R1和Qwen 3的体量下,获得了接近于两个中国开源模型的性能…

在这篇论文中,他们提出了一种名为 NSA 的本机可训练的稀疏注意力机制,该机制将算法创新与硬件优化相结合,以实现高效的长上下文建模。 如下图所示,实验表明,在通用基准测试、长上下文任务和基于指令的推理任务中…

4篇最佳论文中,出自中国团队之手的同样占到50%——分别是北大与『DeepSeek』合作、梁文锋署名的NSA论文,以及北大杨耀东团队揭示模型存在「抗改造」基因的论文。 获得TACL最佳论文奖和时间检验奖的论文,为…

研究发现那些在传统公平性测试中表现好的模型,在 “差异感知” 上得分并不高;模型能力越强(比如 MMLU分数越高),情境感知能力越好,但差异感知能力未必提升;现有的 “去偏见” 方法(比如提示模型 “保持…

紧接着在7月28日凌晨,智谱带来了其自身迄今为止最大参数的开源模型GLM-4.5,虽然彭博在援引知情人士表述时写的是“该公司正试图在全球范围内挑战OpenAI”,但一样走开源路线,一样希望在海外引爆的思路,…

紧接着在7月28日凌晨,智谱带来了其自身迄今为止最大参数的开源模型GLM-4.5,虽然彭博在援引知情人士表述时写的是“该公司正试图在全球范围内挑战OpenAI”,但一样走开源路线,一样希望在海外引爆的思路,…

周鸿祎在2025中国『互联网』大会期间的发言中,不仅对『DeepSeek』的现状进行了深入剖析,还对智能体的未来以及国产『芯片』的发展提出了自己的见解。 整体来看,智能体的发展和国产『芯片』的崛起,是人工智能行业未来发展的…

360创始人周鸿祎在与搜狐科技等媒体的沟通中,强调智能体才是大模型真正落地的关键。 周鸿祎:Manus非常创新,相当于第一个走出来让大家看到了真正能独立干活的智能体是什么样子,这点我是非常肯定的,但我不是特别…

周鸿祎强调,『DeepSeek』为中国大模型产业作出了重要贡献:一是消除了“百模大战”,避免资源浪费,让行业更多基于现有开源模型做基座模型,推动了Agent(智能体)的发展,而Agent是大模型落地的关键;二是…

周鸿祎强调,『DeepSeek』为中国大模型产业作出了重要贡献:一是消除了“百模大战”,避免资源浪费,让行业更多基于现有开源模型做基座模型,推动了Agent(智能体)的发展,而Agent是大模型落地的关键;二是…

市场普遍认为,『DeepSeek』用户数据下滑,除了与部分比如腾讯元宝等产品全量接入『DeepSeek』分流了用户之外,还主要与『DeepSeek』新模型 R2迟迟未退出有关。 一个事实是,与OpenAI GPT 5…

在国内其他大模型玩家卯足劲头追平乃至超过『DeepSeek』模型性能之际,梁文锋只是带领团队出着一些小招式,如『DeepSeek』 V3模型完成小版本升级,上线新版本『DeepSeek』-V3-0324,随后又更新了以…

『DeepSeek』创始人梁文锋说,“所有的套路都是上一代的产物,未来不一定成立”;宇树科技创始人王兴兴表示,“AI驱动『机器人』️每天进化非常快,基本上速度是超过我预期的,每天给我的惊喜也非常大”;大疆创始人汪滔认…

『DeepSeek』创始人梁文锋说,“所有的套路都是上一代的产物,未来不一定成立”;宇树科技创始人王兴兴表示,“AI驱动『机器人』️每天进化非常快,基本上速度是超过我预期的,每天给我的惊喜也非常大”;大疆创始人汪滔认…

但在这前后,他都始终保持着低调,一如他率领的那个推出『DeepSeek』大模型的AI技术团队——除了偶尔崭露头角的论文,业界对他和他们的了解,并不比半年前多了多少。2025年5月,在不少实习生招聘平台上都出现了…

5月16日消息,近日『DeepSeek』创始人梁文锋等人发表了一篇名为《Insights into 『DeepSeek』-V3: ScalingChallenges and Reflections on Hard…

通信方面,『DeepSeek』-V3 采用了多层胖树网络(Multi-Plane Fat-Tree),避免不同任务流量冲突;在模型推理时,还将「注意力计算」和「专家间通信」分阶段执行,利用流水线并行(DualP…

在财报分析师电话会上,吴泳铭分享了 AI 领域的两大最新趋势:一是在大中型企业,AI 应用开始从内部系统向用户侧场景渗透;二是积极使用 AI产品的客户,从大中型企业延展到大量中小企业,「2026 财年,我…

但随着『DeepSeek』横空出世,并宣布开源之后,这些国家一看,我们现在也掌握了『DeepSeek』这种先进算法了,那美国人似乎也没有那么可望不可及呀! 你只能把有限的资源,都在选定的一条或数条路径上,如果选错了…

『DeepSeek』 表示,DualPipe 曾在 V3R1 的训练中使用,是一种用于计算 - 通信重叠的双向 pipeline 并行算法。训练配置文件数据展示了 『DeepSeek』 在 DualPipe 中…

南都记者获悉,梁文锋是位80后,来自广东湛江吴川,他成长于一个普通家庭,父母为人淳朴,都是小学语文老师。 2月26日,何世豪在接受南都记者采访表示,“现在主要是扩大了科研思路,想在博后这段时间多做一些事情,…

这些消息人士并未提供『DeepSeek』 R2的新发布日期。外媒表示,目前对『DeepSeek』的下一代人工智能模型知之甚少,但该公司希望R2在编程技能上有改进,并能够用英语以外的语言进行推理。 自1月发布以来…

2月18日,浙江杭州余杭区经济高质量发展大会上,灵伴科技(Rokid)创始人兼CEO祝铭明,佩戴公司最新AR眼镜👓 RokidGlasses现身大会。 祝铭明介绍,天宫一号上宇航员佩戴的眼镜👓就来自灵伴科技,…

2月18日,就在『DeepSeek』论文发布当天,月之暗面创始人杨植麟也带领团队发布最新论文《MoBA: MIXTURE OF BLOCKATTENTION FOR LONG-CONTEXT LLMS(直译为…
