DeepSeek梁文锋合著论文获ACL最佳论文奖,提出全新NSA稀疏注意力,效率超全注意力(梁文潇简历)
在这篇论文中,他们提出了一种名为 NSA 的本机可训练的稀疏注意力机制,该机制将算法创新与硬件优化相结合,以实现高效的长上下文建模。 如下图所示,实验表明,在通用基准测试、长上下文任务和基于指令的推理任务中…
在这篇论文中,他们提出了一种名为 NSA 的本机可训练的稀疏注意力机制,该机制将算法创新与硬件优化相结合,以实现高效的长上下文建模。 如下图所示,实验表明,在通用基准测试、长上下文任务和基于指令的推理任务中…
4篇最佳论文中,出自中国团队之手的同样占到50%——分别是北大与DeepSeek合作、梁文锋署名的NSA论文,以及北大杨耀东团队揭示模型存在「抗改造」基因的论文。 获得TACL最佳论文奖和时间检验奖的论文,为…
研究发现那些在传统公平性测试中表现好的模型,在 “差异感知” 上得分并不高;模型能力越强(比如 MMLU分数越高),情境感知能力越好,但差异感知能力未必提升;现有的 “去偏见” 方法(比如提示模型 “保持…
紧接着在7月28日凌晨,智谱带来了其自身迄今为止最大参数的开源模型GLM-4.5,虽然彭博在援引知情人士表述时写的是“该公司正试图在全球范围内挑战OpenAI”,但一样走开源路线,一样希望在海外引爆的思路,…
紧接着在7月28日凌晨,智谱带来了其自身迄今为止最大参数的开源模型GLM-4.5,虽然彭博在援引知情人士表述时写的是“该公司正试图在全球范围内挑战OpenAI”,但一样走开源路线,一样希望在海外引爆的思路,…
周鸿祎在2025中国互联网大会期间的发言中,不仅对DeepSeek的现状进行了深入剖析,还对智能体的未来以及国产芯片的发展提出了自己的见解。 整体来看,智能体的发展和国产芯片的崛起,是人工智能行业未来发展的…
360创始人周鸿祎在与搜狐科技等媒体的沟通中,强调智能体才是大模型真正落地的关键。 周鸿祎:Manus非常创新,相当于第一个走出来让大家看到了真正能独立干活的智能体是什么样子,这点我是非常肯定的,但我不是特别…
周鸿祎强调,DeepSeek为中国大模型产业作出了重要贡献:一是消除了“百模大战”,避免资源浪费,让行业更多基于现有开源模型做基座模型,推动了Agent(智能体)的发展,而Agent是大模型落地的关键;二是…
周鸿祎强调,DeepSeek为中国大模型产业作出了重要贡献:一是消除了“百模大战”,避免资源浪费,让行业更多基于现有开源模型做基座模型,推动了Agent(智能体)的发展,而Agent是大模型落地的关键;二是…
市场普遍认为,DeepSeek用户数据下滑,除了与部分比如腾讯元宝等产品全量接入DeepSeek分流了用户之外,还主要与DeepSeek新模型 R2迟迟未退出有关。 一个事实是,与OpenAI GPT 5…
在国内其他大模型玩家卯足劲头追平乃至超过DeepSeek模型性能之际,梁文锋只是带领团队出着一些小招式,如DeepSeek V3模型完成小版本升级,上线新版本DeepSeek-V3-0324,随后又更新了以…
DeepSeek创始人梁文锋说,“所有的套路都是上一代的产物,未来不一定成立”;宇树科技创始人王兴兴表示,“AI驱动机器人每天进化非常快,基本上速度是超过我预期的,每天给我的惊喜也非常大”;大疆创始人汪滔认…
DeepSeek创始人梁文锋说,“所有的套路都是上一代的产物,未来不一定成立”;宇树科技创始人王兴兴表示,“AI驱动机器人每天进化非常快,基本上速度是超过我预期的,每天给我的惊喜也非常大”;大疆创始人汪滔认…
但在这前后,他都始终保持着低调,一如他率领的那个推出DeepSeek大模型的AI技术团队——除了偶尔崭露头角的论文,业界对他和他们的了解,并不比半年前多了多少。2025年5月,在不少实习生招聘平台上都出现了…
5月16日消息,近日DeepSeek创始人梁文锋等人发表了一篇名为《Insights into DeepSeek-V3: ScalingChallenges and Reflections on Hard…
通信方面,DeepSeek-V3 采用了多层胖树网络(Multi-Plane Fat-Tree),避免不同任务流量冲突;在模型推理时,还将「注意力计算」和「专家间通信」分阶段执行,利用流水线并行(DualP…
在财报分析师电话会上,吴泳铭分享了 AI 领域的两大最新趋势:一是在大中型企业,AI 应用开始从内部系统向用户侧场景渗透;二是积极使用 AI产品的客户,从大中型企业延展到大量中小企业,「2026 财年,我…
但随着DeepSeek横空出世,并宣布开源之后,这些国家一看,我们现在也掌握了DeepSeek这种先进算法了,那美国人似乎也没有那么可望不可及呀! 你只能把有限的资源,都在选定的一条或数条路径上,如果选错了…
DeepSeek 表示,DualPipe 曾在 V3R1 的训练中使用,是一种用于计算 - 通信重叠的双向 pipeline 并行算法。训练配置文件数据展示了 DeepSeek 在 DualPipe 中…
南都记者获悉,梁文锋是位80后,来自广东湛江吴川,他成长于一个普通家庭,父母为人淳朴,都是小学语文老师。 2月26日,何世豪在接受南都记者采访表示,“现在主要是扩大了科研思路,想在博后这段时间多做一些事情,…
这些消息人士并未提供DeepSeek R2的新发布日期。外媒表示,目前对DeepSeek的下一代人工智能模型知之甚少,但该公司希望R2在编程技能上有改进,并能够用英语以外的语言进行推理。 自1月发布以来…
2月18日,浙江杭州余杭区经济高质量发展大会上,灵伴科技(Rokid)创始人兼CEO祝铭明,佩戴公司最新AR眼镜 RokidGlasses现身大会。 祝铭明介绍,天宫一号上宇航员佩戴的眼镜就来自灵伴科技,…
2月18日,就在DeepSeek论文发布当天,月之暗面创始人杨植麟也带领团队发布最新论文《MoBA: MIXTURE OF BLOCKATTENTION FOR LONG-CONTEXT LLMS(直译为…
据悉,NSA通过高效的长序列处理能力,使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。MiniMax(上海稀宇科技有限公司)…
虽然梁文锋强调自身的目标是通往AGI(通用人工智能),但DeepSeek与幻方量化、量化私募是脱不了的。 科技日报作如此小结——无论DeepSeek未来成就几何,但其已有力地破除了三个困扰国人的迷思:其一,…
这是DeepSeek团队在稀疏注意力领域的创新性工作,结合了算法创新和硬件优化,旨在解决长上下文建模中的计算瓶颈。更重要的是,在处理64k长度的序列时,NSA在解码、前向传播和反向传播等各个阶段都实现了显著的…
可如今,它已经真真切切地走进了我们的生活,改变着我们的工作方式,甚至影响着整个世界的格局。 Deepseek的成功,也给了我们一个启示:在科技领域,没有什么是不可能的。就像梁文锋,他也不是一开始就站在山顶上的…
梁文锋,这个今年刚进入不惑之年的广东人,在杭州这块福地上,创造了令全世界震惊的奇迹。 他们都是在各自的领域里独领风骚,干出了不平凡的业绩。 梁文锋:我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特…
最近火爆全球的Deepseek的创始人梁文锋,广东湛江人,本硕都就读于浙江大学的电子信息与通信工程。根据公开信息,梁文锋的硕士毕业论文题目是《基于低成本PTZ摄像机的目标跟踪算法研究》。 2019年,其资…