果然一到假期,『DeepSeek』 就发新东西了。。。(一到节假日,大街上热闹非凡)

果然一到假期,『DeepSeek』 就发新东西了。。。(一到节假日,大街上热闹非凡)

(来源:网易科技)

来了兄弟们,果然每次临近放假,『DeepSeek』 总能给我们整点东西出来(怨念)。

春节前整了个 R1 震撼科技圈,昨天又卡着十一假期的 Deadline,发了个新版本 —— 『DeepSeek』-V3.2-Exp 出来。

大家也发现了一件事情,『DeepSeek』 你小汁、总在假期搞个大新闻是吧。

诶我有一计,不如多设定几个法定节假日出来,这样 『DeepSeek』 的产品发布速度也会得到了一波史诗级提升。

到时候别说 R2 了,可能连 R200 都已经发出来了。

OK 扯远了,回到这次 『DeepSeek』 发布的 V3.2 EXP 上来,这次的新版本虽然是个带些实验性质的模型,但是整出来的有趣东西是一点也不少:

一方面,V3.2 是首个实现细粒度稀疏注意力机制的大模型。

而这个新机制,很有可能改变未来所有大模型的玩法。

大家平时和大模型聊天的时候有没有发现一件事,如果你一直在一个窗口里和一个大模型聊天,那么没过多久,这个天就会被你给聊炸了。。。

没错,Transformer 架构是有极限的,每次它在给我们生成回答的时候,都要把过去的所有聊天记录加起来一起计算。

而在计算的时候,Transformer 也会计算这些聊天记录里面,每个单词(token)和其他所有单词之间的关联性,一个一个算下来。

这也就导致了咱们和大模型聊的越多,它需要加计算的内容也就越多,聊天记录的长度翻了一倍,背后的计算量其实涨了四倍,不但成本暴涨,性能也会有所降低。

因此各路大模型基本都会规定一个窗口的聊天长度限制,你聊多了,就直接不让你用了,除非新开个窗口才行。

而前面提到的稀疏注意力,很有可能改变这一切。

简单来说,稀疏注意力可以让大模型在计算的时候,不用同时关注所有单词,而是学会了怎么划重点。

和人一样的,就比如说你可能会记得住你去年国庆到了哪玩,但是你不会去记住你去年十月一号的早餐吃了什么东西。

记住重点,比记住所有的细节或许要更重要。

在 『DeepSeek』 的技术报告里可以看到,他们设计了一个叫做闪电索引器(Lightning Indexer)的新东西。

这玩意会动态的判断出整个聊天记录里,哪些 Token 是最重要的,然后在后续计算的时候,就只要关注这些重要的 Token 来就算就行了。

通过这种 “ 先记带动后记 ”、“ 有组织的记忆代替无序的记忆 ”、“ 挑重点记 ” 的方式,『DeepSeek』 让模型的计算量大幅度下降。

那么问题来了,这种通过 “ 局部记忆 ” 做出来的大模型,能力会变差么?

『DeepSeek』 做了个实验。

他们把 『DeepSeek』-V3.2-Exp 的训练配置与 V3.1-Terminus 进行了对齐,结果发现训练出来的两个模型,在性能上极为接近,在各类数据集上测出来的成绩都打了个五五开。

但在同样的效果之下,安排上稀疏注意力之后的 V3.2 巨能省钱。

在下面这张图里可以看到,随着句子越来越长,3.1 的推理成本是越来越高。

但是用上了稀疏注意力的 3.2 则没什么变化,和我的心率一样稳定。

性能没变,省钱加倍了属于是。

也正是因为稀疏注意力的这种效果,Deepseek 又开始当起了价格屠夫,把官方 API 的价格直接打了个对折还带拐弯的。

另一方面,『DeepSeek』 又不声不响的整了波王炸,用高级语言 TileLang 设计实现了很多新的GPU算子,再次对老黄的CUDA生态王座发起了试探。

看完上面这一大段话,大伙儿肯定想,这叽里咕噜的说啥呢?下面差评君就尽量用简单的话,给各位差友把这事儿给聊明白了。

TileLang 最重要的价值,还是它有潜力打破『英伟达』的垄断,当一波国产『芯片』生态的奶妈。

CUDA 大家应该都很熟悉,只要整点机器学习算法,想调用个 GPU,你肯定绕不过配置 CUDA 的折磨。

它的主要作用,就是把顶层程序员写的计算语言,翻译成『芯片』能看懂的底层机器语言,才能驱动『芯片』发挥作用,让数据在上面算起来。

而现在的市面上,可以说主流的顶层 AI 工具,像是 PyTorch,TensorFlow 等等,几乎都是对『英伟达』『芯片』和 CUDA 提供最佳支持。

我们日常用起来,只要在 python 里敲一个卷积计算 torch.conv,但背后对应的算子开发,可难度大得多。像是CUDA,要用上百行代码的底层运算,才可能实现一个 conv 算子。

『英伟达』体系从顶到底的层层翻译过程

那么问题来了,国产『芯片』刚诞生,还没有算子开发的积累,要是想用 pytorch 框架进行 AI 大模型训练,可不可以接上 CUDA 把这条路打通呢?

倒也不是不行,只不过 CUDA 写的时候没考虑你的『芯片』结构,就算强行兼容了也发挥不出国产『芯片』的最强性能。

于是,Tilelang 出现了。它的作用,就是帮国产『芯片』迅速打通从顶层AI工具,到底层国产GPU『芯片』之间的链路。

举个例子,国产『芯片』昇腾,要在 CANN 里实现一个卷积算子,程序员要考虑爆炸多的问题。

比如这个数据,现在放在很远的显存,我要不要把它拿过来放在寄存器随时用?怎么拿?什么时候拿?

各种数据调度、线程分配、资源访问等等问题加在一起,程序员就和那个国庆路口指挥交通的交警一样,头大,永远干不完的活儿。

几百几千行代码,才能实现一个卷积计算,还不一定是最优解,因为人总有考虑不周到的地方嘛。

而 Tilelang 的作用,就是把各种调度问题都给你自动化,不用人工考虑,它来帮你解决,还能解决得更好。

程序员不用再想数据放在哪,怎么取,占哪个线程,Tilelang 会自动帮你解决,你只要说想调个数据就行。

这直接利好国产『芯片』各种算子开发,因为用的代码更少,速度更快,效果还更好了。

而算子都开发好了,链路打通,国产『芯片』也就能无痛参与大模型训练了。

至于 TileLang 的能力到底有多强呢?其实看作者的头像就知道了。

好家伙,是二次元,稳了!

最后,差评君想说,虽然 3.2 的性能看着提升不大,但是正如它的名字写的那样:

Exp —— Experimental —— 实验性的。

这次的 3.2,其实更像是 『DeepSeek』 对过去实验成果的一次验收。

性能什么,甚至都不是最重要的东西,重要的是它真的验证了一些东西,是可行的。

之前一直在提的稀疏注意力,这次被成功在模型里用了起来,未来的大模型,上下文的能力或许会变得更强,能解决的问题或许也会越多。

之前一直诟病的显卡不够用的毛病也在逐渐好转,和国产的显卡厂商开始一起,摸索出一条绕过老黄的道路。

也就是在 『DeepSeek』 发布之后,寒武纪、华为昇腾、都表示了对 『DeepSeek』 的适配和支持。

大家在一起,形成了一个闭环。

方向有了,接下来就是要走多远,走多久的问题了。

所以。。。『DeepSeek』 R2 发布的时间,会是元旦前么?

撰文:早起 & 莫莫莫甜甜

编辑:江江 & 面线

特别声明:[果然一到假期,『DeepSeek』 就发新东西了。。。(一到节假日,大街上热闹非凡)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

欺负工作人员还骂『孙俪』耍大牌,和『张颂文』同台想和解?『张译』太装了!(工作欺负人的说说大全)

在他看来,『张译』就是觉得当时『张颂文』比自己演得好,一个一番比一个反派给抢了风头气不过。没想到这被『张译』看到了,他以为『孙俪』只对他这样,是看不起他的意思。 不过也有人说『张译』和『张颂文』一直没有矛盾,是惺惺相惜的好演员,…

欺负工作人员还骂『孙俪』耍大牌,和『张颂文』同台想和解?『张译』太装了!(工作欺负人的说说大全)

第八届浙江国际青年电影周落幕,四大关键词解锁光影盛宴(第八届浙江国际青年电影周杭州开幕)

今年,电影周特别设置VR单元,不仅邀请了国内外知名导演、技术专家等进行深度对话,探讨VR技术在电影领域的应用与发展,还有不少观众到浙江国际影视中心沉浸式体验多部VR作品。 在9月21日下午举行的“东南亚与华…

第八届浙江国际青年电影周落幕,四大关键词解锁光影盛宴(第八届浙江国际青年电影周杭州开幕)

胶水REACH测试怎么办理?胶水REACH认证周期多久?(胶水测试仪)

胶水作为一种化学产品,可能对环境和人类健康产生影响,企业在将其产品投放到欧洲市场前,多元化进行REACH认证。 在REACH认证的过程中,企业需要向欧洲化学品管理局提交详细的技术文档,其中包括对所使用化学物质…

胶水REACH测试怎么办理?胶水REACH认证周期多久?(胶水测试仪)

33岁胡冰卿冷白皮美到发光,比李小冉还白,肤如凝玉行走的月光(胡冰卿 颜值)

胡冰卿的美并非那种摄人心魄的惊艳,也没有咄咄逼人的明艳五官,但正是这份不施粉黛的清冷气质,在崇尚甜美幼态的『娱乐圈』️中独树一帜。" 33岁的胡冰卿不再刻意追求少女感,而是学会了用气质和故事感打动观众。现在的她…

33岁胡冰卿冷白皮美到发光,比李小冉还白,肤如凝玉行走的月光(胡冰卿 颜值)

这一次,42岁的『张柏芝』完全撕碎了挡在身前的“遮羞布”

那么2025年与前经纪人余毓兴的一场纠纷,则彻底将她推上了&34丑闻制造者&34的不归路。在连年的事业低谷期后,能否借助这个契机完成职业&34重生&34,将是对她最直接的考验。

这一次,42岁的『张柏芝』完全撕碎了挡在身前的“遮羞布”