Deepseek又出连招：刚发布了超越DALL-E3的多模态模型#科技#视觉#DeepSeek#超越#公司#模型

作者｜Li Yuan

编辑｜靖宇

AI 时代就这么悄悄降临了。

大概谁也没想到，今年春节，打的最热的不再是传统互联网的红包大战，谁和春晚合作了，而是 AI 公司。

临近春节，各家大模型公司都完全没放松，更新了一波模型和产品，而最受关注的，却是去年崭露头角的「大模型公司」DeepSeek（深度求索）。

1 月 20 日晚，DeepSeek 公司发布推理模型 DeepSeek-R1 正式版，使用低廉的训练成本直接训练出了不输 OpenAI 推理模型 o1 的性能，而且完全免费开源，直接引发了行业地震。

这是第一次国产 AI 大范围在全球，特别是美国引起了科技圈的震动。开发者纷纷表示，正在考虑用 DeepSeek「重构一切」，在这一浪潮下，经过一周的发酵，甚至一月才刚刚发布的 DeepSeek 移动端应用，迅速登顶美区苹果应用商店免费 App 排行第一，不但超越了 ChatGPT，也直接超越了美区的其他热门应用。

DeepSeek 的成功甚至直接影响了美股，没有使用巨量昂贵 GPU 就训练出的模型，让人们重新思考了 AI 的训练路径，直接让 AI 第一股英伟达最大跌幅达到 17%。

而这还没结束。

1 月 28 日凌晨，除夕夜前一晚，DeepSeek 又开源了其多模态模型 Janus-Pro-7B，宣布在在 GenEval 和 DPG-Bench 基准测试中击败了 DALL-E 3（来自 OpenAI）和 Stable Diffusion。

DeepSeek 真的要血洗 AI 圈了吗？从推理模型到多模态模型，拿 DeepSeek 重构一切，是蛇年开年的第一主题吗？

Janus Pro，多模态模型创新架构的验证

DeepSeek 此次深夜一共发布了两个模型，Janus-Pro-7B 和 Janus-Pro-1B（1.5B 参数量）。

从命名上就能看出，模型本身来自之前 Janus 模型的升级。

2024 年 10 月，DeepSeek 才第一次发布 Janus 模型。和 DeepSeek 的一贯套路一样，模型采取了一个创新的架构。在不少视觉生成模型中，模型都是采用了统一的 Transformer 架构，能够同时处理文生图和图生文任务。

而 DeepSeek 则是提出了一种新的思路，对理解（图生文）和生成任务（文生图）的视觉编码进行解耦，提升了模型训练的灵活性，有效缓解了使用单一视觉编码导致的冲突和性能瓶颈。

这也是 DeepSeek 为什么将模型命名为 Janus (杰纳斯)。Janus 是古罗马门神，被描绘为有分别朝向相反方的两个面孔。DeepSeek 表示命名为 Janus，指的是模型可以像 Janus 一样，用不同的眼睛看向视觉数据，分别编码特征，然后用同一个身体 (Transformer) 去处理这些输入信号。

在 Janus 系列模型中，这种新思路已经产生了不错的效果，团队表示，Janus 模型的指令跟随能力很强，有多语言能力，且的模型更聪明，能读懂 meme 图像。同时还能处理 latex 公式转换、图转代码等任务。

而在 Janus Pro 系列模型中，团队对模型的训练流程进行了部分修改，直接做到了在 GenEval 和 DPG-Bench 基准测试中击败了 DALL-E 3 和 Stable Diffusion。