SD又回来了！一秒出图，手机就能玩：SD3.5-Flash让专业AI绘画进入“闪电”时代 #科技 #推理 #手机 #Flash #过程 #模型

AI绘画界的祖师爷stable diffusion沉寂了许久，渐渐淡出了公众视野。9月，它又带着SD3.5-Flash杀回来了。

Stability AI公司联合萨里大学SketchX实验室，把一个叫SD3.5-Flash（分布引导的生成流蒸馏）的模型扔了出来。

让你在眨眼之间，就在自己的普通电脑甚至手机上，搞出专业级的高分辨率图片。

AI绘画，从普通电脑就能玩的SD1.5，发展到今天，模型越来越大，一般硬件已经望尘莫及了。

那些能画出惊艳大作的顶级模型，背后都是『数据中心』里成堆的显卡在咆哮。一个像样的修正流（rectified flow）模型，没个16GB以上的显存根本带不动，画张图，你得盯着屏幕看上30多秒，灵感都等没了。

想在笔记本📓上实时改稿？想在手机上即时创意？基本是天方夜谭。

而SD3.5-Flash的到来，把推理步骤从25步以上直接压缩到了4步，显存要求腰斩到8GB，出图时间更是从30秒缩短到了1秒以内。

而且这么快的速度，画质还没怎么缩水。

凭什么这么快？

让一个庞大臃肿的AI模型变得又快又小，还要保持高质量，行业里通用的办法叫“蒸馏”（distillation）。就是让一个全能但笨重的“教师模型”，手把手教一个轻巧敏捷的“学生模型”。

但这条路不好走。尤其是在“少步蒸馏”（few-step distillation）这种极限压缩场景下，徒弟学得太快，基本功不扎实，很容易“走火入魔”，画出来的东西细节崩塌，惨不忍睹。

SD3.5-Flash的研发团队另辟蹊径，搞出了三大创新。

第一，时间步共享。

扩散模型（diffusion model）画画的基本原理，有点像“反向雕刻”，从一幅纯粹的噪点图开始，一步步把噪声抹掉，逐渐还原出清晰的图像。训练模型的过程，就是让它学会每一步该怎么“去噪”。

传统的蒸馏方法在训练学生模型时，为了考核它学得怎么样，会不断地拿出一些新的、加了随机噪声的样本让它处理。在步骤很多的时候，这点小差异无伤大雅，总能调整过来。

可现在我们要求4步就跑完全程，每一步都至关重要。微小偏差，会被无限放大，最终让结果彻底跑偏。这就是所谓的“梯度不稳定”，学生模型学得晕头转向，质量自然系统性地下降。

SD3.5-Flash想了个聪明的办法。

它不再用那些随机加噪的新样本，而是直接“复用”学生模型自己在去噪过程中产生的中间结果。

这样一来，整个学习路径变得极其稳定连贯，梯度方差大幅降低。哪怕是在4步这种堪称极限的条件下，学生模型也能稳扎稳打地学到教师模型的精髓，不会跑偏。

第二，分时步微调。

解决了训练稳定性的问题，下一个矛盾接踵而至：模型的“饭量”和“智商”该如何平衡？

步数少了，意味着学生模型的参数容量（可以理解为大脑的容量）也得跟着变小，否则速度提不上去。但容量小了，又很难学好教师模型那些复杂的技巧，导致画质下降。

这是一个根本性的矛盾。

SD3.5-Flash再次展现了它“既要又要还要”的工程智慧。它搞出了一套“临时扩容”策略，叫分时步微调（split-timestep fine-tuning）。

在训练阶段，它把整个去噪过程（比如从满是噪点到清晰图像的4个步骤）切分成好几个时间区间。在每个区间里，它都给模型临时加挂一个独立的、轻量化的“外脑”（lightweight branch）。这个外脑专门负责学习这个特定阶段的去噪技巧。

这样一来，在训练的每个关键阶段，模型的总容量都得到了临时性的扩展，保证了它有足够的“智商”去学习复杂的知识。

等到所有阶段都训练完毕，这些立下汗马功劳的临时外脑就被“卸载”，它们的知识被合并回统一的主模型里。最终用于推理的模型，还是那个轻巧高效的小个子，但它已经吸收了所有阶段的知识精华。

这种做法，既保证了学习过程中的表达能力，又没有增加最终用户的推理负担。

第三，给管道做个大手术。

有了顶级的算法，还得有能在真实硬件上跑起来的优化。SD3.5-Flash对整个图像生成流程（pipeline）进行了彻底的梳理和优化。

文本编码器是负责理解你输入的提示词的部件，比如“一只猫坐在月亮上”。这个过程也需要计算资源。研发团队把它内部的计算流程重新安排了一遍，砍掉了很多冗余操作，减少了模型在“读懂你的话”这个环节上的延迟。

智能量化策略是模型压缩的常规武器，SD3.5-Flash支持INT8和FP8两种高效的量化推理，能在精度损失极小的情况下，把内存占用压下来。

团队精细地调整了模型在运行时申请和释放显存的方式，确保所有操作都能在8GB这个消费级显卡的甜点区内流畅运行，不会突然因为内存不足而崩溃。

性能反超SD3.5M

在COCO数据集（一个大型的图像识别、分割和字幕数据集）的30000个样本上，SD3.5-Flash的各项硬指标都相当能打。比如衡量生成图像质量和美学的ImageReward、CLIPScore、Aesthetic Score等指标，都明显好于SD3.5M。只有FID（一种衡量生成图像与真实图像分布差异的指标）略微逊色。

实际的出图速度：

在顶级的消费级显卡RTX 4090上，半秒多一点就能生成一张高质量图片。

在手机上跑，最低只要3秒多。

在图像质量和提示遵循上。他们找了124名标注员，用了507个不同的提示词，对每个提示词都生成了4张图片进行多轮对比。

结果显示图像质量均有显著提升，提示遵循无明显下降。

一部浓缩的进化史

回顾Stable Diffusion这条路，就是一部激动人心的技术演进史。

2022年8月，Stable Diffusion 1.5发布。它的出现如同一道惊雷，彻底点燃了开源社区的热情。虽然它分辨率不高，对提示词的理解也比较初级，但它开创了一个先河：顶级AI模型也可以是开放、免费、人人可用的。

2023年7月，Stable Diffusion XL（简称SDXL）推出。这是对画质的一次巨大飞跃，原生支持1024x1024的高分辨率图像生成，细节和质感都上了一个大台阶，真正让AI绘画具备了商业应用的潜力。

2024年6月，Stable Diffusion 3 Medium发布。这次，Stability AI引入了全新的MMDiT-X架构，试图在模型结构上进行一次大胆的革新。然而，这次尝试并未完全达到社区的预期，虽然有一些亮点，但在提示词遵循度和生成效果的稳定性上，收到了一些批评的声音。

2024年10月，Stable Diffusion 3.5系列发布。包含了三个不同规模的模型：参数量高达81亿的Large模型，作为其蒸馏版的Large Turbo模型，以及25亿参数的Medium模型。这个系列大幅提升了对复杂提示词的理解和遵循能力，同时生成速度也更快。

但是图像生成越来越卷，更多更好的开源模型出来，如flux，hunyuanimage，qwen-image，从而Stable Diffusion渐渐淡出。

今天Stability AI带来SD3.5-Flash，可在消费级硬件上实现秒级生成。

它能在移动端夺得一席之地吗？

参考资料：

https://arxiv.org/abs/2509.21318

https://hmrishavbandy.github.io/sd35flash/

https://stability.ai/news/introducing-stable-diffusion-3-5

https://github.com/Stability-AI/sd3.5

END

SD又回来了！一秒出图，手机就能玩：SD3.5-Flash让专业AI绘画进入“闪电”时代

猜你喜欢

后天的抑郁症会遗传吗(抑郁症天生还是后天)

美国首次将中国AI列为对手，『DeepSeek』模型被指落后但成本优势明显(美国首次将中国大模型公司列实体清单)

智能电表中的峰、尖、平、谷详解：电费计算与电价解析(智能电表的峰谷平啥意思)

MIT团队用AI筛选食用配体，或改变全球微量『营养素补充』方式

OPPO Find X9补齐痛点，直屏回归+7500mAh+通信升级，130Hz马达上车(oppo findx补电号码是多少)