AI绘画界的祖师爷stable diffusion沉寂了许久,渐渐淡出了公众视野。9月,它又带着SD3.5-Flash杀回来了。
Stability AI公司联合萨里大学SketchX实验室,把一个叫SD3.5-Flash(分布引导的生成流蒸馏)的模型扔了出来。
让你在眨眼之间,就在自己的普通电脑甚至手机上,搞出专业级的高分辨率图片。
AI绘画,从普通电脑就能玩的SD1.5,发展到今天,模型越来越大,一般硬件已经望尘莫及了。
那些能画出惊艳大作的顶级模型,背后都是『数据中心』里成堆的显卡在咆哮。一个像样的修正流(rectified flow)模型,没个16GB以上的显存根本带不动,画张图,你得盯着屏幕看上30多秒,灵感都等没了。
想在笔记本📓上实时改稿?想在手机上即时创意?基本是天方夜谭。
而SD3.5-Flash的到来,把推理步骤从25步以上直接压缩到了4步,显存要求腰斩到8GB,出图时间更是从30秒缩短到了1秒以内。
而且这么快的速度,画质还没怎么缩水。
凭什么这么快?
让一个庞大臃肿的AI模型变得又快又小,还要保持高质量,行业里通用的办法叫“蒸馏”(distillation)。就是让一个全能但笨重的“教师模型”,手把手教一个轻巧敏捷的“学生模型”。
但这条路不好走。尤其是在“少步蒸馏”(few-step distillation)这种极限压缩场景下,徒弟学得太快,基本功不扎实,很容易“走火入魔”,画出来的东西细节崩塌,惨不忍睹。
SD3.5-Flash的研发团队另辟蹊径,搞出了三大创新。
第一,时间步共享。
扩散模型(diffusion model)画画的基本原理,有点像“反向雕刻”,从一幅纯粹的噪点图开始,一步步把噪声抹掉,逐渐还原出清晰的图像。训练模型的过程,就是让它学会每一步该怎么“去噪”。
传统的蒸馏方法在训练学生模型时,为了考核它学得怎么样,会不断地拿出一些新的、加了随机噪声的样本让它处理。在步骤很多的时候,这点小差异无伤大雅,总能调整过来。
可现在我们要求4步就跑完全程,每一步都至关重要。微小偏差,会被无限放大,最终让结果彻底跑偏。这就是所谓的“梯度不稳定”,学生模型学得晕头转向,质量自然系统性地下降。
SD3.5-Flash想了个聪明的办法。
它不再用那些随机加噪的新样本,而是直接“复用”学生模型自己在去噪过程中产生的中间结果。
这样一来,整个学习路径变得极其稳定连贯,梯度方差大幅降低。哪怕是在4步这种堪称极限的条件下,学生模型也能稳扎稳打地学到教师模型的精髓,不会跑偏。
第二,分时步微调。
解决了训练稳定性的问题,下一个矛盾接踵而至:模型的“饭量”和“智商”该如何平衡?
步数少了,意味着学生模型的参数容量(可以理解为大脑的容量)也得跟着变小,否则速度提不上去。但容量小了,又很难学好教师模型那些复杂的技巧,导致画质下降。
这是一个根本性的矛盾。
SD3.5-Flash再次展现了它“既要又要还要”的工程智慧。它搞出了一套“临时扩容”策略,叫分时步微调(split-timestep fine-tuning)。
在训练阶段,它把整个去噪过程(比如从满是噪点到清晰图像的4个步骤)切分成好几个时间区间。在每个区间里,它都给模型临时加挂一个独立的、轻量化的“外脑”(lightweight branch)。这个外脑专门负责学习这个特定阶段的去噪技巧。
这样一来,在训练的每个关键阶段,模型的总容量都得到了临时性的扩展,保证了它有足够的“智商”去学习复杂的知识。
等到所有阶段都训练完毕,这些立下汗马功劳的临时外脑就被“卸载”,它们的知识被合并回统一的主模型里。最终用于推理的模型,还是那个轻巧高效的小个子,但它已经吸收了所有阶段的知识精华。
这种做法,既保证了学习过程中的表达能力,又没有增加最终用户的推理负担。
第三,给管道做个大手术。
有了顶级的算法,还得有能在真实硬件上跑起来的优化。SD3.5-Flash对整个图像生成流程(pipeline)进行了彻底的梳理和优化。
文本编码器是负责理解你输入的提示词的部件,比如“一只猫坐在月亮上”。这个过程也需要计算资源。研发团队把它内部的计算流程重新安排了一遍,砍掉了很多冗余操作,减少了模型在“读懂你的话”这个环节上的延迟。
智能量化策略是模型压缩的常规武器,SD3.5-Flash支持INT8和FP8两种高效的量化推理,能在精度损失极小的情况下,把内存占用压下来。
团队精细地调整了模型在运行时申请和释放显存的方式,确保所有操作都能在8GB这个消费级显卡的甜点区内流畅运行,不会突然因为内存不足而崩溃。
性能反超SD3.5M
在COCO数据集(一个大型的图像识别、分割和字幕数据集)的30000个样本上,SD3.5-Flash的各项硬指标都相当能打。比如衡量生成图像质量和美学的ImageReward、CLIPScore、Aesthetic Score等指标,都明显好于SD3.5M。只有FID(一种衡量生成图像与真实图像分布差异的指标)略微逊色。
实际的出图速度:
在顶级的消费级显卡RTX 4090上,半秒多一点就能生成一张高质量图片。
在手机上跑,最低只要3秒多。
在图像质量和提示遵循上。他们找了124名标注员,用了507个不同的提示词,对每个提示词都生成了4张图片进行多轮对比。
结果显示图像质量均有显著提升,提示遵循无明显下降。
一部浓缩的进化史
回顾Stable Diffusion这条路,就是一部激动人心的技术演进史。
2022年8月,Stable Diffusion 1.5发布。它的出现如同一道惊雷,彻底点燃了开源社区的热情。虽然它分辨率不高,对提示词的理解也比较初级,但它开创了一个先河:顶级AI模型也可以是开放、免费、人人可用的。
2023年7月,Stable Diffusion XL(简称SDXL)推出。这是对画质的一次巨大飞跃,原生支持1024x1024的高分辨率图像生成,细节和质感都上了一个大台阶,真正让AI绘画具备了商业应用的潜力。
2024年6月,Stable Diffusion 3 Medium发布。这次,Stability AI引入了全新的MMDiT-X架构,试图在模型结构上进行一次大胆的革新。然而,这次尝试并未完全达到社区的预期,虽然有一些亮点,但在提示词遵循度和生成效果的稳定性上,收到了一些批评的声音。
2024年10月,Stable Diffusion 3.5系列发布。包含了三个不同规模的模型:参数量高达81亿的Large模型,作为其蒸馏版的Large Turbo模型,以及25亿参数的Medium模型。这个系列大幅提升了对复杂提示词的理解和遵循能力,同时生成速度也更快。
但是图像生成越来越卷,更多更好的开源模型出来,如flux,hunyuanimage,qwen-image,从而Stable Diffusion渐渐淡出。
今天Stability AI带来SD3.5-Flash,可在消费级硬件上实现秒级生成。
它能在移动端夺得一席之地吗?
参考资料:
https://arxiv.org/abs/2509.21318
https://hmrishavbandy.github.io/sd35flash/
https://stability.ai/news/introducing-stable-diffusion-3-5
https://github.com/Stability-AI/sd3.5
END