SD又回来了!一秒出图,手机就能玩:SD3.5-Flash让专业AI绘画进入“闪电”时代

SD又回来了!一秒出图,手机就能玩:SD3.5-Flash让专业AI绘画进入“闪电”时代

AI绘画界的祖师爷stable diffusion沉寂了许久,渐渐淡出了公众视野。9月,它又带着SD3.5-Flash杀回来了。

Stability AI公司联合萨里大学SketchX实验室,把一个叫SD3.5-Flash(分布引导的生成流蒸馏)的模型扔了出来。

让你在眨眼之间,就在自己的普通电脑甚至手机上,搞出专业级的高分辨率图片。

AI绘画,从普通电脑就能玩的SD1.5,发展到今天,模型越来越大,一般硬件已经望尘莫及了。

那些能画出惊艳大作的顶级模型,背后都是『数据中心』里成堆的显卡在咆哮。一个像样的修正流(rectified flow)模型,没个16GB以上的显存根本带不动,画张图,你得盯着屏幕看上30多秒,灵感都等没了。

想在笔记本📓上实时改稿?想在手机上即时创意?基本是天方夜谭。

而SD3.5-Flash的到来,把推理步骤从25步以上直接压缩到了4步,显存要求腰斩到8GB,出图时间更是从30秒缩短到了1秒以内。

而且这么快的速度,画质还没怎么缩水。

凭什么这么快?

让一个庞大臃肿的AI模型变得又快又小,还要保持高质量,行业里通用的办法叫“蒸馏”(distillation)。就是让一个全能但笨重的“教师模型”,手把手教一个轻巧敏捷的“学生模型”。

但这条路不好走。尤其是在“少步蒸馏”(few-step distillation)这种极限压缩场景下,徒弟学得太快,基本功不扎实,很容易“走火入魔”,画出来的东西细节崩塌,惨不忍睹。

SD3.5-Flash的研发团队另辟蹊径,搞出了三大创新。

第一,时间步共享。

扩散模型(diffusion model)画画的基本原理,有点像“反向雕刻”,从一幅纯粹的噪点图开始,一步步把噪声抹掉,逐渐还原出清晰的图像。训练模型的过程,就是让它学会每一步该怎么“去噪”。

传统的蒸馏方法在训练学生模型时,为了考核它学得怎么样,会不断地拿出一些新的、加了随机噪声的样本让它处理。在步骤很多的时候,这点小差异无伤大雅,总能调整过来。

可现在我们要求4步就跑完全程,每一步都至关重要。微小偏差,会被无限放大,最终让结果彻底跑偏。这就是所谓的“梯度不稳定”,学生模型学得晕头转向,质量自然系统性地下降。

SD3.5-Flash想了个聪明的办法。

它不再用那些随机加噪的新样本,而是直接“复用”学生模型自己在去噪过程中产生的中间结果。

这样一来,整个学习路径变得极其稳定连贯,梯度方差大幅降低。哪怕是在4步这种堪称极限的条件下,学生模型也能稳扎稳打地学到教师模型的精髓,不会跑偏。

第二,分时步微调。

解决了训练稳定性的问题,下一个矛盾接踵而至:模型的“饭量”和“智商”该如何平衡?

步数少了,意味着学生模型的参数容量(可以理解为大脑的容量)也得跟着变小,否则速度提不上去。但容量小了,又很难学好教师模型那些复杂的技巧,导致画质下降。

这是一个根本性的矛盾。

SD3.5-Flash再次展现了它“既要又要还要”的工程智慧。它搞出了一套“临时扩容”策略,叫分时步微调(split-timestep fine-tuning)。

在训练阶段,它把整个去噪过程(比如从满是噪点到清晰图像的4个步骤)切分成好几个时间区间。在每个区间里,它都给模型临时加挂一个独立的、轻量化的“外脑”(lightweight branch)。这个外脑专门负责学习这个特定阶段的去噪技巧。

这样一来,在训练的每个关键阶段,模型的总容量都得到了临时性的扩展,保证了它有足够的“智商”去学习复杂的知识。

等到所有阶段都训练完毕,这些立下汗马功劳的临时外脑就被“卸载”,它们的知识被合并回统一的主模型里。最终用于推理的模型,还是那个轻巧高效的小个子,但它已经吸收了所有阶段的知识精华。

这种做法,既保证了学习过程中的表达能力,又没有增加最终用户的推理负担。

第三,给管道做个大手术。

有了顶级的算法,还得有能在真实硬件上跑起来的优化。SD3.5-Flash对整个图像生成流程(pipeline)进行了彻底的梳理和优化。

文本编码器是负责理解你输入的提示词的部件,比如“一只猫坐在月亮上”。这个过程也需要计算资源。研发团队把它内部的计算流程重新安排了一遍,砍掉了很多冗余操作,减少了模型在“读懂你的话”这个环节上的延迟。

智能量化策略是模型压缩的常规武器,SD3.5-Flash支持INT8和FP8两种高效的量化推理,能在精度损失极小的情况下,把内存占用压下来。

团队精细地调整了模型在运行时申请和释放显存的方式,确保所有操作都能在8GB这个消费级显卡的甜点区内流畅运行,不会突然因为内存不足而崩溃。

性能反超SD3.5M

在COCO数据集(一个大型的图像识别、分割和字幕数据集)的30000个样本上,SD3.5-Flash的各项硬指标都相当能打。比如衡量生成图像质量和美学的ImageReward、CLIPScore、Aesthetic Score等指标,都明显好于SD3.5M。只有FID(一种衡量生成图像与真实图像分布差异的指标)略微逊色。

实际的出图速度:

在顶级的消费级显卡RTX 4090上,半秒多一点就能生成一张高质量图片。

在手机上跑,最低只要3秒多。

在图像质量和提示遵循上。他们找了124名标注员,用了507个不同的提示词,对每个提示词都生成了4张图片进行多轮对比。

结果显示图像质量均有显著提升,提示遵循无明显下降。

一部浓缩的进化史

回顾Stable Diffusion这条路,就是一部激动人心的技术演进史。

2022年8月,Stable Diffusion 1.5发布。它的出现如同一道惊雷,彻底点燃了开源社区的热情。虽然它分辨率不高,对提示词的理解也比较初级,但它开创了一个先河:顶级AI模型也可以是开放、免费、人人可用的。

2023年7月,Stable Diffusion XL(简称SDXL)推出。这是对画质的一次巨大飞跃,原生支持1024x1024的高分辨率图像生成,细节和质感都上了一个大台阶,真正让AI绘画具备了商业应用的潜力。

2024年6月,Stable Diffusion 3 Medium发布。这次,Stability AI引入了全新的MMDiT-X架构,试图在模型结构上进行一次大胆的革新。然而,这次尝试并未完全达到社区的预期,虽然有一些亮点,但在提示词遵循度和生成效果的稳定性上,收到了一些批评的声音。

2024年10月,Stable Diffusion 3.5系列发布。包含了三个不同规模的模型:参数量高达81亿的Large模型,作为其蒸馏版的Large Turbo模型,以及25亿参数的Medium模型。这个系列大幅提升了对复杂提示词的理解和遵循能力,同时生成速度也更快。

但是图像生成越来越卷,更多更好的开源模型出来,如flux,hunyuanimage,qwen-image,从而Stable Diffusion渐渐淡出。

今天Stability AI带来SD3.5-Flash,可在消费级硬件上实现秒级生成。

它能在移动端夺得一席之地吗?

参考资料:

https://arxiv.org/abs/2509.21318

https://hmrishavbandy.github.io/sd35flash/

https://stability.ai/news/introducing-stable-diffusion-3-5

https://github.com/Stability-AI/sd3.5

END

特别声明:[SD又回来了!一秒出图,手机就能玩:SD3.5-Flash让专业AI绘画进入“闪电”时代] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

后天的抑郁症会遗传吗(抑郁症天生还是后天)

后天抑郁症通常不会直接遗传给下一代,但抑郁症患者的子女可能会因为遗传易感性或家庭环境因素而增加患病风险。抑郁症的发生与神经递质异常、心理社会压力和创伤经历等因素有关,遗传因素只是其中的一部分

后天的抑郁症会遗传吗(抑郁症天生还是后天)

美国首次将中国AI列为对手,『DeepSeek』模型被指落后但成本优势明显(美国首次将中国大模型公司列实体清单)

美国国家标准与技术研究院旗下的AI标准与创新中心专家评估了三个『DeepSeek』模型和四个美国模型,覆盖了19个领域的基准测试。 这一差距在复杂任务处理上尤为突出,表明中国AI模型在高阶推理和能力方面仍有待提…

美国首次将中国AI列为对手,『DeepSeek』模型被指落后但成本优势明显(美国首次将中国大模型公司列实体清单)

智能电表中的峰、尖、平、谷详解:电费计算与电价解析(智能电表的峰谷平啥意思)

如果是分时电价,您还需要分别计算峰、谷时段的用电量。 在了解了电费计算的基本原理后,我们也需要关注一些日常的用电习惯,帮助自己节省电费:综上所述,了解智能电表中的峰、尖、平、谷的含义以及电费的计算方式,对于…

智能电表中的峰、尖、平、谷详解:电费计算与电价解析(智能电表的峰谷平啥意思)

MIT团队用AI筛选食用配体,或改变全球微量『营养素补充』方式

在本次研究中,研究人员采用了一种完全不同的材料设计策略,他们并未延用传统的碘化钾或碘酸钾(注:这是碘盐中碘的主要来源),而是使用碘单质。 杨昕是福建福州人,他分别在西北农林科技大学和新加坡国立大学获得本科和…

MIT团队用AI筛选食用配体,或改变全球微量『营养素补充』方式

OPPO Find X9补齐痛点,直屏回归+7500mAh+通信升级,130Hz马达上车(oppo findx补电号码是多少)

小8最近盯到一个新料,关于OPPOFindX9系列的,看到那句“0816增强版马达”的时候我心里咯噔一下,这厂子终于想明白了。 我查看他们提供的数据,在高铁隧道内网络回传速度较其他家快70%,在地铁中看视频流…

OPPO Find X9补齐痛点,直屏回归+7500mAh+通信升级,130Hz马达上车(oppo findx补电号码是多少)