Qwen新开源,把AI生图里的文字SOTA拉爆了(开源软件文集)

Qwen新开源,把AI生图里的文字SOTA拉爆了(开源软件文集)

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

现在,图像中的文字生成都进化到这种程度了,还是开源的。

通义模型家族,刚刚又双叒开源了,这次是Qwen-Image——一个200亿参数、采用MMDiT架构的图像生成模型。

这也是『通义千问』系列中首个图像生成基础模型。

看Qwen-Image生成的画面就知道,它主打的能力之一就是复杂文本渲染

像这张书店畅销书架的图片,包含复杂的图文混合布局,文字的准确度、契合度,甚至于随书籍摆放角度形成的变化,都挑不出来什么错。

生成海报,也是不在话下。

照例,『通义千问』团队把模型、详细技术报告一口气都放了出来,Qwen-Image的能力也第一时间上线QwenChat,现在就能在官网上手体验。

实测Qwen-Image

Demo很优秀,实测效果又会如何?

Round 1:情境插画

测试提示词是:

李白站在窗前写“床前明月光”,窗外明月当空,在屋内投下柔和的光线,书桌上有酒和书籍,整体风格古典

好家伙,感觉可以直接给语文课本用了。

“床前明月光”这几个字不是直愣愣P上去的,跟画面融合得相当不错。画面细节方面,也很有氛围感。

硬要挑刺,就是AI有点分不清屋内屋外了(doge)。

Round 2:生成PPT、海报

官方Demo中有直接生成PPT的示例,我们也来测试一下,提示词是:

一张企业级高质量PPT页面图像,整体采用简约现代的风格,主题颜色是蓝绿色,背景用线条和粒子营造科技感,页面顶部左侧清晰展示QbitAI的标志。主标题位于画面中央偏上,文字内容为“量子位AI Coding线下沙龙”,字体规整简介,突出技术感。主标题下方放两张图,一张是线下沙龙现场照片,另一张体现AI编程

生成结果是这样的:

严格来看,右上角有小小的瑕疵,左下角图中图的文字也不是那么准确,但整体效果确实很顶,主体文字、图中图都能符合提示词的要求。

那么如果提示词更模糊更简单,Qwen-Image是否还能给出高质量结果?

测试提示词:

制作一张海报,主题是:『通义千问』开源Qwen-Image

文字准确,也体现了AI画画的元素,没毛病。

Round 3:商品宣传图

最后,再来测测Qwen-Image的“卖货”技能。

提示词:

面包店的商品宣传图,画面主体是面包和奶油蛋糕。图中文字展现“美味”、“动物奶油”、“开启美好一天”,字体采用花体字,整体风格轻松活泼。整体采用暖色调

有点惊喜的是,Qwen-Image把“动物奶油”这几个字准确对应到了奶油蛋糕上。

需要说明的是,以上实测,均为一次出图。

可以看到,Qwen-Image对提示词的理解都很到位,提示词给得越精准,执行的效果细节越丰富,其中文字渲染能力,确如官方所说,能做到高保真输出。

你给这个效果打几分?

性能SOTA

文本渲染能力之外,Qwen-Image还具备一致性图像编辑能力,支持风格迁移、增删改、细节增强、文字编辑、人物姿态调整等多种操作。

总结起来,其主要特性包括:

  • 复杂文本渲染能力: Qwen-Image在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。

  • 一致性的图像编辑能力:通过增强的多任务训练范式,Qwen-Image在编辑过程中能出色地保持编辑的一致性。

  • 性能SOTA:在多个公开基准测试中的评估表明,Qwen-Image在各类生成与编辑任务中均获得SOTA。

性能表现方面,『通义千问』团队在多个公开基准上对Qwen-Image进行了评估,包括用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO。

在所有基准测试中,Qwen-Image都实现了SOTA。

在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色。

特别是在中文文本渲染上,大幅领先现有的最先进模型。

从技术报告透露的细节来看,为了解决复杂文字渲染难题,『通义千问』团队在数据处理、训练策略方面都做出了改进。

训练方面,Qwen-Image采用渐进式训练策略,从非文字到文字渲染,从简单到复杂文本输入,逐步过渡到段落级描述,这种课程学习方法大大增强了模型的原生文字渲染能力。

更多细节,可戳文末链接,查看官方技术报告。

One More Thing

官方放出的示例中,还有这么一张有意思的PPT。

提示词中的关键字是“『通义千问』视觉基础模型”。

莫非是新的剧透?

这个8月真是有意思了~

ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image

Hugging Face:https://huggingface.co/Qwen/Qwen-Image

GitHub:https://github.com/QwenLM/Qwen-Image

技术报告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

实测地址:chat.qwen.ai

特别声明:[Qwen新开源,把AI生图里的文字SOTA拉爆了(开源软件文集)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

王珞丹:从抵制拍裸戏,到现在近乎全裸出镜!她到底经历了什么?(王珞丹介绍)

于是在2006年,赵导勇敢地选择了王珞丹来主演他执导的一部都市情感励志剧奋斗,这无疑是为这位有着鲜明个性的年轻姑娘提供了一个绝佳的展示自己的舞台。 在王珞丹事业的高峰时期,一位名叫『白百何』的新秀凭借与其惊人相似…

王珞丹:从抵制拍裸戏,到现在近乎全裸出镜!她到底经历了什么?(王珞丹介绍)

中原福塔有多高?揭秘郑州地标建筑的“云端高度”(中原福塔有多高?有几层楼?)

中原福塔高达388米,是郑州最具代表性的城市地标之一,也是中国十大高塔之一。它不仅是观景打卡的热门去处,更融合了传统文化与现代科技。本文带你了解它的建造背景、结构特点、登塔体验及适合人群,帮你理性选择是否一游!

中原福塔有多高?揭秘郑州地标建筑的“云端高度”(中原福塔有多高?有几层楼?)

『芯片』散热大消息!华为新布局,碳化硅散热技术曝光(『芯片』散热问题收集)

『英伟达』GPU『芯片』功率从H200的700W提高到B300的1400W,而CoWoS封装技术又将多个『芯片』(如处理器、存储器等)高密度地堆叠集成在一个封装内,显著缩小了封装面积,这对『芯片』封装散热提出更高要求。 中…

『芯片』散热大消息!华为新布局,碳化硅散热技术曝光(『芯片』散热问题收集)

荣耀彻底“服软”,从4999元跌至2979元,16GB+512GB+5450mAh

荣耀成功冲击了高端市场,如果要说最成功的一款产品,我觉得少不了荣耀Magic6,这款手机在发布之后,卖得也是非常不错,如今这款手机售价一降再降,它的16GB+512GB,起初售价达到了4999元,但是现在来…

荣耀彻底“服软”,从4999元跌至2979元,16GB+512GB+5450mAh

『秦岚』,2年前朝辛芷蕾开了一枪,没想到2025年,正中自己眉心(『秦岚』早年)

王家卫的预言正在应验:"她让每个毛孔都成为戏眼"——从《日掛中天》里被抛弃的"美云",到现实中逆袭的王者,辛芷蕾把人生演成了比电影更精彩的剧本。某资深『制片人』在酒局上的醉

『秦岚』,2年前朝辛芷蕾开了一枪,没想到2025年,正中自己眉心(『秦岚』早年)