腾讯开源 X-Omni：RL缝合混合架构，对标 GPT-4o，中文文本渲染登顶(腾讯开源混元大模型) #科技 #能力 #架构 #XOmni #结果 #模型

大数据文摘出品

近日，腾讯研究团队打造了一款新型图像生成模型X-Omni。技术上，采用了强化学习重构混合模型架构；性能上，直接对标OpenAI的GPT-4o。

地址：https://arxiv.org/pdf/2507.22058

这款模型不仅在中英文文字渲染方面刷新了已有基准，还在多个图像生成任务中击败了商用大模型。

它的核心技术来自不同开源社区，甚至包括直接竞争者，展现出一种“拼图式”AI构建思路。

混合架构的断层，被强化学习缝合

图像生成AI领域，始终存在一个核心难题：如何在语义理解和图像还原之间找到平衡。

目前主流做法，是采用“混合模型”架构：一部分使用自回归模型来生成语义token，另一部分用扩散模型来还原图像。

这种架构的优势是互补，但也带来了新的问题：语义token与扩散解码器之间“语言不通”。

两部分常常各说各话，生成结果的质量不稳定，尤其在遇到复杂文本或高精度场景时，错误容易累积。

腾讯的X-Omni摒弃了传统混合架构“各自训练、强行拼接”的模式，引入统一的强化学习流程，通过RL对齐两部分、提升协同。

首先，由自回归模型生成语义token；接着，扩散模型FLUX.1-dev负责根据token生成图像；再由一个综合评价系统给出反馈，指导自回归模型更精准地输出token。

这个评价系统由三部分组成：人工美学偏好评分、高分辨率图像质量评分模型，以及视觉-语言模型Qwen2.5-VL-32B。

同时，为验证图像中文字是否准确，系统还引入GOT-OCR-2.0与PaddleOCR做比对。

在约200步RL训练后，模型指标已超过SFT+Best-of-N的最佳结果。

结果显示，在相同训练轮数下，X-Omni的输出图像质量超过常规训练方式所得最佳结果。

文本是关键，中文才是战场

在与GPT-4o的对比中，X-Omni在最难的环节，图像中的文字渲染场景中，获得了优势。

为此，腾讯团队专门构建了名为“LongText-Bench”的测试基准，用以测评在长段文字下的图像渲染稳定性。

结果显示，X-Omni在英文文本准确率上达到了0.901，超越所有同类模型。

而在中文文本渲染方面，在OneIG中文任务上，X-Omni超过了GPT-4o，与Seedream 3.0表现相当；在中文长文本（LongText-Bench）评测中，X-Omni取得第一。

X-Omni采用的是一种叫SigLIP-VQ的tokenizer，不再以像素为单位构建图像，而是将图像编码为16,384个语义token。

这些token更贴近“概念”，而非图像细节，使模型更擅长理解语言并在图像中复现。

整个系统的语言能力依托于Qwen2.5-7B，这是由阿里巴巴开源的一款语言模型。

腾讯团队在其基础上增加了图像理解与生成模块，使X-Omni具备图文双向通感能力。

这意味着，无论是菜单、海报、UI界面，还是演讲稿、说明书，都可以被自然地转化为高质量图像。

对中国本土市场而言，这种能力至关重要。开源对垒商用，生态之战才刚开始

虽然X-Omni在多个关键维度上表现优异，但它并未宣称“碾压”GPT-4o。评测显示，改进幅度有限，非革命性跃迁。GPT-4o依然在综合性能上具备强大竞争力。

X-Omni的最大意义在于，它将来自多个组织、多个生态的开源技术融为一体，拼出了一个“模块化大模型”的可能形态。

它的扩散模型来自德国初创公司Black Forest Labs。语言模型来自阿里巴巴。评价系统与OCR系统则综合多个开源库构建而成。

这一切被整合进一个由腾讯发布的开源代码与模型，并已在Hugging Face与GitHub上全面开放。

这和OpenAI闭源的GPT-4o构成了鲜明对照。

后者虽然强大，但本质上仍是“黑箱”。当GPT-4o在ChatGPT上线图像生成功能，引发业界惊叹之时，

X-Omni则代表着另一条路径：开放、拼接、重构、调优。

这种路线或许无法一步登天，却为AI产业生态提供了另一种可持续发展模式。“后发者”可以通过策略、工程能力和生态协作缩小差距。

作者长期关注 AI 产业与学术，欢迎对这些方向感兴趣的朋友添加微信 Q1yezi，共同交流行业动态与技术趋势！

大数据文摘出品近日，腾讯研究团队打造了一款新型图像生成模型X-Omni。技术上，采用了强化学习重构混合模型架

腾讯开源 X-Omni：RL缝合混合架构，对标 GPT-4o，中文文本渲染登顶(腾讯开源混元大模型)

猜你喜欢

高位股集体大跌多只个股跌停(股票高位下跌谁在接盘)

民兵方队从15个省份抽组民兵参阅展现新时代民兵风采(民兵方队的故事)

镇江龙成绝缘材料取得聚酰胺酯薄膜生产改进型研磨装置专利，保证薄膜原料出料质量(镇江龙成绝缘材料有限公司年产值)

外研社新世纪英汉词典：学霸必备，开启英语学习新篇章📖(外研社新教材英语)

大号16孔甜甜圈机：烘焙新宠，早餐蛋糕机圆饼机双门加热电饼铛Donut！🍰✨(甜甜圈数字几)