这项由加州大学圣克鲁兹分校的王宇瀚、杨思威等研究团队与爱丁堡大学、Adobe公司合作完成的研究,发表于2025年7月28日的arXiv预印本平台。研究团队创建了名为GPT-IMAGE-EDIT-1.5M的大规模图像编辑数据集,并将相关代码、数据集和模型全部开源发布。有兴趣深入了解的读者可以通过项目主页https://ucsc-vlaa.github.io/GPT-Image-Edit、GitHub代码库https://github.com/wyhlovecpp/GPT-Image-Edit,以及Hugging Face数据集页面https://huggingface.co/datasets/UCSC-VLAA/GPT-Image-Edit-1.5M获取完整资源。
当你打开一张照片,想要把其中的猫咪变成小狗,或者把晴朗的天空改成雨天,你只需要用文字描述你的想法,AI就能帮你实现这些编辑。这听起来很神奇,但实现这种"文字指令式图像编辑"的技术门槛一直很高。就像烹饪一样,想要做出美味佳肴,不仅需要好的厨师(AI模型),更需要优质的食材(训练数据)。
在AI图像编辑领域,GPT-4o这样的顶级商业模型就像米其林三星大厨,能够根据你的文字描述精准地编辑图像,效果令人惊叹。然而,这些商业模型就像是秘不外传的家族菜谱,普通研究者无法获得其训练数据和方法细节。相比之下,开源模型虽然人人都能使用和改进,但就像是用普通食材做菜的家庭厨师,效果总是差强人意。
造成这种差距的根本原因并非技术能力不足,而是缺乏高质量的"食材"——也就是训练数据。现有的公开图像编辑数据集就像是品质参差不齐的菜市场货物:有些指令描述不清楚,有些图像质量低劣,有些编辑前后的图像配对不准确。用这样的数据训练出来的AI模型,自然无法达到专业水准。
为了解决这个问题,研究团队决定利用GPT-4o这位"顶级大厨"来帮助"挑选和加工食材"。他们不是从零开始创建数据,而是像美食评论家一样,从现有的三个知名数据集——OmniEdit、HQ-Edit和UltraEdit中精选素材,然后用GPT-4o来提升这些素材的质量。
整个数据处理过程可以比作一家高档餐厅的后厨操作。研究团队首先扮演采购员的角色,从三个不同的"供应商"那里收集了原始的图像编辑样本。这些样本包含三部分内容:编辑指令(告诉AI要做什么改动)、原始图像(编辑前的图片)、目标图像(编辑后应该达到的效果)。
接下来是关键的"食材加工"环节。团队发现,即使是GPT-4o这样的顶级模型,在理解指令时也会有自己的"理解偏差"。就像同一道菜谱,不同的厨师可能会有略微不同的诠释。为了确保最终的"菜品"(编辑后的图像)与"菜谱"(编辑指令)完美匹配,研究团队开发了一套精细的质量控制流程。
这套流程分为几个步骤。首先,他们让GPT-4o重新生成所有的输出图像,就像让顶级厨师按照原有菜谱重新烹饪一遍。这个步骤立即带来了显著的质量提升。以OmniEdit数据集为例,仅仅是这一步改进,就让基于该数据训练的Flux 1.0模型在图像编辑评测中的得分从2.94分提升到3.24分。
然而,研究团队发现了一个微妙的问题。GPT-4o在重新生成图像时,偶尔会添加一些原始指令中没有明确要求的创意元素。这就像一位有创意的厨师,在按照菜谱做菜时会不自觉地加入自己的理解和发挥。虽然结果可能更加精彩,但与原始"菜谱"的匹配度会降低。
为了解决这个问题,团队开发了第二套方案:让GPT-4o既看原始图像,又看重新生成的图像,然后重新写一遍编辑指令,确保指令与最终图像完美匹配。这就像让厨师品尝自己做出的菜,然后重新修订菜谱,确保后续制作者能够完全复现这道菜的味道。这种"指令重写"方法进一步提升了模型性能,在OmniEdit数据集上的得分达到了3.40分。
对于HQ-Edit数据集,团队还尝试了第三种方案:"完整重制"。由于该数据集的原始输入图像是由相对老旧的DALL-E 3生成的,质量不够理想,研究团队决定让GPT-4o同时重新生成输入和输出图像。这就像完全重新准备食材和烹饪过程,虽然工作量更大,但能确保整体质量的一致性。
经过这套精细的"食材加工"流程,研究团队最终创建了包含超过150万个高质量样本的GPT-IMAGE-EDIT-1.5M数据集。这个数据集的规模相当于之前最大开源数据集的数倍,更重要的是,每个样本都经过了GPT-4o级别的质量把关。
为了验证这个数据集的效果,研究团队选择了当前最先进的开源模型架构FluxKontext作为测试对象。FluxKontext采用了流匹配(Flow Matching)技术,这是比传统扩散模型更高效的生成方法。可以把它想象成一条平滑的传送带,能够将随机噪声直接"传送"成目标图像,而不需要像传统方法那样经过多个繁琐的去噪步骤。
除了使用优质数据外,研究团队还对模型架构进行了改进。他们用Qwen-VL-7b这个强大的多模态语言模型来替换原有的文本编码器。这就像给厨师配备更精准的味觉感受器,让模型能够更准确地理解复杂的编辑指令,特别是那些涉及空间关系、色彩变化或风格转换的复杂要求。
实验结果令人惊喜。在多个权威测试基准上,使用GPT-IMAGE-EDIT-1.5M数据集训练的模型都创造了开源方法的新纪录。在GEdit-EN测试中得到7.24分,在ImgEdit-Full测试中获得3.80分,在Complex-Edit测试中达到8.78分。这些分数不仅大幅超越了之前的开源方法,更重要的是显著缩小了与GPT-4o等顶级商业模型的差距。
更详细地分析这些成果,我们可以看到改进的全面性。在GEdit-EN测试的11个细分类别中,包括背景更换、颜色调整、材质修改、动作变化、肖像美化、风格转换以及物体的添加、移除、替换等各种编辑任务,新模型都表现出色。特别是在材质修改和物体替换这两个技术难度较高的任务上,模型分别获得了7.75分和7.17分的高分,这些分数甚至接近了GPT-4o在相应任务上的表现。
在ImgEdit-Full测试中,模型在九个不同的任务类型上都显示出均衡的能力。无论是添加新元素、调整图像属性、提取特定对象,还是替换、移除元素,改变背景、转换风格等,模型都能够稳定发挥。这种全面性正是实用AI系统所需要的特质——用户的需求往往是多样化和不可预测的,一个真正有用的图像编辑AI必须能够处理各种类型的编辑任务。
为了深入理解是什么因素推动了这种性能提升,研究团队进行了详细的对比分析。他们发现,数据质量的提升是性能改进的最主要驱动力。当他们用不同版本的数据训练同一个模型时,使用GPT-4o重新生成的数据总是能带来显著的性能提升。这证实了"优质数据胜过复杂算法"这一在AI领域被反复验证的原则。
同时,研究团队也发现了一个重要的平衡点。他们尝试加入一些极其复杂的编辑指令,希望能进一步提升模型的能力上限。然而实验显示,过于复杂的指令如果没有相应的高质量图像配对,反而会损害模型的整体性能。特别是在身份保持(Identity Preservation)方面,模型会在执行复杂编辑时意外地改变图像中不应该被修改的部分。
这个发现有着深刻的启示意义。在AI训练中,并非"越复杂越好"或"越多越好",而是需要在指令复杂度、图像质量和任务一致性之间找到最佳平衡点。就像烹饪一样,最好的菜肴往往不是用了最多食材的,而是各种元素搭配最和谐的。
一、数据炼金术:化腐朽为神奇的三步法
研究团队面临的首要挑战是如何处理现有数据集中的质量问题。这些问题就像是一堆需要精加工的原石:有潜力,但需要精心雕琢才能发光。
团队的第一步是"图像重铸"。他们发现,即使是同样的编辑指令,GPT-4o生成的图像质量也远超原始数据集中的图像。这个过程类似于用现代高精度设备重新制造一件古董,保留其精神内核但大幅提升制作工艺。在OmniEdit数据集上,仅仅这一步改进就让SD3-Medium模型的性能从2.54分跃升至3.13分,Flux 1.0模型更是从2.94分提升到3.24分。
但是,团队很快发现了一个微妙的问题。GPT-4o在重新生成图像时,有时会发挥自己的"艺术创造力",添加一些原始指令中没有明确要求的元素。比如,原始指令可能只是"把猫变成狗",但GPT-4o生成的图像中的狗可能还戴上了一顶帽子。虽然这样的创意很有趣,但会导致指令与图像不匹配的问题。
为了解决这个"创意过度"的问题,团队开发了第二步:"指令重写"。他们让GPT-4o同时观察原始输入图像和新生成的输出图像,然后重新编写一个更准确的编辑指令。这就像是让一位专业的美食评论家,在品尝了厨师的创意菜品后,重新写一份更准确的菜谱描述。这种方法进一步提升了模型性能,在OmniEdit数据集上将分数推高到3.40分。
第三步是"完整重制",主要应用于HQ-Edit数据集。由于该数据集的输入图像最初是由相对老旧的DALL-E 3生成的,质量已经不能满足现代标准,团队决定让GPT-4o重新生成约50%的输入图像,并基于这些新输入制作对应的输出图像。这种做法虽然工作量巨大,但确保了整个数据集的质量一致性和现代化水准。
二、复杂性的艺术:为何简单有时更强大
在数据集构建过程中,研究团队还探索了一个有趣的方向:复杂指令的处理。他们认为,如果AI能够处理更复杂的编辑指令,就能在实际应用中处理更多样化的用户需求。
团队开发了"Complex-Edit风格指令",这些指令通常包含三个原子级别的编辑操作。比如,一个复杂指令可能要求"将房间的墙壁颜色改为天蓝色,把地板材质换成大理石,同时在餐桌上添加一束彩色鲜花,并在整体图像上应用暖色调滤镜"。这种复合指令更接近真实用户的编辑需求,因为人们很少只做单一的简单修改。
然而,实验结果揭示了一个重要的平衡原则。当团队直接使用这些复杂指令训练模型时,发现模型在GEdit-EN测试中的表现并不理想,只得到了5.39分。更重要的是,通过对模型输出的视觉检查,他们发现模型出现了严重的"身份保持"问题——在执行复杂编辑时,模型会意外地修改图像中本应保持不变的部分。
这个发现具有深刻的理论和实践意义。它表明,在AI训练中,数据的质量和一致性比数据的复杂性更为重要。一个能够完美执行简单任务的模型,往往比一个勉强处理复杂任务但错误频出的模型更有实用价值。正如建筑学中的原则:坚实的基础比华丽的装饰更重要。
最终,团队在数据集中保留了约50%的复杂指令,但确保这些指令都经过了严格的质量控制和验证。实验显示,这种经过精心平衡的复杂指令确实能够提升模型的整体能力,在GEdit-EN测试中将平均分数从7.03提升到7.24分,在ImgEdit测试中从3.71提升到3.80分。
三、架构创新:为AI配备更精准的"感知器官"
除了数据质量的提升,研究团队还在模型架构层面进行了重要创新。他们选择了基于FluxKontext dev的架构,这是目前最先进的开源图像生成框架之一。
FluxKontext采用的流匹配技术可以比作一条智能传送带。传统的扩散模型就像是一个需要多次返工的制造过程:先制作一个粗糙的半成品,然后反复打磨、修正,最终得到成品。这个过程虽然有效,但速度较慢,需要很多步骤。而流匹配技术则像是一条精确的流水线,能够直接将原材料(随机噪声)平滑地转换成最终产品(目标图像),整个过程更加高效和稳定。
但仅仅有好的"制造设备"还不够,还需要精准的"感知系统"来理解用户指令。传统的图像编辑模型使用CLIP等文本编码器来理解用户的编辑要求,但这些编码器在处理复杂的空间关系、细致的属性描述或抽象的风格要求时往往力不从心。
研究团队决定用Qwen-VL-7b来替换传统的文本编码器。Qwen-VL-7b是一个强大的多模态大语言模型,具备同时理解文本和图像的能力。这就像是为AI配备了一套更加敏锐的"感知器官",不仅能够准确理解文字描述,还能深入分析图像内容,从而更好地理解编辑任务的具体要求。
这种架构改进带来了显著的性能提升。在文本编码器的对比实验中,团队发现单独使用冻结的T5编码器可以将GEdit-EN分数从6.26提升到7.12分。而使用冻结的Qwen-VL编码器虽然在大部分任务上表现良好,但在文本编辑任务上出现了一些问题,分数只有1.20分。这主要是因为Qwen-VL的分词器在处理特定文本字符串时存在一些技术限制。
最终,团队采用了一种巧妙的组合方案:同时使用冻结的Qwen-VL和T5编码器,并将它们的特征进行融合。这种"双引擎"设计充分发挥了两种编码器的优势:Qwen-VL提供强大的多模态理解能力,T5确保文本处理的准确性。最终结果是GEdit-EN平均分数达到7.24分,ImgEdit整体分数达到3.80分。
四、性能突破:开源模型的逆袭之路
经过数据优化和架构改进的双重加持,基于GPT-IMAGE-EDIT-1.5M训练的模型在多个权威基准测试中都取得了突破性表现。这些测试就像是AI图像编辑领域的"标准化考试",从不同角度评估模型的综合能力。
在GEdit-Bench-EN测试中,这个全面评估包含11种不同类型的编辑任务。可以将其想象成一场多项全能比赛,每个项目都考验AI的不同技能。模型需要处理背景更换(相当于"换场景"技能)、颜色调整("调色"技能)、材质修改("换材料"技能)、动作变化("导演"技能)、肖像美化("化妆师"技能)、风格转换("艺术家"技能)等多种任务。
在这场"全能比赛"中,新模型获得了7.24分的综合成绩,这不仅刷新了开源模型的历史最高纪录,更重要的是与GPT-4o(7.49分)的差距缩小到了0.25分以内。在某些单项任务上,比如材质修改(7.75分)和风格转换(8.04分),新模型的表现甚至接近或超过了一些商业模型。
ImgEdit-Full测试从另一个角度评估模型能力,它将编辑任务按照操作类型分为九大类。这就像是按照不同的"工作技能"来分类评估。在添加元素、调整属性、提取对象、替换内容、移除元素、背景处理、风格变换、混合操作和动作修改这九个类别中,模型都展现出了均衡而出色的能力,最终获得3.80分的综合评分。
Complex-Edit测试专门评估模型处理复杂、多步骤编辑任务的能力。这个测试将评估分为三个维度:指令跟随(Instruction Following,IF)、身份保持(Identity Preservation,IP)和感知质量(Perceptual Quality,PQ)。可以把它想象成评判一个修复古画大师的三个标准:是否按照要求完成了修复(IF),是否保持了画作的原始特征(IP),以及修复后的画面是否自然美观(PQ)。
在这个最具挑战性的测试中,新模型获得了8.78分的综合评分,其中指令跟随得分8.99分,身份保持8.41分,感知质量8.93分。这三个分数都非常接近GPT-4o的对应表现(分别为9.29、7.51和9.47分),表明开源模型在处理复杂任务时已经达到了接近商业模型的水准。
五、深度剖析:成功背后的关键因素
为了理解这种性能突破背后的真正原因,研究团队进行了详细的消融实验分析。这些实验就像是拆解一台精密机器,逐个检验每个部件的作用,从而理解整体性能提升的源头。
首先,团队验证了数据处理策略的有效性。他们用相同的模型架构,分别在原始数据和经过GPT-4o处理的数据上进行训练。结果显示,数据质量的提升是性能改进的最主要驱动力。在OmniEdit数据集上,仅仅是用GPT-4o重新生成输出图像这一步,就让SD3-Medium模型的imgedit分数从2.54跃升到3.13,Flux 1.0模型从2.94提升到3.24。
进一步的指令重写策略带来了额外的性能提升。当团队让GPT-4o重新编写更准确的指令描述时,Flux 1.0模型在OmniEdit数据集上的imgedit分数进一步提升到3.40。这证明了指令-图像对齐的重要性:即使是高质量的图像,如果与指令不匹配,也会影响模型的学习效果。
在HQ-Edit数据集上,完整的输入-输出图像对重新生成策略也显示出明显效果。Flux 1.0模型的GEdit-EN分数从基础版本的4.34分提升到输出重新生成版本的5.67分,再到完整对重新生成版本的5.73分。虽然提升幅度相对较小,但这种一致性的改进证明了系统性数据优化的价值。
复杂指令数据的影响分析揭示了一个有趣的现象。单独使用复杂指令训练的模型在某些测试中表现不佳,但当这些复杂指令与高质量的简单指令数据适当混合时,却能带来整体性能的提升。在最终的模型中,包含复杂指令的完整数据集比不包含复杂指令的版本在GEdit-EN上提升了0.21分(从7.03到7.24),在ImgEdit上提升了0.09分(从3.71到3.80)。
文本编码器的选择对模型性能也有显著影响。研究显示,使用更强大的多模态编码器能够显著提升模型对复杂指令的理解能力。但同时,保留传统文本编码器的优势(特别是在文本处理任务上)也很重要。最终的"双编码器"方案在各种任务上都表现出了良好的平衡性。
六、实际应用:从实验室到现实世界
这项研究的意义远不止于在学术测试中获得高分。GPT-IMAGE-EDIT-1.5M数据集和基于它训练的模型为实际应用开辟了新的可能性。
在内容创作领域,这种技术能够大大降低专业图像编辑的门槛。以往需要熟练掌握Photoshop等专业软件的编辑任务,现在普通用户只需要用自然语言描述自己的想法就能实现。比如,一个博客作者想要为文章配图,但手头只有一张白天的城市照片,现在他可以简单地输入"把这张图片改成夜景,添加霓虹灯效果",AI就能自动完成这个复杂的编辑任务。
在电商领域,这种技术能够革命性地改变产品图片的制作流程。商家不再需要为每种颜色、每种场景都拍摄单独的产品照片,而是可以基于一张基础图片,通过文字指令生成各种变体。"把这件红裙子改成蓝色"、"把背景换成海滩场景"、"添加配饰手镯"等需求都能快速实现。
在教育和培训领域,这种技术为创建个性化的教学材料提供了新工具。教师可以根据不同的教学需求,快速调整图像内容。比如,在讲解历史时,可以将现代城市图片改造成古代场景;在进行语言教学时,可以调整图片中的文字内容以适应不同的语言版本。
更重要的是,这项研究推动了AI图像编辑技术的民主化进程。通过开源数据集和模型,研究团队将原本只有大公司才能掌握的尖端技术变得人人可用。这就像是将米其林三星餐厅的菜谱公开,让更多的厨师能够学习和改进,最终让更多人品尝到高质量的"菜肴"。
七、技术细节:精工细作的工程智慧
在数据处理的技术实现层面,研究团队展现了精巧的工程智慧。他们面临的一个重要挑战是如何处理不同长宽比的图像。现实中的图像有各种尺寸和比例,但AI模型通常需要固定尺寸的输入。
团队采用了一种巧妙的"填充-裁剪"策略。对于任意尺寸的源图像,他们首先计算其长宽比,然后选择最接近的标准比例(1:1、3:2或2:3)。接下来,他们在图像周围添加最少量的白色填充,使其符合目标尺寸。在GPT-4o完成编辑后,再精确地裁掉之前添加的填充部分。这个过程就像是为不同尺寸的画作设计合适的画框,确保在处理过程中不丢失重要内容,最后又完美地恢复原始比例。
为了确保数据质量,团队还实施了严格的质量控制机制。他们设置了自动化的质量过滤器,拒绝任何在最终输出中仍然包含明显填充痕迹的样本。这种质量控制确保了数据集中的每个样本都达到了专业标准。
在复杂指令的生成过程中,团队采用了分层的复杂度控制策略。他们发现,过于复杂的指令(比如包含5个或更多原子操作的指令)往往会导致生成的图像失去真实感。因此,他们选择了3级复杂度(C3)作为最佳平衡点,即每个复杂指令包含3个原子级的编辑操作。这种设计既能满足实际应用中的复杂需求,又能保持图像的自然性和真实感。
八、深度学习:从理论到实践的完美结合
这项研究在深度学习理论和实践应用之间架起了一座桥梁。从理论角度看,它验证了几个重要的机器学习原则。
首先是"数据质量胜过数量"的原则。虽然GPT-IMAGE-EDIT-1.5M的样本数量达到了150万,但真正推动性能提升的是每个样本的高质量,而不是简单的数量堆积。这证明了在AI训练中,精心策划的小规模高质量数据往往比随意收集的大规模低质量数据更有价值。
其次是"对齐的重要性"原则。研究显示,指令与图像之间的精确对齐对模型性能至关重要。即使是微小的不匹配也会积累成显著的性能损失。这个发现对整个AI训练领域都有启发意义,提醒研究者在构建训练数据时必须确保输入和输出之间的严格对应关系。
第三是"架构与数据的协同效应"。单纯的数据改进或单纯的架构优化都无法达到最终的性能水平,只有当高质量数据与先进架构相结合时,才能产生突破性的效果。这种协同效应在FluxKontext架构与Qwen-VL编码器的结合中得到了完美体现。
从实践角度看,这项研究为AI产品开发提供了宝贵的经验。它证明了开源社区完全有能力创造出与商业巨头相竞争的技术成果,关键在于找到正确的方法论和付出足够的精细化努力。
九、未来展望:开启AI图像编辑的新时代
GPT-IMAGE-EDIT-1.5M的发布标志着AI图像编辑技术发展的一个重要转折点。这不仅仅是一个数据集的发布,更是开源AI社区向商业巨头发起挑战的宣言。
从技术发展的角度看,这项研究开辟了几个有前景的研究方向。首先是数据合成技术的进一步完善。研究团队展示了如何利用先进的商业模型来提升开源数据的质量,这种"站在巨人肩膀上"的策略可能会在其他AI领域得到广泛应用。
其次是多模态理解能力的深化。Qwen-VL编码器在这项研究中表现出的强大理解能力,预示着未来的AI系统将能够更好地理解人类的复杂意图,不仅仅是在图像编辑领域,在视频制作、3D建模、虚拟现实等领域也将有广阔的应用前景。
第三是复杂任务处理能力的提升。虽然当前的研究在复杂指令处理上还有提升空间,但它为未来的研究指明了方向。随着技术的进步,AI系统将能够处理更加复杂和细致的编辑需求,真正成为人类创意表达的得力助手。
从产业发展的角度看,这项研究可能会推动整个AI图像编辑市场的重新洗牌。开源模型性能的显著提升将降低相关技术的使用门槛,使更多的中小企业和个人开发者能够集成高质量的图像编辑功能。这种技术民主化趋势将促进创新应用的涌现,从而推动整个行业的快速发展。
研究团队在论文中也坦诚地指出了当前工作的局限性和未来的改进方向。他们建议将这种数据优化方法扩展到视频编辑和3D建模等其他模态,并探索更加自动化的数据质量检测和纠正技术。这些建议为后续研究者提供了清晰的路线图。
说到底,这项研究的最大价值在于它证明了开源社区的巨大潜力。通过精心的策划、巧妙的方法和不懈的努力,开源研究者完全可以创造出不逊于商业巨头的技术成果。GPT-IMAGE-EDIT-1.5M不仅仅是一个数据集,更是开源精神和协作智慧的结晶。它向全世界宣告:在AI技术的发展道路上,开源社区不是追随者,而是能够引领潮流的创新力量。
对于普通用户来说,这意味着他们将很快能够使用到更加强大、更加便宜、同时完全透明的AI图像编辑工具。对于研究者来说,这个高质量的开源数据集为他们的研究提供了坚实的基础。对于整个AI行业来说,这项研究展示了开源与商业模式之间良性竞争的可能性,这种竞争最终将推动技术的快速进步,让所有人都从中受益。
随着GPT-IMAGE-EDIT-1.5M数据集和相关模型的公开发布,我们有理由相信,AI图像编辑技术将进入一个全新的发展阶段。在这个阶段中,技术的边界将被不断推进,应用的范围将不断扩大,而最重要的是,这些强大的技术将变得更加平民化,真正服务于每一个有创意想法的人。有兴趣的读者可以通过研究团队提供的项目主页、GitHub代码库和Hugging Face数据集页面获取完整的研究资源,亲自体验这一技术突破的魅力。
Q&A
Q1:GPT-IMAGE-EDIT-1.5M数据集是什么?它有什么特别之处? A:GPT-IMAGE-EDIT-1.5M是一个包含150万个高质量图像编辑样本的开源数据集,由加州大学圣克鲁兹分校团队创建。它的特别之处在于使用GPT-4o这样的顶级AI模型来重新生成和优化现有数据,确保每个样本都达到专业级质量,这让开源AI模型首次能够与商业模型的性能相媲美。
Q2:这个数据集会不会让AI图像编辑变得更普及? A:会的。这个数据集的开源发布大大降低了高质量AI图像编辑技术的使用门槛。以前只有大公司才能掌握的顶级图像编辑AI技术,现在普通开发者和研究者也能使用。这意味着更多应用会集成强大的图像编辑功能,普通用户将能够通过简单的文字描述就完成复杂的图像编辑任务。
Q3:如何使用这个数据集?需要什么技术条件? A:该数据集已在Hugging Face平台开源发布(https://huggingface.co/datasets/UCSC-VLAA/GPT-Image-Edit-1.5M),任何人都可以免费下载使用。研究团队还在GitHub(https://github.com/wyhlovecpp/GPT-Image-Edit)提供了完整的代码和训练好的模型。使用者需要具备一定的机器学习基础和计算资源,但不需要从零开始开发,可以直接基于开源模型进行应用开发。