Qwen-Image-Edit
详情
下载文件
关于此版本
模型描述
我们很高兴推出 Qwen-Image-Edit,这是 Qwen-Image 的图像编辑版本。基于我们的 20B Qwen-Image 模型,Qwen-Image-Edit 成功将 Qwen-Image 独特的文本渲染能力扩展至图像编辑任务,实现精准的文本编辑。此外,Qwen-Image-Edit 同时将输入图像送入 Qwen2.5-VL(用于视觉语义控制)和 VAE 编码器(用于视觉外观控制),从而兼具语义与外观编辑能力。
核心功能:
语义与外观编辑:Qwen-Image-Edit 支持低级视觉外观编辑(如添加、删除或修改元素,要求图像其他区域完全不变)和高级视觉语义编辑(如 IP 创作、物体旋转和风格迁移,允许整体像素变化但保持语义一致性)。
精准文本编辑:Qwen-Image-Edit 支持中英文双语文本编辑,可在保留原始字体、大小和样式的同时,直接对图像中的文本进行添加、删除和修改。
强大的基准表现:在多个公开基准上的评估表明,Qwen-Image-Edit 在图像编辑任务中达到业界领先(SOTA)水平,确立了其作为图像编辑强大基础模型的地位。
功能展示
Qwen-Image-Edit 的亮点之一在于其强大的语义与外观编辑能力。语义编辑指在保留原始视觉语义的前提下修改图像内容。为直观展示这一能力,我们以通义的吉祥物——水豚为例:
可以看到,尽管编辑后的图像(右图)大部分像素与输入图像(最左图)不同,但水豚的角色一致性却完美保留。Qwen-Image-Edit 强大的语义编辑能力,使得原创 IP 内容的生成变得轻松而多样。此外,在通义千问聊天中,我们围绕 16 种 MBTI 人格类型设计了一系列编辑提示词。借助这些提示词,我们成功基于水豚吉祥物创建了一套 MBTI 主题表情包,轻松拓展了 IP 的传播与表达形式。
此外,新视角合成是语义编辑的另一关键应用场景。如下图所示,Qwen-Image-Edit 不仅能将物体旋转 90 度,还能实现完整的 180 度旋转,使我们能直接看到物体的背面:
语义编辑的另一个典型应用是风格迁移。例如,给定一幅肖像输入,Qwen-Image-Edit 可轻松将其转换为吉卜力工作室等各类艺术风格。这一能力在虚拟头像创作等场景中具有重要价值:
除了语义编辑,外观编辑是另一类常见的图像编辑需求。外观编辑强调在添加、删除或修改特定元素的同时,保持图像某些区域完全不变。下图展示了一个在场景中添加招牌的案例。如图所示,Qwen-Image-Edit 不仅成功插入了招牌,还生成了相应的倒影,展现出卓越的细节处理能力。
下面另一个有趣的例子展示了如何从图像中移除细发丝等小物体。
此外,图像中某个字母 "n" 的颜色也可以被精确修改为蓝色,实现对特定元素的精准编辑。
外观编辑在调整人物背景或更换服装等场景中也有广泛应用。下面三张图分别展示了这些实用案例:
Qwen-Image-Edit 的另一大亮点是其精准的文本编辑能力,这源于 Qwen-Image 在文本渲染方面的深厚积累。如下图所示,以下两个案例生动展示了 Qwen-Image-Edit 在编辑英文文本方面的强大表现:
Qwen-Image-Edit 还能直接编辑中文海报,不仅可修改大标题文字,还能对细微复杂的文字元素进行精准调整。
最后,让我们通过一个具体的图像编辑示例,展示如何利用链式编辑方式逐步修正通义生成的书法作品中的错误:
在这幅作品中,几个汉字存在生成错误。我们可以利用 Qwen-Image-Edit 逐步修正。例如,可在原始图像上绘制边界框,标记需要修正的区域,并指示 Qwen-Image-Edit 修复这些特定部分。此处,我们希望红色框内的“稽”字正确书写,蓝色区域内的“亭”字准确呈现。
但实际中,“稽”字较为生僻,模型一次未能准确修正。该字的右下部分应为“旨”,而非“日”。此时,我们可以进一步用红色框标出“日”部分,指示 Qwen-Image-Edit 细调该细节,将其替换为“旨”。
是不是很神奇?通过这种链式、逐步的编辑方式,我们可以持续修正文字错误,直至获得理想的最终效果。
最终,我们成功获得了一份完全正确的《兰亭集序》书法版本!总而言之,我们希望 Qwen-Image-Edit 能进一步推动图像生成领域的发展,真正降低视觉内容创作的技术门槛,激发更多创新应用。
许可协议
Qwen-Image-Edit 采用 Apache 2.0 许可证。



