Qwen-Image-Edit

详情

模型描述

我们很高兴推出 Qwen-Image-Edit,这是 Qwen-Image 的图像编辑版本。基于我们的 20B Qwen-Image 模型,Qwen-Image-Edit 成功将 Qwen-Image 独特的文本渲染能力扩展至图像编辑任务,实现精准的文本编辑。此外,Qwen-Image-Edit 同时将输入图像送入 Qwen2.5-VL(用于视觉语义控制)和 VAE 编码器(用于视觉外观控制),从而兼具语义与外观编辑能力。

核心功能:

  • 语义与外观编辑:Qwen-Image-Edit 支持低级视觉外观编辑(如添加、删除或修改元素,要求图像其他区域完全不变)和高级视觉语义编辑(如 IP 创作、物体旋转和风格迁移,允许整体像素变化但保持语义一致性)。

  • 精准文本编辑:Qwen-Image-Edit 支持中英文双语文本编辑,可在保留原始字体、大小和样式的同时,直接对图像中的文本进行添加、删除和修改。

  • 强大的基准表现:在多个公开基准上的评估表明,Qwen-Image-Edit 在图像编辑任务中达到业界领先(SOTA)水平,确立了其作为图像编辑强大基础模型的地位。

功能展示

Qwen-Image-Edit 的亮点之一在于其强大的语义与外观编辑能力。语义编辑指在保留原始视觉语义的前提下修改图像内容。为直观展示这一能力,我们以通义的吉祥物——水豚为例:

水豚

可以看到,尽管编辑后的图像(右图)大部分像素与输入图像(最左图)不同,但水豚的角色一致性却完美保留。Qwen-Image-Edit 强大的语义编辑能力,使得原创 IP 内容的生成变得轻松而多样。此外,在通义千问聊天中,我们围绕 16 种 MBTI 人格类型设计了一系列编辑提示词。借助这些提示词,我们成功基于水豚吉祥物创建了一套 MBTI 主题表情包,轻松拓展了 IP 的传播与表达形式。

MBTI 表情包系列

此外,新视角合成是语义编辑的另一关键应用场景。如下图所示,Qwen-Image-Edit 不仅能将物体旋转 90 度,还能实现完整的 180 度旋转,使我们能直接看到物体的背面:

视角变换 90 度视角变换 180 度

语义编辑的另一个典型应用是风格迁移。例如,给定一幅肖像输入,Qwen-Image-Edit 可轻松将其转换为吉卜力工作室等各类艺术风格。这一能力在虚拟头像创作等场景中具有重要价值:

风格迁移

除了语义编辑,外观编辑是另一类常见的图像编辑需求。外观编辑强调在添加、删除或修改特定元素的同时,保持图像某些区域完全不变。下图展示了一个在场景中添加招牌的案例。如图所示,Qwen-Image-Edit 不仅成功插入了招牌,还生成了相应的倒影,展现出卓越的细节处理能力。

添加招牌

下面另一个有趣的例子展示了如何从图像中移除细发丝等小物体。

移除细发丝

此外,图像中某个字母 "n" 的颜色也可以被精确修改为蓝色,实现对特定元素的精准编辑。

修改文本颜色

外观编辑在调整人物背景或更换服装等场景中也有广泛应用。下面三张图分别展示了这些实用案例:

修改背景修改服装

Qwen-Image-Edit 的另一大亮点是其精准的文本编辑能力,这源于 Qwen-Image 在文本渲染方面的深厚积累。如下图所示,以下两个案例生动展示了 Qwen-Image-Edit 在编辑英文文本方面的强大表现:

编辑英文文本 1编辑英文文本 2

Qwen-Image-Edit 还能直接编辑中文海报,不仅可修改大标题文字,还能对细微复杂的文字元素进行精准调整。

编辑中文海报

最后,让我们通过一个具体的图像编辑示例,展示如何利用链式编辑方式逐步修正通义生成的书法作品中的错误:

书法作品

在这幅作品中,几个汉字存在生成错误。我们可以利用 Qwen-Image-Edit 逐步修正。例如,可在原始图像上绘制边界框,标记需要修正的区域,并指示 Qwen-Image-Edit 修复这些特定部分。此处,我们希望红色框内的“稽”字正确书写,蓝色区域内的“亭”字准确呈现。

修正汉字

但实际中,“稽”字较为生僻,模型一次未能准确修正。该字的右下部分应为“旨”,而非“日”。此时,我们可以进一步用红色框标出“日”部分,指示 Qwen-Image-Edit 细调该细节,将其替换为“旨”。

微调汉字

是不是很神奇?通过这种链式、逐步的编辑方式,我们可以持续修正文字错误,直至获得理想的最终效果。

最终版 1最终版 2最终版 3最终版 4最终版 5

最终,我们成功获得了一份完全正确的《兰亭集序》书法版本!总而言之,我们希望 Qwen-Image-Edit 能进一步推动图像生成领域的发展,真正降低视觉内容创作的技术门槛,激发更多创新应用。

许可协议

Qwen-Image-Edit 采用 Apache 2.0 许可证。

原始文本与模型:https://huggingface.co/Qwen/Qwen-Image-Edit

此模型生成的图像

未找到图像。