Z-Image Image Alchemy

详情

下载文件

模型描述

此工作流通过使用视觉语言模型和大语言模型进行创意提示合成,将两张输入图像的视觉元素融合,生成新图像。

首先,选择一种图像风格。该风格可从预定义风格列表中随机选取,或手动提供为固定输入。

接着,使用两个 QwenVL-4B 节点独立处理两张输入图像。每个 QwenVL 节点分析其输入图像,并生成对视觉内容的详细文本描述。

随后,将生成的图像描述与选定的图像风格一同输入 Ollama 节点。该节点利用大语言模型,从两个描述中提取、合并并创造性地重组关键视觉元素,形成一个统一连贯的图像提示。输出提示以选定的风格作为唯一且主要的风格,并置于提示开头。
默认的摘要与融合模型为 gpt-oss:120b,但也可使用更小的模型以降低 VRAM 需求。使用 AyaLlama 3Qwen 3 也取得了良好效果。

在图像生成阶段,输出分辨率动态确定。工作流使用从第一张输入图像导出的 total_pixels 值,并据此缩放生成图像,以保持相对图像尺寸和细节。

最后,将生成的提示、选定的风格及计算出的图像分辨率传递至图像生成节点(Z-Image),生成最终的合成图像。

此模型生成的图像

未找到图像。