Z-Image Image Alchemy
详情
下载文件
关于此版本
模型描述
此工作流通过使用视觉语言模型和大语言模型进行创意提示合成,将两张输入图像的视觉元素融合,生成新图像。
首先,选择一种图像风格。该风格可从预定义风格列表中随机选取,或手动提供为固定输入。
接着,使用两个 QwenVL-4B 节点独立处理两张输入图像。每个 QwenVL 节点分析其输入图像,并生成对视觉内容的详细文本描述。
随后,将生成的图像描述与选定的图像风格一同输入 Ollama 节点。该节点利用大语言模型,从两个描述中提取、合并并创造性地重组关键视觉元素,形成一个统一连贯的图像提示。输出提示以选定的风格作为唯一且主要的风格,并置于提示开头。
默认的摘要与融合模型为 gpt-oss:120b,但也可使用更小的模型以降低 VRAM 需求。使用 Aya、Llama 3 和 Qwen 3 也取得了良好效果。
在图像生成阶段,输出分辨率动态确定。工作流使用从第一张输入图像导出的 total_pixels 值,并据此缩放生成图像,以保持相对图像尺寸和细节。
最后,将生成的提示、选定的风格及计算出的图像分辨率传递至图像生成节点(Z-Image),生成最终的合成图像。






