Auto Captioning for Qwen Image Edit Lora Datasets - LLama CPP VLM

详情

模型描述

版本 1

如果你以前做过 LoRA 训练,这个过程非常直接。你确实需要提前准备好数据集。它会再次保存你的控制图像和训练图像,这一点有点低效。再次保存控制图像可能并不必要,但我为了保险起见还是这么做了。

它的作用是将你的控制图像和训练图像拼接在一起。Llama-CPP 提示词已校准,以便识别拼接后的顶部图像作为控制图像。你需要根据自己的需求调整以下部分:

Create a prompt to get qwen image edit to get {Subject of} the input Image to preform the {action} with the {Object} as shown in the output image. Don't use "image" in the prompt.

你可以自由修改为任何你认为需要的内容,不过当前的版本也依然有效。

你需要使用 LLama CPP 才能使其正常工作:

https://github.com/lihaoyun6/ComfyUI-llama-cpp_vlm

此模型生成的图像

未找到图像。