The Snap Machine
详情
下载文件
模型描述
Snap Machine 是一个完全独立的 ComfyUI 工作流,可生成图像及配套的社交媒体文案。它首先生成图像,然后使用 BLIP 分析图像,最后借助大语言模型(LLM)根据图像内容撰写文案。
如何使用 Snap Machine
1️⃣ 生成图像 —— 首先,在禁用 Snap Machine 的情况下生成图像,以获得干净的基础输出。
2️⃣ 锁定种子 —— 找到满意的图像后,锁定种子,以便后续持续使用该精确图像。
3️⃣ 生成文案 —— 启用 Snap Machine,让 BLIP 分析图像,再由 LLM 根据自定义提示词,将分析结果优化为更自然、更具吸引力的文案。可反复生成以探索不同选项。若文案被截断,可能需要微调:调整令牌限制或修改 LLM 设置,有助于优化输出。
4️⃣ 调整位置 —— 若文案出现在面部或不合适的位置,锁定 Snap Machine 的种子并继续生成。系统会随机将文案放置在不同位置,直到找到理想的布局。
工作原理
Snap Machine 通过一个预提示词引导 LLM,告知其如何利用 BLIP 的输出生成最终文案。
1️⃣ BLIP 分析图像,生成对图像内容的基础描述。
2️⃣ 预提示词设定 LLM 的风格与语气,指示其如何将 BLIP 的描述改写为自然流畅的文案。
3️⃣ BLIP 描述与预提示词一同输入 LLM 节点,由其优化为最终文案。
您可通过调整以下三个关键部分来微调结果:
- 预提示词(改变 LLM 如何使用 BLIP 的输出)
- BLIP 设置(控制其对图像的描述方式)
- LLM 参数(调整长度、随机性与措辞)
这使您能完全掌控文案的语感与风格,便于根据不同风格自定义输出。
资源
在 ComfyUI 中设置 LLM:
我使用的 LLM 是来自以下地址的 Toppy-M-7B.q4_k_s:https://huggingface.co/TheBloke/Toppy-M-7B-GGUF/tree/main
备注
正向提示词部分由三个节点组成,中间使用了通配符处理器。此设置可在保持提示结构灵活动态的同时,引入受控的多样性变化。





