Enhance Your Prompts for Flux1 Kontext-Dev Using Ollama

详情

模型描述

在这个工作流中,我构建了一个智能的 ComfyUI 设置,可自动优化用户提示词,使其更适配 Flux1 Kontext-Dev 编辑系统——一种前沿的图像到图像编辑工具。

📘 参考资料:Flux1 Kontext-Dev 官方指南


🎯 目标

Flux1 Kontext-Dev 高度依赖清晰、丰富且结构良好的提示词来引导编辑过程。然而,许多用户提供的提示词过于简短或模糊,导致效果不佳。

本工作流通过集成使用 Ollama 的本地大语言模型(LLM),将简单的提示词重写为描述性强、细节丰富的提示词,专为高效图像编辑而优化。


⚙️ 工作流程说明

  1. 用户输入:

    • 待编辑的图像。

    • 描述所需更改的简单或模糊文本提示词。

  2. Ollama 集成(用于提示词增强的 LLM):

    • 提示词被传递给本地通过 Ollama 运行的视觉增强型 LLM Gemma-3

    • 该模型将提示词重写为更具表现力和视觉描述性的版本。

  3. 增强后的提示词 → Flux1:

    • 优化后的提示词与输入图像一同输入到 Flux1 Kontext-Dev 节点。

    • Flux1 基于高质量提示词执行上下文感知的图像编辑。


📦 所需组件

要运行此工作流,您需要以下组件:

✅ 1. Ollama

用于运行 LLM 和视觉模型的强大本地运行时环境。

🔗 下载并安装 Ollama:
https://ollama.com/download

✅ 2. 视觉模型:gemma3

根据您的系统显存,选择 Gemma 3 的多模态(视觉+语言)版本:

👉 模型页面:
https://ollama.com/library/gemma3

ollama run gemma3

🔥无审查模型:
https://ollama.com/huihui_ai/gemma3-abliterated

ollama run huihui_ai/gemma3-abliterated

⚠️ 请确保您使用的是 Gemma 3 的多模态(含视觉)版本,以确保其可在 ComfyUI 中处理基于图像的提示。


✅ 主要优势

  • 即使输入提示词简单,也能显著提升编辑准确度。

  • 采用 Ollama 和 ComfyUI 的本地优先、隐私安全架构。

  • 可根据硬件条件灵活选择模型。


💡 示例

输入提示词:

"change the style to realistic"

经 Gemma-3 增强后的提示词:

"将图像转换为逼真的照片级渲染效果,保留主体面部特征、姿态和原有构图,同时实现精确的光影、纹理与细节表现。"


🌍 多语言提示词支持

本工作流支持任何语言的提示词(包括阿拉伯语),并自动将其翻译为富表现力的英文提示词,供 Flux1 解析。

💬 示例:

输入(阿拉伯语):

"حول الستايل إلى حقيقي"

增强输出(英文):

"Change the image to a photorealistic rendering, with accurate lighting, textures, and details, while preserving the subject’s facial features, pose, and the existing composition."

这使得非英语用户也能轻松使用,同时享受专业级提示词增强效果。

🧩 工作流版本

本工作流提供两个版本

🔹 基础版

  • 专为易于使用设计。

  • 支持 1–2 张输入图像

🔸 高级版

  • 支持最多 4 张输入图像

  • 在管道末端包含超分辨率放大功能。

  • 专为专业级输出打造。

  • 基于 Civitai 上的原始工作流修改而来:
    👉 /model/618578?modelVersionId=1956938

此模型生成的图像

未找到图像。