Enhance Your Prompts for Flux1 Kontext-Dev Using Ollama

詳細

ファイルをダウンロード

モデル説明

このワークフローでは、ユーザーのプロンプトを自動的に改善し、Flux1 Kontext-Dev編集システムに最適化するための知能化されたComfyUIセットアップを構築しました。Flux1 Kontext-Devは、画像から画像への編集に向けた最先端のツールです。

📘 参考:Flux1 Kontext-Dev 公式ガイド


🎯 目的

Flux1 Kontext-Devは、編集プロセスを適切にガイドするために、明確で豊かで構造化されたプロンプトに大きく依存しています。しかし、多くのユーザーは短く曖昧なプロンプトを提供するため、結果が不十分になることがよくあります。

このワークフローは、Ollamaを活用したローカルの大規模言語モデル(LLM)を統合することで、簡単なプロンプトを、画像編集に適した記述的で詳細なプロンプトに書き換えることでこの問題を解決します。


⚙️ ワークフローの動作方法

  1. ユーザーの入力:

    • 編集対象の画像。
    • 変更したい内容を簡潔またはあいまいに記述したテキストプロンプト。
  2. Ollama統合(プロンプト強化用LLM):

  3. 強化されたプロンプト → Flux1:

    • 改善されたプロンプトは、入力画像とともにFlux1 Kontext-Devノードに注入されます。
    • Flux1は、この高品質なプロンプトに基づいてコンテキスト認識型の画像編集を実行します。

📦 必要条件

このワークフローを実行するには、以下のコンポーネントが必要です:

✅ 1. Ollama

LLMおよびビジョンモデルのための強力なローカルランタイムです。

🔗 Ollamaのダウンロードとインストール:
https://ollama.com/download

✅ 2. ビジョンモデル:gemma3

システムのVRAMに応じて、Gemma 3のマルチモーダル(ビジョン+言語)バージョンを使用してください:

👉 モデルページ:
https://ollama.com/library/gemma3

ollama run gemma3

🔥検閲解除モデル:
https://ollama.com/huihui_ai/gemma3-abliterated

ollama run huihui_ai/gemma3-abliterated

⚠️ ComfyUIでの画像ベースのプロンプト処理を保証するため、マルチモーダル(ビジョン対応)のGemma 3バージョンを使用してください。


✅ 主な利点

  • シンプルな入力プロンプトでも、編集精度が向上します。
  • OllamaとComfyUIを使用したローカル優先・プライバシー保護型のセットアップ。
  • ハードウェアに応じた柔軟なモデル選択が可能です。

💡 例

入力プロンプト:

"change the style to realistic"

Gemma-3による強化プロンプト:

"Change the image to a photorealistic rendering, with accurate lighting, textures, and details, while preserving the subject’s facial features, pose, and the existing composition."


🌍 多言語プロンプト対応

このワークフローは、アラビア語を含むあらゆる言語のプロンプトをサポートし、それらをFlux1が解釈できる表現豊かな英語プロンプトに自動的に翻訳します。

💬 例:

入力(アラビア語):

"حول الستايل إلى حقيقي"

強化出力(英語):

"Change the image to a photorealistic rendering, with accurate lighting, textures, and details, while preserving the subject’s facial features, pose, and the existing composition."

これにより、英語を話さないユーザーでも、プロフェッショナルレベルのプロンプト強化の恩恵を受けられるようになります。

🧩 ワークフローのバージョン

このワークフローには2つのバージョンが用意されています:

🔹 ベーシックバージョン

  • 使いやすさを重視して設計。
  • 1~2枚の入力画像をサポート。

🔸 アドバンスドバージョン

  • 最大4枚の入力画像をサポート。
  • パイプラインの最後にアップスケーリング機能を含む。
  • プロフェッショナルレベルの出力を目的として構築。
  • Civitaiの元のワークフローを改変したバージョンに基づいています:
    👉 /model/618578?modelVersionId=1956938

このモデルで生成された画像

画像が見つかりません。