flux_schnell_workflow_12gbvram
詳細
ファイルをダウンロード
モデル説明
目的: FLUX.1 schnell (FP8) を使用して、12 GB VRAM 用の高速でVRAMを節約するT2Iワークフロー。
核心アイデア: 1つのチェックポイントが MODEL/CLIP/VAE を提供し、テキスト条件付けは CLIPTextEncodeFlux (T5 + CLIP-L) を、サンプリングは KSampler Advanced を使用。LoRAは Power LoRA Loader (rgthree) を通じて中央で注入。
依存関係 / モデル
チェックポイント:
FLUX1\flux1-schnell-fp8.safetensorsを CheckpointLoaderSimple で使用(MODEL/CLIP/VAEを出力)。LoRA注入: Power Lora Loader (rgthree)(1つまたは複数のLoRA、LoRAごとの強度設定)。
Comfy-Coreバージョン: ノードのプロパティに
comfy-core ver 0.3.49と表示。
グラフ(簡略化)
CheckpointLoaderSimple →
MODEL,CLIP,VAEPower Lora Loader (rgthree) →
MODELおよびCLIPにLoRAを注入CLIPSetLastLayer(オプション、ここでは
-1)→ 変更されたCLIPをテキストエンコーダーに渡すCLIPTextEncodeFlux (正) → T5文 と CLIPタグ を組み合わせて
CONDITIONINGを生成(ガイドアンス調整可能)CLIPTextEncodeFlux (負) → オプションの否定的条件付け(ここでは準備済み、ガイドアンス有り)
EmptyLatentImage → スタートのLatents(標準:896×1152、バッチ=1)
KSampler Advanced → サンプリング(ステップ/CFG/スケジューラーなど)
VAEDecode → Latentsを画像にデコード
SaveImage → 保存(プレフィックス:
flux_schnell_fluxText_workflow_v2)
プリセットおよび推奨
解像度: 896×1152から開始(12 GB対応)、1024²もしばしば可能
サンプラー:
KSampler Advanced(例:Euler + normal スケジューラー)ステップ 6–8、CFG = 1.0(schnell/FP8チェックポイントには重要)ガイドアンス(Fluxテキストノード): 存在;中程度(例:3.0–4.0)から開始
LoRA強度: スタートは0.6–0.8;アイデンティティの「グリップ」に応じて微調整
入力
T5(文): 短く明確なシーン説明(被写体、場所/照明、ムード)
CLIP-L(タグ): 6–10個のコンパクトなスタイル/技術タグ(例:photorealistic, soft rim light, sharp eyes, shallow DOF)
否定(オプション): アーチファクト抑制(ロゴやタイトルを希望する場合は、「text/logo」の否定は含めない)
出力
- VAEDecode → SaveImage から出力される8ビットRGB画像(プレフィックスは上記参照)
パフォーマンス(12 GB)
なぜ高速か? FLUX.1 schnell (FP8) はディスティルされたモデル → ステップ数が少なく、CFG 1.0
VRAMのヒント: バッチ=1、不要な追加エンコーダーを避ける、必要に応じて解像度を64ピクセル単位で調整
安定性: 「ドリフト」が発生した場合:重要な概念をT5で強調(…:1.3)またはConditioning-Weightsを使用
ベストプラクティス
混同しないこと: T5 = 文、CLIP-L = タグ
プロンプトは簡潔に: T5は1–2文、CLIP-Lは6–10タグ
LoRAの衝突: スタイルの強すぎ → LoRAの重みを下げ
ロゴ/タイトル(例:VOGUE): 否定には 「text/logo/watermark」を含めない
問題解決
プロンプトが無視される: CLIPTextEncodeFlux → CLIP の接続が、同じローダー/LoRAパスから来ているか確認
色がおかしい/色のしみ: 否定に
no color cast, no neon spillまたは肯定にneutral color renderingを追加肌が滑らか過ぎる: CLIP-Lに
natural skin texture, subtle film grainを追加;必要に応じて解像度をやや低下

