FLUX.DEV DEDISTILLED

詳細

ファイルをダウンロード

モデル説明

27/05:Flux用SVD INT4量子化で更新 https://github.com/mit-han-lab/ComfyUI-nunchaku

Quant化作業に尽力いただいた@theunlikelyに特別な感謝を。(H100 GPUで6時間かかりました)また、このタイプのモデルの使用方法についてWFと詳しい説明を提供してくださったJIB(J1B Creator Profile | Civitai)にも感謝します:

このモデルを使用するには、まず以下の手順に従ってnunchakuプロジェクトをインストールし、ComfyUIのカスタムノード「nunchaku」を追加する必要があります。Civitaiからアーカイブをダウンロードして、次のディレクトリに解凍してください:\comfyui.git\app\models\diffusion_models\svdq-int4-flux-dev-de-distill。使用可能なNunchakuワークフローはこちら:/model/617562

これはHugging Faceからの転載です。この壮大かつ画期的なモデルの作成には一切関与していません。nyanko7氏によるものであり、その素晴らしさに感動したため、即座に投稿しただけです。
これまでのFlux.devは、flux.proを教師として訓練された「ディスティルされた」モデルでした。しかし、この新しいモデルはすべてを変える可能性を秘めています!これはFlux.devの初の実験的かつ実質的な「ディスティル解除(de-distilled)」バージョンであり、flux.proが実際どの程度の能力を持っているかに非常に近づいています。これはまだ始まりにすぎません!
(注:このモデルがflux.proで直接訓練されたという意味ではありません。実際の方法は不明です)

/!\ 以下の例の後にある重要な情報を必ずすべてお読みください。読まないと失敗します。/!\

自分で作成した例
ディスティルCFG 8 と リアルCFG 8 の比較 — シードは固定、テキスト以外のプロンプトは変更していません
各画像は、それぞれのモデルで最初に生成されたもの(選別や不正は一切行っていません)

Ear gauge LoRa: 「かわいらしい金髪のラバー少女が笑顔で観客を見つめ、エモメイクとふわふわのエモヘアスタイル、グリーンに輝く髪色。両耳に3アーゲージの耳孔があり、ローブに非常に大きな円形の穴が空いている。黒いフード付きパーカーを着用し、その上には金色の文字で“DEDISTILLED MAKES MY LORAS WORK”と書かれている」

Cum on face LoRa(ディスティル解除版ではどこでも正しく機能します): 「COF、白くベタベタした精液で顔が覆われた若い女性。顔全体に白く粘着性のある精子、精液が付着。黒いフード付きパーカーを着用し、その上にはシルバーのフォントで“DISTILLED”と書かれている」
LoRaなし: 「未来都市の巨大な建物が並ぶ街中で、黒い車が大爆発から逃げるように観客に向かって駆け抜けていくシーン。車の周囲には速度感を表すモーションラインが描かれ、車のフロントプレートには“DISTILLED”という文字が刻まれている」
LoRaなし: 「レトロな家の中の古い木製窓から、毛糸の玉と遊んでいる小さな子猫が見えます。室内には風化した木製家具が置かれ、午後の柔らかな光が窓から差し込み、優しい影を落としています。遠くでは、カメラを手にした写真家が近づいてきて、子猫の遊びの瞬間を撮影しようとしています。写真家は茶色のジャケットを着て、ゴールデンアワーの優しい光に包まれ、温かみと静けさが漂う情景です。全体的な雰囲気は平和で、レトロな設定からほのかなノスタルジーを感じさせます」

重要な情報の要約(現在の知見)

Disclaimer:これらのモデルは非常に新しいため、現時点でわかっている情報だけを集約しています。コメント欄で皆さんの体験を共有していただければ、一緒にアップデートしていきます。

パラメータ

  • これで「ディスティルCFG」を忘れて、リアルCFGを使用できます(私は14まで試しました)

  • 絶対にCFG = 1で使用しないでください。完全に失敗し、ほとんどの場合、結果が得られない原因になります

  • 少なくとも40〜60ステップを使用するべきです(使用するCFG値に応じて調整)

    時間は長くなりますが、絶対に価値があります

  • 残念ながら、現在のhyperdev 8ステップLoRaはステップ数を減らす目的では動作しません

  • ディスティル解除版ではネガティブプロンプトが有効

メリット

  • プロンプトの忠実度が驚異的に向上します。LoRa使用時でも同様です

  • 顔向けLoRaの性能が向上し、ディテールが精密になり、テキストの再現性が格段に改善

  • プロンプトのすべての要素がより良く再現されます

    /!\ ディスティルモデルと比べて特に改善が見えない場合:実際にはCFG = 1で使用していないか、確認してください。Fluxガイドanceではなく、リアルCFGが1になっていると失敗します。これは見落としやすいです。/!\

    すべてのワークフローがディスティル用に最適化されているため、ComfyUIでうまく動かない場合、Forgeを試してみてください

Forge UIでの使用ガイドライン

  • Forgeでは変更なしで動作します。Schnellモデルとして読み込まれ、ディスティルCFGが自動で無効化されます(便利)

    編集:すべての新しい量子化モデルをアップロードしました。少なくとも1つはあなたの環境で動作するはずです

    Forgeを初めて使う場合、以下の設定を参考にしてください:

    • Fluxワークフロー

    • チェックポイント:DeDistilled

    • VAE / テキストエンコーダーファイルには、vae(ae.sft / ae.safetensors)とclip_l(または修正版clip)、t5xxl(使用している量子化バージョン:fp16、fp8など)を指定してください
      これらのファイルはモデルにバンドルされていないため、必須です

    • DiffusionのLow Bitsを「Automatic(FP16 LoRA)」に設定してください。そうでないとLoRAで問題が発生する可能性があります。これはForgeの任意のチェックポイントに適用されます


      以下はDeDistilled用におすすめの設定です:

Comfy UIでの使用ガイドライン

  • 比較的標準的なワークフローでComfyUIで動作します。以下に引用されるワークフローは、GGUF Loader、Dual CLIP Loader(t5xxlとclip_l用)、KSampler Efficientを使用しています

    Comfy用推奨設定:

    Dual CLIP Loaderのガイドance:3.5 KSampler CFG:2〜10 ステップ:50〜60 ネガティブプロンプト:空白のままでもOK。必要なら入力可能(入力すると画像に影響)

    サンプラー:DDIMまたはeuler スケジューラ:betaまたはexponential

    ワークフローはこちら: https://gist.github.com/dasilva333/87bdd5b5b8ebba5515a9919ede0e3c05

    Redditで見つけたもの(Comfyにドラッグ&ドロップ可能):https://files.catbox.moe/y99yl7.png

トレーニングとLoRAs

  • 私はディスティルCFG=1で失敗した後、De-distilledとCFG=6で初めてLoRaをトレーニングしました。結果は素晴らしく、まさにLoRaを救ってくれました。De-distilledでもDistilledでも動作しますが、De-distilledの方がより優れています。これからはこれを使ってトレーニングします

  • De-distilledでファインチューニングした最初のチェックポイントがCivitAIに投稿されています:/model/690991/sapianf-nude-men-and-women-for-flux-now-de-distilled
    作者からの返答を待って更新予定

参照元

このモデルで生成された画像

画像が見つかりません。