FLUX BOOBA
詳細
ファイルをダウンロード
モデル説明
注意!最良の結果を得るには、以下をよくお読みください。
プロンプトには自然言語を使用してください:「a nude woman blah blah blah」。nudeは訓練時のキャプションで使用されており、nakedよりも効果的である可能性があります。
Fp8 dev Fluxモデルを使用する場合、fp8_e4m3fnバージョンを使用してください。
LoRAの強度は約0.7–0.75程度で使用してください。より高い強度では細部の生成が良くなる一方で、不規則な指やその他の不要なアーティファクトが発生しやすくなります。強度を0.7以下に下げると画像の整合性は向上しますが、乳首の細部が失われ、下部(下着が映る可能性)からの良好な生成確率が低下します。
ComfyUIでモデルサンプリングのFluxノードを使用する際、mas_shift強度を0.5、base_shiftを0.5に設定してください。
サンプラーにはEuler、スケジューラにはBetaを使用し、ステップ数は最低25以上にしてください。
1024x1400や1024x1216などの高解像度で結果が最も良くなります。また、2:3のアスペクト比(縦長)を使用すると最適な結果が得られます。
このLoRAについての情報:
これは早期のアルファ版LoRAであり、まだ完全には完成していません。そのため、性器や乳首の詳細な描写はまだ得られず、いくつかのアーティファクトが存在します。これは「カウボーイショット」(大腿部以上が写る角度)で撮影された女性100枚の画像と手動で作成したキャプション対を用いて訓練されました。したがって、このLoRAで生成される画像はこの角度に強く偏ります。他の角度から女性を生成することは可能ですが、変異や整合性の問題を防ぐためにLoRAの強度を下げなければなりません。使用状況に応じてLoRAの強度を調整して最適な結果を得てください。これはあくまで初期テスト版であるため、まだ奇跡を期待しないでください。今後、男性を含むより汎用的なLoRA、より自然な体の形状と多様なポーズ・角度・ショットを含む大規模なデータセットで訓練したバージョンを開発する予定です。その開発には時間がかかるため、お待ちください。
訓練プロセスに関する基本情報:
このLoRAはA100を用いて、Simple Tuner訓練スクリプト(開発者に感謝!)で訓練されました。fp16版のDev Fluxベースモデルを用い、訓練時には以下の設定で約27GBのVRAMを使用しました。A100での訓練速度は約2.3秒/イテレーションです。プロディジー(Prodigy)を使用し、学習率は定数、ランク64、アルファ64、bf16、ガンマ5。ドロップアウトは使用せず、バッチサイズは1(他のバッチサイズよりも結果が良好です)。
Fluxモデルにとってヌードは新しい概念であるため、適切に収束するには最低でも画像あたり350ステップ、良好な結果を得るには650ステップが必要です。最適なハイパーパラメータを決定するため多数のテストを実施し、現在の設定に至りました(AdamWなどの使用によりさらなる高速化が見込まれるため、手動ハイパーパラメータのさらなるテストが必要です)。
その他の興味深い点:fp8版Fluxモデルで訓練した結果、fp16版と同等の品質を得られましたが、収束速度は2倍速くなりました。つまり、適切に収束するには最低700ステップ、良好な結果を得るには1400ステップが必要でした。fp8版Fluxモデルでの訓練では、当設定で約16.3GBのVRAMを使用しました。そのため、16.3GB以上のVRAMを持つGPUでは訓練が可能であり、最適化次第では16GBのVRAMを持つGPUでもfp8 LoRAの訓練が可能かもしれません。
特別な感謝を、A100を提供し、シンプルな訓練スクリプトを動作可能にし、私たちの要件に合わせて修正したRajに送ります。










