Getting Stepped On - Flux.dev

詳細

ファイルをダウンロード

モデル説明

このLoRAは、Flux.devで足を焦点にした下からの視点を可能にします。

訓練画像には、足のさまざまなバリエーション(素足、靴下、ブーツ、ストッキングなど)が含まれていましたが、Fluxの学習速度とこれらの概念のデータセットのバランスの影響により、信頼できるのは素足とブーツのみです。

主要なトリガー:POV stepped on

影響を与える可能性のある追加タグ(発生頻度順):

  • barefoot

  • view straight up(視点がほぼ真下で、それほど角度がついていない場合)

  • large foot(足が画像の大部分を占めていた場合にタグ付け)

  • dirty foot

  • heels / boots / socks / stockings(ここでの効果は状況によります)

推奨LoRA重み:0.8 – 1.2

私は結果にあまり満足していませんが、ストレージで放置するよりも公開した方がましだと考えました。趾の数がおかしくなったり、足が変形したりすることがあります。また、ときには左足を右脚に、またはその逆に配置することもあります。そして、趾を非常に好む傾向があります。そのため、ストッキングや靴下などの描写を試みると、現実的でないほどきつめの布地(または全く布地が現れない)になることがよくあります。

これらの欠点を述べた上で、次に

訓練について

データセットは約200枚の画像で、Joycaption alpha twoによって自動キャプション化され、その後手動でわずかに修正し、前述のタグを付与しました。

全体的に、訓練は非常に困難でした。私は合計5〜6回のバージョンを、異なるパラメータとトレーナーで高ステップ数まで訓練してみました。

最初はOneTrainerを使いましたが、すぐにOstrisのai-toolkitに切り替えました。そこで複数の完全な訓練を実行しましたが、どれも悪くはなかったものの、優れていませんでした。そのため、パラメータを何度か変更し、より良い結果を期待して再開しました。

  • データセットサイズを30から200に増やし、より詳細なキャプションを追加しました(これにより出力の制御性と多様性が向上しました)

  • ランクを16から8、そして4に減らしました(アルファも試行錯誤しました)

  • バッチサイズを変更しました

しかし、それらすべてが似たような問題(たまに変形した出力、不完全な制御など)を抱えていました。最終的に、このプロジェクトに十分な時間を費やしたと判断し、手元の結果で進むことにしました。

最も優れた候補は、最新のデータセットバージョンに基づく2つでした:ランク4、アルファ8のVariant Aと、ランク16、アルファ16のVariant B。どちらも生成結果が優れていましたが、目的によって異なりました(たとえばVariant Aはやや変形しにくい傾向)。ただし、その差はごくわずかでした。そこで、異なるアルファとランクを持つこれら2つをマージ(あるいは重みづけと連結)してみましたが、結果は悪化するか、ほとんど影響がありませんでした。

そのため、私は最終的に、ランク128でのSVDマージに落ち着きました。以前の実験(このLoRA以外)では、SVDマージがベースモデルの「真実」をより保持することが示されていたためです。これは(予想通り)変形を改善しました。

訓練設定(A | B):

  • アルファ、ランク:8, 4 | 16, 16

  • 総ステップ数:9000

  • キャプションドロップアウト:0.05

  • 解像度:512, 768, 1024

  • バッチサイズ:2 | 1

  • ノイズスケジューラ:flowmatch

  • 学習率:2.5e-5

  • 線形タイムステップ

  • クオンタイズ(勾配チェックポインティング付き)

訓練時間:RTX 4090でAは約14.5時間、Bは約8.2時間かかりました。

訓練後、safetensorsキーをKohyaと互換性のある形式に変換し、前述のようにSVDマージ(ランク128)を実行しました。その後、マージ結果をランク32にリサイズしました(sv_froで0.985、記憶が正しければ)。

最後に、関連する短い補足として:同じデータセットをSD3で実行してみましたが、同程度の訓練時間をかけた結果、変形だらけの悪夢のような出力しか得られず、この副次的な実験はすぐにやめました。

このモデルで生成された画像

画像が見つかりません。