Getting Stepped On - Flux.dev

このLoRAは、Flux.devで足を焦点にした下からの視点を可能にします。

訓練画像には、足のさまざまなバリエーション（素足、靴下、ブーツ、ストッキングなど）が含まれていましたが、Fluxの学習速度とこれらの概念のデータセットのバランスの影響により、信頼できるのは素足とブーツのみです。

主要なトリガー：POV stepped on

影響を与える可能性のある追加タグ（発生頻度順）：

barefoot
view straight up（視点がほぼ真下で、それほど角度がついていない場合）
large foot（足が画像の大部分を占めていた場合にタグ付け）
dirty foot
heels / boots / socks / stockings（ここでの効果は状況によります）

推奨LoRA重み：0.8 – 1.2

私は結果にあまり満足していませんが、ストレージで放置するよりも公開した方がましだと考えました。趾の数がおかしくなったり、足が変形したりすることがあります。また、ときには左足を右脚に、またはその逆に配置することもあります。そして、趾を非常に好む傾向があります。そのため、ストッキングや靴下などの描写を試みると、現実的でないほどきつめの布地（または全く布地が現れない）になることがよくあります。

これらの欠点を述べた上で、次に

訓練について

データセットは約200枚の画像で、Joycaption alpha twoによって自動キャプション化され、その後手動でわずかに修正し、前述のタグを付与しました。

全体的に、訓練は非常に困難でした。私は合計5〜6回のバージョンを、異なるパラメータとトレーナーで高ステップ数まで訓練してみました。

最初はOneTrainerを使いましたが、すぐにOstrisのai-toolkitに切り替えました。そこで複数の完全な訓練を実行しましたが、どれも悪くはなかったものの、優れていませんでした。そのため、パラメータを何度か変更し、より良い結果を期待して再開しました。

データセットサイズを30から200に増やし、より詳細なキャプションを追加しました（これにより出力の制御性と多様性が向上しました）
ランクを16から8、そして4に減らしました（アルファも試行錯誤しました）
バッチサイズを変更しました
…

しかし、それらすべてが似たような問題（たまに変形した出力、不完全な制御など）を抱えていました。最終的に、このプロジェクトに十分な時間を費やしたと判断し、手元の結果で進むことにしました。

最も優れた候補は、最新のデータセットバージョンに基づく2つでした：ランク4、アルファ8のVariant Aと、ランク16、アルファ16のVariant B。どちらも生成結果が優れていましたが、目的によって異なりました（たとえばVariant Aはやや変形しにくい傾向）。ただし、その差はごくわずかでした。そこで、異なるアルファとランクを持つこれら2つをマージ（あるいは重みづけと連結）してみましたが、結果は悪化するか、ほとんど影響がありませんでした。

そのため、私は最終的に、ランク128でのSVDマージに落ち着きました。以前の実験（このLoRA以外）では、SVDマージがベースモデルの「真実」をより保持することが示されていたためです。これは（予想通り）変形を改善しました。

訓練設定（A | B）：

アルファ、ランク：8, 4 | 16, 16
総ステップ数：9000
キャプションドロップアウト：0.05
解像度：512, 768, 1024
バッチサイズ：2 | 1
ノイズスケジューラ：flowmatch
学習率：2.5e-5
線形タイムステップ
クオンタイズ（勾配チェックポインティング付き）

訓練時間：RTX 4090でAは約14.5時間、Bは約8.2時間かかりました。

訓練後、safetensorsキーをKohyaと互換性のある形式に変換し、前述のようにSVDマージ（ランク128）を実行しました。その後、マージ結果をランク32にリサイズしました（sv_froで0.985、記憶が正しければ）。

最後に、関連する短い補足として：同じデータセットをSD3で実行してみましたが、同程度の訓練時間をかけた結果、変形だらけの悪夢のような出力しか得られず、この副次的な実験はすぐにやめました。

モデルタイプ	LORA
ベースモデル	Flux.1 D
公開日	12/8/2024
トレーニングワード	POV stepped on barefoot view straight up

Getting Stepped On - Flux.dev

詳細

ファイルをダウンロード

モデル説明

訓練について

このモデルで生成された画像