Getting Stepped On - Flux.dev
詳細
ファイルをダウンロード
モデル説明
このLoRAは、Flux.devで足を焦点にした下からの視点を可能にします。
訓練画像には、足のさまざまなバリエーション(素足、靴下、ブーツ、ストッキングなど)が含まれていましたが、Fluxの学習速度とこれらの概念のデータセットのバランスの影響により、信頼できるのは素足とブーツのみです。
主要なトリガー:POV stepped on
影響を与える可能性のある追加タグ(発生頻度順):
barefoot
view straight up(視点がほぼ真下で、それほど角度がついていない場合)
large foot(足が画像の大部分を占めていた場合にタグ付け)
dirty foot
heels / boots / socks / stockings(ここでの効果は状況によります)
推奨LoRA重み:0.8 – 1.2
私は結果にあまり満足していませんが、ストレージで放置するよりも公開した方がましだと考えました。趾の数がおかしくなったり、足が変形したりすることがあります。また、ときには左足を右脚に、またはその逆に配置することもあります。そして、趾を非常に好む傾向があります。そのため、ストッキングや靴下などの描写を試みると、現実的でないほどきつめの布地(または全く布地が現れない)になることがよくあります。
これらの欠点を述べた上で、次に
訓練について
データセットは約200枚の画像で、Joycaption alpha twoによって自動キャプション化され、その後手動でわずかに修正し、前述のタグを付与しました。
全体的に、訓練は非常に困難でした。私は合計5〜6回のバージョンを、異なるパラメータとトレーナーで高ステップ数まで訓練してみました。
最初はOneTrainerを使いましたが、すぐにOstrisのai-toolkitに切り替えました。そこで複数の完全な訓練を実行しましたが、どれも悪くはなかったものの、優れていませんでした。そのため、パラメータを何度か変更し、より良い結果を期待して再開しました。
データセットサイズを30から200に増やし、より詳細なキャプションを追加しました(これにより出力の制御性と多様性が向上しました)
ランクを16から8、そして4に減らしました(アルファも試行錯誤しました)
バッチサイズを変更しました
…
しかし、それらすべてが似たような問題(たまに変形した出力、不完全な制御など)を抱えていました。最終的に、このプロジェクトに十分な時間を費やしたと判断し、手元の結果で進むことにしました。
最も優れた候補は、最新のデータセットバージョンに基づく2つでした:ランク4、アルファ8のVariant Aと、ランク16、アルファ16のVariant B。どちらも生成結果が優れていましたが、目的によって異なりました(たとえばVariant Aはやや変形しにくい傾向)。ただし、その差はごくわずかでした。そこで、異なるアルファとランクを持つこれら2つをマージ(あるいは重みづけと連結)してみましたが、結果は悪化するか、ほとんど影響がありませんでした。
そのため、私は最終的に、ランク128でのSVDマージに落ち着きました。以前の実験(このLoRA以外)では、SVDマージがベースモデルの「真実」をより保持することが示されていたためです。これは(予想通り)変形を改善しました。
訓練設定(A | B):
アルファ、ランク:8, 4 | 16, 16
総ステップ数:9000
キャプションドロップアウト:0.05
解像度:512, 768, 1024
バッチサイズ:2 | 1
ノイズスケジューラ:flowmatch
学習率:2.5e-5
線形タイムステップ
クオンタイズ(勾配チェックポインティング付き)
訓練時間:RTX 4090でAは約14.5時間、Bは約8.2時間かかりました。
訓練後、safetensorsキーをKohyaと互換性のある形式に変換し、前述のようにSVDマージ(ランク128)を実行しました。その後、マージ結果をランク32にリサイズしました(sv_froで0.985、記憶が正しければ)。
最後に、関連する短い補足として:同じデータセットをSD3で実行してみましたが、同程度の訓練時間をかけた結果、変形だらけの悪夢のような出力しか得られず、この副次的な実験はすぐにやめました。



















