Breaking New Grounds - Full Glass of Wine + Diverse Clocks
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
なぜ?
このLoRAモデルは、ML画像生成モデルの「イチゴ問題」を解決することを目的としています。
「おお、あなたの十億ドルのアルゴリズムは、フルワイングラスの問題を解けないのか!」
もうそんなことはありません。
オープンソースはすべての人のためのもの
オープンソースは、大規模な企業のワークフローやプロセスに縛られません。20枚の画像を手動でキャプション付けした後、このモデルのトレーニングにはたった32分かかりました。
トレーニング詳細:
エポック:12
ステップ:1920
オプティマイザー:--optimizer_type=adopt.ADOPT
学習率:8e-5
TE学習率:4e-5
スケジューラ:constant_with_warmup 2%(冷やされたワインを温めるために重要)
ランク:128/64
バイアス除去推定損失:True
時計にはフィッピングが効かないため(当然ですが)、反転やキャプションのシャッフルは行っていません。
準備およびトレーニング中に発生した問題:
フルワイングラスの画像と異なる時刻を示す時計を見つけるのは少し難しい(当然)。時計はReddit、フルワイングラスはInstagramに感謝。一部の人々は本当に動物だ。
アナログ時計の読み方がどうやら忘れていたようだ。一部の画像のキャプションは誤っていた可能性がある。
ワインと時計のバイアスを完全に修正するのは、予想以上に難しい。
OOD生成は依然として性能が劣る。より多くの例とステップが必要かもしれない。


