Breaking New Grounds - Full Glass of Wine + Diverse Clocks

詳細

ファイルをダウンロード

モデル説明

なぜ?

このLoRAモデルは、ML画像生成モデルの「イチゴ問題」を解決することを目的としています。

「おお、あなたの十億ドルのアルゴリズムは、フルワイングラスの問題を解けないのか!」

もうそんなことはありません。

オープンソースはすべての人のためのもの

オープンソースは、大規模な企業のワークフローやプロセスに縛られません。20枚の画像を手動でキャプション付けした後、このモデルのトレーニングにはたった32分かかりました。

トレーニング詳細:

エポック:12

ステップ:1920

オプティマイザー:--optimizer_type=adopt.ADOPT

学習率:8e-5

TE学習率:4e-5

スケジューラ:constant_with_warmup 2%(冷やされたワインを温めるために重要)

ランク:128/64

バイアス除去推定損失:True

時計にはフィッピングが効かないため(当然ですが)、反転やキャプションのシャッフルは行っていません。

準備およびトレーニング中に発生した問題:

  • フルワイングラスの画像と異なる時刻を示す時計を見つけるのは少し難しい(当然)。時計はReddit、フルワイングラスはInstagramに感謝。一部の人々は本当に動物だ。

  • アナログ時計の読み方がどうやら忘れていたようだ。一部の画像のキャプションは誤っていた可能性がある。

  • ワインと時計のバイアスを完全に修正するのは、予想以上に難しい。

  • OOD生成は依然として性能が劣る。より多くの例とステップが必要かもしれない。

このモデルで生成された画像

画像が見つかりません。