WoolyFlux Alpha
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
これは、https://civitai.com/articles/6792 で行われた研究の継続であり、私は独自のデータセットとアプローチを用いています。
私はFluxのキャプション作成に関する更新版ガイドを制作中であり、この作業はより洗練されたトレーニング手法をカバーするための一部です。
しかし、現在のところ、興味のある方々のために、私が目指している方向性と得られている結果の簡単な説明をします。
まず、データセットのどの部分が最も重要であるかについて、多くの人が誤解しています。多くの人々は、キャプションなしでトレーニングするか、短いトリガー単語のみを使用することが最も効果的であり、これを改善する唯一の真の方法は、高品質な画像を大量に積み重ねることだと主張しています。
しかし、実際に私が発見したことは、このアプローチ自体が、特に繰り返しを使用する場合、過学習を引き起こしやすくなっているということです。
この考えは数ヶ月前、SDXLの頃にWarAnakinが私に彼の研究結果について話してくれたことをきっかけに始まりました。彼は複数回の試行錯誤の末、過学習の主な原因は、あまりに似た画像を持つことではなく、むしろデータセット内にある別の画像と同様、またはほぼ同じキャプションを持つ1枚の画像自体が、たとえ那些画像が大幅に異なっていたとしても、結果により直接的かつ顕著な影響を及ぼしていることに気づきました。
それ以来、私はSDXLを用いてさまざまなアプローチを実験してきました。SDXLはSD1.5に比べてトレーニングが非常に難しいものの、その結果は著しく改善され、既存のモデルに含まれているデータにより良く適合することがわかりました。
簡単に言えば、古典的な繰り返しを使用するのではなく、キャプションドロップアウトやキャプションシャッフルを完全にランダムに行うのではなく、ChatGPTのようなツールを使って、1枚の画像に対して複数のキャプションバリエーションを作成し、それらの新しいキャプションと画像のコピーをペアにするというアイデアです。
画像のコピーのサブセットを、キャプションなしのもの、トリガーワードのみのもの、タグでキャプションされたもの、自然言語で説明されたもの、それぞれに分けて用意します。
この場合、この実験はさらに一歩進んでいます。
もしデータセットを20枚の固有の画像に制限し、各画像に対して3つのキャプションではなく約30のキャプションを作成したらどうなるでしょうか?
そして、ここに至りました。20エポック後に、どのエポックがプロンプトに最も忠実でスタイルを最もよく維持しているかをテストしたところ、エポック7と16の組み合わせが最も良い結果を生み出していることがわかりました。
ただし、ここに少し注意点があります。結果は有望ですが、この実験はまだ完全に終わっておらず、私はCivitAIのオンライントレーナーを使ってこの実験を実施しています。したがって、私はローカルでもトレーニング可能ですが、研究をもう少し制御された形で継続するため、このリソースを早期アクセスとして、小さなバズ交換の対価として提供したいと考えていました。しかし、そのオプションが私に与えられていません。
次なるステップとしては、データセットをさらに拡大し、対象をより多様化させることです。たとえば、20枚から合計40枚の画像に増やし、より多くの人物、動物、オブジェクトをカバーします。













