Dream Dis Pix XL

ドリームワークス、ディズニー、ピクサーの画像からなる混合スタイルのデータセットを用いて、SDXL LoRAモデルを訓練しようとした（やや失敗した）試みです。このBlip2キャプション付きデータセットをHugging Faceにアップロードしました。

私は通常、LoRAのランクを4〜16の範囲で訓練することが好みです。これまでのところ、この範囲で十分な結果が得られ、チェックポイントも比較的小さかったからです。しかし、今回はランク32にしたときに初めて結果が得られ、24でも十分ではありませんでした。

私の結論は、このモデルはおそらく、それぞれの視覚的サブスタイルに特化した複数の低ランクLoRAとして訓練すべきだったということです。そうすれば、それぞれのスタイルに対してはるかに良い結果が得られたでしょう。