Chroma - Mixed Illustrations

詳細

ファイルをダウンロード

モデル説明

おそらく不可能ではないが、自分が望むように何かを実現するのは、あまりにも手間がかかるという現実を受け入れた。

多くのカスタムスクリプトを試し、さまざまなアプローチを試行錯誤し、テキストエンコーダーのトレーニングを行い、トレーナーがモデルをどのように学習させるかを変更し、最終的には「ありえないほど無理なLoRA」を作成してしまったが、それさえも動いてしまった。

写真のようにリアルなテーマを一貫して持つ、わずか数枚の画像のトレーニングは問題ない。しかし、同じテーマを持ちながらもスタイルの変化が極端な大規模データセットの場合は、学習ステップが非常に多くなり、学習率や解像度に細心の注意を払わなければならない。時にはキャプションが「過剰に正確」すぎて、早期に過学習(線やアーチファクト)が発生し、画像の学習が完了する前にモデルが崩壊してしまう。などなど。

ベースラインとして、Chromaは今でもその元になったモデルの影響を受けており、ステップ数が少ないこと、蒸留(Flux Schnell)そして固定された重みは、トレーニングにとって絶対的な毒だ。なぜならそれらは制限をかけ、モデルを歪め、バリエーションを狭めてしまうからだ。これが、Z-Imageのベースモデルがリリースされるまで、私は今のところ距離を置いている理由でもある。しかし、たとえリリースされたとしても、それはAlibaba製で、中国の検閲が厳しく、知らない概念が多すぎて、本物の「ベース」を得るには数ヶ月の微調整が必要になるだろう。本当にそれが実現することを願っている。なぜなら、それはずっと軽量で、高品質で、プロンプトの理解も非常に優れているからだ。どうなるかはわからない。

多分、これはモデルの問題というより、そもそもトレーニングにおいて不適切なアプローチを無理やり押し通そうとしている私の責任かもしれない。それでも、やってしまう理由があるのだ :)

このモデルで生成された画像

画像が見つかりません。