SDXL - Majestic Plastic Bag

詳細

ファイルをダウンロード

モデル説明

『アメリカン・ビューティ』の真のスターへのオマージュ。このサイトの自動タグ付けシステムが一体何が起きているのか理解できない様子に、すでに気に入っている。

以下、TL;DRです。注意してください。

まず、トレーニング中に何が起こるのか、どのようなデータセットが必要か、画像の品質(この場合はひどい)やステップ数、モデルを柔軟にするか、あるいは固定化するかなど、試してみた。

しばらくして、ベースから得た出力を用いて、徐々に改善され、最終的には完璧な浮遊するプラスチック袋を生成するモデルができてしまった——受け入れがたい結果だった。

20枚の画像 - 同じ背景 - 低品質のキャプチャ - 650ステップ = 超固定化されているが、トレーニングデータに非常に近い。橋の壁、葉、コンクリート床をプロンプトに含んでいなくても、すべてに追加してしまう。興味深いのは、車のモデルや年式が映画が制作された時代に合致している点。ただし、普段アメリカの古い車に詳しくない。

20枚の画像 + 10枚の高品質AI生成画像 - 1250ステップ = より柔軟だが、意図した方向から少しずれ始めている。曇った日におけるレンガ壁の街並みの画像に依然として偏っている。

以下、しばらくこの繰り返しが続いた。

私が実際に後でプロンプトにしたい内容を含む画像でモデルをトレーニングしない理由の一つは、ランダム性が失われる可能性があるからだ。たとえば、前回のモデル「Armored」を「重装甲の猫」を示す1枚の画像だけでトレーニングしていたら、装甲された猫を生成したいときに、常にその画像に引き寄せられ、非常に柔軟性が失われてしまう。しかし、AIが何を求めているか知らない場合、場合によってはそれがメリットになることもある。

私がここに最初に投稿したモデル「Square Hammer」でそれを体験した。月を1枚、コウモリを1枚だけ含む画像があり、それらの画像には「月の写真」「コウモリの写真」といったプロンプトは一切与えていなかったが、モデルはそれらの要素を絶対に追加したがる。これらの要素は否定プロンプトに含めることで抑制できるが、それが面倒くさい。

「ジャリービーンのように見えるxxx」という概念でモデルをトレーニングし、15枚の画像のうち1枚だけ「ジャリービーンのように見える女性」を加えると、残り14枚はAIが何を訓練すべきかわからないジャリービーン風のもので、1枚だけよく知られた対象(女性)が含まれる——このような場合、モデルは女性の画像に極端に偏ってしまう。画像の数と多様性が重要だし、ステップ数も重要だ。多くの画像を用いるほど、通常はより多くのステップが必要になる。

ロス率もまた別の要素だ。それが重要かどうかについて多くの意見がある。私は重要だと思うが、やはり目的次第だ。私の観察から:

  • 15枚の画像、良好なキャプション、低ロス率(例:0.144)——わずかなステップで設定可能だが、600ステップでも既に超固定化される。

  • 15枚の画像、キャプションなし、モデルが既知の概念、中程度のロス率(例:0.444)——おそらく2000ステップ必要。柔軟だが、概念から逸脱しやすい。

  • 15枚の画像、キャプションなし、モデルがまったく理解できない概念、高ロス率(0.945)——膨大なステップ数が必要、あるいはステップ数がどれだけ多くても成功は難しい……だが、トレーニングは何かを拾い上げる。たとえわずかでも、予期しない何かにつながる可能性がある。

ただし、私はSDXLが独自に何かを解釈する能力に大きく依存している。予期せぬ結果こそ、私の観点では最高のものだ。もちろん、特定のキャラクターや、絶対に自分の意図通りにしたいアイデアを追求する場合は別で、その場合、通常はより簡単に実現できる。

これらはほとんどが推測と観察に基づいている。成功を左右する要因が数え切れないほどある。少しでも調査すれば、AIモデルそのものやその周辺を構築した人々でさえ、自らの創造物がどのように機能し、何ができるのかを理解していないことがわかる(特定のダウンロード可能なモデルではなく、AI全体の構造について話している)。

では、ランダムに浮遊するプラスチック袋をお楽しみください。

このモデルで生成された画像

画像が見つかりません。