Tomboys for FLUX

詳細

ファイルをダウンロード

モデル説明

アップデート3:おお、今やとてもうまく機能している!たった数ステップのトレーニング(正確には10kステップ、つまり元の4倍程度)だけでこれだけ改善した。では、以前の試行でも同じことが言えたのだろうか?

アップデート2:わあ、キャプション付きの試行は本当に衝撃的だ。データセット内の「男っぽい女の子」の特徴を再現する点では、明らかに最も劣っており、さらに、最も性的な試行にもなっている(データセットはSFW)。T5テキストエンコーダーが新しい内容を学習するのに本当に難しいのか?なら、もっとステップを増やせば改善するはず?では、見てみよう!

アップデート: Hmm、トレーニング解像度と複製アーティファクトの関連性を疑ったのは間違っていなかったようだ。1024x1024ではそのアーティファクトが大幅に減っている(稀にまだ現れるが)、一方で、より複雑な背景や多様な構図も維持されている。次は、Fluxが自然言語のキャプションでどう反応するか見てみよう。

3回のトレーニング後の最初の発見:キャプションのないデータセットはFluxに驚くほどうまく機能した。そのため、たった1つのキャプション(トリガー「tomboy」)を追加しただけでは、結果が向上するどころか、むしろわずかに悪化した。ただし、2番目のサンプルで少し選別したのは、単なるシードの運が悪かっただけかもしれない。

一方、クラシックなBooruスタイルのタグを使った3回目の試行は、まったく別の体験だった。一方で、日光浴の画像では、より一貫性のあるビーチやプールなどの環境を優れたものに生成していた。一方で、大幅なボディサラダ(複数の身体部品が不自然に組み合わさった画像)が発生した。SD3レベルではないが、いくつか失敗した画像をサンプルとして含めておいた。複数の人物を含む傾向が強いようだ。これは512x512のトレーニング解像度と関係しているのだろうか?次は1024x1024で比較してみよう。

「tomboy」という言語は、「tom」と「boy」の複合語である。この語は現在「男のような女の子」を指すが、その語源は時代とともに劇的に変化してきた。1533年の『オックスフォード英語辞典』によると、「tomboy」は「粗野で物騒、または不躾な男」を意味していた。1570年代になると、「tomboy」は「大胆で不謹慎な女性」を指すようになり、1590年代末から1600年代初頭にかけて、現在の意味である「元気で荒々しい男のような振る舞いをする女の子、わいせつに遊ぶ女の子」へと変化した。

from wikipedia

以上がその歴史だ:トムボーイは、1600年から性別のステレオタイプに挑戦してきた。そして、同時にとてもかっこよく見える。それなのにFluxは「トムボーイ」が何を意味するのかまったく理解していないとは、皮肉だ。だが、このLoRAでその状況は変わる( hopefully )。

このモデルで生成された画像

画像が見つかりません。