Sniffing / smelling (own) armpit - Pony

詳細

ファイルをダウンロード

モデル説明

このLoRAは、人物が自分のわきの下をかぐ・嗅ぐ様子を描画するために使用できます。

驚くべきことに、Ponyはこの概念を(私が試したタグでは)すでに理解していませんでしたので、これを実現するLoRAを作成することに決めました。

主なトリガー:わきの下をかぐ

追加タグ(タグ頻度順):わきの下が露出している服を着たわきの下腕を下ろしている

(最後のタグは画像数が極めて少なく、生成の成功確率が不安定です。服を着たわきの下の場合は、否定的なタグとして「わきの下が露出している」も併用することをお勧めします。なぜなら、「わきの下」という語自体がPonyを非常に喜ばせ、わきの下の生成を促してしまうからです)

推奨LoRA重み:ご希望のスタイルに応じて 0.4 – 1.0

Ponyがこの分野で苦手な理由は、さまざまなbooru上にこのテーマに適切にタグ付けされた画像がほとんど存在しないからだと考えられます。

それでは、以下に

学習について

具体的には、さまざまなbooruから36枚のサンプルを収集しました(特に選別は行っておらず、見つけられたすべての良質な画像を使用しました)。

その後、Control Net(DepthとPoseモデルの混合)を用いてPony Diffusionで170枚の追加画像を生成しました。このとき、ランダムなアートスタイル、性別などを適用しました。

Control Netへの入力画像には、ドローイングと写真の両方を使用しました(意外にも、このテーマのストック写真は非常に多く存在します)。これらの画像は通常の画像検索から収集し、そのうち19枚を学習用画像に追加しました。

この結果、合計225枚の学習画像が得られました。

すべての画像にはSmilingWolfのwd-swinv2-tagger-v3を用いてタグ付けを行い、その後上記の4つのタグを手動で追加しました。

次に、画像にマスクを適用しました。まずRemBG(Human)で大まかなマスクを作成し、その後ClipSegで「Arm」「Armpit」「Face」のテキスト部分にマスクを適用しました。データセットが小さく、概観したところすべてのマスクが正確ではなかったため、手動でマスクを修正する作業も行いました。

その後、OneTrainerを用いてLoRAを学習しました。

主な学習パラメータは以下の通りです:

  • Prodigyオプティマイザー
  • 24エポック @ 560ステップ
  • 10回の画像繰り返し(画像とキャプションのバリエーションを含む)
  • バッチサイズ:4
  • 画像マスクを使用、マスクされていない確率:0.03、マスクされていない重み:0.02
  • 解像度1024、アスペクト比バケットリングを使用
  • LoRAランク:48、アルファ:2(後でターゲット32にリサイズ、sv_fro:0.99)

学習はRTX 4090で約8時間行いました。

追加の質問があれば、どうぞご遠慮なくお尋ねください。

このモデルで生成された画像

画像が見つかりません。