Serizawa Momoka (Tokyo 7th Sisters) | Guide: Mask, Don't Negative Prompt: Dealing with Undesirable Parts of Training Images

詳細

ファイルをダウンロード

モデル説明

(誰かが東京7thシスターズのアセットをきれいに整理されたソースを教えてくれたら非常にありがたいです。Twitterをスクレイピングしたり、ゲームのAPIを逆引きしたりしたくありません。)

マスクを使用せよ、ネガティブプロンプトを避けること:トレーニング画像の不必要な部分への対処

はじめに

トレーニング画像は常にきれいとは限りません。特定のターゲットを訓練する際、テキスト、枠、透かしなど不要な部分が画像に含まれており、モデルがそれらまで学習してしまうことがあります。この問題に対するいくつかの戦略がありますが、それぞれに欠点があります。

  1. クロッピング:不必要な部分を除外する。ソースの構成を変更するため、すべての状況に適用できるわけではありません。

  2. インペイント:データを事前処理し、不必要な部分を生成されたピクセルで置き換える。優れたインペイントプロンプト/モデルが必要。

  3. ネガティブプロンプト:そのままトレーニングを行い、新しい画像生成時にネガティブプロンプトを追加する。モデルが不必要な部分とプロンプトとの対応関係を理解している必要がある。

他にも簡単かつ効果的な戦略があります:

  1. マスク:損失関数に事前に定義されたマスクを乗じる。

この方法は新しくない ものですが、最も一般的なLoRAトレーニングスクリプトにはまだ組み込みサポートがありません。

実験

60枚の画像(東京7thシスターズの芹沢桃香のカード本文と装飾品を含む)を使用しました。

マスク付きLoRA および 通常のマスク無しLoRA をそれぞれトレーニングしました。

マスク付きバージョンでは、画像編集ソフトを使って元画像上にマスクを手描きしました。なお、VAEのスケーリングファクターが8倍であるため、モデルが認識するのは8x8ピクセルのドット絵バージョンであることに注意してください。マスクされた部分を表すタグは削除しました。

結果

(プレビュー画像を参照)

今後の課題

  • セグメンテーションモデルを用いたマスクの自動生成

このモデルで生成された画像

画像が見つかりません。