Nose Picking

詳細

ファイルをダウンロード

モデル説明

こんにちは、このモデルは、illustriousXLが正しく理解できなかったタグ("nose_picking")の画像生成を支援することを目的としています。

同じ概念を学習しようとしたLoRAが存在しましたが、それはSDXL用であり、illustrious版では結果が悪かったため、自分で学習することに決めました(ホントに、このプロジェクトを放棄したかったほどです)。

バージョンについて議論する前に、LoRAのポイントをまとめます。

  • 効果はあるか? はい、あります。

  • 安定しているか? はい、良い結果を得るには最小限の調整で済みます。

  • 他のLoRAではなく、これを使うべき理由は? なぜなら(私が今これを書いている時点では)他の代替手段が存在しないからです。

  • プレビュー版やバージョンセクションで見られるような結果を得るにはどうすればいいか? このLoRAに関する私の知識をすべてまとめて「ヒント」セクションを詳しく書こうと思いますが、ギャラリー画像を参考にすることもできます(明日さらにいくつか公開します)。

  • モデルが気に入った場合、どうすれば手伝えるか? 私の作業を気に入ってくれたなら、それには私が認めたくないほど多くの労力が込められていますので、レビューを残して、自分の作品をアップロードし、友人に共有してください。

ほとんどの使用ヒントはバージョンセクションに記載されていますが、さらにトリック、ヒント、情報が知りたい場合は、その下のセクションをご覧ください。

Nos3pick (v2)

このバージョンは、タグ「nose picking」を用いた画像生成を支援することを目的としています。残念ながらillustriousXLはこのタグの理解が十分ではなく、しばしば他のジェスチャー(「finger_in_mouth」など)を生成してしまいます。

v2は(ついに!)この問題を修正でき、当初の予想通りにはならなかったものの、非常に良く動作します。

当初の計画は、アクティベーションキーワード「nos3pick」だけで使えるプラグアンドプレイLoRAを作成することでした。しかし、最初の試みではLoRAが使いづらく(SDXL版よりはましだったのですが)、テスト結果の中から最良の画像を厳選して新たなデータセットを作成し、再学習を行いました。これがその結果です。

このLoRAはほぼプラグアンドプレイで、以下のような画像が得られます:

もちろん、表情は自由に変更できますが、モデルが意図するところを正しく認識させるために追加キーワード「nose pick」を使う必要があるかもしれません。

最後に、LoRAを使用しない場合と使用した場合の違いをご覧ください:

LoRA無し vs LoRA有り

ご覧の通り、LoRAは効果的に機能しています(画像がシンプルだったため、アクティベーションタグを追加するだけで、その他の調整なしで使用できました)。

ほとんどのテストは、Hassaku (Illustrious)WAI-NSFW-illustrious-SDXL を使用して実施しました。

技術的詳細:

このバージョンの学習に使用したデータセットは100枚の異なる画像で、13エポック、2回の繰り返しで学習しました(はい、ステップ数は多いですが、信頼してください、必要でした)。

私がよく使用した設定は以下の通りです:

Sampler: Euler A
Steps: ~28 ~30
CFG: ~6

画像はより良い最終結果を得るために、UpscalerとAdetailerで処理しました。

Upscaler: 4x_NMKD-Siax_200k 
steps:15
denoising:0.3

Adetailer:
face
fulleyesdetection

注意:Adetailerは手のジェスチャーを改善するために使用していません <- ジェスチャーの結果は100% LoRAの成果です

(ただし、限られたケースでは、アップスケーリングにより指が鼻に完全に入っていなかったり、鼻が正しく生成されなかった場合に修正できることがあります)。

私が使用したプロンプト構造は以下の通りです:

{あなたのプロンプト}, <lora:Nos3pick:1> nos3pick, nose picking

場合によっては、出力をさらに安定させるためにキーワード「nose picking」を追加する必要があるかもしれません。特に画像が複雑な場合や、複雑な表情を生成しようとする際には必須です。

使用方法:

アクティベーションキーワード: nos3pick,
[ややオプション]:    nose picking
LoRA重み: ~1(1が最適値)

一般的に私は28ステップ、CFG6で始め、次のように試します:

アクティベーションキーワードのみで画像を生成し、追加タグが必要かどうかを確認します。ほとんどの場合、オプションタグなしでも十分な結果が得られますが、必要ない場合は追加タグを試します(たいていすべてを修正します)。シードが特に悪く、これでも解決できない場合は、追加タグを有効にした状態で少しずつシードを変えて再生成します。

(注意:この最後のケースは1回だけ発生し、そのときの画像はプロンプトが完全に混沌としていました)

十分にテストしましたか? もう私のGPUはトースターに昇格する準備ができているくらいです。

最初のテストは解像度832*1216で実施しました:

(各解像度のテストは、前後2組の画像です)

注意:2つの画像の違いはLoRAと2つのアクティベーションキーワードの有無だけです。

2番目のテスト(896*1152):

3番目のテスト(768*1344):

最後で最も重要なテストは、既知のキャラクターとの互換性を確認するためのもので、私のキャラクターLoRAで使用するキャラクターを用いて幾つかの画像を生成しました:

ノート(「ヒント&トリック」):

「nose_picking」タグは必須ではありません(ほとんどの場合)、しかし画像の安定化に大きな効果があり、「nos3pick」タグの後にポジティブプロンプトで使用すると逆効果になります。できる限り両方のタグを使用してください。

標準的な表情はやや平板ですが、両方のタグを使用すれば、自由にカスタマイズしても問題ありません。

このLoRAはAdetailerを必要としませんが、出力画像の品質をさらに高めるために強く推奨します。

以下のタグは完全にサポートされています:

open mouth,
open smile,
clenched teeth,
half-closed eyes,
glasgow smile,
smirk,
;d, upper teeth only
etc etc.

以下に追加で留意すべき点を記載します:

  • 明示的に室内/屋外や背景を記述しない場合、LoRAはおそらく室内の画像を生成します。

  • ポジティブプロンプトでキーワード「portrait」を使用しないことを強く推奨します。

  • ネガティブプロンプトでキーワード「close-up」の使用を推奨します。

  • このLoRAは「女性」の画像データセットで学習されているため、男性に使用するにはLoRAの重みを大幅に下げなければなりません(Brookに使用するには0.6まで下げました)。

このLoRAが誰かの役に立つことを願っています。私はこのジェスチャーを今後二度と扱うことはないでしょうから、これは(少なくとも近い将来の)決定版であると断言できます。

ここまで読んでくれて、本当にありがとうございます(私が話すぎるのはわかっています);このLoRAを楽しんでいただき、次回のモデルでお会いできることを願っています。

このモデルで生成された画像

画像が見つかりません。