Jockstrap - varied colors, styles and concepts (ZIT, FLUX, Pony & SDXL)

詳細

ファイルをダウンロード

モデル説明

FLUXバージョン:私はこの衣装スタイルのコンセプト用にFLUX LoRaを作成しました。スタイル、素材、角度、モデルのポーズなど、あらゆる要素に高い汎用性を持つものが欲しかったからです。そのため、このLoRaは私の以前のSDXL/Ponyの大規模データセット(800枚以上のHD画像)をもとに学習させましたが、若干クリーンアップと選別を施しました。また、オブジェクト+コンテキストのアプローチに特化した特定のLLaVAプロンプトキャプションパラメータを使用しました。LoRa自体のサイズには満足していませんが、私が求めていた機能は十分に果たしているため、それでも共有することにしました。

以前のPony/SDXLバージョンから洗練されたデータセットを使用し、低速かつゆっくりした学習アプローチを採用しました。データセットには、ジャッキストラップの多様なスタイル、着用時のポーズ、角度などが多く含まれており、Alpha 2 LLaVAキャプション手法を更新して適用しています。

LLaVA_AIには、特定のプロンプト指示を与え、オブジェクト・イン・コンテキストの戦略に基づいてキャプションを作成するようにしました。つまり、ジャッキストラップそのもの(素材、位置、角度、その他の重要な物理的属性)を最初に詳細に記述し、その後、画像中の他の要素を二次的な優先順位として記述するようにしました。このLoRaを使用する際には、ウエストバンドのサイズ、レッグストラップ、ポーチなどの具体的な属性を指定すると、指定しない場合よりもより良い結果が得られます。

既に他のLoRaが存在するのに、なぜまた新たなものを制作したのか?低速・ゆっくり+大規模データセットのアプローチの主な目的は、「ジャッキストラップとは何か」を正しく理解するFLUX LoRaを構築することです。一方、高速・高強度の学習アプローチで作られる一般的なコンセプトベースのFLUX LoRaは、「男性がジャッキストラップを着ている姿」だけを学習する傾向があります。前者のアプローチの鍵となる利点は、キャラクターの身体や顔の要素をほとんど、あるいはまったく変更しようとしない点です。誤解しないでください——私はしばしば高速・高強度の学習アプローチを用いており、FLUXはその方法で非常に優れた学習能力を示します。そのため、キャラクターや人物ベースのFLUX LoRaは作成が容易です。

核心的なポイント:このLoRaはキャラクターや人物用のLoRaと良好に連携し、体や顔を変更しようとせず、ジャッキストラップだけを正確に再現します。ジャッキストラップだけ、それ以外は何も。

私はReplicateのLoRaトレーナーを使用しており、H100を非常にリーズナブルな価格で迅速に利用できます。しかし、トレーニングパラメータの選択肢が非常に限られているため、もし他にお勧めのサイトがあれば教えてください。現在のアプローチの主な課題は、作成は非常に簡単ですが、パラメータの選択肢が少ないため最適化が難しく、結果としてLoRaのサイズが大きくなりがちな点です。SDXL/SD 1.5 LoRa用のLoRa最適化ツールはFLUXベースのLoRaには対応していないため、このサイズのままになっています。

--

Ponyバージョン:最新のバージョンv5は、以前のバージョンと、ジャッキストラップに関する他のいくつかのコンセプトLoRaを統合するために作成しました。このアイデアは、複数のControlNetや特定のチェックポイントの扱いの難しさを避けて、いくつかの創造的なコンセプトを含むLoRaを作成することから始まりました。また、多くのチェックポイントは「ジャッキストラップとは何か」を理解していますが、特定のジャッキストラップ用LoRaを使わないと、多くの場合、ブリーフを生成してしまう傾向があります。

さらに、単に「男の子がジャッキストラップを着ている見た目」ではなく、「実際にジャッキストラップという衣服とは何か」を理解するLoRaが欲しかったのです。そのため、複雑なワークフローを経て画像中にジャッキストラップだけを描き出す必要がなくなりました。

このLoRaは、さまざまな角度でジャッキストラップを着用した男性の生成やインペイントの品質と多様性を向上させるだけでなく、それに関連する概念的生成も可能にしています。

組み合わせて使用できます——100%完璧ではありませんが、数回の生成で概ね希望する結果に到達できるでしょう。

ビューングポイント、色、行動、または衣服そのものをプロンプトに指定できます。モデルギャラリーには、生成された出力とその作成に使用されたプロンプトの例を示しています。

例えば:

[pov] [color] [嗅ぐ/匂いをかぐ] [床に置かれてる/顔に当たってる/手に持ってる/伸びてる] [のぞき見] [人物なし/展示用] など。これらをさまざまな方法で組み合わせられますが、複雑になるほど、望む結果を得るまでに生成サイクルが長くなる可能性があります。

SDXLバージョン6:フル画像生成またはインペイントに一般に優れています。以前のバージョンは、インペイントにやや優れています。

Ponyバージョン:フル画像生成またはインペイントに適しています。

  • Pony+インペイントについて:
    Ponyは、そのままではインペイントが難しい傾向がありますが、適切なチェックポイント、サンプリング法、スケジューラ、およびLoRaを用いれば、混乱なく実行できます。

    私はVirile Stallionを使用しており、FooocusとKritaではEuler AまたはDDIM(Karras)を、A1111/ReActorでは「Inpaint Anything」エクステンションのデフォルト設定、または通常のImg2imgインペイント手法でサンプリング・スケジュール・チェックポイントの値を調整しています。


v1.2

私が最初に公開したLoRaです。多様なポーズに対応するのに十分な汎用性を持っています。

トリガーは「jockstrap」で、色を指定できます。側面に焦点を当てたい場合は、前面または背面を指定すると役立ちます。

ブラックジャッキストラップ、ホワイトジャッキストラップ、パープルジャッキストラップ前面、など。

ジャッキストラップ・スリング、ジャッキストラップ・アンダーウェア、膨らんだジャッキストラップ、など。

このモデルで生成された画像

画像が見つかりません。