RTX On - PonyDiffusionXLV6

詳細

ファイルをダウンロード

モデル説明

これは、ponyDiffusion_V6XLベースモデルで学習されたSDXL LoRAです。(他のモデルでは動作しませんが、お試しすることは自由です)。

このLoRAの目的は、高品質(明るく照明された)3Dレンダリングのように見える画像を生成することです。

ベースモデルはすでに_3d_や_blender_というタグを使用することで3Dスタイルの画像を完璧に生成できますが、私は特定のスタイルをさらに強調し、可能であればより柔軟性を高めたいと考えました。

そのため、キャプション作成時に特定のキーワードをタグ付けしました。これにより、特定のスタイルを指定できるようになることを期待しました。しかし、多くの画像には複数のタグが混在していたため、最も強い影響を得るには複数のタグを同時に使用する必要があります。ただし、タグをまったく使用しない場合でもある程度の影響があります。

以下は、誇張されたが偏っていない例(_3d_や_blender_タグを使用せず、_source_anime_タグを使用し、シードを1、2、3に設定した場合)のLoRAの効果です:

score_9,score_8_up,score_7_up, 1girls, big_breasts, sfw, selfie, female, light_skin, slim, crop_top, leggings, pink_hair, brown_eyes, v_sign, peace_sign, living_room, source_anime, rating_safe

(フル解像度で見る → こちら

以下が具体的なタグとその説明です:

  • RTX_on – このタグはすべての画像に付与することを意図したベースタグです。

  • RTX_soft – ソフトなレンダリングと柔らかい照明が施された画像。

  • RTX_flat – 皮膚のテクスチャが比較的フラットな3D画像(Overwatchのモデルを想像し、Source Filmmakerで少ない照明でレンダリングされた状態)。

  • RTX_pt – 「パストレーシング」を意味し、特に強い光と影、またはシーン全体が非常に明るく(現実的なグローバルイルミネーション、アンビエントオクルージョン、間接光、正確な影など)レンダリングされた画像に付与。

  • RTX_hairsim – 「シミュレートされた髪」を意味し、多くの個々の髪の毛が現実的にシミュレートされた画像のサブセットにタグ付けしました。しかし、すべての画像をタグ付けせず、不十分だったため、このタグはやや頑固です。

  • RTX_texture – RTX_flatの逆に該当し、リアルな皮膚や生地のテクスチャ、または皮膚上のリアルな液体(汗/水)が存在する場合に適用しました。前述のタグと同様、すべての画像にタグ付けされていないため、やや不正確な場合があります。

_RTX_texture_と_RTX_flat_は対立するように思えますが、実際には両方のタグを同時に付与したソース画像も存在しました。ビデオゲーム用語で言えば、これは皮膚にアルベドテクスチャがなく、法線マップが適用され、適切な角度から照明されて影が生成された場合です。

各タグの効果をざっくり理解するには、以下の例画像を参照してください。

この画像はすべてのタグのマトリックスで、列の重みが行より高くなっています(タグの効果をより明確に示すため)。常に両方のタグがプロンプトに含まれており、列のタグが先に記述されています。画像を外部で開くことをお勧めします。

(フル解像度で見る → こちら

画像はrule34から収集しました。つまり、このLoRAは人型でないまたは現実的な特徴に対して悪影響を及ぼす可能性があります。(1〜2例の画像を試しましたが、良好な結果でした(おそらくSDXLのおかげです)。しかし、他のユーザーのサンプル画像やレビューを確認することをお勧めします)。

学習

いつものように、学習について少し説明します。

これは初めてベースモデル以外で学習した試みであり、初めて試したスタイルでもあります。個人的には結果に十分満足していますが、もう少し良くなることを期待していました。

rule34から1250枚の高解像度ベース画像を選定しました。画像の雰囲気と品質の要件により、これらの画像の多くはOverwatch、Cyberpunk 2077などゲームからのものでした。多くのソース画像にはウォーターマークも含まれていました。これは、特定のキャラクターをプロンプトに指定しない場合、Overwatchのキャラクターのように生成されやすくなる可能性を高めますが、同時にウォーターマークを生成する可能性も高めます。

収集した画像については、元のタグを維持しつつ、上記のカスタムタグを追加しました。RTX_onはごく少数の例外を除き、ほぼすべての画像にタグ付けしました。さらに、画像に適していると感じた場合は関連タグも追加しました。多くの画像が特定の基本スタイル(例えばCyberpunk 2077のスクリーンショットなど)を持っていましたので、そのような画像にはRTX_onタグのみを残し、RTX_hairsimやRTX_textureなどはタグ付けしませんでした。振り返ってみると(もし再び行うなら)、すべての画像にこれらの詳細タグも付与していたでしょう。

学習はkohyaで実施し、4回繰り返し、バッチサイズ6、エポック30を選びました。これにより25,110ステップとなりました。ブールタグを使用していたため、キャプションをシャッフルし、各キャプションの最初の3トークンを保持しました。また、一部の画像にはブールから大量のタグが付与されていたため、最大トークン長を150に増やしました。

Prodigyオプティマイザーを初めて試し、他の人がうまく行ったとされる設定に近い設定を選択しました。これらの設定について詳しく知りたい場合は、以下の動画を視聞することを強くお勧めします:https://www.youtube.com/watch?v=QpWacUWeqbE

30エポックの間、LoRAは過学習(オーバーベイク)しなかったため、以前作成したLoRAとは異なり、複数のバージョンを組み合わせて結果を改善する必要がありませんでした。このため、今回はsafetensorsファイルの追加メタデータも確認できます。

学習はランク128(次元およびアルファ)で行い、後にターゲットランク32に縮小しました。

全体の学習プロセスは、クラウド上のRTX 4090(ピークVRAM使用量23.5GB)で19時間以上かかりました。

さらに質問があれば、いつでもお気軽にお尋ねください。

ライセンス

このモデルはponyDiffusion V6 XLで学習されているため、LoRAには類似した修正版Fair AI Public License 1.0-SD(https://freedevproject.org/faipl-1.0-sd/)を適用することにしました。

Fair AI Public Licenseに以下の修正を加えました:

このモデルの推論を、あらゆる形の収益化(有料推論、高速プランなど)を許可するウェブサイトまたはアプリケーション上で実行することは許可されていません。これは派生モデルやモデルのマージにも適用されます。

CivitAiおよびHugging Faceには、商用推論のための明示的な許可が与えられます。

このモデルで生成された画像

画像が見つかりません。