Grid Helper V1 - CLIP LORA [CLIP_L | CLIP_G]

詳細

ファイルをダウンロード

モデル説明

生成の提案

SDXL-Simulacrum、Sim-Flux1S、Sim-Flux1Dのトレーニング基準に従って、

全体の構造は以下の組み合わせで構築されています

  • シンプルな英語キャプション

  • _前_にBooruタグ

- さまざまなモデルへの直接統合と再利用可能なユーティリティ用。

ForgeでSDXLと一緒に通常のLoRAとしてロードすれば動作します。

ComfyでCLIP_LまたはCLIP_Gを備えた任意のモデルに通常のLoRAとしてロードし、そのCLIPを通過させてください。

  • LIGHTはSDXL-Simulacrum-V2およびSDXLに類するモデルで最も効果的です。

  • MEDIUMはSD3のような派生型CLIP_LおよびCLIP_Gモデルを十分に処理できます。

  • POWERFULはPony、Illustrious、および多くの大幅に変更されたモデルで動作します。

これは私が初めて試みたCLIP LoRAです。グリッドに対して非常に反応性が高く、強力です。


SDXL-SimV2(別名:Dumb Flux)と同様に、grid_[[letter]row][[number]column]の概念を使用してください。

  • grid_a1、grid_c5 など

より多くの機能を有効化します;実際に[]を付けず、テキストを内容に置き換えてください。

  • 横5行、縦5列の2次元グリッド。アイコン用に合計25の配置可能位置があります。

  • [\ color ]のアウトライン

  • [\ ... ]で構成された5x5グリッド

  • [\ ... ]で構成された3x3グリッド

  • 多種多様な形状のグリッド

  • グリッド内に収まる2次元アイコン

  • [\オブジェクト形状]と[\色]の行

  • [\オブジェクト形状]と[\色]の列

否定オプション → グリッドが低強度で過度に強すぎる場合に否定

  • grid

  • outline

  • chaotic grid

  • noisy shapes, chaotic shapes


トレーニングの背景

より優れたバージョンを準備中で、使用画像を減らした大幅に改善されたバージョンです。お楽しみに。

UNetをトレーニングしていないため、CLIP_LまたはCLIP_Gを備えるあらゆるモデルで自動的に動作します。UNet側に残存するデータやブロックが含まれていたとしても、それらは必要ないことが保証されます。

ご自身で実験してみてください。低強度では、画像の選択により全体の画像が変化し、トレーニング時にマスクを使用していないため、その影響が明確にわかります。意図的に慎重にすべてを滲み出させるように設計されており、構造化された形状と非構造化された形状の両方を生成に提供します。

トレーニングデータは、単純な幾何学的グリッド画像とノードで構成されており、これらのグリッド要素コントローラーは、CivitトレーナーでSDXL-Simulacrum v2 Fullを使用して、CLIP_LおよびCLIP_Gのペアに特化してトレーニングされています。

このグリッド概念を使って、SDXLに「3の法則」を超えるより大きなルールを適用しようとしています。その結果は、SDXLだけでなく、これまでテストしたすべてのモデルで有望です。現在では、SDXLで3を使うよりも7を使う頻度が高くなっています。現在の主な問題は、マルチリゾリューションの影響で位置情報が大量に破壊されることで、これはあくまで実験的ツールです。

トレーニングデータをzipファイルに同梱しました。このようなシンプルなものがいかに簡単に作れるか、ご確認ください。

このLoRAを微調整する際は、マルチリゾリューションノイズを使用しないでください。そうでないと、画面との関連性が急速に失われます。

SDXL-Simulacrumのような完全に微調整された重いモデルをこのデータでトレーニングしても、一括で機能しません。

このようなモデルは重ね合わせのインプリントには有効ですが、コアデータセットへの組み込みには適していません。

これは私のタギングスタイルのほんの一部の見せ方です。興味があれば、データとキャプションファイルをご覧ください。SDXL-Simulacrumが現在の形になった背景の「狂気」を垣間見ることができます。

A 2d icon that fits within a grid., A singular 2d icon meant to fill an icon placement within a larger grid with strange shapes., A 2d chaotic icon of random shapes., A singular 2d icon with chaotic shapes with a black border.

A 2d icon that fits within a grid., An empty 2d icon placement with an empty background and a colored border and a black outline within the colored border.

A 2d grid with five horizontal rows and five vertical columns. There is a total of 25 potential positions for icons., There are five different colors of shapes filling the five rows.

A 2d icon that fits within a grid., An empty 2d icon placement with an empty grey  background and a grey border.

私はCIVITのタグモデルを使ってタグ付けしました。zipフォルダ内の各キャプションファイルに追加されたタグは、オリジナルのキャプションデータとは若干異なります。

テストした多くのモデルで動作します。それらの多くは、CLIPにキャラクターのグリッド制御がほとんどまたはまったく備わっていないためです。

唯一の実際の問題は、これをマルチリゾリューション有効でトレーニングしたため、Simv2全体がオリジナルノイズでトレーニングされているため、このLoRAを微調整できないことです。SDXL-SimV2 Fullでマルチリゾリューションを用いて微調整すると、グリッド構造が破壊されがちです。

2 DIM

128 ALPHA

低次元であるため、画像上にインプリントを重ねてから、半強度以下で急速にそれらを追跡できなくなります。初期強化実験から得られた素晴らしい結果です。

このLoRAは、多くのモデルでグリッドを明確に固定する傾向があります。

このモデルで生成された画像

画像が見つかりません。