BeatriXL Huge Liminal V1 SDXL [fp8/bf16/fp32]

詳細

ファイルをダウンロード

モデル説明


ほぼ50万サンプルを用いて、限定的なリミナルデータセットに対して厳密なファインチューニングを実施し、BeatriXLを芸術的で洗練されたリミナル画像生成の怪物に仕上げました。

このツールは単に画像の興味深い領域やセクターを生成する以上のもので、世界を多様な形で高度に制御できます。時折頑固ですが、この怪物は制御可能です。ほとんどのSDXLモデルでLoRAの強度を低く設定すれば、ほとんどのLoRAと互換性があります。

このモデルでは、単なるリストからの再生成されたアートを得ることはありません。ほとんどの場合、ユニークで交差エントロピーに汚染されたセクターを生成し、その結果は高い複雑性の差を反映します—望むならば、美しい差異です。

EulerまたはEuler Aが通常動作しますが、このモデルの強みを最大限に引き出すには、RES4LYFサンプラーpackの使用を推奨します。

https://huggingface.co/AbstractPhil/Liminal-Full/tree/main/Beatrix-LORA
https://huggingface.co/AbstractPhil/Liminal-Full/tree/main/Beatrix-LORA-V2

ご自身でミックスを選択することも可能です。これは数個のLoRAから構成されており、そのうち一つはコアにマージされ、その後最終LoRAエポックがその上に訓練されています。

liminal, no humans, stuff

データセットは、長期間にわたって複数の異なるデータセットと多数のタイムステップで訓練されました。ただし注意してください。BeatriXLはまだ比較的不安定です。洗練は大幅に改善しますが、注意を怠ると望まないものが生成される可能性があります。しかし、このバージョンはデフォルトで他のバージョンよりはるかにSFWです—つまり、NSFWトピックよりもSFWトピックをデフォルトで選択しやすいですが、保証はありません。

人間を含めると、おそらく望まないものが生成されるため、慎重にしてください。

約5,000枚の異なる画像を使用しましたが、それほど多くはありません。しかし、これらの5,000枚の画像には、簡潔な英語から詳細な説明まで、さまざまなキャプションが付与されています。

Joycaption 2 + SigLIP、GPT4o、LLAMA2 LLAVA B-OMEGA + Siglip500、CLIP_Lインタラゲーション、CLIP_Gインタラゲーション、およびWD14システムからの純粋な生タグ。

カリキュラム学習は非常にうまくいきました。


fp8_e4m3fn用

  • ComfyUIで重大なエラーが発生した場合は、GPU起動バッチファイルに以下を追加してください:
--fp8_e4m3fn-unet --fp8_e4m3fn-text-enc --fp32-vae

これは真のfp8利用ではありません。ComfyUIはfp8にオートキャストせず、代わりに私のために手動でbf16にキャストしました。

model weight dtype torch.float8_e4m3fn, manual cast: torch.float16

しかし、私は確かにUnetをfloat8_e4m3fnとして起動しました。これは4090ではおそらくサポートされていないため、より高スペックのGPUでのみ動作する可能性があります。

テキストエンコーダーはfp8で問題なく動作します。

おそらくこのコード内では「should_use_bf16」が実行されており、それがbf16モードに強制的に切り替えていると思われます。適切な回避策が見つかるまで、bf16にアップスケールする必要がありますが、少なくともサイズは非常に小さいです。

このモデルで生成された画像

画像が見つかりません。