FusionXL SDXL モデル + Diffusers

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("FFusion/FFusionXL-09-SDXL", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")

モデル

SDXL をベースにした FFXL は、潜在変数扩散の2段階パイプラインで構成されています。まず、目的の出力サイズの潜在変数を生成するためにベースモデルを使用します。2番目のステップでは、専用の高解像度モデルを使用して、最初のステップで生成された潜在変数に SDEdit 技術（https://arxiv.org/abs/2108.01073、また「img2img」とも呼ばれます）を同じプロンプトで適用します。

モデルの説明

訓練者: FFusion AI
モデルの種類: テキストから画像を生成する拡散ベースのモデル
ライセンス: FFXL 研究用ライセンス
モデルの説明: このモデルは SDXL をベースに訓練されたもので、テキストプロンプトに基づいて画像を生成・修正できます。潜在変数扩散モデル であり、2つの固定された事前学習済みテキストエンコーダ（OpenCLIP-ViT/G と CLIP-ViT/L）を使用しています。
詳細情報のリソース: arXiv の SDXL 論文。

モデルのソース

デモ:

🧨 Diffusers

diffusers を 0.18.0 以上にアップグレードしてください：

pip install diffusers --upgrade

さらに、transformers、safetensors、accelerate、および非表示ウォーターマークをインストールしてください：

pip install invisible_watermark transformers accelerate safetensors

以下のようにモデルを使用できます：

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("FFusion/FFusionXL-09-SDXL", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")

# torch < 2.0 の場合
# pipe.enable_xformers_memory_efficient_attention()

prompt = "An astronaut riding a green horse"

images = pipe(prompt=prompt).images[0]

torch >= 2.0 を使用する場合、torch.compile を使用することで推論速度を 20–30% 向上させることができます。パイプラインを実行する前に、UNet を以下のように torch.compile でラップしてください：

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

GPU VRAM に制約がある場合は、.to("cuda") の代わりに pipe.enable_model_cpu_offload を呼び出して CPU オフローディングを有効にできます：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

使用方法

直接使用

このモデルは研究目的でのみ使用されることを意図しています。可能な研究分野やタスクには以下のものが含まれます：

アートワークの生成、デザインやその他の芸術的プロセスへの活用。
教育的または創造的ツールへの応用。
生成モデルに関する研究。
悪影響を及ぼす可能性のあるコンテンツを生成する能力を持つモデルの安全な導入。
生成モデルの限界とバイアスの探求と理解。

除外される使用方法は以下に記載されています。

対象外の使用

このモデルは、人物や出来事の事実的または真実の表現を学習していません。したがって、このようなコンテンツを生成する用途は、このモデルの能力の範囲外です。

限界とバイアス

限界

モデルは完全な写実性を達成していません。
モデルは読み取れるテキストを描画できません。
「青い球の上に赤い立方体」のような複合的な構成を伴う難しいタスクに対して苦手です。
顔や人物全般が正しく生成されない場合があります。
モデルの自己符号化部分は損失を伴います。

バイアス

画像生成モデルの能力は驚異的ですが、社会的バイアスを強化または悪化させる可能性もあります。

出典：

ライセンス

SDXL 0.9 研究用ライセンス" FFXL 0.9 研究用ライセンス"

モデルタイプ	チェックポイント
ベースモデル	SDXL 0.9
公開日	7/27/2023

FFusionXL 0.9 SDXL model + Diffusers

詳細

ファイルをダウンロード

このバージョンについて

モデル説明