SoteDiffusion Wuerstchen3

詳細

ファイルをダウンロード

モデル説明

新しいバージョンがリリースされました: /model/628865/sotediffusion-v2

Würstchen V3のアニメファインチューニング版です。

このリリースは fal.ai/grants によって支援されています。

8台のA100 80G GPUを使用して、600万枚の画像に対して3エポック学習しました。

このモデルは Fal.AI のAPI経由で利用可能です。

詳細についてはこちら: https://fal.ai/models/fal-ai/stable-cascade/sote-diffusion

SD.Next UI、Diffusers、またはUNetモデルについてはHuggingfaceを参照してください:
https://huggingface.co/Disty0/sotediffusion-wuerstchen3
CivitAIのページにはComfyUIのチェックポイントモデルのみが含まれています。

推論パラメータ:

メインモデルをダウンロード (8.14 GBファイル):
https://civitai.com/api/download/models/563950?type=Model&format=SafeTensor&size=pruned&fp=fp16

デコーダーモデルをダウンロード (4.24 GBファイル):
https://civitai.com/api/download/models/563892?type=Model&format=SafeTensor&size=pruned&fp=fp16

ポジティブ:

newest, extremely aesthetic, best quality,

ネガティブ:

very displeasing, worst quality, monochrome, realistic, oldest, loli,

メイン:

サンプラー: DDPM または DPMPP 2M + SGM Uniform
CFG: 7
ステップ: 30 または 40

デコーダー:

サンプラー: Euler a Karras
CFG: 1 または 1.2
ステップ: 10

圧縮率: 42 (または 32〜64)

解像度: 1024x1536、2048x1152
128の倍数であれば、どの解像度でも問題ありません。

学習:

使用ソフトウェア: Kohya SD-ScriptsのStable Cascadeブランチ。
https://github.com/kohya-ss/sd-scripts/tree/stable-cascade

使用GPU: 8台のNvidia A100 80GB
GPU時間: 220時間

ベース

パラメータ | 値

  • amp | bf16
  • weights | fp32
  • save weights | fp16
  • resolution | 1024x1024
  • effective batch size | 128
  • unet learning rate | 1e-5
  • te learning rate | 4e-6
  • optimizer | Adafactor
  • images | 6M
  • epochs | 3

ファイナル

パラメータ | 値

  • amp | bf16
  • weights | fp32
  • save weights | fp16
  • resolution | 1024x1024
  • effective batch size | 128
  • unet learning rate | 4e-6
  • te learning rate | none
  • optimizer | Adafactor
  • images | 120K
  • epochs | 16

データセット:

キャプション生成に使用したGPU: 1台のIntel ARC A770 16GB
GPU時間: 350時間

キャプション生成に使用したモデル: SmilingWolf/wd-swinv2-tagger-v3
テキスト生成に使用したモデル: llava-hf/llava-1.5-7b-hf

コマンド:

python /mnt/DataSSD/AI/Apps/kohya_ss/sd-scripts/finetune/tag_images_by_wd14_tagger.py --model_dir "/mnt/DataSSD/AI/models/wd14_tagger_model" --repo_id "SmilingWolf/wd-swinv2-tagger-v3" --recursive --remove_underscore --use_rating_tags --character_tags_first --character_tag_expand --append_tags --onnx --caption_separator ", " --general_threshold 0.35 --character_threshold 0.50 --batch_size 4 --caption_extension ".txt" ./

データセット名 | 合計画像数

  • newest: 1.85M
  • recent: 1.38M
  • mid: 993K
  • early: 566K
  • oldest: 160K
  • pixiv: 344K
  • visual novel cg: 231K
  • anime wallpaper: 105K
  • 合計: 5.628.499枚

注記:

  • 最小サイズ: 1280x600 / 768.000ピクセル
  • czkawka-cliを使用して画像類似性に基づいて重複除去
  • 約12万枚の超高品質画像を意図的に5回重複させ、総画像数を620万枚に増加

タグ:

タグ形式:

モデルはタグのランダムな順序で学習されていますが、興味があればデータセット内の順序は以下の通りです:

審美的タグ、品質タグ、日付タグ、カスタムタグ、レーティングタグ、キャラクター、シリーズ、その他のタグ

日付:

  • newest: 2022年〜2024年
  • recent: 2019年〜2021年
  • mid: 2015年〜2018年
  • early: 2011年〜2014年
  • oldest: 2005年〜2010年

审美的タグ:

使用モデル: shadowlilac/aesthetic-shadow-2

  • score > 0.90: extremely aesthetic
  • score > 0.80: very aesthetic
  • score > 0.70: aesthetic
  • score > 0.50: slightly aesthetic
  • score > 0.40: not displeasing
  • score > 0.30: not aesthetic
  • score > 0.25: slightly displeasing
  • score > 0.10: displeasing
  • その他: very displeasing

品質タグ:

使用モデル: https://huggingface.co/hakurei/waifu-diffusion-v1-4/blob/main/models/aes-B32-v0.pth

  • score > 0.980: best quality
  • score > 0.900: high quality
  • score > 0.750: great quality
  • score > 0.500: medium quality
  • score > 0.250: normal quality
  • score > 0.125: bad quality
  • score > 0.025: low quality
  • その他: worst quality

レーティングタグ:

  • general
  • sensitive
  • nsfw
  • explicit nsfw

カスタムタグ:

  • 画像ボード: date,
  • テキスト: "text" というテキスト
  • キャラクター: character, series
  • pixiv: art by Display_Name,
  • ビジュアルノベルCG: Full_VN_Name (short_3_letter_name), visual novel cg,
  • アニメ壁紙: date, anime wallpaper,

ライセンス

SoteDiffusionモデルは、Fair AI Public License 1.0-SD の下にライセンスされています。このライセンスはStable Diffusionモデルのライセンスと互換性があります。主なポイント:

  • 1. 修正の共有: SoteDiffusionモデルを変更した場合、変更内容とオリジナルのライセンスを共有しなければなりません。
  • 2. ソースコードのアクセス性: 変更版がネットワーク上に公開される場合、他者がソースコードを取得できる手段(ダウンロードリンクなど)を提供しなければなりません。派生モデルにも適用されます。
  • 3. 配布条件: いかなる配布も、本ライセンスまたは同様のルールを持つライセンスの下で行わなければなりません。
  • 4. コンプライアンス: 違反は30日以内に是正されなければライセンスが終了します。透明性とオープンソースの価値遵守を重視しています。

注記: Fair AIライセンスでカバーされていない事項は、Stability AIの非営利ライセンスから継承されます。

このモデルで生成された画像

画像が見つかりません。