SoteDiffusion Wuerstchen3
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
新しいバージョンがリリースされました: /model/628865/sotediffusion-v2
Würstchen V3のアニメファインチューニング版です。
このリリースは fal.ai/grants によって支援されています。
8台のA100 80G GPUを使用して、600万枚の画像に対して3エポック学習しました。
このモデルは Fal.AI のAPI経由で利用可能です。
詳細についてはこちら: https://fal.ai/models/fal-ai/stable-cascade/sote-diffusion
SD.Next UI、Diffusers、またはUNetモデルについてはHuggingfaceを参照してください:
https://huggingface.co/Disty0/sotediffusion-wuerstchen3
CivitAIのページにはComfyUIのチェックポイントモデルのみが含まれています。
推論パラメータ:
メインモデルをダウンロード (8.14 GBファイル):
https://civitai.com/api/download/models/563950?type=Model&format=SafeTensor&size=pruned&fp=fp16
デコーダーモデルをダウンロード (4.24 GBファイル):
https://civitai.com/api/download/models/563892?type=Model&format=SafeTensor&size=pruned&fp=fp16
ポジティブ:
newest, extremely aesthetic, best quality,
ネガティブ:
very displeasing, worst quality, monochrome, realistic, oldest, loli,
メイン:
サンプラー: DDPM または DPMPP 2M + SGM Uniform
CFG: 7
ステップ: 30 または 40
デコーダー:
サンプラー: Euler a Karras
CFG: 1 または 1.2
ステップ: 10
圧縮率: 42 (または 32〜64)
解像度: 1024x1536、2048x1152
128の倍数であれば、どの解像度でも問題ありません。
学習:
使用ソフトウェア: Kohya SD-ScriptsのStable Cascadeブランチ。
https://github.com/kohya-ss/sd-scripts/tree/stable-cascade
使用GPU: 8台のNvidia A100 80GB
GPU時間: 220時間
ベース
パラメータ | 値
- amp | bf16
- weights | fp32
- save weights | fp16
- resolution | 1024x1024
- effective batch size | 128
- unet learning rate | 1e-5
- te learning rate | 4e-6
- optimizer | Adafactor
- images | 6M
- epochs | 3
ファイナル
パラメータ | 値
- amp | bf16
- weights | fp32
- save weights | fp16
- resolution | 1024x1024
- effective batch size | 128
- unet learning rate | 4e-6
- te learning rate | none
- optimizer | Adafactor
- images | 120K
- epochs | 16
データセット:
キャプション生成に使用したGPU: 1台のIntel ARC A770 16GB
GPU時間: 350時間
キャプション生成に使用したモデル: SmilingWolf/wd-swinv2-tagger-v3
テキスト生成に使用したモデル: llava-hf/llava-1.5-7b-hf
コマンド:
python /mnt/DataSSD/AI/Apps/kohya_ss/sd-scripts/finetune/tag_images_by_wd14_tagger.py --model_dir "/mnt/DataSSD/AI/models/wd14_tagger_model" --repo_id "SmilingWolf/wd-swinv2-tagger-v3" --recursive --remove_underscore --use_rating_tags --character_tags_first --character_tag_expand --append_tags --onnx --caption_separator ", " --general_threshold 0.35 --character_threshold 0.50 --batch_size 4 --caption_extension ".txt" ./
データセット名 | 合計画像数
- newest: 1.85M
- recent: 1.38M
- mid: 993K
- early: 566K
- oldest: 160K
- pixiv: 344K
- visual novel cg: 231K
- anime wallpaper: 105K
- 合計: 5.628.499枚
注記:
- 最小サイズ: 1280x600 / 768.000ピクセル
- czkawka-cliを使用して画像類似性に基づいて重複除去
- 約12万枚の超高品質画像を意図的に5回重複させ、総画像数を620万枚に増加
タグ:
タグ形式:
モデルはタグのランダムな順序で学習されていますが、興味があればデータセット内の順序は以下の通りです:
審美的タグ、品質タグ、日付タグ、カスタムタグ、レーティングタグ、キャラクター、シリーズ、その他のタグ
日付:
- newest: 2022年〜2024年
- recent: 2019年〜2021年
- mid: 2015年〜2018年
- early: 2011年〜2014年
- oldest: 2005年〜2010年
审美的タグ:
使用モデル: shadowlilac/aesthetic-shadow-2
- score > 0.90: extremely aesthetic
- score > 0.80: very aesthetic
- score > 0.70: aesthetic
- score > 0.50: slightly aesthetic
- score > 0.40: not displeasing
- score > 0.30: not aesthetic
- score > 0.25: slightly displeasing
- score > 0.10: displeasing
- その他: very displeasing
品質タグ:
使用モデル: https://huggingface.co/hakurei/waifu-diffusion-v1-4/blob/main/models/aes-B32-v0.pth
- score > 0.980: best quality
- score > 0.900: high quality
- score > 0.750: great quality
- score > 0.500: medium quality
- score > 0.250: normal quality
- score > 0.125: bad quality
- score > 0.025: low quality
- その他: worst quality
レーティングタグ:
- general
- sensitive
- nsfw
- explicit nsfw
カスタムタグ:
- 画像ボード: date,
- テキスト: "text" というテキスト
- キャラクター: character, series
- pixiv: art by Display_Name,
- ビジュアルノベルCG: Full_VN_Name (short_3_letter_name), visual novel cg,
- アニメ壁紙: date, anime wallpaper,
ライセンス
SoteDiffusionモデルは、Fair AI Public License 1.0-SD の下にライセンスされています。このライセンスはStable Diffusionモデルのライセンスと互換性があります。主なポイント:
- 1. 修正の共有: SoteDiffusionモデルを変更した場合、変更内容とオリジナルのライセンスを共有しなければなりません。
- 2. ソースコードのアクセス性: 変更版がネットワーク上に公開される場合、他者がソースコードを取得できる手段(ダウンロードリンクなど)を提供しなければなりません。派生モデルにも適用されます。
- 3. 配布条件: いかなる配布も、本ライセンスまたは同様のルールを持つライセンスの下で行わなければなりません。
- 4. コンプライアンス: 違反は30日以内に是正されなければライセンスが終了します。透明性とオープンソースの価値遵守を重視しています。
注記: Fair AIライセンスでカバーされていない事項は、Stability AIの非営利ライセンスから継承されます。
















