SoteDiffusion Wuerstchen3

详情

模型描述

新版本已发布:/model/628865/sotediffusion-v2

基于 Würstchen V3 的动漫微调模型。

本次发布由 fal.ai/grants 赞助。

使用 8 块 A100 80G GPU,在 600 万张图像上训练了 3 个 epoch。

可通过 Fal.AI 的 API 使用此模型。

更多详情请参阅:https://fal.ai/models/fal-ai/stable-cascade/sote-diffusion

有关 SD.Next UI、Diffusers 或 UNet 模型的更多信息,请参阅 Huggingface:
https://huggingface.co/Disty0/sotediffusion-wuerstchen3
CivitAI 页面仅提供 ComfyUI 的检查点模型。

推理参数:

下载主模型(8.14 GB 文件):

https://civitai.com/api/download/models/563950?type=Model&format=SafeTensor&size=pruned&fp=fp16

下载解码器模型(4.24 GB 文件):

https://civitai.com/api/download/models/563892?type=Model&format=SafeTensor&size=pruned&fp=fp16

正向提示:

newest, extremely aesthetic, best quality,

负向提示:

very displeasing, worst quality, monochrome, realistic, oldest, loli,

主模型:

采样器:DDPM 或 DPMPP 2M,配合 SGM Uniform
CFG:7
步数:30 或 40

解码器:

采样器:Euler a Karras
CFG:1 或 1.2
步数:10

压缩率:42(可选 32 至 64)

分辨率:1024x1536、2048x1152

只要分辨率是 128 的倍数,任何尺寸均可。

训练:

使用的软件:Kohya SD-Scripts 的 Stable Cascade 分支。
https://github.com/kohya-ss/sd-scripts/tree/stable-cascade

使用的 GPU:8 块 Nvidia A100 80GB
GPU 小时数:220

基础训练阶段

参数 | 值

  • amp | bf16

  • 权重 | fp32

  • 保存权重 | fp16

  • 分辨率 | 1024x1024

  • 有效批次大小 | 128

  • UNet 学习率 | 1e-5

  • TE 学习率 | 4e-6

  • 优化器 | Adafactor

  • 图像数量 | 600 万

  • 训练轮数 | 3

最终训练阶段

参数 | 值

  • amp | bf16

  • 权重 | fp32

  • 保存权重 | fp16

  • 分辨率 | 1024x1024

  • 有效批次大小 | 128

  • UNet 学习率 | 4e-6

  • TE 学习率 | 无

  • 优化器 | Adafactor

  • 图像数量 | 12 万

  • 训练轮数 | 16

数据集:

用于标注的 GPU:1 块 Intel ARC A770 16GB
GPU 小时数:350

用于标注的模型:SmilingWolf/wd-swinv2-tagger-v3

用于文本生成的模型:llava-hf/llava-1.5-7b-hf

命令:

python /mnt/DataSSD/AI/Apps/kohya_ss/sd-scripts/finetune/tag_images_by_wd14_tagger.py --model_dir "/mnt/DataSSD/AI/models/wd14_tagger_model" --repo_id "SmilingWolf/wd-swinv2-tagger-v3" --recursive --remove_underscore --use_rating_tags --character_tags_first --character_tag_expand --append_tags --onnx --caption_separator ", " --general_threshold 0.35 --character_threshold 0.50 --batch_size 4 --caption_extension ".txt" ./

数据集名称 | 总图像数

  • newest:185 万

  • recent:138 万

  • mid:99.3 万

  • early:56.6 万

  • oldest:16 万

  • pixiv:34.4 万

  • visual novel cg:23.1 万

  • anime wallpaper:10.5 万

  • 总计:5,628,499 张图像

备注

  • 最小尺寸为 1280x600 / 768,000 像素

  • 使用 czkawka-cli 基于图像相似性去重

  • 约 12 万张极高画质图像被有意重复 5 次,使总图像数达到 620 万

标签:

标签格式:

模型训练时使用随机标签顺序,以下是数据集中标签的顺序(供参考):

美学标签,画质标签,时间标签,自定义标签,评分标签,角色,系列,其余标签

时间标签:

  • newest:2022 至 2024 年

  • recent:2019 至 2021 年

  • mid:2015 至 2018 年

  • early:2011 至 2014 年

  • oldest:2005 至 2010 年

美学标签:

使用的模型:shadowlilac/aesthetic-shadow-2

  • 得分 > 0.90:极其美观

  • 得分 > 0.80:非常美观

  • 得分 > 0.70:美观

  • 得分 > 0.50:略美观

  • 得分 > 0.40:不难看

  • 得分 > 0.30:不美观

  • 得分 > 0.25:略难看

  • 得分 > 0.10:难看

  • 其余:非常难看

画质标签:

使用的模型https://huggingface.co/hakurei/waifu-diffusion-v1-4/blob/main/models/aes-B32-v0.pth

  • 得分 > 0.980:最佳画质

  • 得分 > 0.900:高质量

  • 得分 > 0.750:极佳画质

  • 得分 > 0.500:中等画质

  • 得分 > 0.250:普通画质

  • 得分 > 0.125:差画质

  • 得分 > 0.025:低画质

  • 其余:最差画质

评分标签:

  • general(普通)

  • sensitive(敏感)

  • nsfw(成人)

  • explicit nsfw(明确成人)

自定义标签:

  • 图站:date(时间)

  • 文本:文本内容为 "text"

  • 角色:character(角色)、series(系列)

  • Pixiv:art by Display_Name

  • 视觉小说 CG:Full_VN_Name (short_3_letter_name),visual novel cg

  • 动漫壁纸:date,anime wallpaper

许可证

SoteDiffusion 模型遵循 Fair AI Public License 1.0-SD 许可证,与 Stable Diffusion 模型的许可证兼容。主要条款如下:

  • 1. 修改共享:若您修改了 SoteDiffusion 模型,必须同时共享您的修改内容及原始许可证。

  • 2. 源代码可访问性:若您发布的修改版本可通过网络访问,需提供一种方式(如下载链接)供他人获取源代码。此要求同样适用于衍生模型。

  • 3. 分发条款:任何分发必须基于本许可证或另一项具有类似规则的许可证。

  • 4. 合规要求:若未遵守许可证,必须在 30 天内修正,否则许可证将终止,以强调透明度和对开源价值观的遵守。

备注:凡本许可证未涵盖的内容,均继承自 Stability AI 非商业许可证。

此模型生成的图像

未找到图像。