SoteDiffusion Wuerstchen3
详情
下载文件
关于此版本
模型描述
新版本已发布:/model/628865/sotediffusion-v2
基于 Würstchen V3 的动漫微调模型。
本次发布由 fal.ai/grants 赞助。
使用 8 块 A100 80G GPU,在 600 万张图像上训练了 3 个 epoch。
可通过 Fal.AI 的 API 使用此模型。
更多详情请参阅:https://fal.ai/models/fal-ai/stable-cascade/sote-diffusion
有关 SD.Next UI、Diffusers 或 UNet 模型的更多信息,请参阅 Huggingface:
https://huggingface.co/Disty0/sotediffusion-wuerstchen3
CivitAI 页面仅提供 ComfyUI 的检查点模型。
推理参数:
下载主模型(8.14 GB 文件):
https://civitai.com/api/download/models/563950?type=Model&format=SafeTensor&size=pruned&fp=fp16
下载解码器模型(4.24 GB 文件):
https://civitai.com/api/download/models/563892?type=Model&format=SafeTensor&size=pruned&fp=fp16
正向提示:
newest, extremely aesthetic, best quality,
负向提示:
very displeasing, worst quality, monochrome, realistic, oldest, loli,
主模型:
采样器:DDPM 或 DPMPP 2M,配合 SGM Uniform
CFG:7
步数:30 或 40
解码器:
采样器:Euler a Karras
CFG:1 或 1.2
步数:10
压缩率:42(可选 32 至 64)
分辨率:1024x1536、2048x1152
只要分辨率是 128 的倍数,任何尺寸均可。
训练:
使用的软件:Kohya SD-Scripts 的 Stable Cascade 分支。
https://github.com/kohya-ss/sd-scripts/tree/stable-cascade
使用的 GPU:8 块 Nvidia A100 80GB
GPU 小时数:220
基础训练阶段
参数 | 值
amp | bf16
权重 | fp32
保存权重 | fp16
分辨率 | 1024x1024
有效批次大小 | 128
UNet 学习率 | 1e-5
TE 学习率 | 4e-6
优化器 | Adafactor
图像数量 | 600 万
训练轮数 | 3
最终训练阶段
参数 | 值
amp | bf16
权重 | fp32
保存权重 | fp16
分辨率 | 1024x1024
有效批次大小 | 128
UNet 学习率 | 4e-6
TE 学习率 | 无
优化器 | Adafactor
图像数量 | 12 万
训练轮数 | 16
数据集:
用于标注的 GPU:1 块 Intel ARC A770 16GB
GPU 小时数:350
用于标注的模型:SmilingWolf/wd-swinv2-tagger-v3
用于文本生成的模型:llava-hf/llava-1.5-7b-hf
命令:
python /mnt/DataSSD/AI/Apps/kohya_ss/sd-scripts/finetune/tag_images_by_wd14_tagger.py --model_dir "/mnt/DataSSD/AI/models/wd14_tagger_model" --repo_id "SmilingWolf/wd-swinv2-tagger-v3" --recursive --remove_underscore --use_rating_tags --character_tags_first --character_tag_expand --append_tags --onnx --caption_separator ", " --general_threshold 0.35 --character_threshold 0.50 --batch_size 4 --caption_extension ".txt" ./
数据集名称 | 总图像数
newest:185 万
recent:138 万
mid:99.3 万
early:56.6 万
oldest:16 万
pixiv:34.4 万
visual novel cg:23.1 万
anime wallpaper:10.5 万
总计:5,628,499 张图像
备注:
最小尺寸为 1280x600 / 768,000 像素
使用 czkawka-cli 基于图像相似性去重
约 12 万张极高画质图像被有意重复 5 次,使总图像数达到 620 万
标签:
标签格式:
模型训练时使用随机标签顺序,以下是数据集中标签的顺序(供参考):
美学标签,画质标签,时间标签,自定义标签,评分标签,角色,系列,其余标签
时间标签:
newest:2022 至 2024 年
recent:2019 至 2021 年
mid:2015 至 2018 年
early:2011 至 2014 年
oldest:2005 至 2010 年
美学标签:
使用的模型:shadowlilac/aesthetic-shadow-2
得分 > 0.90:极其美观
得分 > 0.80:非常美观
得分 > 0.70:美观
得分 > 0.50:略美观
得分 > 0.40:不难看
得分 > 0.30:不美观
得分 > 0.25:略难看
得分 > 0.10:难看
其余:非常难看
画质标签:
使用的模型:https://huggingface.co/hakurei/waifu-diffusion-v1-4/blob/main/models/aes-B32-v0.pth
得分 > 0.980:最佳画质
得分 > 0.900:高质量
得分 > 0.750:极佳画质
得分 > 0.500:中等画质
得分 > 0.250:普通画质
得分 > 0.125:差画质
得分 > 0.025:低画质
其余:最差画质
评分标签:
general(普通)
sensitive(敏感)
nsfw(成人)
explicit nsfw(明确成人)
自定义标签:
图站:date(时间)
文本:文本内容为 "text"
角色:character(角色)、series(系列)
Pixiv:art by Display_Name
视觉小说 CG:Full_VN_Name (short_3_letter_name),visual novel cg
动漫壁纸:date,anime wallpaper
许可证
SoteDiffusion 模型遵循 Fair AI Public License 1.0-SD 许可证,与 Stable Diffusion 模型的许可证兼容。主要条款如下:
1. 修改共享:若您修改了 SoteDiffusion 模型,必须同时共享您的修改内容及原始许可证。
2. 源代码可访问性:若您发布的修改版本可通过网络访问,需提供一种方式(如下载链接)供他人获取源代码。此要求同样适用于衍生模型。
3. 分发条款:任何分发必须基于本许可证或另一项具有类似规则的许可证。
4. 合规要求:若未遵守许可证,必须在 30 天内修正,否则许可证将终止,以强调透明度和对开源价值观的遵守。
备注:凡本许可证未涵盖的内容,均继承自 Stability AI 非商业许可证。



















