Kohaku-XL Zeta
详情
下载文件
模型描述
Kohaku-XL Zeta
DiT 并非你所需的一切
加入我们:https://discord.gg/tPBsKDyRR5
亮点
基于 Kohaku-XL-Epsilon rev2 继续开发
更加稳定,不再需要长/详细提示词
风格和角色保真度更高,支持更多风格
- CCIP 指标超越 Sanae XL 动漫模型。在 3700 个字符的数据集中,有超过 2200 个字符的 CCIP 得分 > 0.9
同时使用 danbooru 标签和自然语言训练,对自然语言描述的处理能力更强
在综合数据集上训练,不仅限于 danbooru
danbooru(760 万张图片,最后 ID 7832883,2024/07/10)
pixiv(从 260 万张特殊数据集中筛选,将发布 URL 集合)
PVC 手办(约 3 万张图片,内部来源)
realbooru(约 9 万张图片,用于正则化)
总计 846 万张图片
由于模型同时训练了两种类型的描述,上下文长度限制已扩展至 300

使用方法(请仔细阅读本节)
推荐生成设置
分辨率:1024x1024 或相近像素数
CFG 缩放值:3.5~6.5
采样器/调度器:
Euler (A) / 任意调度器
DPM++ 系列 / 指数调度器
对于其他采样器,我 personally 推荐使用指数调度器
步数:12~50
提示词生成
DTG 系列提示词生成器仍可与 KXL Zeta 一起使用。一个同时兼容标签和自然语言描述的全新提示词生成器正在开发中。
提示词格式
与 Kohaku XL Epsilon 或 Delta 相同,但你可以将“通用标签”替换为“自然语言描述”。也可以两者同时使用。
特殊标签
质量标签:masterpiece(精品)、best quality(最佳画质)、great quality(优质)、good quality(良好画质)、normal quality(普通画质)、low quality(低画质)、worst quality(最差画质)
评级标签:safe(安全)、sensitive(敏感)、nsfw(不适合工作场所)、explicit(明确)
时间标签:newest(最新)、recent(近期)、mid(中期)、early(早期)、old(旧)
评级标签说明
通用:safe
敏感:sensitive
可疑:nsfw
明确:nsfw, explicit
数据集
为了增强对某些特定概念的表现力,我使用了完整的 danbooru 数据集而非筛选后的版本。同时,使用爬取的 pixiv 数据集(来自 3~5 个标签,按流行度排序)作为补充数据集。由于 pixiv 的搜索系统每个标签仅允许 5000 页,有意义的图像数量有限,且部分图像与 danbooru 数据集重复(但我希望强化这些概念,因此直接忽略重复)。
与 kxl eps rev2 一样,我加入了 realbooru 和 PVC 手办图像,以增强对概念/风格的灵活性。
训练
硬件:四张 RTX 3090
数据集
图片数量:8,468,798
分辨率:1024x1024
最小桶分辨率:256
最大桶分辨率:4096
标签丢弃率:0.2
描述组丢弃率:0.2(用于完全丢弃标签/自然语言描述)
训练参数
批次大小:4
梯度累积步数:32
等效批次大小:512
总轮数:1
总步数:16548
训练时间:430 小时(实际耗时)
混合精度:FP16
优化器
优化器:Lion8bit
学习率:UNet 为 1e-5 / 文本编码器训练已禁用
学习率调度器:恒定(带预热)
预热步数:100
权重衰减:0.1
Betas:0.9, 0.95
扩散设置
最小 SNR Gamma:5
去偏估计损失:启用
IP 噪声 Gamma:0.05
为什么你仍使用 SDXL,而非任何全新的 DiT 模型?
除非有人为我提供合理的计算资源,或有团队发布足够高效的 DiT 模型,否则我不会训练任何基于 DiT 的动漫基础模型。
但如果你能提供 8 块 H100 并让我使用一年,我甚至能从零开始训练大量 DiT 模型(如果你想要的话)。
许可证
Fair-AI-public-1.0-sd

















