Kohaku-XL Zeta

详情

下载文件

模型描述

Kohaku-XL Zeta

DiT 并非你所需的一切

加入我们:https://discord.gg/tPBsKDyRR5

亮点

  • 基于 Kohaku-XL-Epsilon rev2 继续开发

  • 更加稳定,不再需要长/详细提示词

  • 风格和角色保真度更高,支持更多风格

    • CCIP 指标超越 Sanae XL 动漫模型。在 3700 个字符的数据集中,有超过 2200 个字符的 CCIP 得分 > 0.9
  • 同时使用 danbooru 标签和自然语言训练,对自然语言描述的处理能力更强

  • 在综合数据集上训练,不仅限于 danbooru

    • danbooru(760 万张图片,最后 ID 7832883,2024/07/10)

    • pixiv(从 260 万张特殊数据集中筛选,将发布 URL 集合)

    • PVC 手办(约 3 万张图片,内部来源)

    • realbooru(约 9 万张图片,用于正则化)

    • 总计 846 万张图片

  • 由于模型同时训练了两种类型的描述,上下文长度限制已扩展至 300

使用方法(请仔细阅读本节)

推荐生成设置

  • 分辨率:1024x1024 或相近像素数

  • CFG 缩放值:3.5~6.5

  • 采样器/调度器:

    • Euler (A) / 任意调度器

    • DPM++ 系列 / 指数调度器

    • 对于其他采样器,我 personally 推荐使用指数调度器

  • 步数:12~50

提示词生成

DTG 系列提示词生成器仍可与 KXL Zeta 一起使用。一个同时兼容标签和自然语言描述的全新提示词生成器正在开发中。

image/pngimage/png

提示词格式

与 Kohaku XL Epsilon 或 Delta 相同,但你可以将“通用标签”替换为“自然语言描述”。也可以两者同时使用。

特殊标签

  • 质量标签:masterpiece(精品)、best quality(最佳画质)、great quality(优质)、good quality(良好画质)、normal quality(普通画质)、low quality(低画质)、worst quality(最差画质)

  • 评级标签:safe(安全)、sensitive(敏感)、nsfw(不适合工作场所)、explicit(明确)

  • 时间标签:newest(最新)、recent(近期)、mid(中期)、early(早期)、old(旧)

评级标签说明

通用:safe

敏感:sensitive

可疑:nsfw

明确:nsfw, explicit

数据集

为了增强对某些特定概念的表现力,我使用了完整的 danbooru 数据集而非筛选后的版本。同时,使用爬取的 pixiv 数据集(来自 3~5 个标签,按流行度排序)作为补充数据集。由于 pixiv 的搜索系统每个标签仅允许 5000 页,有意义的图像数量有限,且部分图像与 danbooru 数据集重复(但我希望强化这些概念,因此直接忽略重复)。

与 kxl eps rev2 一样,我加入了 realbooru 和 PVC 手办图像,以增强对概念/风格的灵活性。

训练

  • 硬件:四张 RTX 3090

  • 数据集

    • 图片数量:8,468,798

    • 分辨率:1024x1024

    • 最小桶分辨率:256

    • 最大桶分辨率:4096

    • 标签丢弃率:0.2

    • 描述组丢弃率:0.2(用于完全丢弃标签/自然语言描述)

  • 训练参数

    • 批次大小:4

    • 梯度累积步数:32

    • 等效批次大小:512

    • 总轮数:1

    • 总步数:16548

    • 训练时间:430 小时(实际耗时)

    • 混合精度:FP16

  • 优化器

    • 优化器:Lion8bit

    • 学习率:UNet 为 1e-5 / 文本编码器训练已禁用

    • 学习率调度器:恒定(带预热)

    • 预热步数:100

    • 权重衰减:0.1

    • Betas:0.9, 0.95

  • 扩散设置

    • 最小 SNR Gamma:5

    • 去偏估计损失:启用

    • IP 噪声 Gamma:0.05

为什么你仍使用 SDXL,而非任何全新的 DiT 模型?

除非有人为我提供合理的计算资源,或有团队发布足够高效的 DiT 模型,否则我不会训练任何基于 DiT 的动漫基础模型。
但如果你能提供 8 块 H100 并让我使用一年,我甚至能从零开始训练大量 DiT 模型(如果你想要的话)。

许可证

Fair-AI-public-1.0-sd

此模型生成的图像

未找到图像。