Kohaku XL εpsilon

在消费级硬件上微调文生图模型的最佳范例

加入我们：https://discord.gg/tPBsKDyRR5

Rev2 简介

继承自 Kohaku XL Epsilon rev1
使用 156 万张图像，训练 5 个 epoch
在选定艺术家的作品及特定系列/游戏相关的图像上训练
在 PVC 人偶照片上训练，无需额外模型即可生成 PVC 风格

简介

Kohaku XL Epsilon 是 Kohaku XL 系列的第五个主要版本，拥有 520 万张图像的数据集，采用 LyCORIS 微调[1]，在消费级硬件上训练完成，并完全开源。

基准测试

3600 个字符的 CCIP 得分

（0~1，越高越好）

显然，Kohaku XL Epsilon 远优于 Kohaku XL Delta。

使用方法

<1girl/1boy/1other/...>, 

<character>, <series>, <artists>, 

<general tags>,

<quality tags>, <year tags>, <meta tags>, <rating tags>

Kohaku XL Epsilon 掌握的艺术家风格比 Delta 更多，同时在组合多个艺术家标签时也提升了稳定性。鼓励用户自行创建风格提示。

一些优秀的风格提示：

ask \(askzy\), torino aqua, migolu, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)

ciloranko, maccha \(mochancc\), lobelia \(saclia\), migolu, ask \(askzy\), wanke, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)

shiro9jira, ciloranko, ask \(askzy\), (tianliang duohe fangdongye:0.8)

(azuuru:1.1), (torino aqua:1.2), (azuuru:1.1), kedama milk, fuzichoco, ask \(askzy\), chen bin, atdan, hito, mignon

ask \(askzy\), torino aqua, migolu

本模型的诞生过程

为何命名为 Epsilon

与 Delta 相同，仅是新数据集的一次测试，且效果良好。

其输出结果也与 Delta 有明显差异。

数据集

本模型训练所用数据集来自 HakuBooru，从 danbooru2023 数据集中精选出 520 万张图像。[2][3]

选取流程如下：从 ID 0 至 2,000,000 中选取 100 万条帖子，从 ID 2,000,000 至 4,999,999 中选取 200 万条帖子，以及 所有 ID 超过 5,000,000 的帖子，共计 535 万条帖子。经过剔除已删除、黄金账户或无图像（如 GIF 或 MP4）的帖子后，最终数据集包含 520 万张图像。

选取过程基本随机，但使用了固定随机种子以确保可复现性。

进一步处理

标签打乱：每一步中，通用标签的顺序均被打乱。
标签丢弃：每一步中，随机丢弃 15% 的通用标签。

训练

Kohaku XL Epsilon 的训练借助 LyCORIS 项目和 kohya-ss/sd-scripts 训练器完成。[1][4]

算法：LoKr[7]

模型采用 LoKr 算法训练，启用完整矩阵触发，不同模块因子为 2~8，旨在证明 LoRA/LyCORIS 在训练基础模型中的适用性。

原始 LoKr 文件大小低于 800MB，且未冻结 TE。原始 LoKr 文件也作为 “delta-lokr” 版本一并提供。

详细设置请参阅 Kohaku XL Delta 的 LyCORIS 配置文件。

其他训练细节

硬件：四张 RTX 3090
训练图像数量：5,210,319
总 Epoch：1
- 总步数：20354
- 批次大小：4
- 梯度累积步数：16
- 等效批次大小：256
优化器：Lion8bit
- 学习率：UNet 为 2e-5，TE 为 5e-6
- 学习率调度器：Constant（含预热）
- 预热步数：1000
- 权重衰减：0.1
- Betas：0.9, 0.95
最小 SNR Gamma：5
噪声偏移：0.0357
分辨率：1024x1024
最小桶分辨率：256
最大桶分辨率：4096
混合精度：FP16

Rev2 的其他训练细节

硬件：四张 RTX 3090
训练图像数量：1,536,902
总 Epoch：5
- 总步数：15015
- 批次大小：4
- 梯度累积步数：32
- 等效批次大小：512
优化器：Lion8bit
- 学习率：UNet 为 1e-5，TE 为 2e-6
- 学习率调度器：Cosine（含预热）
- 预热步数：1000
- 权重衰减：0.1
- Betas：0.9, 0.95
最小 SNR Gamma：5
噪声偏移：0.0357
分辨率：1024x1024
最小桶分辨率：256
最大桶分辨率：4096
混合精度：FP16

警告：bitsandbytes 版本 0.36.0 ~ 0.41.0 在 8bit 优化器中存在严重缺陷，可能影响训练效果，务必更新。[8]

训练成本

使用 DDP 配置四张 RTX 3090，在 520 万图像数据集上完成 1 个 epoch 的训练大约耗时 12 至 13 天。每个等效批次大小为 256 的步骤大约需要 49 至 50 秒完成。

Rev2 训练成本

使用 DDP 配置四张 RTX 3090，在 150 万图像数据集上完成 5 个 epoch 的训练大约耗时 17 至 19 天。每个等效批次大小为 512 的步骤大约需要 105 至 110 秒完成。

为何发布 13600 步的中间检查点

在 13600 步至 15300 步之间训练过程崩溃，而 kohya-ss 训练器此前未实现“恢复+跳过步数”功能。

尽管 Kohya 和我已找到正确方法并进行了验证，但我仍无法完全确保最终结果的准确性。因此，我发布此中间检查点，以便有用户希望复现训练时，能有机会排查最终结果的问题。

下一步计划

我正专注于构建新数据集（目标为 1000 万至 1500 万张图像），并等待 SD3 发布，以评估是否值得尝试。

我可能还会对 Epsilon 进行小规模微调并发布为 rev2/3/4…，但目前我的重点仍是数据集。

特别鸣谢

AngelBottomless & Nyanko7：danbooru2023 数据集[3]

Kohya-ss：训练器[4]

AI 艺术应当看起来像 AI，而非人类。

（趣味事实：这句标语源自我个人主页，很多人喜欢并将其放在自己的模型页面上。）

参考与资源

参考文献

[1] SHIH-YING YEH, Yu-Guan Hsieh, Zhidong Gao, Bernard B W Yang, Giyeong Oh, & Yanmin Gong (2024). Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation. In The Twelfth International Conference on Learning Representations.

[2] HakuBooru - 用于 Booru 风格图像平台的文本-图像数据集生成器。https://github.com/KohakuBlueleaf/HakuBooru

[3] Danbooru2023：大规模众包标注动漫插图数据集。https://huggingface.co/datasets/nyanko7/danbooru2023

[4] kohya-ss/sd-scripts。https://github.com/kohya-ss/sd-scripts

[7] LyCORIS - 超越传统方法的 LoRA，Stable Diffusion 的其他秩适应实现。https://github.com/KohakuBlueleaf/LyCORIS/blob/main/docs/Algo-Details.md#lokr

[8] TimDettmers/bitsandbytes - 问题 659/152/227/262：缩进错误导致长期存在的缺陷。https://github.com/TimDettmers/bitsandbytes/issues/659

资源

Kohaku XL beta. /model/162577/kohaku-xl-beta

Kohaku XL gamma. /model/270291/kohaku-xl-gamma

Kohaku XL delta. /model/332076/kohaku-xl-delta

许可证

本模型依据 “Fair-AI 公共许可证 1.0-SD” 发布

详情请参阅原始许可证：

Freedom of Development (freedevproject.org )

模型类型	检查点
基础模型	SDXL 1.0
发布时间	6/3/2024

Kohaku-XL Epsilon

详情

下载文件

关于此版本

模型描述