Kohaku-XL Epsilon

详情

下载文件

模型描述

Kohaku XL εpsilon

在消费级硬件上微调文生图模型的最佳范例

加入我们:https://discord.gg/tPBsKDyRR5

Rev2 简介

  • 继承自 Kohaku XL Epsilon rev1

  • 使用 156 万张图像,训练 5 个 epoch

  • 在选定艺术家的作品及特定系列/游戏相关的图像上训练

  • 在 PVC 人偶照片上训练,无需额外模型即可生成 PVC 风格

简介

Kohaku XL Epsilon 是 Kohaku XL 系列的第五个主要版本,拥有 520 万张图像的数据集,采用 LyCORIS 微调[1],在消费级硬件上训练完成,并完全开源。

基准测试

3600 个字符的 CCIP 得分

(0~1,越高越好)

显然,Kohaku XL Epsilon 远优于 Kohaku XL Delta。

使用方法

<1girl/1boy/1other/...>, 

<character>, <series>, <artists>, 

<general tags>,

<quality tags>, <year tags>, <meta tags>, <rating tags>

Kohaku XL Epsilon 掌握的艺术家风格比 Delta 更多,同时在组合多个艺术家标签时也提升了稳定性。鼓励用户自行创建风格提示。

一些优秀的风格提示:

ask \(askzy\), torino aqua, migolu, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)
ciloranko, maccha \(mochancc\), lobelia \(saclia\), migolu, ask \(askzy\), wanke, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)
shiro9jira, ciloranko, ask \(askzy\), (tianliang duohe fangdongye:0.8)
(azuuru:1.1), (torino aqua:1.2), (azuuru:1.1), kedama milk, fuzichoco, ask \(askzy\), chen bin, atdan, hito, mignon
ask \(askzy\), torino aqua, migolu

标签

所有 Danbooru 中人气至少为 1000 的标签均可正常使用。

所有人气至少为 100 的 Danbooru 标签在高权重下也可能有效。

请务必移除标签中的下划线。(短标签中的下划线无需移除,它们很可能是表情符号标签的一部分。)

在使用 sd-webui 时,若标签包含括号,请使用 xxx\(yyy\) 格式。

特殊标签

品质标签:masterpiece, best quality, great quality, good quality, normal quality, low quality, worst quality

评级标签:safe, sensitive, nsfw, explicit

日期标签:newest, recent, mid, early, old

品质标签

品质标签根据每个评级类别中收藏数(fav_count)的百分位排名分配,以避免对 NSFW 内容产生偏差(Animagine XL v3 曾遭遇此问题),由高到低划分为:第90、75、60、45、30、10百分位,从而形成七个不同的品质级别,由六个阈值分隔。

我调低了阈值,因为我发现 Danbooru 图像的平均品质比我预期的更高。

评级标签

  • 一般:safe

  • 敏感:sensitive

  • 有疑问:nsfw

  • 明确:nsfw, explicit

注意:训练过程中,“explicit” 标签的内容也被视为 “nsfw”,以确保全面理解。

日期标签

日期标签基于图像的上传时间,因为元数据中不包含实际创作时间。

时间段划分如下:

  • 2005~2010:old

  • 2011~2014:early

  • 2015~2017:mid

  • 2018~2020:recent

  • 2021~2024:newest

分辨率

本模型训练时使用的分辨率为 ARB 1024x1024,最小分辨率为 256,最大分辨率为 4096。这意味着您可以使用标准的 SDXL 分辨率。但建议使用略高于 1024x1024 的分辨率,并推荐应用 hires-fix 以获得更佳效果。

更多信息请参考提供的示例图像。

本模型的诞生过程

为何命名为 Epsilon

与 Delta 相同,仅是新数据集的一次测试,且效果良好。

其输出结果也与 Delta 有明显差异。

数据集

本模型训练所用数据集来自 HakuBooru,从 danbooru2023 数据集中精选出 520 万张图像。[2][3]

选取流程如下:从 ID 0 至 2,000,000 中选取 100 万条帖子,从 ID 2,000,000 至 4,999,999 中选取 200 万条帖子,以及 所有 ID 超过 5,000,000 的帖子,共计 535 万条帖子。经过剔除已删除、黄金账户或无图像(如 GIF 或 MP4)的帖子后,最终数据集包含 520 万张图像。

选取过程基本随机,但使用了固定随机种子以确保可复现性。

进一步处理

  • 标签打乱:每一步中,通用标签的顺序均被打乱。

  • 标签丢弃:每一步中,随机丢弃 15% 的通用标签。

训练

Kohaku XL Epsilon 的训练借助 LyCORIS 项目和 kohya-ss/sd-scripts 训练器完成。[1][4]

算法:LoKr[7]

模型采用 LoKr 算法训练,启用完整矩阵触发,不同模块因子为 2~8,旨在证明 LoRA/LyCORIS 在训练基础模型中的适用性。

原始 LoKr 文件大小低于 800MB,且未冻结 TE。原始 LoKr 文件也作为 “delta-lokr” 版本一并提供。

详细设置请参阅 Kohaku XL Delta 的 LyCORIS 配置文件。

其他训练细节

  • 硬件:四张 RTX 3090

  • 训练图像数量:5,210,319

  • 总 Epoch:1

    • 总步数:20354

    • 批次大小:4

    • 梯度累积步数:16

    • 等效批次大小:256

  • 优化器:Lion8bit

    • 学习率:UNet 为 2e-5,TE 为 5e-6

    • 学习率调度器:Constant(含预热)

    • 预热步数:1000

    • 权重衰减:0.1

    • Betas:0.9, 0.95

  • 最小 SNR Gamma:5

  • 噪声偏移:0.0357

  • 分辨率:1024x1024

  • 最小桶分辨率:256

  • 最大桶分辨率:4096

  • 混合精度:FP16

Rev2 的其他训练细节

  • 硬件:四张 RTX 3090

  • 训练图像数量:1,536,902

  • 总 Epoch:5

    • 总步数:15015

    • 批次大小:4

    • 梯度累积步数:32

    • 等效批次大小:512

  • 优化器:Lion8bit

    • 学习率:UNet 为 1e-5,TE 为 2e-6

    • 学习率调度器:Cosine(含预热)

    • 预热步数:1000

    • 权重衰减:0.1

    • Betas:0.9, 0.95

  • 最小 SNR Gamma:5

  • 噪声偏移:0.0357

  • 分辨率:1024x1024

  • 最小桶分辨率:256

  • 最大桶分辨率:4096

  • 混合精度:FP16

警告:bitsandbytes 版本 0.36.0 ~ 0.41.0 在 8bit 优化器中存在严重缺陷,可能影响训练效果,务必更新。[8]

训练成本

使用 DDP 配置四张 RTX 3090,在 520 万图像数据集上完成 1 个 epoch 的训练大约耗时 12 至 13 天。每个等效批次大小为 256 的步骤大约需要 49 至 50 秒完成。

Rev2 训练成本

使用 DDP 配置四张 RTX 3090,在 150 万图像数据集上完成 5 个 epoch 的训练大约耗时 17 至 19 天。每个等效批次大小为 512 的步骤大约需要 105 至 110 秒完成。

为何发布 13600 步的中间检查点

在 13600 步至 15300 步之间训练过程崩溃,而 kohya-ss 训练器此前未实现“恢复+跳过步数”功能。

尽管 Kohya 和我已找到正确方法并进行了验证,但我仍无法完全确保最终结果的准确性。因此,我发布此中间检查点,以便有用户希望复现训练时,能有机会排查最终结果的问题。

下一步计划

我正专注于构建新数据集(目标为 1000 万至 1500 万张图像),并等待 SD3 发布,以评估是否值得尝试。

我可能还会对 Epsilon 进行小规模微调并发布为 rev2/3/4…,但目前我的重点仍是数据集。

特别鸣谢

AngelBottomless & Nyanko7:danbooru2023 数据集[3]

Kohya-ss:训练器[4]


AI 艺术应当看起来像 AI,而非人类。


(趣味事实:这句标语源自我个人主页,很多人喜欢并将其放在自己的模型页面上。)

参考与资源

参考文献

[1] SHIH-YING YEH, Yu-Guan Hsieh, Zhidong Gao, Bernard B W Yang, Giyeong Oh, & Yanmin Gong (2024). Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation. In The Twelfth International Conference on Learning Representations.

[2] HakuBooru - 用于 Booru 风格图像平台的文本-图像数据集生成器。https://github.com/KohakuBlueleaf/HakuBooru

[3] Danbooru2023:大规模众包标注动漫插图数据集。https://huggingface.co/datasets/nyanko7/danbooru2023

[4] kohya-ss/sd-scripts。https://github.com/kohya-ss/sd-scripts

[7] LyCORIS - 超越传统方法的 LoRA,Stable Diffusion 的其他秩适应实现。https://github.com/KohakuBlueleaf/LyCORIS/blob/main/docs/Algo-Details.md#lokr

[8] TimDettmers/bitsandbytes - 问题 659/152/227/262:缩进错误导致长期存在的缺陷。https://github.com/TimDettmers/bitsandbytes/issues/659

资源

Kohaku XL beta. /model/162577/kohaku-xl-beta

Kohaku XL gamma. /model/270291/kohaku-xl-gamma

Kohaku XL delta. /model/332076/kohaku-xl-delta

许可证

本模型依据 “Fair-AI 公共许可证 1.0-SD” 发布

详情请参阅原始许可证:

Freedom of Development (freedevproject.org)

此模型生成的图像

未找到图像。