Kohaku-XL Epsilon
详情
下载文件
关于此版本
模型描述
Kohaku XL εpsilon
在消费级硬件上微调文生图模型的最佳范例
加入我们:https://discord.gg/tPBsKDyRR5

Rev2 简介
继承自 Kohaku XL Epsilon rev1
使用 156 万张图像,训练 5 个 epoch
在选定艺术家的作品及特定系列/游戏相关的图像上训练
在 PVC 人偶照片上训练,无需额外模型即可生成 PVC 风格
简介
Kohaku XL Epsilon 是 Kohaku XL 系列的第五个主要版本,拥有 520 万张图像的数据集,采用 LyCORIS 微调[1],在消费级硬件上训练完成,并完全开源。
基准测试
3600 个字符的 CCIP 得分
(0~1,越高越好)
显然,Kohaku XL Epsilon 远优于 Kohaku XL Delta。
使用方法
<1girl/1boy/1other/...>,
<character>, <series>, <artists>,
<general tags>,
<quality tags>, <year tags>, <meta tags>, <rating tags>
Kohaku XL Epsilon 掌握的艺术家风格比 Delta 更多,同时在组合多个艺术家标签时也提升了稳定性。鼓励用户自行创建风格提示。
一些优秀的风格提示:
ask \(askzy\), torino aqua, migolu, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)
ciloranko, maccha \(mochancc\), lobelia \(saclia\), migolu, ask \(askzy\), wanke, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)
shiro9jira, ciloranko, ask \(askzy\), (tianliang duohe fangdongye:0.8)
(azuuru:1.1), (torino aqua:1.2), (azuuru:1.1), kedama milk, fuzichoco, ask \(askzy\), chen bin, atdan, hito, mignon
ask \(askzy\), torino aqua, migolu
标签
所有 Danbooru 中人气至少为 1000 的标签均可正常使用。
所有人气至少为 100 的 Danbooru 标签在高权重下也可能有效。
请务必移除标签中的下划线。(短标签中的下划线无需移除,它们很可能是表情符号标签的一部分。)
在使用 sd-webui 时,若标签包含括号,请使用 xxx\(yyy\) 格式。
特殊标签
品质标签:masterpiece, best quality, great quality, good quality, normal quality, low quality, worst quality
评级标签:safe, sensitive, nsfw, explicit
日期标签:newest, recent, mid, early, old
品质标签
品质标签根据每个评级类别中收藏数(fav_count)的百分位排名分配,以避免对 NSFW 内容产生偏差(Animagine XL v3 曾遭遇此问题),由高到低划分为:第90、75、60、45、30、10百分位,从而形成七个不同的品质级别,由六个阈值分隔。
我调低了阈值,因为我发现 Danbooru 图像的平均品质比我预期的更高。
评级标签
一般:safe
敏感:sensitive
有疑问:nsfw
明确:nsfw, explicit
注意:训练过程中,“explicit” 标签的内容也被视为 “nsfw”,以确保全面理解。
日期标签
日期标签基于图像的上传时间,因为元数据中不包含实际创作时间。
时间段划分如下:
2005~2010:old
2011~2014:early
2015~2017:mid
2018~2020:recent
2021~2024:newest
分辨率
本模型训练时使用的分辨率为 ARB 1024x1024,最小分辨率为 256,最大分辨率为 4096。这意味着您可以使用标准的 SDXL 分辨率。但建议使用略高于 1024x1024 的分辨率,并推荐应用 hires-fix 以获得更佳效果。
更多信息请参考提供的示例图像。
本模型的诞生过程
为何命名为 Epsilon
与 Delta 相同,仅是新数据集的一次测试,且效果良好。
其输出结果也与 Delta 有明显差异。
数据集
本模型训练所用数据集来自 HakuBooru,从 danbooru2023 数据集中精选出 520 万张图像。[2][3]
选取流程如下:从 ID 0 至 2,000,000 中选取 100 万条帖子,从 ID 2,000,000 至 4,999,999 中选取 200 万条帖子,以及 所有 ID 超过 5,000,000 的帖子,共计 535 万条帖子。经过剔除已删除、黄金账户或无图像(如 GIF 或 MP4)的帖子后,最终数据集包含 520 万张图像。
选取过程基本随机,但使用了固定随机种子以确保可复现性。
进一步处理
标签打乱:每一步中,通用标签的顺序均被打乱。
标签丢弃:每一步中,随机丢弃 15% 的通用标签。
训练
Kohaku XL Epsilon 的训练借助 LyCORIS 项目和 kohya-ss/sd-scripts 训练器完成。[1][4]
算法:LoKr[7]
模型采用 LoKr 算法训练,启用完整矩阵触发,不同模块因子为 2~8,旨在证明 LoRA/LyCORIS 在训练基础模型中的适用性。
原始 LoKr 文件大小低于 800MB,且未冻结 TE。原始 LoKr 文件也作为 “delta-lokr” 版本一并提供。
详细设置请参阅 Kohaku XL Delta 的 LyCORIS 配置文件。
其他训练细节
硬件:四张 RTX 3090
训练图像数量:5,210,319
总 Epoch:1
总步数:20354
批次大小:4
梯度累积步数:16
等效批次大小:256
优化器:Lion8bit
学习率:UNet 为 2e-5,TE 为 5e-6
学习率调度器:Constant(含预热)
预热步数:1000
权重衰减:0.1
Betas:0.9, 0.95
最小 SNR Gamma:5
噪声偏移:0.0357
分辨率:1024x1024
最小桶分辨率:256
最大桶分辨率:4096
混合精度:FP16
Rev2 的其他训练细节
硬件:四张 RTX 3090
训练图像数量:1,536,902
总 Epoch:5
总步数:15015
批次大小:4
梯度累积步数:32
等效批次大小:512
优化器:Lion8bit
学习率:UNet 为 1e-5,TE 为 2e-6
学习率调度器:Cosine(含预热)
预热步数:1000
权重衰减:0.1
Betas:0.9, 0.95
最小 SNR Gamma:5
噪声偏移:0.0357
分辨率:1024x1024
最小桶分辨率:256
最大桶分辨率:4096
混合精度:FP16
警告:bitsandbytes 版本 0.36.0 ~ 0.41.0 在 8bit 优化器中存在严重缺陷,可能影响训练效果,务必更新。[8]
训练成本
使用 DDP 配置四张 RTX 3090,在 520 万图像数据集上完成 1 个 epoch 的训练大约耗时 12 至 13 天。每个等效批次大小为 256 的步骤大约需要 49 至 50 秒完成。
Rev2 训练成本
使用 DDP 配置四张 RTX 3090,在 150 万图像数据集上完成 5 个 epoch 的训练大约耗时 17 至 19 天。每个等效批次大小为 512 的步骤大约需要 105 至 110 秒完成。
为何发布 13600 步的中间检查点
在 13600 步至 15300 步之间训练过程崩溃,而 kohya-ss 训练器此前未实现“恢复+跳过步数”功能。
尽管 Kohya 和我已找到正确方法并进行了验证,但我仍无法完全确保最终结果的准确性。因此,我发布此中间检查点,以便有用户希望复现训练时,能有机会排查最终结果的问题。
下一步计划
我正专注于构建新数据集(目标为 1000 万至 1500 万张图像),并等待 SD3 发布,以评估是否值得尝试。
我可能还会对 Epsilon 进行小规模微调并发布为 rev2/3/4…,但目前我的重点仍是数据集。
特别鸣谢
AngelBottomless & Nyanko7:danbooru2023 数据集[3]
Kohya-ss:训练器[4]
AI 艺术应当看起来像 AI,而非人类。
(趣味事实:这句标语源自我个人主页,很多人喜欢并将其放在自己的模型页面上。)
参考与资源
参考文献
[1] SHIH-YING YEH, Yu-Guan Hsieh, Zhidong Gao, Bernard B W Yang, Giyeong Oh, & Yanmin Gong (2024). Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation. In The Twelfth International Conference on Learning Representations.
[2] HakuBooru - 用于 Booru 风格图像平台的文本-图像数据集生成器。https://github.com/KohakuBlueleaf/HakuBooru
[3] Danbooru2023:大规模众包标注动漫插图数据集。https://huggingface.co/datasets/nyanko7/danbooru2023
[4] kohya-ss/sd-scripts。https://github.com/kohya-ss/sd-scripts
[7] LyCORIS - 超越传统方法的 LoRA,Stable Diffusion 的其他秩适应实现。https://github.com/KohakuBlueleaf/LyCORIS/blob/main/docs/Algo-Details.md#lokr
[8] TimDettmers/bitsandbytes - 问题 659/152/227/262:缩进错误导致长期存在的缺陷。https://github.com/TimDettmers/bitsandbytes/issues/659
资源
Kohaku XL beta. /model/162577/kohaku-xl-beta
Kohaku XL gamma. /model/270291/kohaku-xl-gamma
Kohaku XL delta. /model/332076/kohaku-xl-delta
许可证
本模型依据 “Fair-AI 公共许可证 1.0-SD” 发布
详情请参阅原始许可证:













