Kohaku XL Gamma

一个旨在创作独特艺术作品的SDXL动漫基础模型。

不用于复制受版权保护的角色或艺术家风格

简介

此模型可视为 Animagine XL 3.0 项目的衍生作品。
基本上，我正在与 Linaqruf 合作，以打造更优质的动漫基础模型（显然我们的目标和方向不同）。
我们共享模型与技术，以提升彼此模型的质量。
而这也是本模型的由来。

模型

Base7

Kohaku-XL base7 由 beta7 继续训练而来，使用与 beta 系列相同的训练数据集。但这次我使用了自己的元数据系统生成标注（可视为 Linaqruf 所用系统的进阶版，即将开源）。

元数据数据库可在此处下载：
KBlueLeaf/danbooru2023-sqlite · Hugging Face 数据集

训练细节：
学习率：8e-6/2e-6
调度器：带预热的恒定学习率
批量大小：128（单批次大小 4 × 梯度累积 16 × GPU 数量 2）

Base 8

Kohaku-XL base8 与 base7 相同，但使用 5e-6/1e-6 的学习率，并对 148 万张图像完成完整一轮训练。

Gamma rev1

Kohaku-XL Gamma rev1 是一个合并模型，结合了 anxl3 与 Kohaku XL base7 的学习差异。公式如下：

gamma rev1 = beta7 + 0.8 * (anxl3 - anxl2) + 0.5 * (base7 - beta7)

Gamma rev2

Kohaku-XL gamma rev2 使用以下公式合并：

gamma rev2 = beta7 + 1.0 * (anxl3 - anxl2) + 0.25 * (base8 - beta7)

我还使用 MBW 方法直接与 Anxl3 合并：

0,0.1,0.1,0,0.1,0.1,0,0.1,0.1,0,0,0,0,0,0.05,0.05,0.05,0.05,0.05,0.05

为何合并：

首先，(anxl3 - anxl2) 可理解为“Anxl3 在从 Anxl2 继续训练时所学到的内容”。由于这些“学到的内容”本质上是“元标签”及部分角色/风格信息，因此合并 anxl3/anxl2 的差异是合理的。

你也可以将此合并理解为“合并了两个 LoRA/LyCORIS 模型：一个从 anxl3 提取，另一个从 base7/8 提取”。

极低权重的 MBW 合并用于修正合并模型中的过训练伪影。

使用方法

FP8 模型

在 safetensors 0.4.2 或 PyTorch 2.2.0 之后，用户可使用 FP8 格式将模型保存为 safetensors 或 PyTorch 检查点。我也上传了模型的 FP8 版本（压缩包形式），解压后将 FP8 safetensors 文件拖入你的 SD 模型文件夹即可正常使用。

请确保已将 safetensors 更新至 0.4.2 版本。

关于 FP8+FP16 推理的更多信息：

AUTOMATIC1111/stable-diffusion-webui #14031：通过 FP8 存储与手动类型转换大幅提升 dtype 系统 - KohakuBlueleaf

参数

本模型在 768x1024 至 1024x1024 的长宽比可变（ARB）下训练。建议使用像素总数在 786432 ~ 1310720 之间。
推荐 CFG 值为 4~7。
采样器影响不大。

标签系统

本模型使用我自建的标签质量系统。
尽管此模型融合了 anxl3 的差异权重，我仍建议用户使用我的（或同时使用）标签系统。

本模型训练时使用了艺术家名称作为标签，因此你可以将艺术家标签用作“风格化标签”。但我的训练配置并非为学习风格而设计，因此无法真正复现任何特定艺术家的风格，仅建议将艺术家标签作为风格参考标签。

对于角色标签，与艺术家标签同理：模型能接受角色标签，但我无法保证其复现任何特定角色的能力。

提示词格式与 anxl3 相同（可参考我发布的示例图）。

评级标签：

通用：safe
敏感：sensitive
有疑问：nsfw
明确：explicit, nsfw

质量标签（由优至劣）：

Masterpiece
best quality
great quality
good quality
normal quality
low quality
worst quality

年代标签（由新至旧）：

newest
recent
mid
early
old

你可能会遇到一些细微的马赛克状伪影，这可能是由于高学习率或不良的图像缩放/编码所致。
我将在下一版本中尝试修复。目前，可尝试使用 R-ESRGAN anime6b 或 SCUNet 模型进行修复。

未来计划

由于我的数据集中存在一些缩放/WebP 压缩伪影，会损害模型质量，我将基于新系统重建数据集（完成后将开源）。

下一步计划是使用更大规模（300万~~600万）的数据集并采用更优配置进行训练（这需要 A100 显卡，我计划为此投入约 2000~~10000 美元）。如果你喜欢我的作品，欢迎通过 Buy Me a Coffee 或比特币等方式赞助我（链接见我的 GitHub 个人主页）：
KohakuBlueleaf (Kohaku-Blueleaf)

附录

在生成样本图像时，我发现最初我的合并方法存在错误（因 LyCORIS 工具中的某些 bug）。
尽管最终版 rev1 并非错误版本，但我发布的部分示例图正是由错误版本生成。
我将把该错误版本与 base7 一同上传至我的 Hugging Face 账号：
KBlueLeaf (Shih-Ying Yeh)

如想跟进下一版本（或其他项目）的进展，欢迎访问我的主页：
Kohaku's Homepage

许可证

重要

本模型采用与 anxl3 相同的 faipl-1.0-sd 许可证：
Freedom of Development

模型类型	检查点
基础模型	SDXL 1.0
发布时间	1/29/2024

Kohaku-XL gamma

详情

下载文件

关于此版本

模型描述