Kohaku-XL gamma

详情

模型描述

Kohaku XL Gamma

一个旨在创作独特艺术作品的SDXL动漫基础模型。

不用于复制受版权保护的角色或艺术家风格


简介

此模型可视为 Animagine XL 3.0 项目的衍生作品。
基本上,我正在与 Linaqruf 合作,以打造更优质的动漫基础模型(显然我们的目标和方向不同)。
我们共享模型与技术,以提升彼此模型的质量。
而这也是本模型的由来。


模型

Base7

Kohaku-XL base7 由 beta7 继续训练而来,使用与 beta 系列相同的训练数据集。但这次我使用了自己的元数据系统生成标注(可视为 Linaqruf 所用系统的进阶版,即将开源)。

元数据数据库可在此处下载:
KBlueLeaf/danbooru2023-sqlite · Hugging Face 数据集

训练细节:
学习率:8e-6/2e-6
调度器:带预热的恒定学习率
批量大小:128(单批次大小 4 × 梯度累积 16 × GPU 数量 2)

Base 8

Kohaku-XL base8 与 base7 相同,但使用 5e-6/1e-6 的学习率,并对 148 万张图像完成完整一轮训练。

Gamma rev1

Kohaku-XL Gamma rev1 是一个合并模型,结合了 anxl3 与 Kohaku XL base7 的学习差异。公式如下:

gamma rev1 = beta7 + 0.8 * (anxl3 - anxl2) + 0.5 * (base7 - beta7)

Gamma rev2

Kohaku-XL gamma rev2 使用以下公式合并:

gamma rev2 = beta7 + 1.0 * (anxl3 - anxl2) + 0.25 * (base8 - beta7)

我还使用 MBW 方法直接与 Anxl3 合并:

0,0.1,0.1,0,0.1,0.1,0,0.1,0.1,0,0,0,0,0,0.05,0.05,0.05,0.05,0.05,0.05

为何合并:

首先,(anxl3 - anxl2) 可理解为“Anxl3 在从 Anxl2 继续训练时所学到的内容”。由于这些“学到的内容”本质上是“元标签”及部分角色/风格信息,因此合并 anxl3/anxl2 的差异是合理的。

你也可以将此合并理解为“合并了两个 LoRA/LyCORIS 模型:一个从 anxl3 提取,另一个从 base7/8 提取”。

极低权重的 MBW 合并用于修正合并模型中的过训练伪影。


使用方法

FP8 模型

在 safetensors 0.4.2 或 PyTorch 2.2.0 之后,用户可使用 FP8 格式将模型保存为 safetensors 或 PyTorch 检查点。我也上传了模型的 FP8 版本(压缩包形式),解压后将 FP8 safetensors 文件拖入你的 SD 模型文件夹即可正常使用。

请确保已将 safetensors 更新至 0.4.2 版本。

关于 FP8+FP16 推理的更多信息:

AUTOMATIC1111/stable-diffusion-webui #14031:通过 FP8 存储与手动类型转换大幅提升 dtype 系统 - KohakuBlueleaf

参数

本模型在 768x1024 至 1024x1024 的长宽比可变(ARB)下训练。建议使用像素总数在 786432 ~ 1310720 之间。
推荐 CFG 值为 4~7。
采样器影响不大。

标签系统

本模型使用我自建的标签质量系统。
尽管此模型融合了 anxl3 的差异权重,我仍建议用户使用我的(或同时使用)标签系统。

本模型训练时使用了艺术家名称作为标签,因此你可以将艺术家标签用作“风格化标签”。但我的训练配置并非为学习风格而设计,因此无法真正复现任何特定艺术家的风格,仅建议将艺术家标签作为风格参考标签。

对于角色标签,与艺术家标签同理:模型能接受角色标签,但我无法保证其复现任何特定角色的能力。

提示词格式与 anxl3 相同(可参考我发布的示例图)。

评级标签:

  • 通用:safe
  • 敏感:sensitive
  • 有疑问:nsfw
  • 明确:explicit, nsfw

质量标签(由优至劣):

  • Masterpiece
  • best quality
  • great quality
  • good quality
  • normal quality
  • low quality
  • worst quality

年代标签(由新至旧):

  • newest
  • recent
  • mid
  • early
  • old

你可能会遇到一些细微的马赛克状伪影,这可能是由于高学习率或不良的图像缩放/编码所致。
我将在下一版本中尝试修复。目前,可尝试使用 R-ESRGAN anime6b 或 SCUNet 模型进行修复。


未来计划

由于我的数据集中存在一些缩放/WebP 压缩伪影,会损害模型质量,我将基于新系统重建数据集(完成后将开源)。

下一步计划是使用更大规模(300万600万)的数据集并采用更优配置进行训练(这需要 A100 显卡,我计划为此投入约 200010000 美元)。如果你喜欢我的作品,欢迎通过 Buy Me a Coffee 或比特币等方式赞助我(链接见我的 GitHub 个人主页):
KohakuBlueleaf (Kohaku-Blueleaf)


附录

在生成样本图像时,我发现最初我的合并方法存在错误(因 LyCORIS 工具中的某些 bug)。
尽管最终版 rev1 并非错误版本,但我发布的部分示例图正是由错误版本生成。
我将把该错误版本与 base7 一同上传至我的 Hugging Face 账号:
KBlueLeaf (Shih-Ying Yeh)

如想跟进下一版本(或其他项目)的进展,欢迎访问我的主页:
Kohaku's Homepage


许可证

重要

本模型采用与 anxl3 相同的 faipl-1.0-sd 许可证:
Freedom of Development

此模型生成的图像

未找到图像。