RDBT - NTYM

详情

下载文件

模型描述

RDBT [NetaYume]


基于 NTYM4 微调,使用约7万张图像 + 全面的自然语言描述 + 一些自制优化。

目标:

  • 更好的纹理和艺术细节。

  • 均衡的对比度与光照。

  • 更好且稳定的提示一致性。

同时进行了 CFG 蒸馏。


使用指南

提示词:基本与 NetaYume 相同,但需注意:

  • 必须包含风格提示。该模型无默认风格,NetaYume 中默认的 TV 动画风格已被移除。

  • 在提示词末尾使用 "Digital anime art style by @xxxx.",以防止 Gemma 2 过度且错误地关注艺术家名称。

  • 建议开头使用简洁的自然语言,结尾使用标签。

  • 无需添加质量标签。数据集质量高于普通 "masterpiece"。

设置:

  • CFG 缩放:1。这是经过 CFG 蒸馏的模型。虽然可以使用 CFG 1~1.5,但非必需。

  • 采样器:推荐使用 euler a + normal。

  • 时间步长偏移:3~4.5(来自节点 ModelSamplingAuraFlow)。

关于 CFG 蒸馏模型:

  • 无法控制 CFG 缩放和负向提示,这些已在模型训练中固化。

  • CFG 缩放 = 1 是一个特殊值,表示禁用 CFG 和负向提示。

  • 由于无需对负向提示进行前向传播,生成速度可提升约 2 倍。


部分训练细节

总数据集包含约 7 万张图像,权重不均等。

仅训练了 layers.[2:25]。

描述主要来自 Gemini。

为何进行蒸馏?

这是计划的一部分。蒸馏 ≠ 差。蒸馏模型可规避许多 CFG 相关问题。

这次不是 LoRA 吗?

多阶段训练,未使用 LoRA。


版本

v0.1 tcfp8:适用于 ComfyUI 的 fp8 版本。

此模型生成的图像

未找到图像。