NoobAI-Flux2VAE-RectifiedFlow

详情

模型描述

将我们的 NoobAI-RF 模型实验性转换为 Flux2 VAE。

我们观察到该模型能够适应 Flux2 VAE,而当前趋势表明,通过更大规模的训练,有望实现显著改进,这可能使其能够与更大模型竞争。
通过支持我们,您可以让这一目标成为现实。

有关支持我们的更多信息:点击我

模型描述

这是 SDXL Unet 与 Flux2 VAE 的原生训练组合。本质上,我们将原先的 4 通道模型适配为使用 Flux 2 的 32 个复数通道。无任何适配器或技巧,完全原生实现。
本模型使用了 NoobAI 的 Danbooru 数据集。

training-flux2vae-sdxl-progress

training-flux2vae-sdxl-progress-crop

由于计算资源有限,我们未能使其完全收敛,输出质量大致相当于早期的动漫模型水平。我们希望社区能对此产生兴趣并支持我们。在整个训练过程中,我们观察到稳定的收敛趋势,相信进一步训练将确立一种全新的快速本地动漫生成标准。

请将本模型视为概念验证,而非最终产品。

我们使用了 Rectified Flow 进行训练,并采用分阶段方法适配 Flux2 VAE。
大部分知识得以保留,但由于完全新的潜在空间,其表现显著减弱。

偏见与局限性

再次说明,我们在这项基础任务上的预算极为有限。我们已成功适配至可输出大致可接受的图像(接近理论上的 NoobAI 0.1 使用 Flux 2 VAE 的知识水平),但进一步提升需要大量算力,因为模型正首次接触新层次的细节(以及以全新方式理解旧层次细节),这非常困难。

官方数据集的大多数偏见依然存在(如 Blue Archive 等)。

请预期存在噪声、模糊细节、横向构图性能低下、手部质量差以及整体构图问题。

模型输出示例

我们取得的一项优势是色彩表现:

00439-3595667584-small 由于是原生流模型,它能实现强烈的色彩,同时避免酸性或不稳定效果。

如前所述,总体而言,所有生成结果都可能包含一定程度的颗粒感和模糊感,因为我们尚未收敛到精细细节。00448-1663643003

推荐参数:
采样器:Euler、Euler A、DPM++ SDE 等
步数:20-28
CFG:6-9
调度器:Normal/Simple/SGM Uniform/Quadratic
正向质量标签masterpiece, best quality
负向标签worst quality, normal quality, bad anatomy

A1111 WebUI

(所有截图均重复我们的 RF 发布版本,因为设置上无差异)

推荐 WebUI:ReForge —— 原生支持流模型,我们已提交 PR 以支持基于 Flux2VAE 的 SDXL 修改。

在 ReForge 中如何使用

изображение(忽略顶部的 Sigma max 字段,该字段在 RF 中未使用)

ReForge 对 RF 的支持通过内置扩展实现:

изображение

imagen

设置为上述参数即可使用。

目前 Flux2VAE 尚无合适的高质量预览方法,请使用“Approx Cheap”选项,该选项可显示简单的 PCA 投影(ReForge)。

推荐参数:
采样器:Euler A Comfy RF、Euler、DPM++ SDE Comfy 等。所有变体必须为 RF 或 Comfy(如可用)。在 ComfyUI 中路由是自动的,但在 WebUI 中不是。
步数:20-28
CFG:6-9
调度器:Normal/Simple/SGM Uniform
正向质量标签masterpiece, best quality
负向标签worst quality, normal quality, bad anatomy

RF 的 ADETAILER 修复:默认情况下,Adetailer 会丢弃 Advanced Model Sampling 扩展,导致 RF 失效。您需要在设置中添加 AMS:

изображение

添加:advanced_model_sampling_script,advanced_model_sampling_script_backported

若无效,请进入 adetailer 扩展,找到 args.py,打开并替换 _builtin_scripts,如下所示:

изображение

训练

模型组成

(相对于其基础模型)

Unet:相同
CLIP L:相同,冻结
CLIP G:相同,冻结
VAE:Flux2 VAE

训练细节

(主训练阶段)

训练样本数(非批量步数):约 1850 万样本
学习率:5e-5
有效批量大小:1472(92 批大小 × 2 累积 × 8 GPU)
精度:全 BF16
优化器:带 Kahan 求和的 AdamW8bit
权重衰减:0.01
调度器:带热身的恒定调度
时间步采样策略:Logit-Normal -0.2 1.5(有时称 Lognorm),Shift 2.5
文本编码器:冻结
保留 Token:False
标签丢弃:10%
无条件丢弃:10%
打乱:True

VAE 卷积填充:False
VAE 偏移:0.0760
VAE 缩放:0.6043

使用额外功能:保护标签、余弦最优传输

训练数据

原始 NoobAI 数据集的 2 个周期,包含截至 2024 年 10 月的图像,已剔除截图数据(未共享)。

LoRA 训练

当前阶段可训练,但由于基础模型尚未收敛到细微细节,若任务依赖小细节则难以精确复现。我的当前风格训练设置(Anzhc):

学习率:测试至 7.5e-4
批量大小:144(6 实际 × 24 累积),使用 SGA(随机梯度累积)——若无 SGA,我可能会将累积降至 4-8。
优化器:带 Kahan 求和的 Adamw8bit
调度器:ReREX(为简化可使用 REX 或余弦退火)
精度:全 BF16
权重衰减:0.02
时间步采样策略:Logit-Normal(0.0 1.0 或 -0.2 1.5),Shift 2.5

Dim/Alpha/Conv/Alpha:24/24/24/24(Lycoris/Locon)

文本编码器:冻结

最优传输:True

预期数据集大小:100 张图像(可低至 10 张,但需通过重复平衡至该目标)
周期数:50

硬件

模型在云端 8xH200 节点上训练。

软件

SD-Scripts 的自定义分支(由 Bluvoll 维护)

致谢

特别感谢

致一位独自资助整个训练过程并选择匿名的特别支持者


支持

若您希望支持我们持续让二次元角色变得更好 0.2%,您可以通过以下方式支持:

https://ko-fi.com/bluvoll

加密货币链接待定。

潜在未来

预计所需算力:我们推测,该模型至少需要在完整数据集上训练 20 个周期,理想情况下为 35 个周期。每个周期使用我们当前供应商的成本约为 460 美元。只要我们筹集到足够训练 2 个周期的捐款,就会继续训练。若资金充足,我们将更新数据集至最新版本。

为何现在不这么做?使用 Flux 2 VAE 缓存需耗时长达 15 小时,且因每个潜在向量为 2MB,总数据量高达 ±20TB,仅此一项计算成本就达 180 美元。

在本模型发布时,我们正在持续改进流水线和组件,并计划进一步升级该架构。

此模型生成的图像

未找到图像。