我更改了训练模式(现在使用 LoHa),并调整了 Kohya SS 中的训练参数以解决优化器不稳定的问题。优化器也已更换,现在使用 Prodigy。
完整设置如下:
图像数量(含重复)/ 各bucket的图像张数(含重复)
bucket 0: 分辨率 (768, 512),数量:816
bucket 1: 分辨率 (768, 896),数量:4
bucket 2: 分辨率 (768, 1024),数量:992
bucket 3: 分辨率 (768, 1152),数量:2170
bucket 4: 分辨率 (896, 768),数量:23
bucket 5: 分辨率 (896, 896),数量:71
bucket 6: 分辨率 (896, 1024),数量:98
bucket 7: 分辨率 (896, 1152),数量:40
bucket 8: 分辨率 (1024, 768),数量:1490
bucket 9: 分辨率 (1024, 896),数量:99
bucket 10: 分辨率 (1024, 1024),数量:802
bucket 11: 分辨率 (1152, 768),数量:763
bucket 12: 分辨率 (1280, 768),数量:540
平均宽高比误差(不含重复):0.025714800356640224
准备加速器
加载进程 0/1 的模型
加载 StableDiffusion 检查点:/mnt/SD/.ckpt/SDXL/juggernautXL_version2.safetensors
使用秩适配算法:loha
使用 Dropout 值:0.0
创建 LyCORIS 模块
创建 LyCORIS 模块
为 Text Encoder 创建 LyCORIS:264 个模块。
创建 LyCORIS 模块
为 U-Net 创建 LyCORIS:788 个模块。
启用 U-Net 的 LyCORIS
准备优化器、数据加载器等
已弃用:请使用 prepare_optimizer_params(text_encoder_lr, unet_lr, learning_rate) 代替 prepare_optimizer_params(text_encoder_lr, unet_lr)
使用 Prodigy 优化器 | {}
覆盖步数。40 个 epoch 对应的步数为:63280
启用完整的 bf16 训练。
开始训练
训练图像数量 × 重复次数:3954
正则化图像数量:30064
每个 epoch 的批次数量:7908
epoch 数量:40
每个设备的批次大小:1
梯度累积步数 = 5
总优化步数:63280