HelloWorld Stable Cascade Early Beta

详情

模型描述

本模型为HelloWorld Stable Cascade版本的早期测试模型。基于Stability AI官方所提供的训练脚本,我在stage_c_lite.safetensors模型(1B版本)基础上进行了微调训练。

请注意,目前的v0.1版为最早期测试模型,主要目的是熟悉新版本的整个训练流程。经过图像生成测试,本模型的整体表现并不稳定,近景效果较好,但在全景构图(如人物全身照)中会出现明显的画质退化现象。

以下是我在本次训练中的一些核心数据,希望能对其他对Stable Cascade感兴趣的模型作者有所帮助:

v0.1版本共使用了740张写实训练图像,涵盖人像、科幻、兔狲等主题。所有图像均通过我们开源的GPT4V tagger进行打标,使用的显卡为单张48G显存的RTX 6000 Ada,总训练时间为3.5小时。

config文件中的参数如下:

lr: 1.5e-6
batch_size: 6
image_size: 1024
multi_aspect_ratio: [1/1, 1/2, 1/3, 2/3, 3/4, 1/5, 2/5, 3/5, 4/5, 1/6, 5/6, 9/16, 9/21]
grad_accum_steps: 1
updates: 12500
backup_every: 2500
save_every: 500
warmup_updates: 1
use_fsdp: false
adaptive_loss_weight: True

以上参数在训练时将占用约45G显存。官方训练脚本似乎是为A100等大显存显卡设计的,未做太多显存优化,因此我建议显存低于24G的模型作者等待kohya-ss的后续更新。目前,即使将batch size设为1,使用官方训练脚本对stage_c_lite.safetensors进行微调仍需要30G显存。

(更新:一位网友已优化官方脚本 以减少GPU显存占用。目前,对于stage C 1B模型,微调仅需10GB GPU显存,已足够使用。)

未来计划:

待kohya-ss更新后,我计划使用完整的HelloWorld 6.0训练集,分别对SDXL、Stable Cascade 3.6B和1B版本进行微调训练。

我对Stable Cascade充满期待,希望本版本能弥补SDXL在广泛应用中的一些不足,吸引更多SD1.5用户加入新一代SD模型生态。

特别致谢:

感谢容华模型的作者Fok在运行SC训练脚本期间给予我的极大帮助。他也在优化和测试自己的SC模型,期待他传来好消息。

此模型生成的图像

未找到图像。