HelloWorld Stable Cascade Early Beta
詳細
ファイルをダウンロード
モデル説明
このモデルはHelloWorld SCの早期ベータ版です。Stability AI公式が提供するトレーニングスクリプトに基づき、Stable Cascade stage_c_liteモデル(1B版)を微調整しました。
現在のv0.1版は最も初期のテストモデルであることにご注意ください。主な目的は、新しいトレーニングプロセスに慣れるためです。画像生成テストの結果、このモデルの全体的な性能は不安定で、近景では良い効果が得られますが、人物の全身ショットなどの全容構図では画像品質の顕著な劣化が見られます。
以下は、Stable Cascadeに興味を持つ他のモデル作者にとって役立つ可能性のある、私のトレーニングにおける核心的なデータです:
v0.1版では、ポートレート、SF、ヒョウモンダコ(パラスのネコ)などを含む合計740枚のリアリスティックなトレーニング画像を使用しました。すべての画像は、私たちのオープンソースGPT4Vタガーでタグ付けしました。使用したGPUは、VRAM 48GBのRTX6000 Ada 1枚です。総トレーニング時間は3.5時間でした。
configファイルのパラメータは以下の通りです:
lr: 1.5e-6
batch_size: 6
image_size: 1024
multi_aspect_ratio: [1/1, 1/2, 1/3, 2/3, 3/4, 1/5, 2/5, 3/5, 4/5, 1/6, 5/6, 9/16, 9/21]
grad_accum_steps: 1
updates: 12500
backup_every: 2500
save_every: 500
warmup_updates: 1
use_fsdp: false
adaptive_loss_weight: True
上記のパラメータでは、トレーニング時に約45GBのVRAMを消費します。公式のトレーニングスクリプトはA100などの大容量VRAMGPUを対象としており、VRAMの最適化はあまり考慮されていません。したがって、VRAMが24GB以下のモデル作者は、kohya-ssの更新を待つことをお勧めします。現在、公式トレーニングスクリプトを使用してstage_c_lite.safetensorsを微調整するには、バッチサイズを1に設定しても依然として30GBのVRAMが必要です。
(更新:ネットユーザーが公式スクリプトをGPUメモリ使用量最適化しました。現在、stage C 1Bモデルの微調整にはGPUメモリ10GBで十分です。)
今後の計画:
kohya-ssの更新が行われたら、HelloWorld 6.0の完全なトレーニングセットを使用して、SDXL、Stable Cascade 3.6B、および1B版をそれぞれ微調整する予定です。
私はStable Cascadeに大きな期待を寄せています。このモデルが、広く使用されているSDXLのいくつかの欠点を補い、より多くのユーザーをSD1.5から新世代SDモデルエコシステムへ引き込むことを願っています。
特別な感謝:
容華モデルの作者であるFok氏に、SCモデルのトレーニングスクリプト実行時に多大な支援をいただき、心より感謝申し上げます。彼は自らのSCモデルの最適化とテストも行っています。良いニュースをお待ちしています。


















