Illustrious-Lumina-v0.03
詳細
ファイルをダウンロード
モデル説明
私たちがこれまで取り組んできた内容をご覧になり、最新モデルをチェックしてください!
→ https://www.illustrious-xl.ai/
Illustrious-Lumina-v0.03
このモデルは、Alpha-VLLM/Lumina-Image-2.0 をベースにしており、最小限の保証機能を持つ小さなDiTモデルです。公式リポジトリについては、https://github.com/Alpha-VLLM/Lumina-Image-2.0 をご参照ください。論文
「Illustrious-Lumina-v0.03」の詳細に入る前に、ぜひお知らせします。公式サイト illustrious-xl.ai で、Illustrious XLモデルを直接使用して画像を生成できるようになりました。
高解像度出力、自然言語プロンプト、カスタムプリセットを備えたフル画像生成プラットフォームをリリースしました。さらに、他のハブでは見られない複数のエクスクルーシブモデルも提供しています。
更新されたモデル階層と命名について詳しくは、こちらをご覧ください:Model Series
使い方の手順がわからない場合は、生成ガイドをご覧ください:ILXL Image Generation User Guide
1. モデル概要
- アーキテクチャ: 2 B パラメータ の DiT
- テキストエンコーダー: 純粋なLLM、Gemma-2-2b
- このフォークの目的: LLMコンポーネントを再学習せずに、画像バックボーンがイラストレーションの概念を学習できるかを検証する
Illustrious-Lumina-v0.03 は、Lumina-2.0に基づく実験的なトレーニングエポックであり、LLMのみで小さなDiTモデルをイラストレーション専用にトレーニングできるかを検証するためのものです。元のモデルはイラストレーションの能力が低く、その知識も欠如していたため、この学習では欠如していた知識に焦点を当てました。
26,500ステップ後の結果、モデル「Illustrious-Lumina-v0.03」はデータセットに対して迅速な適応を示しました。
ただし、元のモデルはイラストレーションに優れておらず、私たちの焦点はイラストレーションのみにあるため、ある程度の水準に達するまでには時間がかかるでしょう。
サンプルはブログ記事でご確認いただけます。
モデルをテストするには、Hugging Faceスペース をご参照ください。
ローカルで実行したい場合は、公式インストールガイド に従って .pthファイル を使用してください。.safetensorsファイルは「重みのみを含む」ことを目的としており、ComfyUI互換形式についてはできるだけ早く準備します。
2. 学習環境
| 項目 | 値 |
|---|---|
| 学習に使用した画像 | 22M の画像–テキストペア |
| ステップ数 | 26,500 |
| グローバルバッチサイズ | 768 |
| 解像度 | 1024, 256 |
| チェックポイント | Illustrious_Lumina_2b_22100_ema_unified_fp32.safetensors |
モデルは2200万の画像–テキストペアを学習しました。学習を高速化するために、複数解像度での学習を採用しました。
3. 推論デモコード
ローカルで実行したい場合は、公式インストールガイド に従って .pthファイル を使用してください。
ヘッダー画像で使用された設定は、以下の設定で再現可能です:
4. 免責事項
このモデルは最終製品を反映したものではなく、研究・分析目的でのみ使用することを意図しています。製品レベルではなく、自己責任でご利用ください。
このモデルはプロトタイプ段階にあり、フルトレーニングに必要な計算量の約3%で、低解像度のジョイントトレーニングを2200万サンプルで実施し、A6000 GPUを用いています。
学習の高速化を支援したい場合は、支援サイト でのご支援をお願いします!






