Illustrious-Lumina-v0.03

詳細

ファイルをダウンロード

モデル説明

私たちがこれまで取り組んできた内容をご覧になり、最新モデルをチェックしてください!
https://www.illustrious-xl.ai/

Illustrious-Lumina-v0.03

このモデルは、Alpha-VLLM/Lumina-Image-2.0 をベースにしており、最小限の保証機能を持つ小さなDiTモデルです。公式リポジトリについては、https://github.com/Alpha-VLLM/Lumina-Image-2.0 をご参照ください。論文


「Illustrious-Lumina-v0.03」の詳細に入る前に、ぜひお知らせします。公式サイト illustrious-xl.ai で、Illustrious XLモデルを直接使用して画像を生成できるようになりました。

高解像度出力、自然言語プロンプト、カスタムプリセットを備えたフル画像生成プラットフォームをリリースしました。さらに、他のハブでは見られない複数のエクスクルーシブモデルも提供しています。

更新されたモデル階層と命名について詳しくは、こちらをご覧ください:Model Series

使い方の手順がわからない場合は、生成ガイドをご覧ください:ILXL Image Generation User Guide


image/png

1. モデル概要

  • アーキテクチャ: 2 B パラメータ の DiT
  • テキストエンコーダー: 純粋なLLM、Gemma-2-2b
  • このフォークの目的: LLMコンポーネントを再学習せずに、画像バックボーンがイラストレーションの概念を学習できるかを検証する

Illustrious-Lumina-v0.03 は、Lumina-2.0に基づく実験的なトレーニングエポックであり、LLMのみで小さなDiTモデルをイラストレーション専用にトレーニングできるかを検証するためのものです。元のモデルはイラストレーションの能力が低く、その知識も欠如していたため、この学習では欠如していた知識に焦点を当てました。

26,500ステップ後の結果、モデル「Illustrious-Lumina-v0.03」はデータセットに対して迅速な適応を示しました。

ただし、元のモデルはイラストレーションに優れておらず、私たちの焦点はイラストレーションのみにあるため、ある程度の水準に達するまでには時間がかかるでしょう。

サンプルはブログ記事でご確認いただけます。

モデルをテストするには、Hugging Faceスペース をご参照ください。

ローカルで実行したい場合は、公式インストールガイド に従って .pthファイル を使用してください。.safetensorsファイルは「重みのみを含む」ことを目的としており、ComfyUI互換形式についてはできるだけ早く準備します。

2. 学習環境

項目
学習に使用した画像 22M の画像–テキストペア
ステップ数 26,500
グローバルバッチサイズ 768
解像度 1024, 256
チェックポイント Illustrious_Lumina_2b_22100_ema_unified_fp32.safetensors

モデルは2200万の画像–テキストペアを学習しました。学習を高速化するために、複数解像度での学習を採用しました。

3. 推論デモコード

ローカルで実行したい場合は、公式インストールガイド に従って .pthファイル を使用してください。

ヘッダー画像で使用された設定は、以下の設定で再現可能です:

image/png

4. 免責事項

このモデルは最終製品を反映したものではなく、研究・分析目的でのみ使用することを意図しています。製品レベルではなく、自己責任でご利用ください。

このモデルはプロトタイプ段階にあり、フルトレーニングに必要な計算量の約3%で、低解像度のジョイントトレーニングを2200万サンプルで実施し、A6000 GPUを用いています。

学習の高速化を支援したい場合は、支援サイト でのご支援をお願いします!

このモデルで生成された画像

画像が見つかりません。