Neta Lumina [TensorCoreFP8]

詳細

ファイルをダウンロード

モデル説明

このページには、Neta LuminaのFP8スケーリング済みDiTモデルが含まれています。

  • Neta Lumina (NT)

  • NetaYume Lumina (NTYM)

  • およびFP8スケーリング済みGemma 2 2B(テキストエンコーダー)も含まれます。

すべてのクレジットは元のモデル作者に帰属します。ライセンスは元のモデルと同一です。


参考情報:

Lumina 2のFP8スケーリング済みDiTモデルはわずか2.5GBです。つまり、3GBのGPUカードでもレイヤーのスワップなしで実行可能です。ただし、現代では実際にGTX 1050で実行する人はいないため、意味はないでしょう。これは効率の高さを示すための方法です。

「スケーリングFP8」について:

  • 「スケーリングFP8」はFP8ではありません。「スケーリングFP8」は元のモデルと同等の品質を提供します。

  • VRAM使用量が-50%。

  • ComfyUIはそのまま対応しています。特別な変更は不要で、通常のモデルと同じローダーノードで読み込むだけです。

  • 残念ながら、フルFP8計算のサポートはまだありません(2025年10月20日時点)。すべての計算は依然としてbf16です。試みましたがオーバーフローしました。

  • GPUのボトルネックがメモリバスである場合、わずかに高速化される可能性があります。それ以外の場合は差異はありません。

FP8スケーリング済みGemma 2 2B:

テキストエンコーダーは一度だけ実行され、その後CPUにオフロードされるため、通常は不要です。ただし、RAMが不足している場合に有用です。例えば、フルbf16モデルは10GBのRAMが必要です(DiT:4.8GB、TE:5.5GB)。システムの総RAMが16GB以下の場合、これは問題になります。フルFP8スケーリングモデルは約5.5GB(2.5 + 3)で済みます。

このモデルで生成された画像

画像が見つかりません。