Neta Lumina [TensorCoreFP8]
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
このページには、Neta LuminaのFP8スケーリング済みDiTモデルが含まれています。
Neta Lumina (NT)
NetaYume Lumina (NTYM)
およびFP8スケーリング済みGemma 2 2B(テキストエンコーダー)も含まれます。
すべてのクレジットは元のモデル作者に帰属します。ライセンスは元のモデルと同一です。
参考情報:
Lumina 2のFP8スケーリング済みDiTモデルはわずか2.5GBです。つまり、3GBのGPUカードでもレイヤーのスワップなしで実行可能です。ただし、現代では実際にGTX 1050で実行する人はいないため、意味はないでしょう。これは効率の高さを示すための方法です。
「スケーリングFP8」について:
「スケーリングFP8」はFP8ではありません。「スケーリングFP8」は元のモデルと同等の品質を提供します。
VRAM使用量が-50%。
ComfyUIはそのまま対応しています。特別な変更は不要で、通常のモデルと同じローダーノードで読み込むだけです。
残念ながら、フルFP8計算のサポートはまだありません(2025年10月20日時点)。すべての計算は依然としてbf16です。試みましたがオーバーフローしました。
GPUのボトルネックがメモリバスである場合、わずかに高速化される可能性があります。それ以外の場合は差異はありません。
FP8スケーリング済みGemma 2 2B:
テキストエンコーダーは一度だけ実行され、その後CPUにオフロードされるため、通常は不要です。ただし、RAMが不足している場合に有用です。例えば、フルbf16モデルは10GBのRAMが必要です(DiT:4.8GB、TE:5.5GB)。システムの総RAMが16GB以下の場合、これは問題になります。フルFP8スケーリングモデルは約5.5GB(2.5 + 3)で済みます。


