Neta Lumina [TensorCoreFP8]
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
이 페이지는 Neta Lumina의 FP8 스케일링된 DiT 모델을 포함합니다.
Neta Lumina (NT)
NetaYume Lumina (NTYM)
그리고 FP8 스케일링된 Gemma 2 2b(텍스트 인코더)도 포함됩니다.
모든 저작권은 원본 모델 작성자에게 귀속됩니다. 라이선스는 원본 모델과 동일합니다.
참고:
Lumina 2의 FP8 스케일링된 DiT 모델은 단지 2.5GB입니다. 네, 이는 3GB GPU 카드로도 레이어 스왑 없이도 실행할 수 있다는 뜻입니다. 그러나 오늘날 누군가가 실제로 GTX 1050을 사용하여 실행할 가능성은 없으므로, 이는 단지 효율성을 과시하는 방식일 뿐입니다.
“스케일링된 FP8”에 대해:
“스케일링된 FP8”은 FP8이 아닙니다. “스케일링된 FP8”은 원본 모델과 동일한 품질을 제공합니다.
-50% VRAM 사용량
ComfyUI는 기본적으로 이를 지원합니다. 별다른 변경 없이 일반 모델과 동일한 로더 노드를 사용하여 로드하기만 하면 됩니다.
불행히도 현재(2025년 10월 20일 기준) 완전한 FP8 계산 지원은 없습니다. 모든 계산은 여전히 bf16입니다. 시도해보았지만 오버플로우가 발생했습니다.
GPU 카드의 병목이 메모리 버스인 경우 약간 더 빠르게 실행될 수 있습니다. 그렇지 않으면 차이가 없습니다.
FP8 스케일링된 Gemma 2 2b:
텍스트 인코더는 한 번만 실행된 후 CPU로 오프로드되기 때문에 일반적으로 불필요합니다. 단, RAM이 부족한 경우에 유용합니다. 예: 전체 bf16 모델은 로드에 10GB RAM이 필요합니다(DiT: 4.8GB, TE: 5.5GB). 이는 시스템 전체 RAM이 16GB 이하인 경우 문제가 됩니다. 전체 FP8 스케일링 모델은 약 5.5GB만 필요합니다(2.5 + 3).

