Neta Lumina [TensorCoreFP8]

세부 정보

파일 다운로드

모델 설명

이 페이지는 Neta Lumina의 FP8 스케일링된 DiT 모델을 포함합니다.

모든 저작권은 원본 모델 작성자에게 귀속됩니다. 라이선스는 원본 모델과 동일합니다.


참고:

Lumina 2의 FP8 스케일링된 DiT 모델은 단지 2.5GB입니다. 네, 이는 3GB GPU 카드로도 레이어 스왑 없이도 실행할 수 있다는 뜻입니다. 그러나 오늘날 누군가가 실제로 GTX 1050을 사용하여 실행할 가능성은 없으므로, 이는 단지 효율성을 과시하는 방식일 뿐입니다.

“스케일링된 FP8”에 대해:

  • “스케일링된 FP8”은 FP8이 아닙니다. “스케일링된 FP8”은 원본 모델과 동일한 품질을 제공합니다.

  • -50% VRAM 사용량

  • ComfyUI는 기본적으로 이를 지원합니다. 별다른 변경 없이 일반 모델과 동일한 로더 노드를 사용하여 로드하기만 하면 됩니다.

  • 불행히도 현재(2025년 10월 20일 기준) 완전한 FP8 계산 지원은 없습니다. 모든 계산은 여전히 bf16입니다. 시도해보았지만 오버플로우가 발생했습니다.

  • GPU 카드의 병목이 메모리 버스인 경우 약간 더 빠르게 실행될 수 있습니다. 그렇지 않으면 차이가 없습니다.

FP8 스케일링된 Gemma 2 2b:

텍스트 인코더는 한 번만 실행된 후 CPU로 오프로드되기 때문에 일반적으로 불필요합니다. 단, RAM이 부족한 경우에 유용합니다. 예: 전체 bf16 모델은 로드에 10GB RAM이 필요합니다(DiT: 4.8GB, TE: 5.5GB). 이는 시스템 전체 RAM이 16GB 이하인 경우 문제가 됩니다. 전체 FP8 스케일링 모델은 약 5.5GB만 필요합니다(2.5 + 3).

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.