Z-Image Turbo [TensorCoreFP8]

네. 40% 작고, 50% 더 빠릅니다!

이것은 최신 ComfyUI 기능을 지원하는 새로운 FP8 스케일된 체크포인트입니다: 혼합 정밀도, 학습 후 캘리브레이션 및 FP8 텐서 코어 지원.

이 모델은 캘리브레이션된 메타데이터를 포함하며, ComfyUI는 BF16 대신 지정된 하드웨어에서 직접 FP8 계산을 수행합니다. 이는 BF16 및 고전적인 FP8 모델(FP8 양자화된 가중치만 포함하고 FP8 계산은 없음)보다 훨씬 빠릅니다(+50% it/s).

Z-image에 대해: https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

요약하면:

혼합 정밀도:

초기 및 최종 레이어는 여전히 BF16입니다. 중간 레이어는 FP8입니다. 따라서 이 모델은 고전적인 FP8 모델보다 1GB 더 큽니다.

학습 후 캘리브레이션 및 FP8 텐서 코어 지원:

최신 NVIDIA GPU(아마도 RTX 4xxx 이후)를 보유하고 있다면:

이러한 GPU는 원生 FP8 계산 지원을 제공합니다. 이 모델은 학습 후 캘리브레이션된 메타데이터를 포함하며, ComfyUI는 자동으로 이러한 고급 텐서 코어를 활용하여 BF16 대신 직접 FP8로 계산을 수행합니다.

4090에서 BF16 모델과 비교할 때:

고전적인 FP8 스케일드 모델: -8% it/s (fp8 -> bf16 디퀀타이즈 오버헤드)
고전적인 FP8 스케일드 모델 + torch.compile: +11% it/s
이 모델: +31% it/s
이 모델 + torch.compile: +60% it/s

5xxx GPU에서는 더 나은 텐서 코어 및 개선된 FP8 지원으로 위보다 더 빠를 것입니다. 테스트하지 않았습니다.

torch.compile을 사용하려면 "ComfyUI-KJNodes"의 torch.compile 노드를 추천합니다.

그러나, torch.compile에 대해: 제가 이 글을 작성하는 시점(2025년 11월 28일), ComfyUI v0.3.75에는 텐서 코어를 사용하는 FP8 모델을 torch.compile할 수 없는 작은 버그가 있습니다. 이 버그는 이미 수정되었습니다. 따라서 향후 ComfyUI v0.3.76으로 업데이트한 후 다시 시도하십시오. 또는 현재는 마스터 브랜치로 전환하십시오.

당신의 GPU가 FP8 텐서 코어를 지원하지 않는 경우:

걱정하지 마세요. 이 모델은 여전히 약 40%의 VRAM 절감을 제공합니다.

참고로: 이 모델(ComfyUI가 FP8 텐서 코어를 활용하여 선형 계산을 수행하는 방식)은 모든 종류의 어텐션 최적화(Sage Attention 등)와 호환됩니다. 그러나 이는 또 다른 주제입니다.

모델 유형	체크포인트
기본 모델	ZImageTurbo
게시일	11/28/2025

Z-Image Turbo [TensorCoreFP8]

세부 정보

파일 다운로드

모델 설명

이 모델로 만든 이미지