WAN 2.2 S2V 14B GGUF

세부 정보

파일 다운로드

모델 설명

Wan-S2V은 정적 이미지와 오디오를 고화질 영상으로 변환할 수 있는 AI 영상 생성 모델입니다.

WIP: 필요한 모든 정보/도구를 추가하여 설명을 작성 중입니다! 일부 주의해서 사용하세요 🤪

참고: S2V는 매우 높은 확률로 첫 번째 "화려한" 과도하게 채도된 프레임을 생성합니다. 이는 현재 모든 Wan 2.2 S2V 모델의 제한 사항입니다.

필수 조건:

  • 4/8단계 작동을 위한 lite lora (선택 사항)

  • 메인 모델 Wan2.2-S2V-14B ComfyUI/models/unet GGUF

  • 오디오 인코더 wav2vec2_large_english ComfyUI/models/audio_encoders

  • 인코더 Umt5-xxl ComfyUI/models/text_encoders

  • Wan2.1_VAE.safetensors ComfyUI/models/vae

사용 팁:

  • 오디오 파일의 길이는 영상 파일의 길이(초 단위)와 거의 동일해야 합니다.

👂🎶 👉 팁: 샘플을 클릭하여 전체 화면으로 보고, 소리 켜고 게시물에서 재생하세요!

소스:

Clip: https://huggingface.co/city96/umt5-xxl-encoder-gguf/

모델: https://huggingface.co/QuantStack/Wan2.2-S2V-14B-GGUF/

Lite LoRA: https://huggingface.co/calcuis/wan2-gguf/


**당신은 항상 출력물에 책임을 집니다! 만약 당신이 이용약관** 에 위배되는 콘텐츠를 생성하고 제가 이를 인지하게 되면, 반드시 신고하겠습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.