WAN 2.2 S2V 14B GGUF
세부 정보
파일 다운로드
모델 설명
Wan-S2V은 정적 이미지와 오디오를 고화질 영상으로 변환할 수 있는 AI 영상 생성 모델입니다.
WIP: 필요한 모든 정보/도구를 추가하여 설명을 작성 중입니다! 일부 주의해서 사용하세요 🤪
참고: S2V는 매우 높은 확률로 첫 번째 "화려한" 과도하게 채도된 프레임을 생성합니다. 이는 현재 모든 Wan 2.2 S2V 모델의 제한 사항입니다.
필수 조건:
4/8단계 작동을 위한
lite lora(선택 사항)메인 모델 Wan2.2-S2V-14B
ComfyUI/models/unetGGUF오디오 인코더 wav2vec2_large_english
ComfyUI/models/audio_encoders인코더 Umt5-xxl
ComfyUI/models/text_encodersWan2.1_VAE.safetensors
ComfyUI/models/vae
사용 팁:
- 오디오 파일의 길이는 영상 파일의 길이(초 단위)와 거의 동일해야 합니다.
👂🎶 👉 팁: 샘플을 클릭하여 전체 화면으로 보고, 소리 켜고 게시물에서 재생하세요!
소스:
Clip: https://huggingface.co/city96/umt5-xxl-encoder-gguf/
모델: https://huggingface.co/QuantStack/Wan2.2-S2V-14B-GGUF/
Lite LoRA: https://huggingface.co/calcuis/wan2-gguf/
**당신은 항상 출력물에 책임을 집니다! 만약 당신이 이용약관** 에 위배되는 콘텐츠를 생성하고 제가 이를 인지하게 되면, 반드시 신고하겠습니다.
