Fast WAN I2V Compact

세부 정보

파일 다운로드

모델 설명

사용 편의성을 위해 시각적으로 간결하고 단순화되어 설계되었습니다. 개인적으로 이 작업 흐름이 가장 정제된 방식이라고 생각합니다. 전체 레이아웃은 사용자 친화적이며 직관적이며, ComfyUI 작업창에 최소한의 공간만 차지하도록 설계되었습니다. 결국, 이 도구는 모든 WAN 비디오 생성 요구 사항을 한 곳에서 해결해 줍니다.


이 작업 흐름은 4070ti GPU에서 Sage Attention을 비활성화한 상태로 Q8 GGUF 모델을 사용하여 60초 만에 5초 길이의 480x480 비디오를 생성하며, LCM 샘플링과 Light X2V LoRA를 사용하여 생성 시간을 단축합니다.

이 작업 흐름은 주로 기본적이고 일반적인 노드 및 확장 기능을 사용하므로 최소한의 노력으로 쉽게 작동할 수 있습니다. 요구 사항 및 모델 다운로드 링크와 같은 세부 정보는 “더 보기”를 클릭하세요.

주요 기능에는 무한 LoRA 로더, Sage Attention, 비디오 확장에 사용할 수 있도록 생성물의 마지막 프레임을 가져오는 기능(마지막 프레임은 수동으로 저장 및 로드해야 함), 독립형 비디오 결합 유틸리티 작업 흐름, 그리고 독립형 업스케일링/보간 유틸리티 작업 흐름이 포함되어 있습니다. 이를 통해 생성된 비디오의 선택적이고 간편한 후처리가 가능하며, 고성능 PC에서 저사양 PC에 이르기까지 다양한 사용 사례를 고려하여 설계되었습니다.


WAN 2.2용:

이전 버전과 동일한 디자인이나, WAN 2.2 Low Noise 모델 전용으로 최적화되었습니다. 아래의 “필요 모델” 섹션에서 새 작업 흐름의 요구 사항을 확인하세요.

Light X2V LoRA는 WAN 2.2와 1.1~2.0 강도에서 작동하며, 모델의 동작을 유리하거나 해로운 방식으로 극적으로 변화시킬 수 있습니다. 테스트 후 가장 안정적인 결과를 얻을 수 있는 강도 1.5를 기본값으로 설정했습니다. 그러나 귀하의 환경에 가장 적합한 강도를 실험해 보세요.

WAN 2.2는 훨씬 더 역동적이며, 이는 WAN 2.1에서 사용하던 프롬프트 스타일과는 약간 다른 방식이 필요함을 의미합니다. LoRA에 대해서도 마찬가지로, 그 강도가 일반적으로 증폭되며, 이는 장점이자 단점이 될 수 있습니다. 전반적으로 저는 많은 우수한 결과를 얻고 있습니다. 따라서 좋은 결과를 얻기 위한 핵심은 모델에 적절한 프롬프트를 어떻게 작성하는지 배우는 것이며, LoRA 강도를 LoRA의 종류와 프롬프트/이미지 입력에 따른 반응에 따라 조정해야 할 수도 있습니다. 샘플링 단계를 6또는 8단계로 변경하는 것만으로도 결과가 향상될 수 있습니다.

작업 흐름의 샘플러/스케줄러 설정은 괜찮은 성능을 보여주지만, 더 많은 실험이 필요합니다. 특히 아래 요구 사항에 포함된 RES4LYF 커스텀 샘플러 및 스케줄러 확장 기능에서 더 나은 조합이 있을 수 있습니다.

일부 생성 결과가 방향을 잃을 수 있지만, 설정을 최적화한 후 WAN 2.2는 WAN 2.1로는 절대 얻을 수 없었던 수많은 우수한 결과물을 생성할 수 있습니다.


WAN 2.1용:

변경할 수 있는 주요 설정은 주로 출력 해상도나 샘플러 단계입니다. 다른 샘플러나 스케줄러도 작동할 수 있지만, LCM/Simple이 가장 일관된 결과를 제공한다고 느낍니다. LoRA 강도 외에 변경할 수 있는 다른 설정으로는 “SHIFT”가 있습니다. 이 설정은 CFG와 유사하게 작동하며, 프롬프트/LoRA의 표현 방식을 극적으로 바꾸고 움직임을 더욱 극적으로 변화시킬 수 있습니다. 그러나 일반적으로 이 설정은 기본값 그대로 두는 것이 좋습니다.


참고: Sage Attention은 기본적으로 비활성화되어 있습니다. Sage Attention을 활성화하려면(사전 요구 사항이 설치된 경우) “Enable for Sage Attention” 노드를 선택하고 Ctrl+B를 눌러 활성화한 후, 아래의 “sage_attention” 옵션을 “disabled”에서 “enabled”로 변경하세요. Sage Attention을 사용하지 않더라도, 작업 흐름이 작동하려면 해당 확장 기능을 반드시 설치해야 합니다.


필요 및 대안 모델:

GGUF WAN 2.2 i2v 모델(“low noise” 버전만 사용):

https://huggingface.co/bullerwins/Wan2.2-I2V-A14B-GGUF/tree/main

GGUF WAN 2.1 i2v 모델:

https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/tree/main

CLIP 모델:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors

또는 더 높은 정밀도의 BF16 CLIP 모델:

https://huggingface.co/minaiosu/Felldude/blob/main/wan21UMT5XxlFP32_bf16.safetensors

CLIP Vision 모델:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/clip_vision/clip_vision_h.safetensors

또는 커스텀 NSFW 전용 CLIP Vision 모델(권장):

/model/1802070/wan-21-nsfw-clip-vision-h

VAE 모델:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors

Light X2V T2V LoRA: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors

또는 새로운 적절한 Light X2V I2V LoRA(권장):

https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/blob/main/loras/Wan21_I2V_14B_lightx2v_cfg_step_distill_lora_rank64.safetensors

또는 Kijai의 다른 Light X2V 실험 버전:

https://huggingface.co/Kijai/WanVideo_comfy/tree/main/Lightx2v

RES4LYF 커스텀 샘플러 및 스케줄러:

https://github.com/ClownsharkBatwing/RES4LYF


비밀 팁: 투명하거나 단색 이미지(예: 검정색)를 사용하면 i2v 모델을 t2v 모델처럼 작동시킬 수 있습니다. 빈 입력 이미지에서 빠르게 전환되어 프롬프트를 따르기 위해 완전히 새로운 콘텐츠를 생성합니다. 작업 흐름이나 모델을 변경하지 않고도 t2v 기능을 쉽게 사용할 수 있는 방법입니다.


기타 유용한 정보:

WAN은 출력 해상도 변화에 따라 매우 다른 동작을 보입니다. 일반적으로 가로 또는 세로 중 하나가 480 픽셀일 때 가장 잘 작동합니다. WAN 2.2는 480p 및 720p 모델로 설계되었지만, 다른 해상도에서는 여전히 다르게 작동할 수 있으며, 설정 조정이 필요하거나 특정 해상도에서는 제대로 작동하지 않을 수 있습니다. 480x480에서 잘 작동하는 경우도 있고, 512x512 또는 더 높은 해상도에서는 더 나은 결과 또는 더 나쁜 결과를 보일 수 있지만, 일반적으로 가로 또는 세로 중 하나를 480 또는 720으로 설정할 때 가장 안정적인 결과를 얻을 수 있습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.