WAN 2.2 5b WhiteRabbit InterpLoop

세부 정보

파일 다운로드

모델 설명

중국어를 좋아하는 분들은 여기를 확인하세요: 영문을 본 후에 중국어 버전이 이어집니다.

WAN 2.2 5b WhiteRabbit Interp-Loop

이 미리 실행 가능한 ComfyUI 워크플로우는 하나의 이미지를 WAN 2.2 5b를 사용해 짧은 루프 동영상으로 변환합니다. 그 후, 루프의 이음매를 정리하여 자연스러운 전환을 구현합니다. 선택적으로 프레임 레이트를 높이고 ESRGAN으로 업스케일할 수도 있습니다.

즉, 이는 WAN 2.2 5b를 사용해 루프를 생성하는 이미지에서 영상으로의 워크플로우입니다!

왜 이렇게 복잡한가요?!

WAN 2.2 5b는 첫 번째 프레임 이후에 프레임을 주입하는 것을 완전히 지원하지 않습니다. 마지막 프레임을 주입하려고 하면 루프 애니메이션이 생성되지만, 마지막 4프레임은 "더러운" 프레임이 되고 루프 끝부분에 이상한 "플래시"가 발생합니다.

이 워크플로우는 이러한 한계를 극복하기 위해 제가 설계한 커스텀 노드를 활용합니다. 우리는 더러운 프레임을 잘라내고 이음매를 보간합니다.

모델 설정 (WAN 2.2 5b)

이 파일들을 일반적인 ComfyUI 폴더에 설치하세요. FP16 = 최고 품질. FP8 = 더 빠르고 가볍지만 일부 품질 손실이 있습니다.

Diffusion modelmodels/diffusion_models/
- FP16: wan2.2_ti2v_5B_fp16.safetensors
- FP8: Wan2_2-TI2V-5B_fp8_e5m2_scaled_KJ.safetensors

Text encodermodels/text_encoders/
- FP16: umt5_xxl_fp16.safetensors
- FP8: umt5_xxl_fp8_e4m3fn_scaled.safetensors

VAEmodels/vae/
- wan2.2_vae.safetensors

Optional LoRAmodels/lora/
- 추천: Live Wallpaper Style

: models/vae/wan2.2/ 같은 하위 폴더를 유지하여 점점 늘어나는 컬렉션을 정리하세요.

어떻게 작동하나요?

- 이음매 준비: 가장 마지막 프레임과 첫 번째 프레임을 가져와 이들 사이를 부드럽게 잇는 새로운 중간 프레임을 생성합니다. 이 새로운 프레임만 추가되며, 프레임 1의 복사본은 포함되지 않습니다.
- 전체 클립 보간 (선택 사항): 전체 영상에 걸쳐 중간 프레임을 곱한 후 원하는 FPS로 재샘플링합니다.
- 업스케일 (선택 사항): 원하는 ESRGAN 모델을 사용하여 전체 클립 보간 전에 업스케일링 단계를 추가합니다.
- 출력: ComfyUI/output/ 폴더에 LoopVid라는 파일명 접두사로 저장됩니다.

관심을 기울일 컨트롤

기본 설정은 “대부분의 GPU에서 안전하게 작동”하도록 되어 있습니다. VRAM이 더 많다면 조정하세요.

전체 클립 보간
- Roll & Multiply: 모든 곳에 더 많은 중간 프레임을 추가합니다 (예: ×3).
- Reample Framerate: 정확한 FPS로 변환합니다 (예: 60). Multiply 후에 유용하지만, 단독 사용도 가능합니다.

기타 유용한 설정
- Duration: WAN은 약 3초를 넘으면 비용이 증가합니다 (2.2는 약 5초까지 최적화됨).
- Working Size: 픽셀 단위의 긴 측면 (형태는 입력 이미지에서 유래).
- Steps: 약 30이 WAN 2.2의 최적값입니다.
- CFG: WAN 기본값은 5이며, 저는 약간 더 높게 설정했습니다. 높을수록 “프롬프트 강도”가 증가하고, 때로는 더 많은 움직임을 유발합니다.
- Schedule Shift: 움직임 대 안정성. 높을수록 더 많은 움직임.
- Upscale: 모델/타겟 크기 선택; OOM 발생 시 타일/배치 크기 감소.

이 모든 설정에 대한 더 자세한 정보는 워크플로우 자체에서 확인할 수 있습니다.

프롬프트를 위한 비전 모델 사용 (선택 사항이지만 유용함)

움직임 프롬프트를 작성하는 것이 어려우면, 비전 모델을 사용해 좋은 출발점을 얻을 수 있습니다. 몇 가지 옵션이 있습니다.

무료 클라우드 옵션

Google의 Gemini 또는 OpenAI의 ChatGPT는 대부분의 사용자에게 충분히 효과적인 무료 서비스입니다.

- 이미지를 업로드하고 아래 프롬프트를 붙여넣으세요.
- 모델의 설명을 복사하여 이 워크플로우의 Prompt 필드에 붙여넣으세요.

...그러나 이러한 서비스는 완전히 비공개가 아니며 성적인/NSFW 요청을 검열할 수 있습니다. 그래서 아래 두 가지 옵션을 탐색하는 것이 더 나을 수 있습니다.

유료 클라우드 옵션

많은 서비스가 클라우드 모델 접근을 제공하며, 이는 모델에 대한 검열 없는 접근을 얻는 더 신뢰할 수 있는 방법입니다.

예를 들어, OpenRouter에서 크레딧을 구매할 수 있습니다. 개인적으로 저는 Featherless를 선호합니다. 왜냐하면 그들은 고정 월 요금을 부과하여 비용을 예측 가능하게 만들고, 엄격한 로그 기록 금지 정책을 가지고 있기 때문입니다. 만약 시도해보고 싶다면, 저를 도와주는 내 추천 링크를 사용할 수 있습니다!

API/유료 클라우드 경로를 선택한다면, 제 앱인 CloudInterrogator가 도움이 될 수 있습니다. 이 앱은 클라우드 비전 모델에 프롬프트를 제공하는 것을 최대한 쉽게 설계되었으며, 완전히 무료이고 오픈 소스입니다!

로컬 추론 옵션

CivitAI의 많은 사용자들이 로컬 추론만을 선호합니다. 이들을 위해 Ollama가 있습니다.

설치에 대한 가장 좋은 가이드를 확인하세요. Google의 Gemma-3 모델 계열을 살펴보고, 자신의 GPU에 적합한 크기를 선택하세요.

Ollama를 사용한다면, Ollama가 OpenAI 호환 엔드포인트를 생성하므로 CloudInterrogator를 접근점으로 사용할 수 있으며, 또는 ComfyUI용 Ollama 노드로 이 워크플로우를 커스터마이징할 수 있습니다. 단, 프롬프트를 잠금 설정할 수 있는 경우에만 후자를 추천합니다.

많은 WAN 워크플로우는 Gemma3/Ollama 노드를 직접 통합합니다. 저는 이 방법을 선택하지 않았습니다. 왜냐하면 99%의 사용자에게 Gemini 또는 ChatGPT가 충분히 잘 작동하기 때문입니다.

추천 프롬프트:

이 비디오 프레임의 내용을 분석하고, 이후 이어지는 비디오 시퀀스에서 발생할 움직임에 대한 간결한 한 단락의 예측을 작성하세요.

귀하의 설명은 캐릭터와 장면의 전체적인 세부사항을 포함해야 하지만, 장면에서 발생하는 움직임과 관련된 부분에만 초점을 맞춰야 합니다. 또한 입자들의 움직임, 눈의 깜빡임, 머리카락의 흐름 등도 언급하세요. 이는 시간 속 한 순간을 포착한 것이며, 이 이미지가 담고 있는 몇 초 간의 움직임을 설명하는 것입니다. 움직일 수 있는 모든 것이 움직입니다 — 장면의 가장 미세한 디테일까지도요.

‘정지’를 설명하지 마세요. ‘약간’이나 ‘미묘한’ 같은 단어로 움직임을 최소화하지 마세요. 은유적 언어를 사용하지 마세요. 설명은 직접적이고 단호해야 합니다. 간단하고 일반적인 언어를 사용하세요. 구체적으로, 장면의 각 디테일이 어떻게 움직이는지 설명하세요. 그러나 과도하게 길지 마세요. 설명의 각 단어는 반드시 목적을 가져야 합니다. 현재 시제를 사용하세요. 마치 타이핑하는 순간 예측이 실현되고 있는 듯이 말이죠.

추가 정보나 이 응답을 서식화하는 특수 문자 없이 한 단락만 제출하세요. ‘이미지 시퀀스는 캐릭터를 묘사한다’는 문구를 사용하지 말고, ‘비디오가...’라고 말하지 말고, 일어나는 일을 직접 설명하세요."

사용하는 모델이나 원하는 결과에 따라 AmazingSeek의 워크플로우에서 제안한 프롬프트도 좋은 결과를 얻을 수 있습니다!

팁 및 문제 해결

WAN 프레임레이트: WAN 2.2는 24fps입니다. WAN 2.1을 시도한다면 대신 fps를 12로 설정하세요. 모델 로더 노드 근처에 이 설정을 위한 슬라이더가 있습니다. 워크플로우는 이 숫자를 기반으로 프레임레이트(곱셈 및 재샘플링)에 대한 조치를 자동으로 계산합니다.

이음매가 이상해 보이나요? 간단/정교한 이음매 보간을 전환해 보세요. 정교한 보간의 자동 크롭 검색 범위를 늘리세요. 또는 약간 다른 프롬프트/CFG로 다시 렌더링해 보세요.

메모리 부족(OOM)?
- WanVideo Decode 노드의 타일 크기(x, y)를 낮추세요.
- 업스케일 타일 크기 및/또는 배치 크기를 줄이세요.
- Working Size 또는 Duration을 줄이세요.
- “Use Tiled Encoder”를 활성화하세요.

AttributeError: type object 'CompiledKernel' has no attribute 'launch_enter_hook'

이 오류의 원인은 정확히 모르지만, WAN Video 노드와 관련이 있다고 생각합니다. 다음 절차로 해결할 수 있습니다:

1. "🧩 Manager"를 열세요

2. "Install PIP Packages"를 클릭하세요

3. 다음 두 패키지를 설치하세요(따옴표 제외): "SageAttention", "Triton-Windows"

3.1. 물론 Triton-Windows는 윈도우 사용자 전용입니다. 리눅스에서 이 오류가 발생한다면 Triton 패키지 이름은 그냥 "Triton"일 것입니다.

이것이 해결되지 않는다면, ComfyUI 파이썬 환경에 뭔가 문제가 있거나, 사용 중인 ComfyUI 버전이 Manager의 "Install PIP Packages" 모듈과 호환되지 않을 수 있습니다. 그런 경우 아래 코멘트 섹션의 조언이 도움이 될 수 있습니다:

alex223 에서
"하루를 거의 소비했지만 해결했습니다. 이것이 도움이 되었습니다, 그러나 어떤 이유로 제 임베디드 파이썬에 include와 libs 폴더가 없어서, 독립형 버전에서 복사했습니다. 트리톤이 작동하려면 이것이 필수였습니다. 제 코멘트가 누군가에게 도움이 되길 바랍니다."

여전히 문제가 있다면 코멘트를 남겨주세요. 저는 여러분이 문제를 해결하는 데 도움을 주는 것을 꺼리지 않습니다. 그러나 이 문제는 제 워크플로우나 WhiteRabbit(제 커스텀 노드)에 기인한 것이 아닙니다.

감사의 말

- 처음 실험할 때 루프 이음매를 보간하는 것이 “더러운 프레임” 문제에 좋은 해결책이 될 수 있다는 생각이 들었지만, AmazingSeek이 워크플로우가 실제로 이를 실행하도록 저를 결정하게 했습니다.
- 또한 Ekafalain도 AmazingSeek의 워크플로우가 기반한 그들의 seamless loop 워크플로우로 인해 이 자리에서 칭찬받아야 합니다.
- 제가 그들의 아이디어를 직접 사용하지는 않았지만, Caravel의 훌륭한 다단계 프로세스를 소개하고 싶습니다. 여기에서 볼 수 있는데, 주로 WAN 2.2 14b를 목표로 합니다. 이 워크플로우의 문서화 수준 자체가 훌륭합니다.
- 제가 추천하는 비전 프롬프트는 NRDX의 것을 기반으로 했습니다. 원래 워크플로우는 그의 patreon에서 볼 수 있습니다. 이 사람은 LiveWallpaper LoRA를 다양한 WAN 모델에 훈련시키는 사람입니다!

P.S. 💖

이 워크플로우가 도움이 된다면, 어떤 작품을 만들었는지 보고 싶습니다! 저는 이 워크플로우를 만들기 위해 많은 노력을 기울였습니다. 커스텀 노드를 설계하여 모두를 통합하고, 최대한 유용하게 사용할 수 있도록 가능한 한 많이 문서화했습니다.

링크
- 이 워크플로우에 사용된 커스텀 노드로 작업하거나 수정하는 방법을 더 잘 이해하려면 WhiteRabbit 저장소를 확인하세요.
- 내 웹사이트 및 소셜 미디어: artificialsweetener.ai에서 제 예술, 시, 기타 개발 업데이트를 확인하세요.
- 커피 한 잔 사주기: Ko-fi 페이지에서 이와 같은 프로젝트를 더 많이 만들 수 있도록 도와주세요!

이 워크플로우는 사랑하는 Cubby에게 바칩니다 🥰
- 그녀의 작품은 인터넷 곳곳에서 찾을 수 있습니다
- 그녀는 CivitAI에 다양한 훌륭한 LoRA를 보유하고 있으니 탐색해보세요 :3

VAEmodels/vae/

선택적 LoRAmodels/lora/

: models/vae/wan2.2/ 같은 하위 폴더를 사용하여 점점 늘어나는 모델 집합을 관리하기 쉽게 하세요.

작동 방식

  • 이음새 준비: 마지막 프레임과 첫 번째 프레임을 가져와 부드러운 전환을 위한 새로운 중간 프레임을 생성합니다. 이 새로운 프레임만 추가되며, 첫 번째 프레임은 반복적으로 추가되지 않습니다.

  • 전체 영상 보간 (선택 사항): 전체 영상에 걸쳐 중간 프레임을 배수로 증가시킨 후, 임의의 FPS로 리샘플링합니다.

  • 확대 (선택 사항): 전체 영상 보간 전에 ESRGAN 모델을 사용하여 확대 프로세스를 추가합니다.

  • 출력: ComfyUI/output/ 폴더에 "LoopVid" 접두사가 붙은 파일로 저장됩니다.

신경 써야 할 제어 항목

기본 설정은 "대부분의 GPU에 안전"하도록 구성되어 있습니다. VRAM이 더 여유롭다면 적절히 증가시킬 수 있습니다.

전체 영상 보간

  • 롤링 배수 ("Roll & Multiply"): 전체 영상 범위에서 더 많은 중간 프레임을 추가합니다 (예: ×3).

  • 리샘플링 프레임 속도 ("Resample Framerate"): 정확한 FPS로 변환합니다 (예: 60). 배수 증가 후 사용하는 것이 더 효과적이지만, 단독으로도 사용 가능합니다.

기타 유용한 조정 옵션

  • 지속 시간 ("Duration"): ~3초를 넘으면 비용이 증가합니다 (2.2는 ~5초에 최적화됨).

  • 작업 크기 ("Working Size"): 긴 쪽의 픽셀 수 기준 (비율은 입력 이미지에서 유지).

  • 스텝 수 ("Steps"): ~30이 WAN 2.2의 최적값입니다.

  • CFG: WAN 기본값은 5이며, 여기서 약간 증가했습니다. 숫자가 높을수록 "프롬프트 강도"가 높아지고, 때로는 더 많은 움직임을 유발합니다.

  • 스케줄 시프트 ("Schedule Shift"): 움직임 vs 안정성. 숫자가 높을수록 움직임이 더 강해집니다.

  • 확대 ("Upscale"): 모델/대상 크기를 선택하세요. OOM이 발생하면 tile/batch를 줄이세요.

이 설정에 대한 자세한 내용은 워크플로우 내에서 직접 확인하실 수 있습니다.

시각적 모델을 사용한 프롬프트 생성 (선택 사항이지만 매우 유용)

"움직임 프롬프트"를 작성하기 어려운 경우, 시각적 모델을 사용해 좋은 시작점을 얻을 수 있습니다. 여러 선택지가 있습니다.

무료 클라우드 솔루션

Google의 Gemini 또는 OpenAI의 ChatGPT는 무료이며 대부분의 사용자에게 충분합니다.

  • 이미지를 업로드하고 아래 프롬프트를 붙여넣으세요.

  • 모델이 생성한 설명을 복사하여 이 워크플로우의 Prompt 필드에 붙여넣으세요.

...하지만 이 서비스들은 개인정보 보호가 좋지 않으며, 저속/NSFW 요청을 검열할 수 있습니다. 그래서 다른 두 가지 옵션을 고려해볼 만합니다.

유료 클라우드 서비스

클라우드 기반 모델 접근을 제공하는 여러 서비스가 있으며, 이는 검열되지 않은 모델을 얻는 더 신뢰할 수 있는 방법입니다.

예를 들어, OpenRouter에서 포인트를 구매할 수 있습니다. 저는 개인적으로 Featherless를 선호합니다. 월정액 요금제로 비용이 예측 가능하며, 엄격한 "로그 보존 안 함" 정책을 가지고 있기 때문입니다. 시도해보고 싶다면, 저의 추천 링크를 사용해 주세요!

API/유료 클라우드 경로를 선택하신다면, 제 앱 CloudInterrogator가 도움이 될 수 있습니다. 이 도구는 클라우드 시각 모델의 프롬프트 생성 프로세스를 최대한 단순화하도록 설계되었으며, 완전히 무료로 오픈소스입니다.

로컬 추론 솔루션

CivitAI에는 로컬만 사용하는 사용자들도 많습니다. Ollama를 선택하실 수 있습니다.

제가 찾을 수 있었던 최고의 설치 가이드를 참고하세요. Google의 Gemma-3 모델 패밀리를 확인하고, 자신의 GPU에 맞는 크기를 선택하세요.

Ollama를 사용한다면, Ollama가 OpenAI 호환 엔드포인트를 제공하므로 CloudInterrogator를 바로 사용할 수 있습니다. 또는 ComfyUI에 Ollama 노드를 추가하여 이 워크플로우를 커스터마이징할 수도 있지만, 프롬프트를 확실히 제어할 수 없다면 추천하지 않습니다.

많은 WAN 워크플로우는 Gemma3/Ollama 노드를 내장합니다. 그러나 저는 99%의 사용자가 Gemini나 ChatGPT로 충분하다고 생각하여 그렇게 하지 않았습니다.

추천 프롬프트:

이 비디오 프레임의 내용을 분석하고, 이후 전체 비디오 시퀀스에서 발생할 움직임을 간결한 한 단락으로 예측해 주세요.

당신의 설명은 캐릭터와 장면의 전체 세부사항을 포함해야 하지만, 장면 내 "움직임"과 관련된 부분에만 국한해야 합니다. 또한 입자 움직임, 눈 깜박임, 머리카락 흔들림 등을 기록하세요. 이는 시간이 정지된 순간이며, 이 이미지가 포함하는 몇 초 내에서 발생할 일들을 설명해야 합니다. 가능한 모든 요소가 움직이고 있습니다 — 장면의 미세한 세부사항까지 포함됩니다.

"정지"를 설명하지 마세요. "약간", "미세한" 같은 단어로 움직임을 약화시키지 마세요. 은유적 언어를 사용하지 마세요. 설명은 직접적이고 명확해야 합니다. 간단하고 일상적인 언어를 사용하세요. 구체적으로, 장면 내 각 세부사항이 어떻게 움직이는지 설명하되, 과도하게 길지 않게 하세요. 작성하는 모든 단어는 의미가 있어야 합니다. 현재 시제를 사용하고, 예측이 입력되는 순간 실제로 일어나고 있다고 상상하세요.

당신은 추가 정보 없이 한 단락만 출력해야 합니다. 형식을 변경하는 특수 문자를 사용하지 마세요. "이미지 시퀀스는 캐릭터를 묘사한다" 같은 표현을 사용하지 말고, 무엇이 일어나는지 직접적으로 설명하세요. "비디오..."라고 말하지 마세요.

사용하는 모델이나 목적에 따라 AmazingSeek 워크플로우 프롬프트도 동일하게 유용할 수 있습니다!

팁 및 문제 해결

WAN 프레임 속도: WAN 2.2는 24fps입니다. WAN 2.1을 사용하는 경우 fps를 12로 설정하세요. 모델 로드 노드 근처에 해당 슬라이더가 있습니다. 워크플로우는 이 값에 따라 프레임 속도 관련 프로세스(배수 증가 및 리샘플링)를 자동으로 계산합니다.

이음새가 이상하게 보이나요? "간단/고급" 이음새 보간 간에 전환해 보세요. 고급 모드에서 자동 자르기 검색 범위를 늘리세요. 또는 약간 다른 프롬프트/CFG로 다시 렌더링하세요.

VRAM이 부족한가요?

  • WanVideo Decode 노드에서 tile 크기(x 및 y)를 줄이세요.

  • 확대(Upscale)의 tile 크기 및/또는 배치 크기를 줄이세요.

  • 작업 크기 또는 지속 시간을 줄이세요.

  • "Use Tiled Encoder"를 활성화하세요.

감사의 말

  • 처음 실험할 때, 루프 이음새에 보간을 적용하면 "더러운 프레임" 문제를 해결할 수 있을 것이라 생각했지만, 실제로 이 프로젝트를 시작하게 만든 것은 AmazingSeek이 워크플로우였습니다.

  • Ekafalain도 이에 대해 인정받을 자격이 있습니다. AmazingSeek의 매끄러운 루프 워크플로우는 그의 성과를 기반으로 합니다.

  • 저는 궁극적으로 그들의 아이디어를 직접 채택하지는 않았지만, Caravel에게도 감사를 전합니다. 그들의 WAN 2.2 14b를 위한 단계별 프로세스는 매우 훌륭하며, 여기에서 확인할 수 있습니다. 문서 수준만으로도 칭찬받을 가치가 있습니다.

  • 제가 추천하는 시각적 프롬프트는 NRDX의 버전을 재작성한 것입니다. 원본 워크플로우는 그의 Patreon에서 확인할 수 있습니다. 또한 그는 다양한 WAN 모델을 위한 LiveWallpaper LoRA를 학습한 사람입니다.

후기 💖

이 워크플로우가 도움이 되었다면, 제작한 작품을 보고 싶습니다! 저는 맞춤형 노드를 설계하여 모든 것을 연결하고, 가능한 한 유용하게 만들기 위해 상세한 문서를 작성하는 데 많은 에너지를 쏟았습니다.

링크

  • 이 맞춤형 노드를 어떻게 구성하고, 이 워크플로우를 어떻게 조정하는지 더 잘 이해하려면 WhiteRabbit 저장소의 노드 문서 및 원자 워크플로우를 확인하세요.

  • 개인 웹사이트 및 소셜 미디어: artificialsweetener.ai에서 제 예술, 시, 개발 동향을 확인하세요.

  • 커피 한 잔 사주기: 제 Ko-fi 페이지에서 더 많은 비슷한 프로젝트를 지원하세요.

이 워크플로우는 제가 사랑하는 Cubby에게 바칩니다 🥰

  • 그녀의 작품은 전체 웹에서 볼 수 있습니다.

  • 그녀는 CivitAI에서도 많은 훌륭한 LoRA를 제공합니다 :3

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.