WAN 2.1 IMAGE to VIDEO with Caption and Postprocessing

세부 정보

파일 다운로드

모델 설명

워크플로우: 이미지 -> 자동 캡션(프롬프트) -> WAN I2V (업스케일 및 프레임 보간 및 영상 확장 포함)

  • 최대 480p 해상도의 영상 클립을 생성합니다(해당 모델 사용 시 720p).

Florence 캡션 버전과 LTX 프롬프트 향상기(LTXPE) 버전이 있습니다. LTXPE는 VRAM을 더 많이 사용합니다.


MultiClip: Wan 2.1. I2V 버전Fusion X Lora 지원, 8단계로 클립 생성 및 최대 3배 확장 가능. 예시는 15-20초 길이의 클립을 참고하세요.

워크플로우는 입력 이미지에서 클립을 생성하고 최대 3개의 클립/시퀀스로 확장합니다. 대부분의 경우 컬러 매치 기능을 사용해 색상과 조명의 일관성을 유지합니다. 자세한 내용은 워크플로우의 참고 사항을 확인하세요.

일반 버전(자신의 프롬프트 사용 가능)과 LTXPE 버전(자동 프롬프트 생성)이 있습니다. 일반 버전은 특정 또는 NSFW 클립에 Lora를 적용할 때 잘 작동하며, LTXPE 버전은 이미지를 드롭하고 너비/높이를 설정한 후 실행 버튼만 누르면 됩니다. 최종적으로 모든 클립이 하나의 전체 영상으로 결합됩니다.

2025년 7월 16일 업데이트: 새로운 Lora "LightX2v"가 Fusion X Lora의 대안으로 출시되었습니다. 사용하려면 블랙 "Lora Loader" 노드에서 Lora를 교체하세요. 이 Lora는 단지 4-6단계만으로 훌륭한 움직임을 생성할 수 있습니다. : https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/tree/main/loras

추가 정보/팁 및 도움말: /model/1309065/wan-21-image-to-video-with-caption-and-postprocessing?dialog=commentThread&commentId=869306


V3.1: Wan 2.1. I2V 버전Fusion X Lora 지원, 고속 처리

Fusion X Lora: 영상을 단지 8단계(또는 그 이하, 워크플로우의 참고 사항 참조)로 처리합니다. V3.0의 CausVid Lora에 있던 문제점이 없으며 컬러 매치 보정이 필요하지 않습니다.

Fusion X Lora 다운로드: /model/1678575?modelVersionId=1900322 (i2V)

최고 품질을 원한다면 아래 V3.0 버전의 OSS를 확인하세요.


V3.0: Wan 2.1. I2V 버전Optimal Steps Scheduler (OSS)CausVid Lora 지원

  • OSS는 품질을 높이면서 단계 수를 줄이는 새로운 comfy 코어 노드입니다. 50단계 이상을 사용하지 않고도 약 24단계로 동일한 결과를 얻을 수 있습니다. https://github.com/bebebe666/OptimalSteps

  • CausVid는 Lora를 사용해 단지 8-10단계로 영상을 처리하며, 속도는 빠르지만 품질은 낮습니다. Lora는 증가된 채도를 보정하기 위해 후처리에서 컬러 매치 옵션을 제공합니다. Lora 다운로드: https://huggingface.co/Kijai/WanVideo_comfy/tree/main

    (Wan21_CausVid_14B_T2V_lora_rank32.safetensors)

  • 두 버전 모두 Florence 또는 LTX 프롬프트 향상기(LTXPE)를 캡션에 사용할 수 있으며, Lora를 지원하고 Teacache가 포함되어 있습니다.


V2.5: Wan 2.1. Lora 지원 이미지에서 영상으로 변환 및 스킵 레이어 가이던스(움직임 개선)

표준 버전(Teacache, Florence 캡션, 업스케일, 프레임 보간 등 포함)과 LTX 프롬프트 향상기를 추가 캡션 도구로 사용하는 버전이 있습니다(자세한 내용은 참고 사항 참조, 맞춤 노드 필요: https://github.com/Lightricks/ComfyUI-LTXVideo).

Lora 사용 시, Lora 트리거 문구를 포함한 자체 프롬프트로 전환하는 것이 좋습니다. 복잡한 프롬프트는 일부 Lora를 혼란스럽게 만들 수 있습니다.


V2.0: Wan 2.1. 이미지에서 영상으로 변환GGUF 모델용 Teacache 지원, 생성 속도 30-40% 향상

첫 번째 단계는 일반 속도로 렌더링하고, 나머지 단계는 더 빠른 속도로 처리합니다. 복잡한 움직임의 경우 품질에 약간의 영향을 줄 수 있습니다. Strg-B를 눌러 Teacache 노드를 우회할 수 있습니다.

워크플로우가 포함된 예시 클립: https://civitai.com/posts/13777557

Teacache 관련 정보 및 도움말: /model/1309065/wan-21-image-to-video-with-caption-and-postprocessing?dialog=commentThread&commentId=724665


V1.0: WAN 2.1. 이미지에서 영상으로 변환 — Florence 캡션 또는 자체 프롬프트, 업스케일, 프레임 보간, 클립 확장 기능 포함

워크플로우는 GGUF 모델을 사용하도록 설정되어 있습니다.

클립을 생성할 때, 업스케일 및/또는 프레임 보간을 적용할 수 있습니다. 업스케일 비율은 사용하는 업스케일 모델에 따라 달라집니다(2배 또는 4배, "load upscale model" 노드 참조). 프레임 보간은 모델 기본 프레임률 16fps에서 32fps로 증가하도록 설정됩니다. 결과는 오른쪽의 "Video Combine Final" 노드에 표시되며, 왼쪽 노드에는 처리되지 않은 클립이 표시됩니다.

케이블을 숨기려면 "Toggle Link visibility"를 사용하는 것이 좋습니다.


모델 다운로드 위치:

Wan 2.1. I2V (480p): https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/tree/main

Clip (fp8): https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders

Clip Vision: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/clip_vision

VAE: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae


Wan 2.1. I2V (720p): https://huggingface.co/city96/Wan2.1-I2V-14B-720P-gguf/tree/main

Wan2.1. 텍스트에서 영상으로 변환(작동함): https://huggingface.co/city96/Wan2.1-T2V-14B-gguf/tree/main


이 파일들을 ComfyUI 폴더 내에 저장할 위치:

Wan GGUF 모델 -> models/unet
Textencoder -> models/clip
Clipvision -> models/clip_vision
VAE -> models/vae


팁:

  • "Video combine Final" 노드의 프레임률을 30에서 24로 낮추어 슬로우 모션 효과를 얻으세요.
  • 텍스트에서 영상으로 변환하는 GGUF 모델을 사용할 수 있으며, 이 역시 작동합니다.
  • 프레임의 오른쪽 끝에 이상한 아티팩트가 나타나는 경우, "Define Width and Height" 노드의 매개변수 "divisible_by"를 8에서 16으로 변경해 보세요. 이는 표준 Wan 해상도에 더 잘 맞춰 아티팩트를 방지할 수 있습니다.

오디오가 포함된 전체 영상 예시:

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.