Kiko9 WAN 2.1 Native (ComfyUI)

세부 정보

파일 다운로드

모델 설명

🧠 Kiko9 ComfyUI WAN 2.1 네이티브 워크플로우

성능 향상을 위해 WAN 2.1를 중심으로 구성된 ComfyUI 및 Torch 컴파일(torch.compile)을 사용한 ComfyUI 이미지-동영상(I2V) 파이프라인입니다. 이 설계는 2단계 생성, 프레임 보간, 업스케일링 및 슬로우 모션을 포함하여 고화질 AI 강화 동영상 생성에 맞춰 최적화되었습니다.

시작 이미지 사용을 위한 워크플로우 링크:


📦 워크플로우 개요


🛠️ 프로젝트 구조

🔧 프로젝트 설정

  • 프로젝트 파일 경로 생성기: 정의된 기본 경로로 출력을 저장할 수 있습니다. 이 값을 로컬 출력 폴더로 설정하세요.

    • 사용자 작업: root_path를 원하는 저장 위치로 업데이트하세요.

🧮 배율 비율 로직 (수정 금지)

  • 이미지 크기를 기반으로 높이를 부동소수점에서 정수로 변환하여 배율 비율을 유지합니다.

    • ⚠️ 배율 비율 전파를 이해하지 않는 한 수정하지 마세요.

📸 비디오용 이미지 생성 (최적화된 해상도)

  • FLUX / SDXL과 같은 이미지 생성 도구를 사용하여 비디오 프레임을 생성할 때, 선명도와 일관성을 유지하기 위해 적절한 해상도로 생성하는 것이 중요합니다.

🎯 목표 비디오 해상도

  • 목표 크기: 480x832

  • 배율 비율: 480 ÷ 832 ≈ 0.577

✅ 이상적인 생성 해상도

세부사항을 보존하고 고품질 다운스케일링을 가능하게 하려면 2배 이상의 해상도로 생성하세요. 동일한 배율 비율을 유지하면 자르기나 왜곡을 피할 수 있습니다.

생성 해상도배율 비율비고960x1664960 ÷ 1664 ≈ 0.577✅ 완벽한 배율 비율 일치1024x15361024 ÷ 1536 ≈ 0.6667🔶 약간의 자르기 또는 패딩 필요

🔄 워크플로우

  1. 고해상도 이미지 생성: FLUX, SDXL 등을 사용하여 960x1664 또는 그 이상의 동일한 배율 비율로 생성합니다.

🧮 왜 이 방식이 효과적인가

  • 고해상도 생성은 아티팩트를 줄이고 품질을 높입니다.

  • 다운스케일링은 픽셀을 평균화하여 날카로운 가장자리와 노이즈를 부드럽게 합니다.

  • 동일한 배율 비율 유지로 왜곡이나 불필요한 패딩을 방지합니다.


📥 로더

  • CheckPoint 로드 (WAN2.1): WAN 2.1 네이티브(ComfyUI) 모델 체크포인트를 로드합니다.

  • VAE 및 CLIP 로더: 필요한 VAE 및 CLIP 인코더를 로드합니다.

  • Power LoRA 로더 (선택 사항): Power LoRA용입니다.

  • 타일 캐시, 엔ハン스, CLIP 비전: 보조 모델을 로드합니다.

    • 사용자 작업:

      • ckpt_name, vae_name, clip_name을 로컬 모델 파일에 맞게 설정하세요.

      • 파일이 설정한 ComfyUI 모델 폴더에 존재하는지 확인하세요.


🖼️ 이미지 / 크기 조정

  • 이미지 로드 / 크기 조정: 입력 이미지나 비디오 클립의 첫 번째 프레임을 로드하고 모델에 적합한 치수로 조정합니다.

🌍 전역 설정

  • CLIP 텍스트 인코딩 (프롬프트 및 부정 프롬프트): 모델 조건화를 위한 프롬프트입니다.

    • 사용자 작업: 주제/스타일에 따라 이 프롬프트를 사용자 정의하세요.
  • 시드 생성기 / 업스케일 팩터: 랜덤 시드와 이미지 확대 비율을 제어합니다.

    • 사용자 작업: 재현성을 위해 시드를 설정하거나, 랜덤으로 두려면 -1로 둡니다.

🔁 1단계 (초기 생성)

  • KSampler: 초기 추론을 실행합니다.

  • VAE 디코딩 및 비디오 결합: 잠재 공간을 이미지로 디코딩하고 소스와 결합합니다.

  • 슬로우 모션 / 사운드 재생: 선택적 오디오 동기화 및 슬로우 모션 설정입니다.

  • 2단계 시작 프레임으로 마지막 프레임을 선택하세요. (팝업 창)


🔁 2단계 (정교화 및 확장)

  • 1단계와 유사하지만 더 긴 추론 또는 더 높은 품질을 위해 최적화됩니다.

  • 1단계의 마지막 프레임을 2단계 시작 이미지로 사용합니다.

  • Clip에서 마스크 범위 가져오기: 주의 집중을 위한 마스크 영역을 추출합니다.

  • 이미지 배치 멀티: 여러 프레임을 동시에 처리합니다.


📈 업스케일링 및 프레임 보간

  • 이미지 선명화 / 얼굴 복원: 포스트프로세싱 향상입니다.

  • 이미지 업스케일 (Real-ESRGAN 또는 유사 도구).

  • 프레임 보간 (RIFE / FILM): 더 높은 FPS를 위한 부드러운 전환입니다.

  • 슬로우 모션: 선택적, 프레임을 추가하고 블렌딩하여 영화 같은 슬로우 모션을 만듭니다.


🧪 실험적 (선택 사항, 긴 처리 시간)

  • 고급 향상 또는 2단계 노이즈 제거/정교화입니다.

  • 매우 높은 품질이 요구되는 배치 렌더링에 유용합니다.

    • ⏱️ 경고: 이 단계는 처리 시간을 크게 증가시킵니다.

⚡ Torch Compile 설정 (매우 중요)

torch.compile을 통해 네이티브 가속을 활성화하려면 다음 요구사항을 충족해야 합니다:

✅ 요구사항

  • CUDA를 포함한 PyTorch 2.1+

  • Ampere 이상 아키텍처를 가진 NVIDIA GPU (RTX 30XX, 40XX)

  • 최신 nightly 버전의 ComfyUI를 사용하거나 수동으로 torch.compile() 패칭을 적용하세요.


💾 출력 저장

  • 프로젝트 경로 생성기비디오 결합 노드를 통해 제어됩니다.

  • 출력 형식(.mp4, .png, .webm 등)은 비디오 결합에서 명시적으로 설정해야 합니다.


📋 참고 사항

  • ⚠️ torch.compile의 첫 실행은 그래프 추적으로 인해 느립니다.

  • 🧠 WAN 2.1에 대해 프롬프트 조정이 핵심입니다 — 상세한 설명을 시도하세요.

  • ⚠️ 이 워크플로우는 오래된 장비에 최적화되지 않았습니다.


🙋 자주 묻는 질문

Q: 출력이 끊기거나 프레임이 누락됩니다.

  • 보간 설정과 슬로우 모션 설정을 확인하세요 — 필요 없으면 하나를 비활성화하세요.

Q: torch compile 중 워크플로우가 충돌합니다.

  • PyTorch 2.1+를 사용하고 GPU가 Ampere 이상인지 확인하세요.

Q: SDXL과 같은 다른 모델에서 이 워크플로우를 사용할 수 있나요?

  • 사용할 수는 있지만, WAN 2.1은 이 특정 설정에 최적화되어 있습니다. 결과는 달라질 수 있습니다.

📎 크레딧

  • 워크플로우 설계: Kiko9

  • WAN 2.1

  • 강력한 모듈식 엔진을 제공한 ComfyUI 팀


📂 폴더 구조 예시

ComfyUI/
├── models/
│ ├── checkpoints/
│ ├── vae/
│ ├── clip/
├── output/
│ └── generated/
├── custom_nodes/ │


📊 전체 WAN 2.1 생성 요약

단계설명시간 / 개수. 해상도

프롬프트 시작초기 프롬프트 실행 시작 92.95초

모델 로드WAN21 모델 가중치 로드 ~15,952ms

첫 번째 Comfy-VFI 단계TeaCache 초기화 후 프레임 생성 ~6분 13초 480x832

(1단계) 생성된 프레임Comfy-VFI 출력 231프레임 480x832

두 번째 Comfy-VFI 단계동일한 단계로 재생성 ~6분 28초 480x832

(2단계) 생성된 프레임Comfy-VFI 출력(480x832)

WanVAE 로드 (1단계)잠재 공간 모델 로드 ~1220ms

WanVAE 로드 (2단계)재사용을 위해 다시 로드 ~1304ms

얼굴 복원(GFPGAN)GFPGANv1.4로 이미지 복원 152프레임 512x512

Comfy-VFI 실행 (3단계)추가 프레임 생성 ~미확인 960x1664 생성된 프레임

(3단계) Comfy-VFI 출력456프레임 960x1664

Comfy-VFI 실행 (4단계)최종 생성 배치 ~미확인 960x1664 생성된 프레임

(4단계) Comfy-VFI 출력304프레임 960x1664

프롬프트 종료파이프라인 최종 단계 1050.60초

ℹ️ 참고사항:

  • "TeaCache 건너뛰기" 30번당 조건부 + 비조건부 12단계씩 = 약 20% 최적화.

  • 얼굴 복원 단계는 일부 프레임(152프레임)에만 적용되었습니다.

  • 마지막 두 단계에서 사용된 960x1664 해상도는 480x832 배율 비율과 완벽히 일치하며, 다운스케일링 또는 2배 비디오 출력에 이상적입니다.

🗨️ 피드백 및 기여

버그를 발견하거나 개선사항을 제공하고 싶으시면 언제든지 이슈를 제출해 주세요.


🔥 즐거운 렌더링 되세요!

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.