Wan2.1 14B i2v (Native|GGUF) Self-Forcing(lightx2v) Single/Dual Sampling

세부 정보

모델 설명

definitelynotadog님께 Dual KSampler 워크플로우로 인해 감사드립니다.

Ada321님께 CivitAI에서 Self-Forcing(Lightx2v) LoRA를 업로드해 주셔서 감사드립니다.


*25/7 업데이트 🟨 Dual Sampler 워크플로우 V3 (누군가 시도해보고 싶을 수 있으므로 업데이트했습니다. 속도는 더 느리고 약간 더 복잡합니다. 기본 구조에는 변경 사항이 없습니다.)

*24/7 추가 🟩 Single Sampler 워크플로우 V3

  • 모든 WF에 비디오 미리보기 추가

  • 확장형 및 압축형 WF에 포스트 프로세싱 섹션 추가

  • 확장형 및 압축형 WF의 일부 입력값을 포스트 프로세싱 섹션으로 이동

  • 확장형 및 압축형 WF의 시드 노드는 기본값으로 **"New Fixed Random"**으로 설정됨

  • VRAM 정리Easy-Use Custom Node Clean VRAM으로 교체

  • 아이콘 추가, 일부 시각적 요소 조정, 및 일부 노트 수정 및 추가

  • 보간 + 업스케일러 WF에서 미세한 시각적 조정

포스트 프로세싱 섹션 (확장형 및 압축형):

시드 노드에서 "New Fixed Random"을 사용할 경우, 비디오 생성 후 입력값을 변경/편집하거나 다른 옵션을 선택하여 샘플링 과정/단계를 건너뛰고 다시 생성할 수 있습니다.

예시: ComfyUI RUN 버튼을 클릭하여 비디오를 생성했지만, 보간 배수를 설정하거나 보간 + 업스케일 옵션을 선택하는 것을 잊어버렸다고 가정해 봅시다. 비디오 생성이 완료되면, 보간 배수를 변경하고/또는 보간 + 업스케일 옵션을 선택한 후 다시 ComfyUI RUN 버튼을 클릭할 수 있습니다. 이때 동일한 시드 번호를 사용하고 있으며 포스트 프로세싱 섹션 외부의 입력값을 변경하지 않기 때문에 샘플링 단계를 건너뜁니다.

새로운 시드 비디오를 생성하려면 시드 노드에서 "New Fixed Random"을 클릭한 후 ComfyUI RUN 버튼을 클릭하세요.

이 방법은 비디오 초안 작업을 가속화하여 원하지 않는 비디오의 보간 또는 업스케일링에 시간을 낭비하지 않도록 도와줍니다.

WF 내에 간단한 글쓰기 가이드 포함.

17/7 - 새로운 Self-Forcing(Lightx2v) LoRA와 함께 사용하기 위한 🟩 Single Sampler 워크플로우 V2.1 추가.

Single Sampler 다운로드에는 다음 WF 포함:

  • 확장형 (모든 연결 표시 - 주로 학습 + 탐색용)

  • 압축형 (필수 요소만 표시하고 나머지는 숨김)

  • 단순화형 (입력값에 더 많은 제어를 원하는 사용자를 위한 "표준화된" WF)

  • 보간 + 2x 업스케일러 (원하는 비디오를 얻을 때까지 여러 비디오를 생성한 후 나중에 보간 + 업스케일링하려는 경우 유용)

  • 결합기/병합기 (두 비디오를 합쳐줌)

이 Single Sampler 워크플로우에는 다음 기능 포함:

  • Diffuser 모델 + Clip용 GGUF 로더 (GGUF 모델 + 클립을 함께 사용하는 것이 가장 좋음)

  • 메모리 관리를 위한 Block Swap

  • Sage Attention (생성 시간 단축) - 어떻게 설치했는지 잊어버렸습니다.

  • Torch Compile (생성 시간 단축) - 시스템이 지원할 때만 활성화

  • NAG (정규화된 어텐션 가이던스) - CFG 1 사용 시 부정 프롬프트 영향을 지능적으로 조절

  • 스택 LoRA 로더

  • 이미지 치수 조정을 위한 너비 기반 스케일링

  • 비디오 속도 제어

  • 부드러움을 위한 프레임 보간

  • 비디오 길이, 속도 및 보간 배수 입력에 따라 프레임 수 및 프레임 속도를 자동 계산

  • 마지막 프레임 저장 (비디오 시퀀싱용)

  • 색상 매칭 (비디오 시퀀싱이나 전체 비디오에서 일관된 색상 유지에 유용)

  • VRAM - 정리

  • 업스케일러 (최대 2x)

내 3090 Ti 24GB에서의 생성 시간: 5분 30초

  • 720x960 이미지 - 4단계 - 81프레임 (5초) - 4x 보간 - 업스케일러 - GGUF - Torch Compile - Sage Attention

위에 게시된 비디오는 속도 조정 없이 게시되었습니다.

임베드된 워크플로우 포함. (비디오 다운로드 후 ComfyUI에 드래그)

워크플로우 내 모델/LoRA 파일 링크 포함.

항상 이 페이지에서 파일을 다운로드하세요. 사소한 업데이트가 있을 수 있습니다.

(설정 예시로 게시된 비디오 활용)

몇 개의 LoRA만 테스트했으며, 모두 잘 작동하는 것 같습니다. 작동하지 않는 LoRA가 있다면 대안 LoRA를 시도해 보세요. 필요시 언제든지 Dual Sampler로 돌아갈 수 있습니다. (여전히 기능하지만 Single Sampler보다 시간이 더 걸림) Self-Forcing(Lightx2v) 강도를 낮추는 것도 시도해보세요.


🟨 Dual Sampler 섹션:

*V2.1 사소한 업데이트.

  • Tiled VAE 디코더를 일반 VAE 디코더로 전환 (5초 이상 또는 81프레임 이상일 때 갑작스러운 번쩍임 발생 문제 해결)

  • 모든 WF에서 CausVid v2 링크 업데이트 또는 여기에서 다운로드. (01hessiangranola851 감사)

*이미 WF를 사용 중인 경우:

  • 5초 이상 비디오 생성 시 번쩍임/갑작스러운 밝기 변화를 경험한다면, VAE 디코더(Tiled)의 temporal_size를 64로 설정하거나 일반 "Untiled" VAE 디코더로 전환하세요.

  • 처음 몇 프레임이 회색으로 나타난다면, CausVid 강도를 줄이거나 0.3으로 설정하세요.

*V2 업데이트

  1. GGUF Diffusion 모델 및 Clip용 GGUF 로더 및 다운로드 링크 포함. (Native 또는 GGUF 중 하나를 선택. 사용하지 않는 것은 비활성화/삭제)

  2. Torch Compile을 "수정"하고 fp16 누적 옵션 추가

  3. 색상 매칭 (비디오 시퀀싱 또는 전체 비디오에서 일관된 색상 유지에 유용)

  4. 외부 비디오 병합기/결합기 템플릿 (확장형 버전)

  5. CausVid 강도 (범위: 0.3 - 1)

  6. 미세한 시각적 및 노트 조정


i2v 워크플로우는 다음 목적을 염두에 두고 구축되었습니다:

  • Self-Forcing(lightx2v) LoRA 사용을 위한 것 (그러나 이에만 국한되지 않음)

  • 학습 및 탐색 목적

  • 실험적 목적

  • 모듈식 섹션 (추가, 확장, 교체, 워크플로우 일부 추출 가능)

  • 확장형 버전에서 모든 연결을 볼 수 있는 폭발도 표현

이 Dual Sampler 워크플로우에는 다음 기능 포함:

  • 메모리 관리를 위한 Block Swap

  • Sage Attention (설치되어 있다면 활성화)

  • Torch Compile

  • 스택 LoRA 로더

  • 이미지 치수 조정을 위한 너비 기반 스케일링

  • 비디오 속도 제어

  • 부드러움을 위한 프레임 보간

  • 비디오 길이, 속도 및 보간 배수 입력에 따라 프레임 수 및 프레임 속도를 자동 계산

  • 마지막 프레임 저장

  • 첫 번째 KSampler 잠재 공간 및 최종 비디오 이미지에 대한 미리보기

  • 2개의 KSampler를 사용한 이중 샘플링

  • VRAM - 정리

  • 업스케일러 (최대 2x)

  • 외부 프레임 보간 템플릿 (확장형 버전)


사용할 모델:

워크플로우는 wan2.1 14B 480p 또는 720p (i2v)를 사용할 수 있습니다.

720p 모델 및 더 높은 해상도 이미지가 권장되며, 특히 움직임 중 눈과 이빨의 품질이 더 좋습니다.

예시:

5초 초반 / 3초 말단 / 81프레임

480p 모델 - 480x640 이미지

480p 모델 - 720x960 이미지

720p 모델 - 480x640 이미지

720p 모델 - 720x960 이미지

내 3090 Ti 24GB에서 Sage Attention 사용, GGUF 미사용 시 생성 속도: 5초 초반 및 3초 말단 (총 8단계), 81프레임, 4x 프레임 보간 배수

  • 720 x 960 이미지: 약 750초 (12-13분 추정)

  • 480 x 640 이미지: 약 350초 (5-6분 추정)

참고:

  • 일부 LoRA는 얼굴이나 캐릭터를 왜곡할 수 있습니다. LoRA 강도를 낮추거나 대안 LoRA를 사용하세요.

  • 더 나은 움직임 시드를 얻기 위해 몇 번 생성해야 할 수도 있습니다. 인내심을 가지세요.

  • 모든 LoRA를 테스트하지 않았으므로 직접 테스트하여 확인해야 합니다.

    (480p/720p 모델, 이미지 치수, LoRA 강도, 시작 CFG)

  • *사용 중인 다른 LoRA가 너무 공격적이라면(과도한 움직임, 색상 변화, 갑작스러운 노출), 시작 CFG를 낮추세요. 3과 5 사이를 번갈아가며 더 나은 결과를 찾으세요.

    위에 게시된 일부 비디오는 다른 LoRA가 높은 CFG 수준에서 너무 공격적이어서 낮은 CFG를 사용했습니다.

다른 LoRA를 사용한 움직임 초안 작성:

  • LoRA가 움직임을 생성하는지 확인하기 위해 더 작은 이미지 치수를 사용해 빠른 생성을 시도하세요.

  • LoRA 및 프롬프트에 만족하면 원하는 이미지 치수로 전환하세요.

기타 팁:

다른 V2V 워크플로우를 사용하여 왜곡/흐림을 정리할 수 있습니다.

예:
/model/1714513/video-upscale-or-enhancer-using-wan-fusionx-ingredients

또는 얼굴 교체를 사용하여 얼굴 왜곡을 제거하세요.


🟨 Dual KSampler

권장 단계:

  • 5초 초반 / 3초 말단 (테스트 시 가장 많이 사용)

  • 4초 초반 / 3초 말단

이전 T2V Self-Forcing(lightx2v)는 일부 LoRA의 경우 움직임을 방해하거나 느리게 만들거나 움직임을 줄일 수 있습니다.

일부 LoRA에서 더 많은 움직임을 얻으려면 CFG 수준이 1 초과여야 하지만, Self-Forcing(lightx2v)를 사용할 때는 CFG를 1로 설정해야 합니다.

이때 Dual KSampler가 활용됩니다.

  • 첫 번째 KSampler는 CFG 수준 3-5를 사용하여 "움직임 잠재 공간"을 생성하고, CausVid LoRA를 통해 적은 단계로 더 많은 움직임을 증가시킵니다.

  • 두 번째 KSampler는 CFG 1을 사용하여 Self-Forcing(lightx2v) LoRA로 3단계로 비디오를 마무리하며 빠른 생성을 합니다. 더 많은 단계는 Self-Forcing(lightx2v) LoRA가 비디오에 더 많이 영향을 주어 움직임을 줄입니다.

"움직임 잠재 공간 정보"를 두 번째 샘플러에 전달하려면, 첫 번째 단계 수가 전체 단계의 절반 이상이어야 합니다.

예시:

  • 5초 초반 / 3초 말단 / 8개 총 단계

  • 4초 초반 / 3초 말단 / 7개 총 단계

이렇게 구성하면 잠재 공간 미리보기에서 이미지가 점차 형성되는 것을 볼 수 있습니다:

이 상태에서 "움직임 잠재 공간 정보"를 가지고 두 번째 KSampler에 전달하여 적은 단계로 완성할 수 있습니다.

(첫 번째 단계 수가 전체 단계의 절반 이하라면, 아무런 의미 없는 매우 잡음이 많은 이미지가 나타납니다.)

기본적으로 7-8단계 생성은 2개의 KSampler로 분리됩니다.

두 번째 KSampler는 첫 번째 KSampler가 멈춘 지점에서 생성을 계속합니다.

(일반 샘플러 2개를 사용하면 두 번째 샘플러가 어디서 이어받아야 할지 알지 못하고, 첫 번째 KSampler의 결과를 무시하고 0단계부터 시작합니다.)

초기 KSampler가 3-5 CFG로 생성하므로 느리지만, 다른 LoRA와 함께 사용할 때 더 많은 움직임을 얻는다는 이점이 있습니다. CausVid 또는 Self-Forcing(Lightx2v) 없이 20-30단계를 사용하는 것보다 훨씬 빠릅니다.

불행히도, 시작/종료 단계를 지원하는 KSampler는 Native에서는 사용 가능하지만 WanWrapper에서는 사용할 수 없습니다.


너무 많은 GET 및 SET 노드...

!!! ComfyUI-Easy-Use 커스텀 노드가 설치된 경우에만 사용 가능합니다.

노드 맵 검색 기능(Shift+m)을 활용할 수 있습니다.

ComfyUI 인터페이스 패널에서 일반적으로 왼쪽에 위치한, 위에 작은 사각형 하나, 아래에 작은 사각형 세 개가 있는 아이콘을 찾아보세요. 이는 노드 맵입니다.

예를 들어, "Set_FrameNum" 노드를 보았다고 가정해 봅시다.

"Get_FrameNum"이 어디에 있는지 알고 싶다면 검색창에 다음을 입력하세요:

Get_FramN....

--! 대소문자 구분 !--

필터링된 결과가 나타납니다.

해당 항목을 더블 클릭하면 해당 노드로 이동합니다.

마찬가지로 Get 노드의 경우:

"Set_FrameNum" 예시:

검색:

Get_FrameNum

--! 대소문자 구분 !--

필터링 후 더블 클릭.


커스텀 노드

  • ComfyUI-Custom-Scripts

  • rgthree-comfy

  • ComfyUI-KJNodes

  • ComfyUI-Frame-Interpolation

  • ComfyUI-mxToolkit

  • ComfyUI-MemoryCleanup

  • ComfyUI-wanBlockswap

  • MediaMixer

  • ComfyUI-Easy-Use (커스텀 노드 관리자에서 수동 설치)


후기 노트:

본 워크플로우를 수정, 확장, 일부 사용, 병합, 공개하더라도 저를 언급할 필요가 없습니다.

GGUF를 사용하지 않는 이유는 설치할 때마다 항상 ComfyUI가 브리킹되기 때문입니다.

이 이상의 심층적 이해는 저에게 없습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.