WAN 2.2 4-Stage SVI Promptorama for Nice Long Videos

세부 정보

파일 다운로드

모델 설명

좋습니다. 마침내 이 작업을 공유할 만큼 다듬었습니다. 지금까지 수많은 SVI 워크플로우가 게시되었고, 그중 대부분은 제 것보다 훨씬 낫겠죠. 하지만 저는 SVI를 정말 좋아하기 때문에, 더 많을수록 더 좋습니다. 이 워크플로우의 핵심 아이디어는 프롬프트와 LoRA를 자동으로 전환하여, 미리 설정된 시나리오를 선택하기만 하면 되도록 하는 것입니다. 타이핑도, 드롭다운에서 선택도, "아이고, 내가 뭘 했는데 다 뒤집어졌네" 같은 상황도 없습니다. SVI를 시도하기 전에는 반드시 ComfyUI와 WAN에 익숙해져야 합니다. 초보자라면 이걸 바로 시작하지 마세요. 머리카락이 빠질 겁니다. 여전히 꽤 정리되지 않았고, 분명히 이 멋진 거대한 것처럼 멋지진 않습니다. 제 출발점은 이 워크플로우였는데, 이건 훌륭하고 SVI에 익숙해지기엔 훨씬 쉬운 시작점입니다. 하지만 지금은 제 주요 워크플로우가 되었고, 결과에 매우 만족합니다. 네 개의 프롬프트와 네 개의 LoRA를 독립적으로 전환하는 건 정말 귀찮습니다.

주요 기능은 다음과 같습니다:

  • 각 스테이지마다 고유한 프롬프트 세트를 가집니다—16개의 세트 중 하나를 선택할 수 있습니다(지금까지 7개만 완성했고, 나머지는 비어 있습니다). 이 작업을 하려면 단 두 개의 스위치만 사용하면 됩니다. 갈색, 빨강, 노랑, 청록 중 하나의 색상을 선택하세요. 이 색상은 각각 네 개의 세트를 포함하는 큰 블록입니다. 그 다음 숫자를 선택하세요—인덱스를 신경 쓸 필요 없습니다. 상단 오른쪽, 상단 왼쪽, 하단 오른쪽, 하단 왼쪽으로 라벨링해두었으므로, 색상 그룹 내에서 원하는 세트를 선택하기가 명확할 것입니다. 선택은 두 개의 Fast Group Muter 노드로 수행됩니다. 이 워크플로우에 업데이트를 추가할 경우, 더 많은 슬롯이 채워질 것입니다. 그룹을 모두 설정하고 고정하는 건 귀찮지만, 한 번 설정하면 끝입니다.

  • 이미지 품질이나 SVI 전용 모션 프롬프트를 세트에 포함할 필요가 없습니다—이미 제가 모두 처리했습니다. 이 작업은 각 스테이지 자체에서 이루어집니다. 만약 이 부분을 수정해야 한다면, GET 노드에서 T5 인코더로 연결되는 두 개의 concats를 확인하세요. 각 스테이지마다 이들이 있습니다. 여기서 전환/이미지 품질 관련 세부 설정을 추가할 수 있습니다. 따라서 프롬프트는 행동과 설명에만 한정하세요.

  • 이 부분이 좋습니다. 프롬프트를 설정하면 LoRA도 자동으로 설정됩니다. 따라서 각 세트를 만들 때 한 번만 설정하면 됩니다. 하위 그래프로 들어가서 이들을 구성하세요. 그룹은 프롬프트 세트와 정확히 동일한 구조로 배치되어 있으므로, 적절한 노드에 문법을 그대로 넣기만 하면 됩니다. 모든 하위-하위 그래프는 처음에는 Manager 로더였지만, 이로 인해 거의 폭발적인 지연이 발생했기 때문에 이제는 문자열로 변경했습니다. 미리보기와 자동 완성 기능이 필요하다면, 옆에 있는 로더를 사용하고, 그 결과 문자열을 세트로 복사하세요. 필터링된 2.2 LoRA의 스크린샷을 가져와 Load Image 노드에 넣었습니다. 그룹을 설정할 때 정확히 어떤 LoRA를 사용하는지 미리보기로 확인할 수 있어 매우 유용하므로, 여러분도 같은 방식을 추천합니다. 물론 LManager를 사용하지 않아도 됩니다. 데이터는 스테이지에 도달하기 전까지 모두 문자열이며, 그때야 로더를 변경할 수 있습니다.

  • INPUT 라디오 버튼을 사용하여 이미지나 비디오 프레임에서 시작할 수 있습니다.

  • 이전에 저장한 잠재 공간(latent)을 기반으로 계속하려면 USE LAST LATENT 라디오 버튼을 클릭하세요. 물론 먼저 하나를 저장해야 합니다. 기본 디렉토리는 ComfyUI 출력 폴더 내의 'latents'입니다. 이 스테이지는 아직 개발 중이며, 버그가 있을 수 있습니다. 출력이 원래 프레임이 아니라 마지막 프레임에서 시작하지 않는다면, 원하는 프레임을 가져와 첫 번째 SVI 노드의 앵커 위치에 넣고, 잠재 공간이 'prev_latent' 입력으로 제대로 전달되도록 하세요. 이 위치는 처음 실행 시 보통 비어 있습니다. 이 문제가 해결되지 않으면 수정할 예정이며, SVI FLF 워크플로우에서처럼 이미 인코딩된 비디오에서 프레임을 삽입하여 바로 비디오에서 이어갈 수 있는 옵션도 추가할 계획입니다(이것이 SVI의 핵심: 단순 프레임 캡처가 아니라 모션 데이터를 얻는 것입니다).

  • 기본 모델은 /model/2053259?modelVersionId=2477539입니다. 저는 이 모델을 정말 좋아하며, 카메라 프롬프팅이 훌륭합니다. 그 다음은 물론 SVI PRO입니다. 라이트닝 LoRA와 전체 모델을 사용하려면, 그 안에 해당 로더가 있습니다. 기본적으로 비활성화되어 있습니다. 라이트닝과 SVI의 강도는 왼쪽 상단의 모든 로더 옆에서 설정합니다. 그리고 잊지 마세요. Wrapper와 호환되는 T5 인코더는 꽤 사악한 인코더입니다.

  • 저는 자체적으로 선호하는 해상도를 스위치와 종횡비 전환기로 미리 설정해두었으며, 이 모든 것이 귀찮다면 제거하셔도 됩니다. 입력 리사이징은 대비 적응형 선명화(CAS)를 거칩니다. 이 기능은 매우 중요합니다. 꼭 시도해보세요. 제가 말할 수 있죠, 여러분이 생성한 결과 중 절반은 나쁜 입력 때문에 망가집니다. 어떻게 알까요? 제가 그 경험을 했기 때문입니다. CAS는 나쁜 입력을 고칠 수는 없지만, 리사이징으로 인해 생기는 이상한 흐릿함은 해결해줍니다. 비교 노드도 넣어두었으니, 중간으로 슬라이드하고 한 손으로 이마를 칠 수 있습니다.

  • 음, 그 외还有什么... 아, 파일명입니다. 문자열 노드와 concats를 확인하고, 원하는 파일명 접두사/접미사 등을 설정하세요. 비디오로 바로 저장할 수도 있지만, 프레임을 저장하는 것이 좋습니다. 기본 설정은 고유한 폴더(이전 폴더와 겹치지 않도록 반복 숫자 접미사 사용)를 생성합니다. 숫자는 의미가 없습니다. 비디오는 마지막에 저장되지만, 미리보기로 표시되며 CRF가 높게 설정됩니다.

  • 불행히도 이 설정의 요구사항으로 인해 업스케일과 보간 스테이지를 제외해야 했습니다. 추가할 수는 있지만, 추가적인 오프로딩과 정리가 필요해 다음 생성에 방해가 될 수 있습니다. 저는 그 스테이지를 다른 기계로 오프로딩했습니다. Mac Studio에 M2 Ultra가 실제로 매우 잘 처리해줘서 놀랐습니다. 4x 업스케일 모델은 대량 배치 시 과부하가 걸릴 수 있지만, 대부분 잘 작동합니다. 하지만 이건 부차적인 이야기입니다. 핵심은 출력이 원본 WAN이라는 것입니다.

  • 스테이지 1, 2, 3에는 각각 미리보기가 있으며, 마지막 미리보기는 연결됩니다. 1+2, 1+2+3 등의 미리보기는 존재하지만, 그 스테이지 그룹 내에서 숨겨지고 최소화되어 있습니다. 미리보기가 너무 많습니다.

  • 전부 다 말씀드렸나요? 아, 맞습니다. 왼쪽 하단 프롬프트 박스 옆에 LoRA 로더가 있습니다(미리보기 썸네일 제공). 이는 하위 그래프로 들어가지 않고도 실험적인 설정을 시도하고, 원하는 결과를 얻은 후, 빈 공간에 복사할 수 있도록 하기 위함입니다.

  • 분명히, 이 워크플로우는 WRAPPER 노드와 LoRA Manager, 총 13개의 커스텀 노드 팩을 사용합니다. 많은 편은 아닙니다. 모두 설치하세요. 저 같은 바보가 노드를 만들었는데, 여러분 같은 천재가 사용하지 않을 이유가 전혀 없습니다. 때로는 코어 노드로 대체할 수 있지만, 때로는 불가능합니다. 실제로 제대로 알고 있는 사람들이 있습니다. 저도 언젠가 그런 사람이 되고 싶습니다.

워크플로우 내에 수많은 주석이 있습니다. 중요한 사항은 모두 주석으로 표시해두었습니다. 이걸 사용하면서 버그를 발견하시면 꼭 알려주세요. 저는 수치심을 느끼는 걸 좋아합니다. 모든 설정 조합을 다 디버깅하는 건 불가능하므로, 여기저기 지뢰가 숨어 있을 수 있습니다.

아, 이 워크플로우가 거대한 괴물이라는 걸 말씀드렸나요? 이건 309개의 프레임을 생성합니다. 저는 Cray X-MP에 신경망 프로세서와 학습 컴퓨터를 탑재한 시스템에서 comfy를 돌리고 있습니다. 하지만 이걸 돌리면 너무 뜨거워서 의자에 앉을 수조차 없습니다. 경고합니다: 컴퓨터 위에 앉지 마세요—화상을 입을 수 있습니다.

128GB RAM이면 안전하게 실행할 수 있습니다. 끝날 때 약간의 여유 메모리가 남을 수도 있지만, 가능한 한 먼저 불필요한 것을 언로드하세요. 제 워크플로우를 사용할 때는 반드시 방화벽, 방어 프로그램, 바이러스 백신을 끄세요. 이들은 RAM을 진공청소기처럼 빨아들입니다.

VRAM도 시도해보세요. RAM만큼은 필요하지 않지만, 어느 정도는 필요합니다. GGUF를 쓰는 분이라면 제가 도와드릴 수 없습니다. 가세요.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.