[Experimental] 8GB VRAM Tik Tok Dance Workflow (AnimateLCM, Depth Controlnet, LoRA)

세부 정보

파일 다운로드

모델 설명

서론

이것은 8GB VRAM 내에서 댄스 영상을 생성하기 위한 고도로 실험적인 워크플로우입니다. LoRA와 ControlNet의 상대적 강도를 조정해야 하며, 단일 복장만으로 학습된 LoRA가 필요하고, 이 복장은 드라이빙 영상과 대략 일치해야 잘 작동합니다.

이 워크플로우는 Reddit 사용자 specific_virus8061의 작업에서 영감을 받았습니다. 그는 8GB VRAM GPU를 사용하여 뮤직비디오를 제작했고, 저는 영상의 변형 현상을 관찰했으며, 이는 16프레임 컨텍스트 윈도우를 사용하는 AnimateDiff의 일반적인 한계입니다. 이를 극복하기 위해 다양한 방법을 시도했고, 이 워크플로우가 그 결과물입니다.

Reddit 게시글 링크: https://www.reddit.com/r/StableDiffusion/comments/1fsz1dp/potato_vram_ai_music_video/

누구를 위한 것인가요?

8GB VRAM을 보유하고 있으며, 하드웨어 성능을 극대화하기 위해 워크플로우를 조정하는 것에 부담을 느끼지 않는 분들.

누구를 위한 것이 아닌가요?

  • 원클릭 워크플로우를 찾는 분들.

  • MimicMotion과 같은 제대로 된 솔루션을 실행할 수 있는 충분한 VRAM을 보유한 분들.

워크플로우

워크플로우의 첫 번째 부분은 고정된 잠재적 배치 시드 동작과 깊이 ControlNet, 캐릭터 LoRA를 사용하여 이미지를 생성합니다. 이미지 생성 그룹을 사용하여 개별 프레임을 생성하고, 이는 output/dance 폴더에 잠재 변수 형태로 저장됩니다.

워크플로우의 두 번째 부분은 생성된 이미지를 AnimateLCM 프로세스를 통해 영상으로 변환합니다. 이 잠재 변수들을 input 폴더로 복사한 후 ComfyUI를 새로 고치세요. 이미지 생성 그룹을 비활성화하고 영상 생성 그룹을 활성화하세요. 이제 LoadLatent 노드에서 잠재 변수를 설정할 수 있습니다. 영상의 길이에 따라 필요한 만큼 더 많은 LoadLatent 및 LatentBatch 노드를 추가할 수 있습니다.

LoRA

단일 특정 복장만으로 학습된 LoRA를 사용해 주세요. cyberAngel이 제작한 LoRA를 시도해 볼 수 있으며, 각 LoRA는 일반적으로 하나의 복장으로 학습되었습니다.

https://civitai.com/user/cyberAngel_/models?baseModels=SD+1.5

VRAM

VRAM 사용량은 Meta Batch 노드와 2개의 Batch VAE 디코딩 노드로 제어됩니다. 아래 설정은 잘 작동하도록 테스트되었습니다. 이 설정이 귀하에게 작동하지 않는다면 댓글로 알려주세요.

8GB VRAM: Meta Batch: 12, VAE 디코딩: 2

12GB VRAM: Meta Batch: 24, VAE 디코딩: 16

결과 평가

이 워크플로우는 완벽하지 않습니다. 손, 칼라, 넥타이, 단추, 배경 등에 문제가 존재합니다. 이 워크플로우는 저사양 VRAM을 가진 커뮤니티 구성원들이 즐기고 이 개념을 얼마나 멀리 확장할 수 있는지 확인하기 위해 공개합니다.

필요한 모델

필요한 커스텀 노드

Manager를 사용하여 누락된 커스텀 노드를 설치하세요.

  • ComfyUI's ControlNet Auxiliary Preprocessors

  • ComfyUI Frame Interpolation

  • ComfyUI-Advanced-ControlNet

  • AnimateDiff Evolved

  • ComfyUI-VideoHelperSuite

  • rgthree's ComfyUI Nodes

  • KJNodes for ComfyUI

  • Crystools

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.