大摆锤 dance ——framepack

세부 정보

파일 다운로드

모델 설명

framepack 기반

단일 비디오에만 학습된 1.5 버전은 1.0 버전에 비해 움직임 역학이 개선되고 더 일관된 액션 시퀀스를 보여줍니다. 그러나 이 방식은 비자연스러운 사지 비례 등의 과적합 현상을 초래하였으며, 현재 이를 해결 중입니다. 최적의 결과를 위해서는 7.5초 길이와 448x752 해상도로 콘텐츠를 생성하는 것을 권장합니다.

첫 번째 이미지를 생성할 때 카우보이 샷, 허리에 손을 얹은 포즈를 사용할 수 있습니다.


v1.0

Musubi 튜너를 사용한 FramePack LoRA 학습은 빅 스윙 댄스 생성을 위해 13개의 비디오를 활용했습니다.

이 비디오를 다운로드한 후 ComfyUI에 드래그하여 워크플로우와 파라미터를 확인할 수 있습니다.

학습에는 4090 GPU에서 약 24시간이 소요되었습니다. 학습에는 VRAM이 24GB 이상인 GPU를 사용하는 것을 강력히 권장합니다.

BF16 정밀도에서만 테스트했으며, FP8 정밀도에 대한 평가는 수행하지 않았습니다.

학습 파라미터 관련 질문에 대해 도움을 주신 青龙圣者님께 감사드립니다.

F1을 사용하지 않아도 FramePack가 LoRA를 활용할 때 움직임 진폭이 현저히 향상됨을 확인할 수 있습니다.

따라서 단일 LoRA만으로 모든 움직임 진폭을 크게 증폭할 수 있을지 궁금합니다.

RTX 4080 32GB에서는 1초당 평균 1분이 소요됩니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.