Donut Mochi Pack - Video Generation
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
MOCHI 비디오 생성기
(결과는 v1, v2 등 갤러리에 있으며, 상단 탭을 클릭하세요)
V8 이상부터 진정한 i2v 워크플로우가 추가되었습니다. 자세한 내용은 주요 기사에서 확인하세요
비디오 준비 중
특별 전시: (대부분 하나의 ACE-HOLO promptgen 라인으로 생성)
pack 업데이트 V7 + ACE-HoloFS를 사용한 특별 비디오 promptgen 가이드.
V7 데모 리엘 (Shuffle Video Studio로 제작)
현재까지의 연구 요약 및 더 자세한 지침/정보
현재 최고 성능: (V7 갤러리) (V8는 이미지 인코딩을 추가)
"\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-t2v-BatchedLatentSideload-v55"
i2v 버전은 LLM 비디오 prompt 생성을 사용했고, t2v는 Zenkai-prompt + DJZ-LoadLatent을 사용했습니다.
Kijai가 진행 중인 프로젝트
정보/설치/설정 가이드: https://civitai.com/articles/8313
Torch 2.5.0 이상이 필요하므로, 사용 중인 Torch를 업데이트하세요.
CogVideo 워크플로우와 마찬가지로, 이 워크플로우는 사전 시험을 시도하려는 사용자를 위해 제공됩니다 :)
4090 GPU를 사용하더라도 일부 한계를 밀어붙일 수 있으며, V1에서 Tile 최적화를 연구하기 위해 사용한 워크플로우를 제공합니다:
기본값 대비 타일 크기를 약 20-40% 줄입니다.
이를 보완하기 위해 프레임 배치 크기를 증가시킵니다.
가시적인 이음새를 방지하기 위해 동일한 오버랩 계수를 유지합니다.
핵심 원칙:
타일 크기는 가장 효율적인 처리를 위해 일반적으로 32의 배수여야 합니다.
원본 타일 크기와 유사한 가로:세로 비율을 유지하세요.
프레임 배치 크기 증가량은 프레임 건너뛰기를 피하기 위해 점진적으로 해야 합니다.
연구자 팁!
고정 시드를 사용하면 샘플러가 메모리에 유지되므로, **첫 번째 생성에는 약 1700초**가 소요되지만, 디코더를 변경하면 **다음 비디오**는 약 23초 만에 생성됩니다. 샘플러는 이미 모든 작업을 완료했으므로, 새 시드를 사용하지 않는 한 동일한 샘플을 반복 사용합니다. VAE 디코딩 속도가 매우 뛰어납니다!
^ 동일한 시드로 후속 생성은 매우 빠르며, 디코더 설정 조정이 가능합니다 ^
^ 초기 생성은 PyTorch 2.5.0 SDP로 약 1700초가 소요되었습니다 ^
V1 워크플로우:
출력물은 라벨링되어 V1 갤러리에 추가되었습니다. 테스트 프롬프트:
"번화한 우주항에서 다양한 인류와 외계인이 거대한 항星际 크루즈선에 탑승합니다. 로봇 포터들이 이국적인 수하물을 쉽게 처리하고, 홀로그램 표지판에는 여러 언어로 출발 시간이 표시됩니다. 투명하고 떠다니는 생명체 가족이 보안 검색대를 지나며, 그들의 부리가 여행 서류를 감쌉니다. 하늘에서는 작은 우주선들이 높은 건물들 사이를 오가며, 이온 트레일이 끊임없이 변하는 빛의 태피스트리를 만듭니다."
\Decoder-Research\Donut-Mochi-848x480-batch10-default-v5
= 저자 기본 설정
- 이 버전은 저자가 권장하는 설정을 사용했습니다.
\Decoder-Research\Donut-Mochi-640x480-batch10-autotile-v5
= 크기 축소, 자동 타일링
- 이는 갤러리의 비디오를 생성한 첫 번째 시도로, 디코더에 자동 타일링을 적용하고 전체 차원을 640x480으로 줄였습니다. 이 축소는 생성에 필요한 메모리를 줄여주지만, 과도하게 적용되면 출력 품질이 저하됩니다.
나머지 워크플로우는 자동 타일링을 사용하지 않고 가능한 설정을 조사합니다. 완전히 정확히 사용된 설정을 알 수 있도록, 비디오는 배치 수에 따라 라벨링되어 V1 갤러리에 추가됩니다. 커뮤니티 연구가 필요합니다!
\Decoder-Research\Donut-Mochi-848x480-batch12-v5
frame_batch_size = 12
tile_sample_min_width = 256
tile_sample_min_height = 128
\Decoder-Research\Donut-Mochi-848x480-batch14-v5
frame_batch_size = 14
tile_sample_min_width = 224
tile_sample_min_height = 112
\Decoder-Research\Donut-Mochi-848x480-batch16-v5
frame_batch_size = 16
tile_sample_min_width = 192
tile_sample_min_height = 96
\Decoder-Research\Donut-Mochi-848x480-batch20-v5
frame_batch_size = 20
tile_sample_min_width = 160
tile_sample_min_height = 96
\Decoder-Research\Donut-Mochi-848x480-batch24-v5
frame_batch_size = 24
tile_sample_min_width = 128
tile_sample_min_height = 64
\Decoder-Research\Donut-Mochi-848x480-batch32-v5
frame_batch_size = 32
tile_sample_min_width = 96
tile_sample_min_height = 48
마지막 워크플로우는 하이브리드 접근 방식입니다. 오버랩 계수를 증가시켰습니다(0.25 대신 0.3). 매우 작은 타일을 사용할 때 가시적인 이음새를 줄이는 데 도움이 될 수 있습니다.
\Decoder-Research\Donut-Mochi-848x480-batch16-v6
frame_batch_size = 16
tile_sample_min_width = 144
tile_sample_min_height = 80
tile_overlap_factor_height = 0.3
tile_overlap_factor_width = 0.3
V2 워크플로우
\CFG-Research\Donut-Mochi-848x480-batch16-CFG7-v7
이 워크플로우는 **Donut-Mochi-848x480-batch16-v6**를 사용하고 CFG 7.0으로 설정했습니다.
이 설정은 좋은 결과를 제공하며, 생성 시간은 약 24분입니다.
(PyTorch SDP 사용)
V3 워크플로우
\FP8--T5-Scaled\Donut-Mochi-848x480-batch16-CFG7-T5scaled-v8
FP8_Scaled T5 CLIP 모델을 사용했습니다. 이는 테스트한 모든 프롬프트에 대해 출력 품질을 크게 향상시켰습니다. V3 갤러리를 확인하세요. 지금까지 가장 우수한 결과입니다! (우리가 이를 능가할 때까지)
\GGUF-Q8_0--T5-Scaled\Donut-Mochi-848x480-b16-CFG7-T5scaled-Q8_0-v9
이 설정은 최상의 결과를 내지 못했습니다. 아마도 T5 스케일드 CLIP이 여전히 FP8 상태였고, GGUF Q8_0을 주 모델로 사용하는지를 테스트했기 때문일 것입니다.
V4 워크플로우
\T5-FP16-CPU\Donut-Mochi-848x480-b16-CFG7-CPU_T5-FP16-v11
T5XXL을 FP16으로 CPU에 강제로 로드했습니다. GGUF Q8_0과 T5XXL FP8을 사용한 V3와 동일한 아티팩트가 나타났습니다.
V5 워크플로우
\GGUF-Q8_0--T5-FP16-CPU\Donut-Mochi-848x480-GGUF-Q8_0-CPU_T5-FP16-v14
이 설정은 VAE 타일링을 활성화한 상태에서 가장 좋은 결과를 제공했습니다. 물론 스텝 수를 증가시키면 품질과 소요 시간이 증가합니다.
스텝 수를 100-200으로 증가시키면 품질이 향상되지만 시간이 더 걸리며, 200 스텝은 45분이 소요됩니다. 이 설정에 대한 전용 버전은 없을 가능성이 높습니다. 왜냐하면 사용자가 이 모든 워크플로우에 스텝을 추가하고 6초 비디오 생성을 위해 매우 오랜 시간을 기다릴 수 있기 때문입니다. 이 문제는 클라우드 환경과 더 큰 GPU/VRAM 할당으로 해결할 수 있습니다.
V6 워크플로우
\Fast-25-Frames\Donut-Mochi-848x480-Fast-v4
VAE 타일링을 사용해 25프레임으로 1초 비디오를 생성했습니다. 50스텝은 몇 분, 100스텝은 4-5분이 소요됩니다.
\NoTiling-SaveLoadLatent\Donut-Mochi-848x480-i2v-LatentSideload-v21
새로운 DJZ-LoadLatent 노드를 사용해 샘플러 결과를 .latent 파일로 디스크에 저장할 수 있습니다. 이를 통해 레이턴트를 별도 단계로 디코딩할 수 있어 타일링 VAE가 필요 없어집니다. 이는 이미지-비디오 변환으로, OneVision을 사용해 주어진 이미지에서 비디오 프롬프트를 추정하며, 자동으로 세로 또는 가로 비율을 감지하고 16:9 또는 9:16로 자르거나 채웁니다. 참고: 세로 비율 품질이 좋은지 확인하기 위해 추가 테스트가 필요합니다.
\NoTiling-SaveLoadLatent\Donut-Mochi-848x480-t2v-LatentSideload-v25
이것은 이전 워크플로우의 텍스트-비디오 버전입니다. OneVision과 ImageSizeAdjusterV3를 제거하고 Zenkai-Prompt-V2를 다시 도입해 프롬프트 목록을 활용합니다. 전체 지침은 워크플로우 설명서에서 확인하세요.
저장/로드 레이턴트 방식을 사용하면 모든 비디오에 현상이 나타났던 타일링 VAE를 제거할 수 있습니다. 품질이 향상되면서 이 현상이 더 두드러졌기 때문입니다.
V7 워크플로우
V6 레이턴트 사이드로드 워크플로우를 최신 VAE 공간 타일링 디코더를 사용하도록 업데이트했습니다.
이 방식은 로컬 GPU에서 100% 실행 가능하며, 갤러리의 모든 데모 영상은 50스텝으로 생성되었습니다.
(V6 갤러리는 100스텝 사용) 또 다른 큰 개선입니다!
\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-t2v-LatentSideload-v50.json
- 텍스트-비디오, VAE 공간 타일링 디코더, 내 레이턴트 로더 사용
\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-i2v-LatentSideload-v50.json
- 가상 이미지-비디오, VAE 공간 타일링 디코더, 내 레이턴트 로더 사용
\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-t2v-BatchLatentSideload-v55.json
- 텍스트-비디오, VAE 공간 타일링 디코더, 내 V2 배치 레이턴트 로더 사용
\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-i2v-BatchLatentSideload-v55.json
- 가상 이미지-비디오, VAE 공간 타일링 디코더, 내 V2 배치 레이턴트 로더 사용
참고: V7은 내 DJZ-Workflows 팩에서 GitHub에서 사용 가능하지만, 새로운 비디오 세트가 완성될 때까지 여기에 게시되지 않습니다. (오늘 밤 내내 렌더링 중입니다)
V8 워크플로우
\True-Image-To-Video\Donut-Mochi-848x480-i2v-LatentSideload-v90.json
- 이미지-비디오, VAE 공간 타일링 디코더, 내 레이턴트 로더 사용
\True-Image-To-Video\Donut-Mochi-848x480-i2v-BatchedLatentSideload-v90.json
- 이미지-비디오, VAE 공간 타일링 디코더, 내 V2 배치 레이턴트 로더 사용
진정한 i2v(새로운 VAE 인코더를 사용한 이미지-비디오 변환)를 추가했습니다.
튜토리얼 비디오 준비 중. 자세한 내용은 주요 기사에서 확인하세요.