Hunyuan Video Lora. Anime, Akame ga kill. Akame. v1

세부 정보

파일 다운로드

모델 설명

Hunyuan 비디오 LoRA. 애니메이션, 아카메 가 킬. 아카메. v1

제 첫 번째 LoRA 학습입니다. 아래와 같은 질문들이 있습니다:

  1. 어떤 캡션 구조가 가장 효과적인가요? 저는 다음과 같은 구조를 따랐습니다: """<태그>, <뷰>, <인물 + 시각적 설명>, <더 정교한 뷰>"""

  2. 어떤 해상도의 비디오를 사용해야 할까요? 저는 [768, 480]을 사용했습니다. 다른 해상도의 비디오를 사용하는 것이 더 나은가, 아니면 일관된 해상도를 유지하는 것이 더 좋은가요?

  3. "frame_buckets = [1, 16, 33, 65, 97, 129]" 이 값을 어떻게 결정해야 하나요? 저는 데이터셋의 비디오 길이가 0.6초에서 4.93초 사이였기 때문에 이 값을 선택했습니다.

  4. "video_clip_mode"란 무엇인가요? 저는 multiple_overlapping을 선택했지만, 왜 다른 옵션 대신 이 것을 선택해야 하는 것인가요?

  5. LoRA의 품질을 향상시키고 싶다면, 다음 중 무엇이 더 중요한가요?

    • A: 더 많은 데이터를 수집하는 것;

    • B: 더 나은 캡션을 만드는 것;

    • C: 하나의 작업이나 동작에만 데이터를 수집하는 것;

  6. LoRA를 이미지와 비디오 모두로 학습하는 것이 가치 있는가, 아니면 비디오만으로 학습하는 것이 더 나은가요?

  7. 변경할 수 있는 파라미터가 너무 많아 최적의 추론 파라미터를 결정하기가 어렵습니다.

위 질문들에 대한 답변을 아신다면, 정말 기쁘게 읽겠습니다.

설명

애니메이션 1화의 아카메를 포함한 짧은 클립 29개(평균 길이: 2.16초)를 사용해 학습한 Hunyuan LoRA 모델입니다. Diffusion-pipe 저장소를 사용해 학습되었습니다.

학습 설정, 워크플로우, LoRA 모델 및 모든 데이터는 여기서 확인할 수 있습니다. akame_v1

추론 파라미터

  • lora_strength: 1.0

  • dtype: bfloat16

  • resolution: [[768,480]] (가로, 세로)

  • num_frames: 93

  • steps: 20

  • embedded_guidance_scale: 9.00 * 참고: 이 값은 제가 이전 LoRA에서 적절하다고 판단하여 동일하게 적용했으며, 실험해볼 만한 가치가 있다고 생각합니다;

  • 비디오 향상 가중치: 4.0 * 참고: 이 파라미터도 조정 가능한 것으로 보이며, 비디오 향상 노드에 다른 파라미터들도 존재합니다.

데이터

  • 수량: 0.6초에서 4.93초까지의 29개 클립

  • 평균 길이: 2.16초

데이터는 OpenShot 프로그램을 사용해 수동으로 수집했습니다. 1화에서 29개 클립을 수집하는 데 약 1시간, Sonnet 3.5를 캡션 생성 도구로 사용해 캡션을 작성하고 수동으로 오류를 수정하는 데 또 1시간이 소요되었습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.