LTXVideo 13B 0.9.7 Distilled Workflow - T2V or I2V with optional captioning/LLM/audio gen

세부 정보

파일 다운로드

모델 설명

새로운 V2.1, LTXV 13B 0.9.7 Distilled용!

이 버전을 0.9.7과 호환되도록 업데이트했습니다. 또한 속도를 향상시키는 모든 최적화 노드를 추가했습니다. Add Details를 수정하고 확장 섹션을 추가하며 전반적으로 정리했습니다. 비디오 기반으로 소리를 생성하기 위한 MMAudio 그룹도 추가했습니다. 모두 쉽게 전환할 수 있는 스위치와 많은 설명을 포함하고 있습니다.

몇 가지 샘플러와 스케줄러를 실험해봤습니다.

다음 조합이 일반적으로 잘 작동하는 것으로 발견했습니다:

STG 고급 프리셋: 사용자 정의

샘플러: Euler, Euler_a, LCM

스케줄러: Beta, Simple

최근 Simple 스케줄러가 움직임의 끊김을 크게 부드럽게 만든다는 것을 알게 되었습니다.

참고: 업스케일링 시 시그마 값을 수동으로 조정해야 합니다. 8스탭에서는 대부분 시그마 값이 높게 유지되므로, 마지막 3개를 사용하는 것이 잘 작동하지 않습니다. 제대로 작동시키려면 0.90과 0.75 사이의 세 개의 값을 선택해야 합니다.

좋은 조합을 발견하셨다면 댓글을 남겨주세요!

V1

누군가 레딧에 이 것을 공유했습니다:

https://civitai.com/articles/13699/ltxvideo-096-distilled-workflow-with-llm-prompt

저는 이 작업 흐름을 살펴보았고 대부분 좋아했지만, 일부 기능에서 최신 노드를 사용하지 않았고 LLM 관련 문제가 있었습니다. 그래서 이를 정리하고 캡셔너를 추가했습니다. 또한 원하지 않는 기능을 쉽게 비활성화할 수 있도록 간단한 전환 스위치를 추가했습니다. 이로 인해 T2V만 사용하거나 LLM과 함께 사용하거나, 다른 이미지의 캡션 텍스트만 사용하거나, 완전한 I2V를 사용하여 이미지 캡션을 LLM에 전달하거나, 캡션이나 LLM 없이 I2V만 사용할 수 있습니다.

캡셔닝에는 Florence-2를 사용하며, NSFW 캡셔닝에 매우 잘 작동하는 이 번들링을 사용했습니다: https://huggingface.co/MiaoshouAI/Florence-2-large-PromptGen-v2.0

또한 TeaCache도 추가했습니다. 9스탭의 디스틸드 모델에서는 큰 차이가 없어 보이지만, 30스탭의 베이스 모델에서는 약 40% 이상의 시간을 절약했습니다.

디스틸드 모델 또는 베이스 모델을 사용할 때 변경해야 할 스케줄러/샘플러 설정에 대한 설명도 포함되어 있으며, 기본 설정은 베이스 모델용으로 되어 있습니다.

또한 T5xxl FP8도 잘 작동한다는 것을 발견했습니다. FP16과 FP8을 비교한 결과, 오히려 FP8이 더 나은 결과를 도출했습니다.

내보내기 스크린샷에서 텍스트가 감싸지지 않은 이유는 잘 모르겠습니다?:

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.