LTX IMAGE to TEXT to VIDEO with STG workflow

워크플로우: 입력 이미지(또는 프롬프트) -> 텍스트 프롬프트로 캡셔닝 -> 프롬프트를 LTX 텍스트를 비디오로에 사용 (이것은 텍스트에서 비디오로의 워크플로우이며, 이미지에서 비디오로의 워크플로우는 다른 워크플로우 참조)

V5.0: LTX 0.9.5 GGUF 모델 및 Wavespeed/Teacache 지원

(vae_ltxv0.9.5_fp8_e4m3fn.safetensors)

워크플로우는 Florence 캡셔닝 및 LTX 프롬프트 향상기를 지원하며 모든 모델(0.9 / 0.9.1 / 0.9.5)과 호환됩니다.

(자세한 내용은 워크플로우의 참고사항 참조)

V4.0: GGUF 모델 지원

GGUF 모델, VAE 및 텍스트 인코더는 다음에서 다운로드 가능:

(모델&VAE): https://huggingface.co/calcuis/ltxv-gguf/tree/main

(GGUF 버전 및 저메모리용 GGUF+TiledVae 버전 포함)

V3.1: 모델 0.9.1 지원

V3.0: GUI 정리, 사용자 정의 노드 수 감소, 사용자 프롬프트 사용 기능 추가

V2.0: STG(공간-시간 스킵 가이던스, 향상된 비디오 확산 샘플링용) 도입

GUI에 파란색으로 두 개의 새로운 노드가 포함됨:

STG 설정: CFG, Scale, Rescale을 표시. 모델에서 건너뛸 두 레이어(8 또는 14(기본값))를 전환할 수 있는 스위치 추가("true"는 레이어 14, "false"는 레이어 8 선택)

워크플로우에 추가 정보 및 사용 가능한 값/제한사항을 참고 사항으로 첨부했습니다. 자유롭게 실험해보세요. 제 테스트에서는 STG 설정의 값을 기본값으로 유지하고 스위치만 사용했습니다.

노드 "LTX 모델 수정"은 세션 내에서 모델을 변경합니다. 다른 워크플로우로 전환할 경우, 간섭을 방지하기 위해 ComfyUI에서 "모델 및 노드 캐시 해제"를 클릭하세요.

V1.0: ComfyUI 워크플로우: LTX 이미지-to-텍스트-to-비디오 (Florence2 캡셔닝 사용)

이 워크플로우는 입력 이미지를 프롬프트로 변환(Florence2로 캡셔닝)하고, LTX 텍스트를 비디오로 모델을 사용해 비디오를 생성합니다 (이미지 -> 프롬프트 -> 비디오)