EML_LTX_TTV/ITV_v1.0

다운로드:

## 워크플로 가이드: 설명

----------------------------

이 생산 과정은 "EML_LTX_TTV/ITV"라고 불리며, Lightricks의 LTX-Video를 기반으로 고품질 비디오를 생성하기 위한 고급 기술을 적용합니다.

✅ 8GB VRAM 그래픽 카드에서 작동

✅ 한 번의 스위치로 텍스트를 비디오로 변환(Text To Video) 및 이미지를 비디오로 변환(Image To Video) 두 가지 운영 모드 지원

✅ 생성된 이미지 지원: 사용자들은 일반적으로 이미지에 노이즈가 부족하여 발생하는 "정지된 비디오" 문제에 직면합니다. 이 생산 과정은 crf를 통해 자동으로 노이즈를 추가하여 신경망이 "전체적 그림"을 이해하도록 돕습니다.

✅ Florence2 모델을 통한 이미지 인식

✅ 단일 문장 기반 복잡한 프롬프트 생성

✅ WebP 및 MP4로 저장 지원

✅ 편리한 비율 목록. 16:9 비율 힌트 추가

기본적으로 모델의 해상도는 768x512, 비율은 3:2입니다. 사용자 정의 해상도는 자가 책임으로 사용하시고, 노드 헬퍼 "LTXV Model Configurator"에서 공식 목록을 선택하는 것이 좋습니다.

이 워크플로는 Workflow XODA-LTXV /model/974859 기반으로 제작되었습니다.

❤❤❤워크플로를 제공해 주셔서 감사합니다❤❤❤

## 워크플로 가이드: 준비

----------------------------

0. 워크스페이스를 시작한 후 대부분 필요한 노드가 누락되어 있을 것입니다. Manager -> Missing Custom Nodes 설치 -> 모두 선택(ID 옆) -> 설치

설치 후 Comfy UI에서 재시작을 요청할 것이며, 클릭하여 다음 단계로 진행하세요.

0.1 모델 선택.

저는 Mochi에서 제공하는 ltx-2b-v0.9-bf16.safetensors 모델과 t5xxl_fp16.safetensors를 함께 사용합니다.

https://huggingface.co/MayensGuds/ltx-video-quants

https://huggingface.co/Comfy-Org/mochi_preview_repackaged/blob/main/split_files/text_encoders/t5xxl_fp16.safetensors

6GB VRAM 이하의 그래픽 카드를 사용하는 경우 ltx-video-2b-v0.9-fp8_e4m3fn.safetensors 모델과 clip loader t5xxl_fp8_e4m3fn.safetensors를 사용해 보세요.

"ltxv" 모드가 활성화되어 있는지 확인하세요.

💡팁: 비슷한 텍스트 변환 알고리즘을 사용하므로 이미지 생성에 Flux1을 사용하세요.

0.2 최적화 팁.

제 NVIDIA RTX 2060s 8GB VRAM 그래픽 카드에서 기본 설정(768x512, 25fps, 97프레임, 30스텝)을 사용하면 약 10초/프레임, 즉 비디오당 약 5분이 소요됩니다. 왼쪽의 "🅛🅣🅧 LTXV Model Configurator" 모듈을 사용하여 권장 값을 찾을 수 있습니다. 이 모듈은 공간상의 모든 클론들과 마찬가지로 아무것에도 연결되지 않으며 참조 용도로만 사용됩니다.

속도를 높이려면 해상도를 변경하기보다 프레임 수를 줄이는 것이 더 좋습니다. 하지만 그 경우 영상의 총 길이가 짧아집니다. 보통 저는 약 50프레임으로 충분히 사용하며, 25fps 기준으로 2초의 비디오가 됩니다. 또한 20스텝으로 설정하는 것이 좋습니다. 제 판단으론 품질 차이가 거의 없습니다. 그 결과 속도/품질 간 좋은 균형을 얻을 수 있으며, 최적화 시 약 5초/프레임으로, 2배 빠르고 총 처리 시간은 약 1분 30초가 됩니다. 더 나은 처리(예: 슬로우 다운)를 위해 2초의 비디오로도 충분합니다. Llama는 상당한 VRAM을 소모하며, 더 효율적인 사용 방안이 개발 중입니다.

0.3. Llama 설치.

0.3.1. https://ollama.com/download에서 Llama를 다운로드하고 설치하세요.

0.3.2. CMD 또는 Powershell을 열고 다음 명령어를 붙여넣으세요: ollama run llama3.2

p.s. 복사: Ctrl + C, CMD에 붙여넣기: 마우스 오른쪽 버튼. 이후 Llama는 자동으로 컴퓨터에 설치되어 트레이에서 실행됩니다. 다음 버전에서는 이 방식이 gguf 모델로 대체될 예정입니다.

## 워크플로 가이드: 비디오 생성

----------------------------

1. 이미지 업로드 (이미지 로드 > 업로드할 파일 선택)

* 워크플로는 이미지에 적합한 설명을 자동으로 선택합니다.

2. 감독자로 프롬프트 지정:

-- 설명: 이미지/텍스트를 비디오로 변환 모드 선택 섹션에서 ImgToVideo와 TextToVideo를 전환할 수 있습니다. 이미지를 사용할지 텍스트만 사용할지 선택하세요. 이미지를 비디오로 변환하려면 모든 설정이 왼쪽에 있는 "Image Interpret" 그룹에 있습니다. 텍스트만 사용하려면 모든 설정이 오른쪽에 있는 "Text To Video" 그룹에 있습니다.

fps, 스텝, cfg와 같은 추가 설정은 이 워크플로의 가장 오른쪽에 있지만 기본값으로도 충분히 작동합니다. --

2.(1). LLM Llama 3.2는 귀하의 프롬프트를 기반으로 힌트를 생성합니다. 움직임, 조명 연출 및 모든 움직이는 요소에 관련된 내용을 모두 명시해야 합니다. Florence2는 정적인 프롬프트를 담당합니다.

2.(2). 수동 모드(개발 중). 다음 버전에서 추가될 예정입니다. 현재 워크플로는 LLM 입력만 지원하지만, 수동 모드로 직접 전환할 수 있습니다:

- 간결하고 명확하게 작성하세요. 오히려 직관적으로 작성하는 것이 좋습니다.

- 프레임 내에서 일어날 일을 설명하세요: 누군가가 걷거나, 돌아서거나, 다음 장면이 어디로 이어질지 지정하세요.

- 장면의 장르와 분위기를 강조하세요(현실적, 영화적, 만화적).

- 장면이 특정 미디어 형식(영화, 애니메이션, 사진)에서 영감을 받았는지 명시하세요.

- 카메라가 정지해 있을지, 캐릭터 앞으로, 뒤로, 주변을 따라 움직일지, 또는 특별한 1인칭 시점일지 설명하세요.

예시:

어두운 조명의 방으로 프레임 왼쪽 문을 통해 어두운 파란색 군복과 매치된 모자를 착용한 두 명의 경찰관이 들어섭니다. 첫 번째 경찰관은 짧은 갈색 머리와 수염을 가지고 있으며, 먼저 들어서고, 그 뒤를 이어 대머리와 콧수염을 가진 동료가 들어섭니다. 두 경찰관은 진지한 표정을 지으며 방 안으로 일정한 속도로 들어섭니다. 카메라는 고정된 채로, 그들이 들어서는 모습을 약간 낮은 시점에서 촬영합니다. 방은 노출된 벽돌 벽과 골판지 금속 천장으로 구성되어 있으며, 배경에는 철창이 보입니다. 조명은 낮은 수준으로, 경찰관들의 얼굴에 그림자를 드리우며 우울한 분위기를 강조합니다. 이 장면은 영화나 텔레비전 드라마에서 나온 것처럼 보입니다.

💡팁: 영어를 구사하지 않는 경우, Google 스토어의 DeepL AI 브라우저 확장 프로그램을 사용하여 텍스트를 번역하세요. 텍스트를 선택한 후 Ctrl + Shift + X를 누르고 사전에 번역 언어를 지정하세요.

공식 지침:

단일 문장으로 주요 동작부터 시작하세요.

움직임과 제스처에 대한 구체적인 세부사항을 추가하세요.

캐릭터/객체의 외형을 정확히 설명하세요.

배경과 환경 세부사항을 포함하세요.

카메라 각도와 움직임을 명시하세요.

조명과 색상을 설명하세요.

변화나 갑작스러운 사건을 기술하세요.

프롬프트 생성 창 옆에 더 자세한 지침이 있습니다.

3. 모든 사용자 정의는 파란색으로 표시된 그룹에서 이루어집니다. 나머지 부분은 건드리지 않는 것이 좋습니다. 동일한 예외로 "LTXVScheduler" 노드도 있으며, 여기서도 스텝 매개변수(기본값 30) 외에는 변경하지 않는 것이 좋습니다.

3.1 CFG도 조정할 수 있습니다. 기본값은 3.0이며, 공식 권장값은 3.0-3.5입니다. 그러나 많은 사용자가 5를 사용합니다. 제 관찰에 따르면, 이 매개변수는 더 움직임이 풍부하거나 대비가 강한 결과를 위해 필요하며, PixArt-XL-2-1024-MS 모델의 텍스트 인코더에서는 YouTube 영상 기준으로 더 안정적인 결과를 생성합니다. 그러나 메모리 소모량이 많으므로, 약한 그래픽 카드에서는 3.0-3.5와 같은 덜 강력한 값으로 사용하는 것이 좋습니다. 다만, 이 매개변수가 실제로 어떤 영향을 미치는지는 아직 완전히 이해하지 못했습니다.

4. Queue를 클릭하고 결과를 기다리세요. 파일은 ComfyUI\output 폴더에 저장됩니다. 출력은 비디오: .webp .mp4 및 임시 이미지 .png이며, 삭제해도 됩니다.

💡팁: 워크플로에서 .mp4를 제거하고 프롬프트와 설정을 잃지 않고 더 빠르게 .WebP로 비디오를 저장하려면, 제 WebP Converter를 사용하세요.

▶️ https://github.com/dvl12000/webp-converter/releases/tag/v1.0.1

💡팁: 처리 후 Topaz Video AI의 “Theia” 모드에서 2배 또는 4배 확대하고, Sharpen을 약 50으로 설정하며 기본적으로 Grain을 적용하세요. 이로 인해 매우 큰 향상이 이루어집니다!

⚠현재 워크플로는 약간 더 많은 비디오 메모리를 필요로 하며, 수동 워크플로에 비해 품질이 떨어집니다. 하지만 다음 버전에서는 프롬프트 엔지니어링 지침이 개선될 예정입니다. 현재는 아카이브 내의 수동 워크플로 파일을 사용하는 것이 더 안정적이며, 적은 비디오 메모리를 요구합니다.

----------------------------

빌드를 평가하고, 댓글을 남기고, 즐거운 생성 되세요! 🔥

모델 유형	워크플로우
기본 모델	LTXV
게시일	12/9/2024

세부 정보

파일 다운로드

이 버전에 대해

모델 설명

이 모델로 만든 이미지