LTX IMAGE to TEXT to VIDEO with STG workflow

详情

模型描述

工作流:输入图像(或提示)-> 生成文本提示 -> 该提示用于 LTX 文本到视频(这是一个文本到视频工作流,有关图像到视频请参见我的其他工作流)


V5.0:支持 LTX 0.9.5 GGUF 模型和 Wavespeed/Teacache

LTX 0.9.5 GGUF 模型和 VAE:https://huggingface.co/calcuis/ltxv-gguf/tree/main

(vae_ltxv0.9.5_fp8_e4m3fn.safetensors)

(Clip 文本编码器):https://huggingface.co/city96/t5-v1_1-xxl-encoder-gguf/tree/main

工作流支持 Florence 标注和 LTX 提示增强器,并兼容所有模型(0.9 / 0.9.1 / 0.9.5)

(更多细节请参见工作流中的说明)


V4.0:支持 GGUF 模型

GGUF 模型、VAE 和文本编码器可在此下载:

(模型&VAE):https://huggingface.co/calcuis/ltxv-gguf/tree/main

(Clip 文本编码器):https://huggingface.co/city96/t5-v1_1-xxl-encoder-gguf/tree/main

(包含 GGUF 版本和 GGUF+TiledVae 版本,适用于低显存)


V3.1:支持模型 0.9.1


V3.0:界面优化,减少自定义节点数量,支持使用自定义提示


V2.0:引入 STG(用于增强视频扩散采样的时空跳过引导)

界面包含两个蓝色新节点:

STG 设置,显示 CFG、缩放和重缩放,以及一个开关,用于在两个可跳过的模型层之间切换(8 或 14(默认)),选择 "true" 为第 14 层,"false" 为第 8 层。

我在工作流中附上了进一步说明及可用数值/限制,欢迎自行尝试。在我的测试中,我保持 STG 设置为默认值,仅使用该开关。

节点 "修改 LTX 模型" 可在会话中切换模型;若切换至其他工作流,请确保在 ComfyUI 中点击 "释放模型和节点缓存" 以避免干扰。


V1.0:ComfyUI 工作流:LTX 图像-到-文本-到-视频,使用 Florence2 标注

本工作流将输入图像转换为提示(使用 Florence2 进行标注),并使用 LTX 文本到视频 模型生成视频(图像 -> 提示 -> 视频)

此模型生成的图像

未找到图像。