LTX IMAGE to VIDEO with STG, CAPTION & CLIP EXTEND workflow

详情

模型描述

工作流:图像 -> 自动字幕(提示)-> LTX 图像转视频


2025年7月20日更新: LTX 0.9.8 的 GGUF 模型:

蒸馏模型,适用于 V9.5:https://huggingface.co/QuantStack/LTXV-13B-0.9.8-distilled-GGUF/tree/main

开发模型,适用于 V9.0:https://huggingface.co/QuantStack/LTXV-13B-0.9.8-dev-GGUF/tree/main

(请参阅上述链接中的“模型卡片”以下载 LTX 0.9.8 的 VAE 和文本编码器)


V9.5:LTX 0.9.7 蒸馏工作流,支持 LTX 0.9.7 蒸馏 GGUF 模型。

提供两种工作流:一种使用 Florence,另一种使用 LTX 提示增强器(LTXPE

GGUF 模型可在此处下载:

https://huggingface.co/wsbagnsv1/ltxv-13b-0.9.7-distilled-GGUF/tree/main

VAE文本编码器 与之前的 LTX 0.9.6 模型相同(见下方 V8.0)

LTX 0.9.7 蒸馏版仅需 8 步,速度极快。


V9.0:LTX 0.9.7 工作流,支持 LTX 0.9.7 GGUF 模型。

提供两种工作流:一种使用 Florence,另一种使用 LTX 提示增强器(LTXPE

GGUF 模型可在此处下载:

https://huggingface.co/wsbagnsv1/ltxv-13b-0.9.7-dev-GGUF/tree/main

VAE文本编码器 与之前的 LTX 0.9.6 模型相同(见下方 V8.0)

LTX 0.9.7 是一个包含 130 亿参数的模型,而此前版本仅含 20 亿参数,因此对显存占用更高、处理时间更长。如需极快渲染,请尝试下方 V8.0(使用 0.9.6 模型)或 V9.5。


V8.0:LTX 0.9.6 工作流(同一工作流中包含开发版与蒸馏版 GGUF 模型)

提供两个版本:一个使用 Florence2 字幕,另一个使用 LTX 提示增强器(LTXPE)

GGUF 模型(开发版与蒸馏版)可在此处下载:

https://huggingface.co/calcuis/ltxv0.9.6-gguf/tree/main

VAE: pig_video_enhanced_vae_fp32-f16.gguf

文本编码器: t5xxl_fp32-q4_0.gguf


V7.0:LTX 0.9.5 模型版本,搭配 Wavespeed/Teacache 的 GGUF。

LTX 0.9.5 GGUF 模型和 VAE:https://huggingface.co/calcuis/ltxv-gguf/tree/main

(vae_ltxv0.9.5_fp8_e4m3fn.safetensors)

Clip 文本编码器:https://huggingface.co/city96/t5-v1_1-xxl-encoder-gguf/tree/main

提供两个工作流:主工作流仅使用 Florence 字幕,另一个额外集成 Florence 和 LTX 提示增强器。默认禁用 Wavespeed(按 Strg+B 启用)

该工作流兼容所有 GGUF 模型:0.9 / 0.9.1 / 0.9.5

用于提示增强器的无审查 LLM:https://huggingface.co/skshmjn/unsloth_llama-3.2-3B-instruct-uncenssored


- 过时(2025 年 3 月)- V6.0:GGUF/TiledVAE 版本 & 掩码运动模糊版本

更新了使用 GGUF 模型的工作流,以节省显存并加速运行。

提供 标准版(仅使用 GGUF 模型)和 GGUF+TiledVAE+清空显存版(进一步降低显存需求)。测试了较大的 GGUF 模型(Q8)在 1024 分辨率、161 帧、32 步下的表现:GGUF 版本峰值显存使用为 14GB,而 TiledVAE+清空显存版峰值为 7GB。更小的 GGUF 模型可进一步降低需求。

GGUF 模型、VAE 和文本编码器可在此处下载:

(模型&VAE):https://huggingface.co/calcuis/ltxv-gguf/tree/main

(防棋盘格 VAE):https://huggingface.co/spacepxl/ltx-video-0.9-vae-finetune/tree/main

(Clip 文本编码器):https://huggingface.co/city96/t5-v1_1-xxl-encoder-gguf/tree/main

显存大于 16GB 可选择 GGUF 版本;小于 16GB 显存建议使用 TiledVAE+清空显存版本。

掩码运动模糊版本:由于 LTX 易出现运动模糊,我们在工作流中增加了一个额外模块,允许对输入图像设置掩码,并仅对掩码区域应用运动模糊,从而触发特定运动。(效果描述优于实际表现,但在某些情况下仍有效)。包含 GGUF 和 GGUF+TiledVAE+清空显存版本。


V5.0:支持新型 LTX 模型 0.9.1

  • 新增低显存版本工作流(在 VAE 前清空显存)
  • 新增工作流用于对比 LTX 0.9.1 与 LTX 0.9 模型

(V4 在 0.9.1 发布时无法使用,故推出 V5;但此后 ComfyUI 和节点已更新,现在 V4 和 V5 均可同时使用 0.9 和 0.9.1 两个模型。两者均使用不同的自定义节点管理模型,其余部分完全相同。如遇内存问题或处理时间过长,请参阅文末提示)


- 过时(2025 年 3 月)- V4.0:引入 视频/Clip 扩展功能

基于前一个 Clip 的最后一帧扩展当前 Clip。通常可扩展 2–3 次,之后画质开始下降,详情见工作流说明。

新增功能:允许使用自定义提示并跳过 Florence 字幕。


V3.0:引入 STG(空间时间跳过引导,用于增强视频扩散采样)。

包含 简单版增强版 工作流。增强版额外提供输入图像超分辨率功能,有时能提升效果。建议优先使用 简单版

  • 将原先的高/宽节点替换为“尺寸”节点,控制视频尺寸(默认 = 768;提升至 1024 可提高分辨率,但可能降低运动效果,同时增加显存和处理时间)。与旧版本不同,图像不再被裁剪。

  • 新增节点“LTX 应用扰动注意力”,用于配置 STG 参数(具体数值与限制请参见工作流中的说明)。

  • 增强版 提供一个开关,可选择是否对输入图像进行超分辨率(真/假),并有一个缩放值(建议设为 1 或 2),用于定义注入前的图像尺寸,可起到类似超采样的作用。如前所述,多数情况下无需使用。

专业提示:除使用 CRF 值约 24 来驱动运动外,可将黄色“视频合并”节点中的帧率从 1 提高至 4+,以在输出过于静态时触发更多运动。

修改 LTX 模型”节点可在会话中切换模型。若切换至其他工作流,请务必在 ComfyUI 中点击“释放模型与节点缓存”,以避免干扰。若跳过此节点(按 Strg-B),则可实现文生视频。


V2.0:基于 Florence2 自动字幕 的图像转视频 ComfyUI 工作流(v2.0)

此更新版本集成 Florence2 用于自动字幕,取代了 v1.0 中的 BLIP,并优化了提示控制,以更好地适配视频生成。

v2.0 新增功能

  1. 集成 Florence2 节点

  2. 字幕自定义

    • 新增文本节点,可将字幕中的“照片”或“图像”等词替换为“视频”,使提示更契合视频生成需求。

V1.0增强运动与压缩

为缓解 LTX 视频模型中“无运动”伪影问题:

  • 使用 FFmpeg 以 H.264 压缩(CRF 20–30)处理输入图像。

    • 此步骤会引入细微伪影,帮助模型将输入识别为视频内容。

    • CRF 值可在黄色“视频合并”节点(左下角 GUI)中调整。

    • 较高值(25–30)增强运动效果;较低值(约 20)保留更多视觉细节。

自动字幕增强

  • 前置文本”和“后置文本”文本节点允许手动添加字幕内容。

    • 可用于描述所需效果,例如摄像机运动。

可调输入设置

  • 宽度/高度 & 缩放:定义采样器的图像分辨率(例如 768×512)。缩放因子设为 2 可启用超采样以提升输出质量。使用 1 或 2 的缩放值。(V3 中已改为“尺寸”节点)

专业提示

  • 运动优化:若输出过于静态,可逐步提高 CRF 和帧率,或调整前置/后置文本节点,强化运动相关的提示。

  • 精细调整字幕:尝试 Florence2 的不同字幕详细程度,以生成更精细的视频提示。

  • 如遇内存问题(OOM 或处理时间极长),请尝试以下方法:

    • 使用 V5 的低显存版本

    • 使用 GGUF 版本

    • 在 ComfyUI 中点击“释放模型与节点缓存”

    • 启动 ComfyUI 时添加参数:--lowvram --disable-smart-memory

      • 查看 ComfyUI 文件夹中的文件:“run_nvidia_gpu.bat”,编辑行:python.exe -s ComfyUI\main.py --lowvram --disable-smart-memory
    • 关闭浏览器的硬件加速


感谢 Lightricks 提供出色的模型与节点:

https://www.lightricks.com/

https://github.com/Lightricks/ComfyUI-LTXVideo

https://github.com/logtd/ComfyUI-LTXTricks

此模型生成的图像

未找到图像。