EML_LTX_TTV/ITV_v1.0

下载：

## 工作流指南：描述

----------------------------

此生产流程称为“EML_LTX_TTV/ITV”，采用高级技术基于Lightricks的LTX-Video实现高质量视频。

✅ 适用于8GB显存的显卡

✅ 两种操作模式：文本转视频和图像转视频，只需一键切换。

✅ 支持生成图像：用户常遇到“静止视频”问题，即图像缺乏噪声。此流程通过crf自动添加噪声，使神经网络理解“全局画面”。

✅ 使用Florence2模型进行图像识别

✅ 基于一句话生成复杂提示

✅ 支持保存为WebP和MP4格式

✅ 方便的宽高比列表。新增16:9提示

默认模型分辨率为768x512，宽高比为3:2。请自行承担使用自定义分辨率的风险，建议从节点助手“LTXV Model Configurator”中的官方列表中选择。

基于Workflow XODA-LTXV /model/974859

❤❤❤感谢提供工作流！❤❤❤

## 工作流指南：准备

----------------------------

0. 启动工作区后，您很可能缺少所需的节点。前往 Manager -> 安装缺失的自定义节点 -> 全选（ID旁）-> 安装

安装完成后，Comfy UI会提示重启，请点击并继续下一步。

0.1 模型选择。

我偏好使用LTX-2b-v0.9-bf16.safetensors模型，搭配来自Mochi的t5xxl_fp16.safetensors：

https://huggingface.co/MayensGuds/ltx-video-quants

https://huggingface.co/Comfy-Org/mochi_preview_repackaged/blob/main/split_files/text_encoders/t5xxl_fp16.safetensors

若您的显卡为6GB显存或更低，请尝试使用ltx-video-2b-v0.9-fp8_e4m3fn.safetensors模型，搭配clip loader：t5xxl_fp8_e4m3fn.safetensors

请确保已激活“ltxv”模式

💡提示：使用Flux1生成图像，因其采用相似的文本转换算法。

0.2 优化建议。

在我的NVIDIA RTX 2060s 8GB显存显卡上，默认设置为768x512、25fps、97帧、30步，生成速度约为10秒/帧，即每段视频约5分钟。左侧的“🅛🅣🅧 LTXV Model Configurator”模块可帮助您获得推荐参数。该模块与其所有空间克隆体一样，未连接任何内容，仅作为参考。

为加快速度，建议减少帧数而非改变分辨率，但视频时长会相应缩短。通常我使用约50帧（25fps = 2秒视频）已足够。建议设置20步，因为在我看来质量并无明显差异。最终获得速度/质量的良好平衡，优化后约为5秒/帧，速度提升一倍，总耗时约1分30秒。如需后续慢动作处理，两秒视频已足够制作优质镜头。Llama占用大量显存，更高效内存使用方案正在开发中。

0.3 安装Llama。

0.3.1 从 https://ollama.com/download 下载并安装Llama。

0.3.2 打开CMD或PowerShell，粘贴以下命令：ollama run llama3.2

ps：复制请按Ctrl + C，在CMD中粘贴请用鼠标右键。之后Llama将自动安装并后台运行。下一版本将采用gguf模型取代此方法。

## 工作流指南：视频生成

----------------------------

1. 上传图像（加载图像 > 选择要上传的文件）

* 工作流会自动为图像选择合适的描述。

2. 作为导演指定提示：

-- 描述：您可在“图像/文本转视频”模式选择部分切换图像转视频与文本转视频。选择您希望处理图像还是文本。若要将图像转为视频，所有设置位于左侧“图像解释”组；若仅处理文本，所有设置位于右侧“文本转视频”组。

帧率、步数、CFG等额外设置位于本工作流最右侧，但默认值已表现良好。--

2.(1). LLM Llama 3.2 根据您的提示生成动态提示，您需明确描述所有与运动、光影变化及动态元素相关的内容，Florence2负责静态提示。

2.(2). 手动模式（开发中）将在后续版本中添加。目前工作流仅支持LLM输入，但您可自行切换至手动模式：

- 请简洁清晰地描述，甚至可以说直白一点。

- 描述画面中将发生什么：有人行走、转身、下一步场景将走向何处。

- 强调场景的类型与基调（写实、电影感、卡通化）。

注明场景是否受特定媒介形式启发（电影、动画、摄影）。

- 摄像机是静止不动，还是向前推进、跟随角色、环绕角色，或采用某种特殊的第一人称视角。

示例：

两名身穿深蓝色制服和匹配帽子的警察，从画面左侧门道进入一间昏暗房间。第一位警察短发棕发、留有胡须，率先步入；其搭档光头、留有山羊胡紧随其后。两人表情严肃，步伐稳健地深入房间。摄像机保持静止，以略低的角度捕捉他们进门的全过程。房间墙壁为裸露砖块，天花板为波纹金属，背景可见铁栅栏窗户。照明为低照度，投下阴影于警员面部，凸显阴郁氛围。画面风格似电影或电视剧。

💡提示：非英语使用者可使用Google商店中的DeepL AI浏览器插件翻译文本。选中文本后按Ctrl + Shift + X，事先选择目标语言。

官方指南：

以单句开头描述主要动作

添加关于运动与手势的具体细节

精确描述角色/物体外观

包含背景与环境细节

指定镜头角度与移动方式

描述光照与色彩

注明任何变化或突发事件

更多详细说明请参见提示生成窗口旁的指引。

3. 所有自定义设置均在蓝色标记的组中进行。不建议修改其余部分。同样，节点“LTXVScheduler”中也建议仅修改步数参数（默认30），其余勿动。

3.1 您也可调整CFG参数。默认值为3.0，官方推荐值为3.0–3.5，但许多用户使用5。根据我的观察，此参数有助于获得更动态或对比更强的画面，但在PixArt-XL-2-1024-MS模型的文本编码器上，使用3.0–3.5能产生更稳定结果（YouTube视频可佐证），且更节省显存。因此，对于显存较弱的显卡，建议使用3.0–3.5。不过我仍未完全理解其影响机制。

4. 点击“Queue”并等待结果。文件将保存在ComfyUI\output文件夹中，输出为视频：.webp .mp4 及临时图像 .png，您可以删除临时文件。

💡提示：您可以使用我的WebP转换器，跳过.mp4生成链，直接以更快的速度保存为.WebP格式，且不丢失提示与设置。

▶️ https://github.com/dvl12000/webp-converter/releases/tag/v1.0.1

💡提示：处理完成后，可在Topaz Video AI中以“Theia”模式放大2倍或4倍，默认添加锐化约50%与颗粒效果，可显著提升画质！

⚠ 目前工作流对显存需求较高，质量略逊于手动工作流，但后续版本将改进提示工程说明。当前推荐使用存档中的手动工作流文件，其更稳定且显存需求更低。

----------------------------

为本版本评分，留下评论，祝生成愉快！🔥

模型类型	工作流
基础模型	LTXV
发布时间	12/9/2024

详情

下载文件

关于此版本

模型描述

此模型生成的图像