EML_LTX_STG_TTV-ITV-IM_v1.1

------------------------------------------

## 工作流程指南：描述

------------------------------------------

此生产工作流程名为“EML_LTX_TTV/ITV”，采用先进技巧，基于Lightricks的LTX-Video实现高质量视频。

✅ 适用于显存8GB及以下的显卡！

✅ 集成使用该模型的最佳技巧于单一工作流中💪

✅ 用户友好界面

✅ 三种操作模式：文本生成视频、图像生成视频与灵感模式，一键切换。

✅ 生成图像支持：用户常遇到“视频冻结”问题，即图像缺乏噪声。本工作流通过crf自动添加噪声，帮助神经网络理解“全局画面”。详见(1)

✅ 支持STG扰动注意力机制

✅ 自动重命名文件

✅ 样本对比文件打包为zip，带参数的工作流保存为.mp4格式，直接拖拽至Comfy UI工作区即可使用。

✅ 通过Florence2模型识别图像

✅ 基于LLM Mistral-7b，用一句话生成复杂提示词

✅ 保存为MP4格式

✅ 提供便捷的宽高比列表

✅ 预设来自Runway和EML的摄像机参数与指令

默认模型分辨率为768x512，宽高比为3:2。请谨慎使用自定义分辨率，建议从节点助手“LTXV Model Configurator”提供的官方列表中选择。图像转视频时，尺寸将自动匹配。

本工作流以以下内容为基础：

XODA-LTXV /model/974859

ComfyUI-LTXTricks https://github.com/logtd/ComfyUI-LTXTricks/tree/main/example_workflows

❤❤❤❤❤❤❤❤❤❤

⚠注意：许多节点通过“SetNode”和“GetNode”节点进行连接，以使工作流更清晰。

工作流 - 主简易UI：

工作流 - AI模块：

工作流 - 处理器：

在RTX 2060s 8GB显存上，使用默认设置，图像转视频的实际生成速度：

显存优化：

------------------------------------------

## 工作流程指南：准备工作

------------------------------------------

启动工作区后，您很可能缺少所需的节点。

前往Manager → 安装缺失的自定义节点 → 全选（ID旁）→ 安装

安装完成后，Comfy UI会提示重启，请点击并继续下一步。首次运行可能较慢，因为需下载Florence2模型。

0.1 选择模型。

我倾向于使用ltx-2b-v0.9-bf16.safetensors模型，搭配Mochi的t5xxl_fp16.safetensors。

https://huggingface.co/MayensGuds/ltx-video-quants

https://huggingface.co/Comfy-Org/mochi_preview_repackaged/blob/main/split_files/text_encoders/t5xxl_fp16.safetensors

若您显存为6GB或更低，请尝试使用ltx-video-2b-v0.9-fp8_e4m3fn.safetensors模型，搭配clip loader：

t5xxl_fp8_e4m3fn.safetensors

请确保已启用“ltxv”模式。

💡提示：使用Flux1生成图像，因其采用类似的文本转换算法。

0.2 下载LLM模型 mistral-7b-instruct-v0.3-q4_k_m.gguf

在ComfyUI/models目录下新建llm_gguf文件夹。从HuggingFace的MaziyarPanahi/Mistral-7B-Instruct-v0.3-GGUF仓库下载文件Mistral-7B-Instruct-v0.3.Q4_K_M_M.gguf（4.37 GB）。

https://huggingface.co/MaziyarPanahi/Mistral-7B-Instruct-v0.3-GGUF/blob/main/Mistral-7B-Instruct-v0.3.Q4_K_M.gguf

0.3 优化建议。

在我的NVIDIA RTX 2060s 8GB显存显卡上，使用默认设置：768x512分辨率、25fps、97帧、30步，生成速度约为每帧10秒，即每段视频约5分钟。在“🅛🅣🅧 LTXV Model Configurator”左侧可查看推荐数值。

该模块如同其在空间中的所有克隆体一样，未连接任何内容，仅作参考。

为加速生成，建议减少帧数而非更改分辨率，否则画面时长和神经网络的理解质量会下降。

通常我使用约50帧，以25fps计算即2秒视频。也应设置至少30步，以使物体更清晰、更不易变形。测试时可用20步。综上，我们获得良好的速度/质量平衡，优化后可达约5秒/帧，速度提升一倍，每段视频总耗时约1分30秒。若需后续处理（如慢放），2秒视频已足够生成高质量帧。

请注意，改变时长会影响最终结果，此时较长的提示词甚至可能提升效果。

## 工作流程指南：视频生成

1.0 准备图像（此步骤至关重要！）。图像应略大于标准尺寸，因为在768x512标准分辨率下大量细节会丢失，同时此方式有助于crf噪声产生更多随机性。我尚不确定影响程度，但上传比生成视频大1.5倍的图像时，结果明显更优。若使用实拍素材，请确保画质不过于“肥皂剧化”。若使用图像生成器（我强烈推荐），请尝试“捕捉神经网络的语言”：质量需良好但不宜过于锐利，否则神经网络将产生波纹与幻觉（上传前可自行添加锐度测试）。图像应呈现油画感，或类似重绘电影的效果，而非经过后期处理的数码照片。可能图像质量 ≠ 视频质量。在Flux1中，可通过选择DCFG值及以下采样器实现：Euler或[Forge] Flux Realistic，配合DDIM或Beta采样器（尽管我个人偏好DDIM生成的视频效果）。请查阅下载zip压缩包中examples文件夹内的示例。

1.1 上传图像（load image > 选择文件上传）

* 工作流将自动匹配图像与描述。

以导演身份指定提示词：

-- 描述：您可在“Promt Mode”模式选择组中切换ImgToVideo、TextToVideo与Inspiration Mode。决定是使用图像、文本，或通过灵感模式基于文生图生成脚本。主控制面板位于顶部，内置默认效果良好的基础设置，但高质量画面的关键在于素材本身——是否为精心准备的图像，或是否为优质提示词，一切取决于您的导演视角与实验能力。

2.(1). LLM Mistral-7b可根据您的提示生成辅助提示。为此，请在“Prompt Enhance”中启用“Enable LLM”。您需详细描述运动、光影变化及所有动态元素，而Florence2负责静态提示。摄像机运动预设基于Runway的预设。应用预设只需将所需预设复制到“CAMERA MOVEMENT AND INSTRUCTIONS FOR AI”窗口中。您也可在该窗口添加模型期望，例如：“镜头缓慢从‘{prompt}’后拉”，要求在50词内简洁明了。此部分对最终结果影响巨大，请重点专注并多加实验。您需在“MAIN PROMT: ACTION DESCRIPTION”框中填写预设要求的内容，即方括号[]内的一切，例如[主体动作]。我建议使用增强模式，尽管会出现“迪士尼与皮克斯公主脸上闪耀光点”等幻觉，但神经网络实可在同一“CAMERA MOVEMENT AND INSTRUCTIONS FOR AI”窗口中被引导做出更直接的响应。

⚙ 目前，预设自定义仍较模糊，文本会被保留。欢迎分享您的观察！

2.(2). 手动模式：

- 简洁直接地书写，甚至可以说直白。

- 描述画面中将发生什么：有人行走、转身、展示下一场景方向。

- 强调场景的类型与风格（写实、电影感、卡通感）。

指明场景是否受特定媒介形式启发（电影、动画、摄影）。

- 摄像机是静止不动，还是向前推进、跟随角色、环绕角色，或采用某种特殊的第一人称视角。

示例：

两名身穿深蓝色制服与配套帽子的警察，从画面左侧的门进入一间昏暗房间。第一位警察短褐发、留胡须，率先迈入，其搭档光头、留山羊胡紧随其后。两人表情严肃，步伐稳健，深入房间。摄像机保持静止，以略低的角度捕捉他们进入的画面。房间墙壁裸露砖石，天花板为波纹金属，背景可见铁窗。光线低沉，投下阴影于警员脸上，强化了阴郁氛围。场景似出自电影或电视剧。

💡提示：非英语用户可使用Google商店中的DeepL AI浏览器扩展翻译文本。选中文本后按Ctrl+Shift+X，事先选择翻译语言。

官方指导：

用一句话描述主要动作

添加具体运动与手势细节

精确描述角色/物体外观

包含背景与环境细节

指定摄像机角度与运动

描述光线与色彩

注明任何变化或突发事件

提示窗下方（摄像机预设旁）有更详细说明。

2.(3). 灵感模式：

我测试发现，若留空此字段，效果为中等至较差。这是因为神经网络被训练用于图像而非运动，因此存在误读。请补充以下澄清内容：

“她在哭泣”、“人正在行走”、“他在跳舞”，

或更复杂的，如上例：

“他看向镜头，然后转身，镜头移开，注视着跳舞的孔雀”。

本段所有提示词相互关联，且遵循统一规则：提示词应清晰直接。描述情感在此处不恰当，因情感属内在体验；替代方案是情绪，我们可观察到它们。

💡提示：访问Runway Academy以更好理解视频生成器的运作方式。

https://help.runwayml.com/hc/en-us/articles/30586818553107-Gen-3-Alpha-Prompting-Guide

p.s. 我更倾向哪种？答案：图像转视频，因我偏好其最终画质，尽管运动细节较少。

所有自定义选项位于提示输入旁。若需更特殊的设置，可尝试启用扰动注意力机制。主要参数包括：“视频长度”、“步数”、“维度”和“帧率”。

3.1 您也可调整CFG。默认值为3.0，官方推荐3.0–3.5，但许多人使用5。据我观察，此参数可增强动态效果或提升对比度，但使用PixArt-XL-2-1024-MS模型的文本编码器时，其结果更稳定（根据YouTube视频判断），且需更多内存。因此对于性能较弱的显卡，建议使用3.0–3.5等较低值。我尚未完全理解其具体影响。

3.2 若您钟爱超现实主义、恐怖片，或仅仅喜欢“恐怖谷”效果，请使用注意力覆盖值 >20（默认14）。

3.3 有两个节点：“Dimension（仅用于图像）”和“Height（用于文生图）”，其功能如下：Dimension自动为图像选择分辨率，Height在文生图模式中作为高度使用，但在此模式下，Dimension负责宽度。此举为方便操作。

官方手册：

点击“队列”并等待结果。文件保存在 ComfyUI\output 文件夹中，输出为视频：.mp4（文件中包含工作流和参数）及临时图片 .png，可自行删除。

💡提示：你可以从 .mp4 链中移除 .mp4，改为添加“SaveAnimatedWEBP”节点，以无损方式保存为 .WebP 格式视频。如需将 WebP 格式转换为其他格式，请下载我的 WebP 转换器：

▶️ https://github.com/dvl12000/webp-converter/releases/tag/v1.0.1

💡提示：处理完成后，尝试在 Topaz Video AI 的 “Theia” 模式下将图像放大 2 倍或 4 倍，默认开启锐化约 50 并添加颗粒效果，这将带来显著提升！

----------------------------

为本设置评分，留下评论，祝你生成愉快！🔥

模型类型	工作流
基础模型	LTXV
发布时间	12/12/2024

EML_LTX_STG_TTV-ITV-IM_v1.1

详情

下载文件

关于此版本

模型描述

此模型生成的图像