EML_LTX_STG_TTV-ITV-IM_v1.1

详情

下载文件

模型描述

------------------------------------------

## 工作流程指南:描述

------------------------------------------

此生产工作流程名为“EML_LTX_TTV/ITV”,采用先进技巧,基于Lightricks的LTX-Video实现高质量视频。

✅ 适用于显存8GB及以下的显卡!

✅ 集成使用该模型的最佳技巧于单一工作流中💪

✅ 用户友好界面

✅ 三种操作模式:文本生成视频、图像生成视频与灵感模式,一键切换。

✅ 生成图像支持:用户常遇到“视频冻结”问题,即图像缺乏噪声。本工作流通过crf自动添加噪声,帮助神经网络理解“全局画面”。详见(1)

✅ 支持STG扰动注意力机制

✅ 自动重命名文件

✅ 样本对比文件打包为zip,带参数的工作流保存为.mp4格式,直接拖拽至Comfy UI工作区即可使用。

✅ 通过Florence2模型识别图像

✅ 基于LLM Mistral-7b,用一句话生成复杂提示词

✅ 保存为MP4格式

✅ 提供便捷的宽高比列表

✅ 预设来自Runway和EML的摄像机参数与指令

默认模型分辨率为768x512,宽高比为3:2。请谨慎使用自定义分辨率,建议从节点助手“LTXV Model Configurator”提供的官方列表中选择。图像转视频时,尺寸将自动匹配。

本工作流以以下内容为基础:

XODA-LTXV /model/974859

ComfyUI-LTXTricks https://github.com/logtd/ComfyUI-LTXTricks/tree/main/example_workflows

❤❤❤❤❤❤❤❤❤❤

⚠注意:许多节点通过“SetNode”和“GetNode”节点进行连接,以使工作流更清晰。


工作流 - 主简易UI:

工作流 - AI模块:

工作流 - 处理器:

在RTX 2060s 8GB显存上,使用默认设置,图像转视频的实际生成速度:

显存优化:


------------------------------------------

## 工作流程指南:准备工作

------------------------------------------

  1. 启动工作区后,您很可能缺少所需的节点。

前往Manager → 安装缺失的自定义节点 → 全选(ID旁)→ 安装

安装完成后,Comfy UI会提示重启,请点击并继续下一步。首次运行可能较慢,因为需下载Florence2模型。

0.1 选择模型。

我倾向于使用ltx-2b-v0.9-bf16.safetensors模型,搭配Mochi的t5xxl_fp16.safetensors。

https://huggingface.co/MayensGuds/ltx-video-quants

https://huggingface.co/Comfy-Org/mochi_preview_repackaged/blob/main/split_files/text_encoders/t5xxl_fp16.safetensors

若您显存为6GB或更低,请尝试使用ltx-video-2b-v0.9-fp8_e4m3fn.safetensors模型,搭配clip loader:

t5xxl_fp8_e4m3fn.safetensors

请确保已启用“ltxv”模式。

💡提示:使用Flux1生成图像,因其采用类似的文本转换算法。

0.2 下载LLM模型 mistral-7b-instruct-v0.3-q4_k_m.gguf

在ComfyUI/models目录下新建llm_gguf文件夹。从HuggingFace的MaziyarPanahi/Mistral-7B-Instruct-v0.3-GGUF仓库下载文件Mistral-7B-Instruct-v0.3.Q4_K_M_M.gguf(4.37 GB)。

https://huggingface.co/MaziyarPanahi/Mistral-7B-Instruct-v0.3-GGUF/blob/main/Mistral-7B-Instruct-v0.3.Q4_K_M.gguf

0.3 优化建议。

在我的NVIDIA RTX 2060s 8GB显存显卡上,使用默认设置:768x512分辨率、25fps、97帧、30步,生成速度约为每帧10秒,即每段视频约5分钟。在“🅛🅣🅧 LTXV Model Configurator”左侧可查看推荐数值。

该模块如同其在空间中的所有克隆体一样,未连接任何内容,仅作参考。

为加速生成,建议减少帧数而非更改分辨率,否则画面时长和神经网络的理解质量会下降。

通常我使用约50帧,以25fps计算即2秒视频。也应设置至少30步,以使物体更清晰、更不易变形。测试时可用20步。综上,我们获得良好的速度/质量平衡,优化后可达约5秒/帧,速度提升一倍,每段视频总耗时约1分30秒。若需后续处理(如慢放),2秒视频已足够生成高质量帧。

请注意,改变时长会影响最终结果,此时较长的提示词甚至可能提升效果。

## 工作流程指南:视频生成


1.0 准备图像(此步骤至关重要!)。图像应略大于标准尺寸,因为在768x512标准分辨率下大量细节会丢失,同时此方式有助于crf噪声产生更多随机性。我尚不确定影响程度,但上传比生成视频大1.5倍的图像时,结果明显更优。若使用实拍素材,请确保画质不过于“肥皂剧化”。若使用图像生成器(我强烈推荐),请尝试“捕捉神经网络的语言”:质量需良好但不宜过于锐利,否则神经网络将产生波纹与幻觉(上传前可自行添加锐度测试)。图像应呈现油画感,或类似重绘电影的效果,而非经过后期处理的数码照片。可能图像质量 ≠ 视频质量。在Flux1中,可通过选择DCFG值及以下采样器实现:Euler或[Forge] Flux Realistic,配合DDIM或Beta采样器(尽管我个人偏好DDIM生成的视频效果)。请查阅下载zip压缩包中examples文件夹内的示例。

1.1 上传图像(load image > 选择文件上传)

* 工作流将自动匹配图像与描述。

  1. 以导演身份指定提示词:

-- 描述:您可在“Promt Mode”模式选择组中切换ImgToVideo、TextToVideo与Inspiration Mode。决定是使用图像、文本,或通过灵感模式基于文生图生成脚本。主控制面板位于顶部,内置默认效果良好的基础设置,但高质量画面的关键在于素材本身——是否为精心准备的图像,或是否为优质提示词,一切取决于您的导演视角与实验能力。

--

2.(1). LLM Mistral-7b可根据您的提示生成辅助提示。为此,请在“Prompt Enhance”中启用“Enable LLM”。您需详细描述运动、光影变化及所有动态元素,而Florence2负责静态提示。摄像机运动预设基于Runway的预设。应用预设只需将所需预设复制到“CAMERA MOVEMENT AND INSTRUCTIONS FOR AI”窗口中。您也可在该窗口添加模型期望,例如:“镜头缓慢从‘{prompt}’后拉”,要求在50词内简洁明了。此部分对最终结果影响巨大,请重点专注并多加实验。您需在“MAIN PROMT: ACTION DESCRIPTION”框中填写预设要求的内容,即方括号[]内的一切,例如[主体动作]。我建议使用增强模式,尽管会出现“迪士尼与皮克斯公主脸上闪耀光点”等幻觉,但神经网络实可在同一“CAMERA MOVEMENT AND INSTRUCTIONS FOR AI”窗口中被引导做出更直接的响应。

⚙ 目前,预设自定义仍较模糊,文本会被保留。欢迎分享您的观察!

2.(2). 手动模式:

- 简洁直接地书写,甚至可以说直白。

- 描述画面中将发生什么:有人行走、转身、展示下一场景方向。

- 强调场景的类型与风格(写实、电影感、卡通感)。

指明场景是否受特定媒介形式启发(电影、动画、摄影)。

- 摄像机是静止不动,还是向前推进、跟随角色、环绕角色,或采用某种特殊的第一人称视角。

示例:

两名身穿深蓝色制服与配套帽子的警察,从画面左侧的门进入一间昏暗房间。第一位警察短褐发、留胡须,率先迈入,其搭档光头、留山羊胡紧随其后。两人表情严肃,步伐稳健,深入房间。摄像机保持静止,以略低的角度捕捉他们进入的画面。房间墙壁裸露砖石,天花板为波纹金属,背景可见铁窗。光线低沉,投下阴影于警员脸上,强化了阴郁氛围。场景似出自电影或电视剧。

💡提示:非英语用户可使用Google商店中的DeepL AI浏览器扩展翻译文本。选中文本后按Ctrl+Shift+X,事先选择翻译语言。

官方指导:

用一句话描述主要动作

添加具体运动与手势细节

精确描述角色/物体外观

包含背景与环境细节

指定摄像机角度与运动

描述光线与色彩

注明任何变化或突发事件

提示窗下方(摄像机预设旁)有更详细说明。

2.(3). 灵感模式:

我测试发现,若留空此字段,效果为中等至较差。这是因为神经网络被训练用于图像而非运动,因此存在误读。请补充以下澄清内容:

“她在哭泣”、“人正在行走”、“他在跳舞”,

或更复杂的,如上例:

“他看向镜头,然后转身,镜头移开,注视着跳舞的孔雀”。

本段所有提示词相互关联,且遵循统一规则:提示词应清晰直接。描述情感在此处不恰当,因情感属内在体验;替代方案是情绪,我们可观察到它们。

💡提示:访问Runway Academy以更好理解视频生成器的运作方式。

https://help.runwayml.com/hc/en-us/articles/30586818553107-Gen-3-Alpha-Prompting-Guide

p.s. 我更倾向哪种?答案:图像转视频,因我偏好其最终画质,尽管运动细节较少。

  1. 所有自定义选项位于提示输入旁。若需更特殊的设置,可尝试启用扰动注意力机制。主要参数包括:“视频长度”、“步数”、“维度”和“帧率”。

3.1 您也可调整CFG。默认值为3.0,官方推荐3.0–3.5,但许多人使用5。据我观察,此参数可增强动态效果或提升对比度,但使用PixArt-XL-2-1024-MS模型的文本编码器时,其结果更稳定(根据YouTube视频判断),且需更多内存。因此对于性能较弱的显卡,建议使用3.0–3.5等较低值。我尚未完全理解其具体影响。

3.2 若您钟爱超现实主义、恐怖片,或仅仅喜欢“恐怖谷”效果,请使用注意力覆盖值 >20(默认14)。

3.3 有两个节点:“Dimension(仅用于图像)”和“Height(用于文生图)”,其功能如下:Dimension自动为图像选择分辨率,Height在文生图模式中作为高度使用,但在此模式下,Dimension负责宽度。此举为方便操作。

官方手册:

  1. 点击“队列”并等待结果。文件保存在 ComfyUI\output 文件夹中,输出为视频:.mp4(文件中包含工作流和参数)及临时图片 .png,可自行删除。

💡提示:你可以从 .mp4 链中移除 .mp4,改为添加“SaveAnimatedWEBP”节点,以无损方式保存为 .WebP 格式视频。如需将 WebP 格式转换为其他格式,请下载我的 WebP 转换器:

▶️ https://github.com/dvl12000/webp-converter/releases/tag/v1.0.1

💡提示:处理完成后,尝试在 Topaz Video AI 的 “Theia” 模式下将图像放大 2 倍或 4 倍,默认开启锐化约 50 并添加颗粒效果,这将带来显著提升!

----------------------------

为本设置评分,留下评论,祝你生成愉快!🔥

此模型生成的图像

未找到图像。